Hoy Google lanza Gemini Embedding 2 en Public Preview, su primer modelo de embeddings completamente multimodal construido sobre la arquitectura Gemini. ¿Qué significa eso para ti y para quien trabaja con datos diversos? Básicamente, que ahora puedes mapear texto, imágenes, video, audio y documentos a un mismo espacio semántico, en más de 100 idiomas, sin pegarle a montones de pipelines complejos.
Qué es Gemini Embedding 2
Gemini Embedding 2 transforma distintos tipos de datos en vectores que capturan intención y significado. En vez de tener un modelo para texto, otro para imágenes y otro para audio, todo convive en un solo espacio de embeddings. ¿Por qué es útil? Porque facilita tareas como búsqueda semántica, RAG (Retrieval-Augmented Generation), análisis de sentimiento y clustering con datos multimodales.
El modelo está disponible en Public Preview a través de la Gemini API y Vertex AI, y es compatible con herramientas populares como LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB y otros motores de búsqueda vectorial.