El nuevo modelo de próxima generación: Gemini 1.5 es un paso más en el desarrollo del modelo de lenguaje presentado por Google a finales del año pasado. El primer modelo Gemini 1.5 que se lanza para pruebas iniciales es el Gemini 1.5 Pro. Es un modelo multimodal de tamaño mediano, optimizado para escalar en una amplia gama de tareas y funciona a un nivel similar al 1.0 Ultra, el modelo de Google más grande hasta la fecha. También introduce una característica experimental innovadora en la comprensión de contextos prolongados. En este sentido, Gemini 1.5 Pro viene con una ventana de contexto estándar de 128,000 tokens. Al momento solo está disponible para un grupo limitado de desarrolladores y clientes empresariales.
Mejor comprensión y razonamiento
Gemini 1.5 Pro puede realizar tareas de comprensión y razonamiento altamente sofisticadas para diferentes modalidades como:
- Analizar con precisión una biblioteca de código completa en un solo mensaje, sin la necesidad de ajustar el modelo, incluida la comprensión y el razonamiento sobre pequeños detalles que un desarrollador podría pasar por alto fácilmente, como errores.
- Razonar documentos muy extensos, desde comparar detalles de contratos hasta resumir y analizar temas y opiniones en informes de analistas, estudios de investigación o incluso una serie de libros.
- Analizar y comparar contenido a lo largo de horas de video, como encontrar detalles específicos en imágenes deportivas u obtener información detallada de resúmenes de reuniones en video que respalden preguntas y respuestas precisas.
- Permitir que los chatbots mantengan conversaciones largas sin olvidar detalles, incluso durante tareas complejas o muchas interacciones de seguimiento.
- Habilitar experiencias hiper personalizadas incorporando información relevante del usuario en el mensaje, sin la complejidad de ajustar un modelo.
¿Qué son los tokens?
La “ventana contextual” de un modelo de IA está formada por tokens, que son los componentes básicos utilizados para procesar la información. Los mismos pueden ser partes enteras o subsecciones de palabras, imágenes, videos, audio o código. Cuanto más grande sea la ventana de contexto de un modelo, más información podrá absorber y procesar en un mensaje determinado, lo que hará que su resultado sea más consistente, relevante y útil. Gemini 1.5 Pro puede procesar grandes cantidades de información en una misma solicitud, incluida 1 hora de video, 11 horas de audio, bases de código con más de 30,000 líneas de código o más de 700,000 palabras.
Nueva disponibilidad de modelos Gemini para organizaciones y desarrolladores
También se anunció la disponibilidad de Gemini a los clientes con nuevas actualizaciones:
- Gemini 1.0 Pro, el mejor modelo para escalar tareas de IA, ahora está disponible de forma general para todos los clientes de Vertex AI. A partir de hoy, cualquier desarrollador puede empezar a construir con Gemini Pro, el cual ofrece el mejor equilibrio entre calidad, rendimiento y costo para la mayoría de las tareas de IA, como generación, edición, resumen y clasificación de contenido.
- Gemini 1.0 Ultra, el modelo más sofisticado y capaz para tareas complejas, ahora está generalmente disponible a través de la API Gemini en AI Studio y Vertex AI para clientes a través de la lista de permitidos. Gemini 1.0 Ultra está diseñado para tareas complejas, mostrando un rendimiento especialmente sólido en áreas como código, razonamiento y multilingüismo, y está optimizado para resultados de alta calidad.
Extensas pruebas de ética y seguridad
Todos los esfuerzos de perfeccionamiento y desarrollo de los modelos de Google se realizan de acuerdo con los principios de IA y las políticas de seguridad de la compañía. También se llevan a cabo investigaciones novedosas sobre riesgos de seguridad y se implementan técnicas de formación de equipos rojos para evaluar una variedad de daños potenciales.