*****
Unas palabras de Sundar Pichai, CEO de Google y Alphabet
Cada cambio tecnológico abre una oportunidad para avanzar en el conocimiento científico, acelerar el progreso humano y mejorar la vida de la gente. Creo que la transición que estamos viviendo en estos momentos con la IA será la más profunda de nuestras vidas, mucho más que cuando aparecieron los teléfonos móviles o, antes aún, internet. La IA tiene potencial para crear oportunidades en todo el mundo, que van de lo cotidiano a lo extraordinario. Hará posible nuevas oleadas de innovación y progreso económico. Impulsará el conocimiento, el aprendizaje, la creatividad y la productividad a una escala desconocida.
Eso es justamente lo que me entusiasma: la posibilidad de hacer que la IA sea útil para todos, en todo el mundo.
Nuestra empresa lleva casi ocho años volcada en la inteligencia artificial y los avances son cada vez más rápidos. En este momento, millones de personas ya utilizan la IA generativa de nuestros productos para hacer cosas que no podían hacer hace apenas un año. Desde encontrar respuestas a preguntas más complejas hasta utilizar nuevas herramientas para colaborar y crear. En paralelo, los desarrolladores están utilizando nuestros modelos e infraestructura para poner a punto nuevas aplicaciones de IA generativa. Y numerosas startups y empresas consolidadas de todo el mundo están creciendo con ayuda de nuestras herramientas de IA.
El impulso es extraordinario y, sin embargo, apenas estamos acariciando la superficie de todo lo que es posible.
Por nuestra parte, trabajamos con audacia y responsabilidad. Somos audaces a la hora de investigar y de materializar capacidades que pueden aportar enormes beneficios a las personas y a la sociedad. Y, al mismo tiempo, adoptamos protecciones y trabajamos en colaboración con gobiernos y expertos para atajar los riesgos que surgen a medida que crece la capacidad de la IA. No dejamos de invertir en las mejores herramientas, modelos básicos e infraestructuras. Todo ello, lo incorporamos a nuestros propios productos y lo ponemos a disposición de terceros, guiándonos en todo momento por nuestros Principios de la IA.
Hoy hemos dado el paso siguiente en este viaje con Gemini, el modelo más avanzado y capaz que hemos creado hasta la fecha, que ha obtenido resultados excelentes en muchas de las cotas de referencia más utilizadas. Hemos optimizado Gemini 1.0 —nuestra primera versión del modelo— en tres tamaños diferentes: Ultra, Pro y Nano. Son los primeros modelos de la era Gemini y el primer producto de la visión que nos movió a formar Google DeepMind hace unos meses. Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia y de ingeniería que hemos emprendido como empresa. Me ilusiona mucho el camino que tenemos por delante y las oportunidades que Gemini puede ofrecer a personas de todo el mundo.
*****
Hoy, estamos un paso más cerca de esta visión al presentar Gemini, el modelo más avanzado y capaz que hemos creado hasta la fecha.
Gemini es el resultado de los esfuerzos de colaboración a gran escala de equipos de todo Google, incluidos nuestros compañeros de Google Research. Se construyó desde cero para ser multimodal, lo que significa que puede generalizar y entender, operar y combinar a la perfección distintos tipos de información, como texto, código de programación, audio, imágenes y vídeo.
Gemini es también nuestro modelo más flexible hasta la fecha, capaz de funcionar eficazmente en todas partes, desde en un centro de datos hasta en dispositivos móviles. Sus avanzadas capacidades mejorarán significativamente la forma en que los desarrolladores y las empresas crean aplicaciones con IA y les dan escala.
- Gemini Ultra – nuestro modelo más potente y de mayor tamaño, para tareas de gran complejidad.
- Gemini Pro – nuestro mejor modelo para escalar en una amplia gama de tareas.
- Gemini Nano – nuestro modelo más eficiente para ejecutar tareas directamente en un dispositivo.
Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva del lenguaje multitarea), que utiliza una combinación de 57 materias, como matemáticas, física, historia, derecho, medicina y ética, con las que se pone a prueba tanto el conocimiento del mundo como la capacidad de resolución de problemas.
Nuestro nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder a preguntas difíciles, lo que se traduce en mejoras significativas con respecto a la primera impresión.
Gemini supera el rendimiento de los modelos más avanzados en una gran variedad de cotas de referencia, que van desde texto hasta código de programación.
Con las imágenes de referencia que probamos, Gemini Ultra superó a los modelos anteriores más avanzados sin ayuda de sistemas de reconocimiento óptico de caracteres de objetos (OCR) que extraen texto de las imágenes para su posterior procesamiento. Estas referencias resaltan la multimodalidad nativa de Gemini y apuntan los primeros indicios de capacidades de razonamiento multimodal más complejas.
Para más información, consulta el informe técnico de Gemini.
Gemini supera el rendimiento de los modelos más avanzados en una serie de cotas de referencias multimodales.
Capacidades de nueva generación
Diseñamos Gemini para que sea multimodal de forma nativa, preentrenado desde el principio en diferentes modalidades. Después lo perfeccionamos con datos multimodales adicionales para refinar aún más su eficacia. Este planteamiento ayuda a Gemini a entender y razonar a la perfección sobre todo tipo de entradas, mucho mejor que los modelos multimodales existentes, y sus capacidades son punteras en casi todos los ámbitos.
Más información sobre las capacidades de Gemini y cómo funciona.
Razonamiento sofisticado
Su notable capacidad para extraer conclusiones a partir de cientos de miles de documentos mediante la lectura, el filtrado y la comprensión de la información puede ayudar a conseguir nuevos avances a velocidades digitales en muchos campos, desde las ciencias a las finanzas.
Escritura avanzada de código de programación
Nuestra primera versión de Gemini puede entender, explicar y generar código de alta calidad en los lenguajes de programación más populares del mundo, como Python, Java, C++ y Go. Su capacidad para trabajar con los lenguajes y razonar sobre información compleja lo convierte en uno de los principales modelos básicos del mundo para escribir código.
Gemini Ultra destaca en varias pruebas comparativas de codificación, como HumanEval, una importante prueba comparativa estándar del sector para tareas de codificación, y Natural2Code, nuestra propia prueba comparativa de codificación de conjuntos de datos.
Gemini también puede utilizarse como motor para sistemas de escritura de código más avanzados. Hace dos años, presentamos AlphaCode, el primer sistema de generación de código de IA que alcanzó un nivel competitivo en concursos de programación.
Con una versión especializada de Gemini, hemos creado un sistema de generación de código más avanzado, llamado AlphaCode 2, que se desempeña muy bien en la resolución de problemas de programación competitivos que van más allá de la escritura de código y que implican matemáticas complejas o comprensión teórica de la ciencia de la computación.
Para más información, consulta el informe técnico de AlphaCode 2.
Más fiable, escalable y eficiente
En las TPU, Gemini funciona significativamente más rápido que los modelos anteriores, más pequeños y menos capaces. Estos aceleradores de IA diseñados a medida han sido esenciales en los productos asistidos por IA de Google que atienden a miles de millones de usuarios en plataformas como las del Buscador, YouTube, Gmail, Google Maps, Google Play y Android. Asimismo, han permitido que empresas de todo el mundo entrenen de forma rentable modelos de IA a gran escala.
Hoy también anunciamos el sistema TPU más potente, eficiente y escalable hasta la fecha, Cloud TPU v5p diseñado para el entrenamiento de modelos de IA avanzados. Esta TPU de nueva generación acelerará el desarrollo de Gemini y ayudará a los desarrolladores y clientes empresariales a entrenar con mayor rapidez modelos de IA generativa a gran escala, lo que permitirá —a su vez— que lleguen antes a los clientes nuevos productos y capacidades.
Superordenadores aceleradores de IA Cloud TPU v5p en un centro de datos de Google.
Gemini cuenta con las evaluaciones de seguridad más exhaustivas de todos los modelos de IA de Google hasta la fecha, incluidas medidas contra sesgos y toxicidad. Hemos realizado investigaciones novedosas en posibles áreas de riesgo, como la ciberdelincuencia, la persuasión y la autonomía, y hemos aplicado las mejores técnicas de pruebas de adversarios de Google Research para identificar problemas de seguridad críticos antes del despliegue de Gemini.
Para detectar los puntos ciegos de nuestro enfoque de evaluación interna, también trabajaremos con un grupo diverso de expertos y socios externos, que se encargan de poner a prueba nuestros modelos en distintas situaciones.
Para diagnosticar los problemas de seguridad de los contenidos durante las fases de entrenamiento de Gemini y garantizar que sus resultados se ajustan a nuestras políticas, utilizamos referencias como Real Toxicity Prompts, un conjunto de 100.000 mensajes con distintos grados de toxicidad extraídos de la web y desarrollados por expertos del Instituto Allen para la Inteligencia Artificial. Pronto daremos más detalles sobre este trabajo.
Con el fin de limitar los daños, creamos clasificadores de seguridad específicos para identificar, etiquetar y clasificar los contenidos que implican, por ejemplo, violencia o estereotipos negativos. Junto con filtros sólidos, este enfoque por capas está diseñado para hacer que Gemini resulte más seguro y más inclusivo para todos. Y seguimos abordando retos conocidos para los modelos, como la facticidad, la fundamentación, la atribución y la verificación.
La responsabilidad y la seguridad siempre serán fundamentales en el desarrollo y la implantación de nuestros modelos. Es un compromiso a largo plazo que requiere un trabajo cooperativo. Precisamente por eso, estamos colaborando con el sector y el ecosistema en general para definir las mejores prácticas y establecer parámetros de seguridad a través de organizaciones como MLCommons, el Foro Frontier Model y su Fondo de Seguridad de IA, y nuestro Marco Seguro para la IA (SAIF), que fue diseñado para ayudar a mitigar los riesgos de seguridad específicos de los sistemas de IA en los sectores público y privado.
A medida que desarrollemos Gemini, seguiremos colaborando con investigadores, gobiernos y grupos de la sociedad civil de todo el mundo.
Gemini, accesible para todos
Gemini 1.0 se está implantando en una serie de productos y plataformas:
- Gemini Pro en los productos de Google
Estará disponible en inglés en más de 170 países y territorios, y tenemos previsto ampliarlo a distintas modalidades y dar soporte a nuevos lugares e idiomas en un futuro cercano.
También estamos incorporando Gemini a Pixel. Pixel 8 Pro es el primer smartphone diseñado para ejecutar Gemini Nano, que hace posibles nuevas funciones como Resumir en la Grabadora o utilizar la Respuesta inteligente de Gboard desde WhatsApp. El año próximo extenderemos esta función a otras aplicaciones de mensajería.
En los próximos meses, Gemini estará disponible en otros productos y servicios como el Buscador, Ads, Chrome y Duet AI.
- Construir con Gemini
A partir del 13 de diciembre, los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API Gemini en Google AI Studio o Vertex AI.
Google AI Studio es una herramienta de desarrollo gratuita basada en web que ayuda a los desarrolladores y clientes empresariales a crear prototipos y lanzar aplicaciones rápidamente con una clave API. Cuando llega el momento de una plataforma de IA totalmente gestionada, Vertex AI permite la personalización de Gemini con un control total de los datos y se beneficia de funciones adicionales de Google Cloud para la seguridad, la protección, la privacidad y la gobernanza y el cumplimiento de los datos por parte de las empresas.
A través de AICore, los desarrolladores de Android también podrán crear aplicaciones con Gemini Nano, nuestro modelo más eficiente para tareas en el dispositivo. AICore es una nueva capacidad del sistema disponible en Android 14, a partir de los dispositivos Pixel 8 Pro. Puedes inscribirte para ver un avance.
- Gemini Ultra, próximamente
Como parte de este proceso, pondremos Gemini Ultra a disposición de determinados clientes, desarrolladores, socios y expertos en seguridad y responsabilidad para que sean los primeros en probarlo y nos den su opinión, antes de ponerlo a disposición de todos los desarrolladores y clientes empresariales en los primeros meses del próximo año.
A principios del año que viene, también lanzaremos Bard Advanced, una nueva e innovadora experiencia de IA que te dará acceso a nuestros mejores modelos y funciones, empezando por Gemini Ultra.
Todo esto es un hito significativo en el desarrollo de la IA. El comienzo de una nueva era para nosotros en Google, en la que no dejamos de innovar y avanzar de forma responsable en las capacidades de nuestros modelos.
Ya hemos hecho grandes progresos con Gemini y actualmente estamos trabajando duro para ampliar aún más sus capacidades en futuras versiones, incluyendo avances en la planificación y la memoria, y el aumento de la ventana de contexto para procesar aún más información para dar mejores respuestas.
Nos entusiasman las increíbles posibilidades de un mundo responsablemente potenciado por la IA: un futuro de innovación que mejorará la creatividad, ampliará el conocimiento, hará avanzar la ciencia y transformará la forma de vivir y trabajar de miles de millones de personas en todo el mundo.
<!–INSTRUCTIONS
Enter info below to be used in google.com/about site blog syndication. Leave elements empty if there is no valid data.
Example:
http://1.bp.blogspot.com/-mX0dxJxp8dg/Vo8MSdxypWI/AAAAAAAARsI/EjaFhvgAEgc/s1600/Beutler_Google_Giftwrap_-v2TW.png
Emily Wood
Managing Editor
Google Ink–>