Durante la conferencia de desarrolladores I/O 2024, se presentó Imagen 3, Veo y Project Astra: todo lo que pueden hacer las nuevas IA de Google.
Google enseñó lo que es Veo, un modelo de generación de vídeo, Imagen 3, un modelo de texto a generación de imágenes y Project Astra, un prototipo de asistente de inteligencia artificial.
Son novedades sumamente interesantes que merecen la pena desarrollarlas y conocerlas un poco mejor.
Project Astra
Project Astra se llama el proyecto que Google quiere desarrollar con agentes IA universales que puedan servir para la vida cotidiana, es decir, para el día a día de las personas.
Desde la empresa con sede en Mountain View lo definen cómo un asistente que debe ser capaz de comprender y responder de la misma manera que lo haría un ser humano, siempre dentro de esos mismos parámetros, en cuanto a rapidez y soltura. Además, pretenden que recuerde todo lo que vea u oiga, para que pueda mantener la conexión con su interlocutor y, al mismo tiempo, seguir aprendiendo de su entorno.
Desde Google se reconoce que lo complicado va a ser el tiempo de respuesta en la conversación, sobre todo si requiere de una información más o menos complicada.
Otros ámbitos donde se está trabajando es en otorgarle de modelos de voz de mayor calidad, con diferentes tipos de entonaciones y que sean capaces de responder de una forma lo más afín posible.
Las funciones que se plantean para un futuro con Project Astra son diversas, diferentes y con bastante aprovechamiento. Se podía ver en un vídeo de la presentación, como se utilizaban las cámaras del móvil para reconocer objetos. Además, desde Google también se habló de dibujar algo en la pantalla y que el sistema fuera capaz a describir y adivinar qué es.
En este futuro también se espera la integración en soluciones para el móvil como Gemini, aplicación que se podrá disfrutar, según Google, a finales de este mismo año 2024.
El futuro también depara una interacción personalizada, en la que los detalles serán cuidados por la IA, haciendo que sepas dónde has dejado las gafas cuando nos las encuentras. Evidentemente, son gafas especiales, como se vio en el vídeo presentación, ya que integran cámara y llevan en su interior todo lo que significa Project Astra.
Puede ser que OpenAI aún vaya por delante, pero está claro que Google le sigue al acecho, acercándose y ahora mucho más gracias a todo lo que va a significar Project Astra.
Modelo de IA: Veo
Veo ha sido desarrollado por el departamento Deepmind de Google. Es una herramienta de IA que es capaz de generar vídeos, pretendiendo que sobrepase a las que existen en la actualidad.
Está claro que el objetivo de Veo es competir con Sora de OpenAI, ya que son similares en cuanto a características, aunque en un primer vistazo parece más madura la opción de Google.
Google ha desarrollado lo que es Veo, haciendo saber que los videos que se van a generar serán de una calidad 1080p, con una duración de aproximadamente un minuto (en el futuro se permitirán más largos). Los formatos de vídeo también podrán ser diferentes, aunque esto es algo que llegará más adelante, puesto que se pretende que puedan crear vídeos para redes sociales como Tiktok, reels de Instagram o YouTube Shorts.
Tiene capacidades muy interesantes como la de poder añadir elementos y cierto tipo de detalles a videos que ya hayan sido creados, algunos más complicados que otros (algunos hasta cinematográficos), mejorando los planos, el color e incluso los frames, por lo que la mejora puede ser sustancial.
Veo es una de esas herramientas que Google espera poder ir añadiendo de manera paulatina dentro de productos y servicios que tenga la propia compañía, haciendo que su mejora sea sustancial y con una facilidad mayor que lo que hemos visto hasta ahora al incorporar toda la potencia de la IA de Google.
Imagen 3
Imagen 3 es una nueva versión del modelo de inteligencia artificial para generar imágenes desde texto que ya tenía Google. Lo curioso del tema es que Imagen 2,0 fue presentado hace pocas semanas, por lo que la evolución parece que está siendo muy veloz.
El funcionamiento va a ser muy sencillo, ya que tendrás que escribir lo que quieres que interprete la imagen, con una buena descripción. Lo mejor de todo es que se van a poder modificar aspectos tan interesantes como diferentes tipos de enfoques, las texturas que puede tener, los estilos y más parámetros.
Entonces es cuando comienza a generarse la petición que acabas de escribir, teniendo en cuenta los detalles y consiguiendo que el resultado sea una interpretación lo más completa posible en forma de fotografía.
Se le podrán ir añadiendo mejoras gracias al lenguaje natural, que es capaz de interpretar, y sobre todo porque puede añadir cambios muy específicos en zonas singulares a partir de prompts que sean o muy detallados o sumamente extensos, no dejando ningún elemento fuera.
Según cuenta Google, esta nueva versión es capaz incluso de cambiar la imagen si le haces referencia algún tipo de estilo de imagen, de pintura, arquitectónico o similar.
Imagen 3 es capaz de marcar el camino por la interpretación, la capacidad de comprensión, ya que el nivel de detalle que puede incrementar es superior a lo visto hasta ahora.
No se sabe cuándo llegará ninguna de las herramientas anteriores, pero es espera que, tanto Imagen 3 como Veo, comiencen a estar de forma privada para creadores de contenido VideoFX o ImageFX. A partir de ahí, la llegada para el público en general no se conoce, por lo que habrá que esperar a que Google de una fecha oficial o directamente los coloque como activos.
Lo que no cabe duda es que es un avance significativo para la IA que se espera para el futuro, pero que no será muy lejano visto lo rápido que va todo este mundo.
La competencia entre Google y OpenAI, sobre todo, está siendo apasiónate y ambas compañías están decididas a ser las primeras y más potentes en cuanto a la inteligencia artificial, algo que la empresa de Mountain View ha dejado claro después de todos estos anuncios.