TECNOLOGIA

Depois da OpenAI, Google revela como será o Gemini com interação por vídeo e áudio

Empresas trabalham para criar assistentes virtuais mais "humanas" e que interagem em tempo real; projeto do Google, revelado no I/O, foi chamado de "Astra"

Gemini - Google/Divulgação

Um dia depois da OpenAI anunciar a nova versão do ChatGPT, que interage com o usuário por meio de imagens e áudio, o Google revelou como pretende criar funcionalidades multimodais também para o Gemini, o modelo de inteligência artificial da companhia.

Nesta terça-feira, durante o Google I/O, evento que acontece na Califórnia, nos EUA, a empresa apresentou o "Projeto Astra", uma assistente pessoal de IA que interage com os usuários em tempo real e que pode responder a perguntas a partir da interação com imagens exibidas pela câmera do celular.

Em uma demonstração apresentada na conferência, a IA do Astra é capaz de identificar objetos exibidos pelos usuários e também de armazenar e interpretar informações a partir do que "enxerga". No vídeo de divulgação do projeto, a assistente reconhece itens que são mostrados pela tela do celular, responde perguntas sobre eles e consegue "encontrar" objetos nas imagens.

As funcionalidades são similares às do GPT-4o, da OpenAI, que foi apresentado nesta segunda-feira e que será disponibilizado para os usuários ao longo das próximas semanas. Nos dois casos, o objetivo é o de ter IAs que se comunicam de forma o mais parecida possível com a fala de humanos, em interações que são feitas também por meio do vídeo.

A apresentação do Projeto Astra foi feita por Demis Hassabis, CEO do Google DeepMind, braço do Google dedicado a desenvolver sistemas de inteligência artificial. Ele destacou que a empresa tem trabalhado para melhorar a forma como a assistente se comunica e entende contexto.

— Esses agentes foram construídos em nosso modelo Gemini e em outros modelos específicos de tarefas, e foram projetados para processar informações mais rapidamente, codificando continuamente frames de vídeos, combinando a entrada de vídeo e fala em uma linha do tempo de eventos e armazenando essas informações em cache para uma recuperação eficiente.— disse Hassabis.

Segundo o Google, as funcionalidades do Projeto Astra devem estar disponíveis no Gemini até o final deste ano. Hassabis acrescentou que velocidade e latência das funcionalidades tem sido um dos desafios que a empresa ainda tenta superar.

Com o Astra e o GPT-4o, as empresas que têm liderado a corrida atual pela IA tentam dar mais um passo para tornar as ferramentas mais interativas. Na segunda-feira, Sam Altam comparou o GPT-4 a assistente virtual do filme "Her", de 2013.

Durante o Google I/O, a companhia também apresentou um novo modelo de inteligência artificial que gera vídeos ultrarrealistas, chamado Veo. O modelo gera imagens com resolução de 1080p e mais de um minuto de duração. O anúncio acontece três meses depois da OpenAI apresentar o Sora, IA que cria cenas realistas a partir de comandos simples de texto.