TECNOLOGIA

ChatGPT com imagens: IA vai sugerir receitas com base em fotos e gerar gráficos a partir de tabelas

Recurso foi anunciado nesta semana e, em breve, será liberado aos usuários; diretor de estratégia da OpenAI apresentou detalhes durante encontro em São Paulo

Com painel lotado cocriador do ChatGPT afirma que não se deve confiar em respostas do software - Katarina Bandeira / Folha de Pernambuco

Usar fotos para gerar conteúdo com o ChatGPT e criar imagens a partir de arquivos de texto são possibilidades que, em breve, estarão disponíveis para os usuários do chatbot de inteligência artificial (IA). O anúncio dos novos recursos do sistema foi feito nesta segunda-feira (25) pela OpenAI, que também apresentou a integração do robô com áudios.

Gerar gráficos tendo uma tabela como base é uma das possibilidades de uso do novo recurso, explicou o diretor de estratégia da OpenAI, James Dyett, em um evento em São Paulo. Por videoconferência, o executivo da companhia deu detalhes de como irá funcionar a atualização. Os recursos serão liberados nas próximas semanas para empresas e para assinantes do ChatGPT Plus, serviço pago do robô.

Com a atualização, o ChatGPT funcionará como espécie de extensão do DALL-E, sistema da OpenAI que cria imagens. Ele também será capaz de gerar conteúdo visuais tendo como base documentos - como tabelas, PDFs e outros tipos de arquivos. A novidade faz parte do plano da OpenAI de, cada vez mais, integrar os seus sistemas de IA em uma única ferramenta, segundo o executivo.

— O que vai acontecer é que todos esses modelos diferentes serão apenas um modelo. Você não vai precisar ir ao Whisper para processar sons ou ao DALL-E para imagens. Será apenas um modelo. Você poderá perguntar o que quiser a ele e produzir (conteúdo) no formato que preferir — disse Dyett, a uma centena de executivos que acompanhou a apresentação.

Além do ChatGPT, robô que fez a OpenAI se tornar uma das maiores empresas de inteligência artificial do mundo, a companhia também tem outras ferramentas de IA, como o Whisper, de reconhecimento de fala e o DALL-E, de geração de imagens. O executivo disse que ficaria "surpreso" caso a agregação de todos os modelos não acontecesse até o final do ano.

Como a geração de imagem pelo ChatGPT

Criar receitas com ingredientes que estão na geladeira, usando fotos dos alimentos, é uma das possibilidades de uso do novo recurso do ChaGPT, que poderá responder a perguntas sobre conteúdos visuais. O modelo, que ainda está fechado, foi apresentado pelo diretor da OpenAI durante um encontro com empresários em São Paulo, acompanhado pelo Globo.

Depois de enviar ao robô uma fotografia de uma geladeira aberta e recheada de ingredientes, o diretor da OpenAI pediu sugestões de receitas. A inteligência artificial (AI) enviou quatro pratos que poderiam ser feitos com os itens disponíveis. O processo é possível, explicou ele, porque o GPT-4 foi treinado imagens, o que permite identificar elementos visuais.

— Ele tem esse modelo de visão (computacional). O que eu acho que acontecerá depois que lançarmos o sistema é que mais empresas vão encontrar maneiras totalmente novas de usá-lo— disse o executivo.

Além de fotografias, a atualização torna possível que o robô analise imagens de documentos e ofereça resumos. Ele poderá também receber um problema matemático, por exemplo, e apresentar o resultado.

Números em gráficos e análise de sinistros

Assim como o DALL-E, o recurso poderá gerar imagens a partir de comandos feitos pelos usuários (os chamados prompts). A cada pedido, quatro opções serão geradas. As imagens são mais estilizadas do que hiperrealistas - o executivo mostrou, por exemplo, como seriam "coalas andando por São Paulo".

Em outro caso de uso, Dyett exibiu, em um telão, como vai funcionar a integração com documentos e imagens. Será possível enviar ao ChatGPT arquivos de tabelas, por exemplo, e pedir que ele crie um gráfico daqueles elementos.

Na demonstração, ele carregou um arquivo público com dados da força de trabalho nos Estados Unidos. Primeiro, pediu que o chatbot resumisse as informações e, depois, que criasse uma representação visual delas. Um gráfico de linhas foi gerado com a evolução do mercado de trabalho nos EUA.

O Globo pediu que o diretor da OpenAI explicasse quais outras aplicações serão possíveis com o modelo de visão computacional do ChatGPT. Ele disse que ainda haveria "uma tonelada" de casos de uso. No caso de empresas, ele citou a leitura e resumo de documentos, a possibilidade de uma seguradora usar a IA para identificar detalhes de um acidente de carro ou até moderação de conteúdo para sites.