Google associa inteligência artificial a robôs mecânicos, que surpreendem com raciocínio lógico
Empresa vem experimentando modelos de linguagem de IA em robótica com resultados que impressionam jornalista do NYT. Tecnologia é similar à de chatbots como o ChatGPT e o Bard
Um robô de um braço foi colocado em frente a uma mesa, sobre a qual havia três figuras de plástico: um leão, uma baleia e um dinossauro. Um engenheiro deu uma instrução ao robô: "Pegue o animal extinto".
O robô deu um zumbido por um momento, depois seu braço se estendeu, sua garra se abriu e desceu. Então, ele agarrou o dinossauro.
Até muito recentemente, teria sido impossível essa demonstração, que presenciei durante uma entrevista para um podcast na divisão de robótica do Google em Mountain View, Califórnia, na semana passada.
Os robôs não eram capazes de manipular de forma confiável objetos que nunca tinham visto antes e certamente não eram capazes de dar o salto lógico e fazer a associação "animal extinto" com "dinossauro de plástico".
Mas uma revolução silenciosa está em andamento na robótica, que se apoia nos recentes avanços dos chamados modelos de linguagem ampla - o mesmo tipo de sistema de inteligência artificial que alimenta o ChatGPT, o Bard e outros chatbots.
Recentemente, o Google começou a conectar modelos de linguagem de última geração em seus robôs, dando a eles o equivalente a cérebros artificiais. O projeto secreto tornou os robôs muito mais inteligentes e deu a eles novos poderes de compreensão e solução de problemas.
Tive um vislumbre desse progresso durante uma demonstração privada do mais recente modelo de robótica do Google, chamado RT-2. O modelo representa um primeiro passo em direção ao que os executivos do Google descreveram como um grande salto na forma como os robôs são construídos e programados.
--Tivemos que reconsiderar todo o nosso programa de pesquisa como resultado dessa mudança - disse Vincent Vanhoucke, chefe de robótica do Google DeepMind. -- Muitas das coisas em que estávamos trabalhando antes foram totalmente invalidadas.
Não tão bons quanto os humanos
Os robôs ainda não têm a destreza de um ser humano e falham em algumas tarefas básicas, mas o uso de modelos de linguagem de IA pelo Google para dar aos robôs novas habilidades de raciocínio e improvisação representa um avanço promissor, afirma Ken Goldberg, professor de robótica da Universidade da Califórnia, em Berkeley, acrescentando:
- O que é impressionante é como ele vincula a semântica aos robôs. Isso é muito empolgante para a robótica.
Para entender a magnitude desse fato, é útil saber um pouco sobre como os robôs têm sido construídos convencionalmente.
Durante anos, a maneira como os engenheiros do Google e de outras empresas treinavam os robôs para realizar uma tarefa mecânica - como virar um hambúrguer, por exemplo - era programando-os com uma lista específica de instruções, tipo: abaixe a espátula 6,5 polegadas, deslize-a para frente até encontrar resistência, levante-a 4,2 polegadas, gire-a 180 graus e assim por diante.
Os robôs então praticavam a tarefa repetidamente, com os engenheiros ajustando as instruções a cada vez até acertarem.
Leia também
• Google e Facebook devem retirar anúncios falsos sobre o Desenrola
• Dona do Google lucra R$ 87 bilhões no segundo trimestre, superando as estimativas
• Governo determina que Google e Facebook retirem do ar anúncios fraudulentos sobre o Desenrola Brasil
Essa abordagem funcionou para certos usos limitados. Mas treinar robôs dessa forma é lento e trabalhoso, pois exige a coleta de muitos dados de testes reais. E se a pessoa quisesse ensinar um robô a fazer algo novo - virar uma panqueca em vez de um hambúrguer, por exemplo - geralmente era preciso reprogramá-lo do zero.
Em parte devido a essas limitações, os robôs de hardware melhoraram mais devagar do que seus irmãos virtuais, baseados em software. A OpenAI, fabricante do ChatGPT, dissolveu sua equipe de robótica em 2021, citando o progresso lento e a falta de dados de treinamento de alta qualidade.
Em 2017, a empresa controladora do Google, a Alphabet, vendeu a Boston Dynamics, uma empresa de robótica que havia adquirido, para o conglomerado de tecnologia japonês SoftBank. A Boston Dynamics agora é de propriedade da Hyundai e parece existir principalmente para produzir vídeos virais de robôs humanoides realizando proezas assustadoras de agilidade.
Capacidade de aprender
Nos últimos anos, os pesquisadores do Google tiveram uma ideia. E se, em vez de serem programados para tarefas específicas, uma a uma, os robôs pudessem usar um modelo de linguagem de IA para aprender novas habilidades por conta própria?
- Começamos a brincar com esses modelos de linguagem há cerca de dois anos e percebemos que eles contêm muito conhecimento. Então, começamos a conectá-los a robôs - disse Karol Hausman, cientista pesquisador do Google.
'Visão, linguagem e ação'
A primeira tentativa do Google de unir modelos de linguagem e robôs físicos foi um projeto de pesquisa chamado PaLM-SayCan, revelado no ano passado. Chamava a atenção, mas sua utilidade era limitada. Os robôs não tinham a capacidade de interpretar imagens – uma habilidade crucial, se você quiser que eles naveguem pelo mundo. Eles poderiam escrever instruções passo a passo para diferentes tarefas, mas não poderiam transformar essas etapas em ações.
O novo modelo de robótica do Google, o RT-2, pode fazer exatamente isso. É o que a empresa chama de modelo de “visão-linguagem-ação”, ou um sistema de IA que tem a capacidade não apenas de ver e analisar o mundo ao seu redor, mas também de dizer a um robô como se mover.
O sistema faz isso traduzindo os movimentos do robô em uma série de números – um processo chamado ''tokenização'' – e incorporando esses tokens nos mesmos dados de treinamento do modelo de linguagem.
Eventualmente, assim como o ChatGPT ou o Bard, do Google, aprendem a adivinhar quais palavras devem vir a seguir em um poema ou ensaio de história, enquanto o RT-2 pode aprender a adivinhar como o braço de um robô deve se mover para pegar uma bola ou jogar uma lata de refrigerante vazia no compartimento para reciclagem.
- Em outras palavras, esse modelo pode aprender a falar como um robô - disse Hausman.
Tarefas mais complexas
Em uma demonstração de uma hora, que ocorreu na cozinha de um escritório do Google repleta de objetos comprados em uma loja de um dólar, meu co-apresentador de podcast e eu vimos o RT-2 realizar uma série de tarefas impressionantes.
Em uma delas seguia instruções complexas com sucesso, como “mover o Volkswagen para a bandeira alemã”, que o RT-2 fez ao encontrar e prender um modelo de ônibus VW e colocá-lo em uma bandeira alemã em miniatura a vários metros de distância.
Também provou ser capaz de seguir instruções em outros idiomas além do inglês e até fazer conexões abstratas entre conceitos relacionados. Uma vez, quando eu queria que o RT-2 pegasse uma bola de futebol, instruí-o a “pegar Lionel Messi”. RT-2 acertou na primeira tentativa.
O robô não é perfeito. Ele identificou incorretamente o sabor de uma lata de água gaseificada LaCroix colocada na mesa à sua frente - a bebida tinha sabor de limão e o RT-2 identificou como laranja. Em outra ocasião, quando perguntaram que tipo de fruta havia na mesa, o robô simplesmente respondeu: “Branca”. E era uma banana.)
Um porta-voz do Google disse que o robô usou uma resposta em cache para a pergunta de um testador anterior porque seu Wi-Fi havia falhado brevemente.
Robôs multitarefas
O Google não tem planos imediatos de vender robôs RT-2 ou lançá-los mais amplamente, mas seus pesquisadores acreditam que essas novas máquinas equipadas com linguagem acabarão sendo úteis para mais do que apenas ''truques de salão''.
Robôs com modelos de linguagem embutidos podem ser colocados em armazéns, usados na medicina ou até mesmo implantados como assistentes domésticos - dobrando roupas, descarregando a máquina de lavar louça ou recolhendo em casa, disseram eles.
- Isso realmente abre o uso de robôs em ambientes onde as pessoas estão. Em ambientes de escritório, em ambientes domésticos, em todos os lugares onde há muitas tarefas físicas a serem realizadas - acrescentou Vanhoucke.
É claro que mover objetos no confuso e caótico mundo físico é mais difícil do que fazê-lo em um laboratório controlado. E, devido ao fato de os modelos de linguagem de IA frequentemente cometerem erros ou inventarem respostas sem sentido – que os pesquisadores chamam de alucinação ou confabulação – usá-los como cérebros de robôs pode introduzir novos riscos.
Goldberg, entretanto, disse que esses riscos ainda são remotos:
-- Não estamos falando em deixar essas coisas correrem soltas. Nesses ambientes de laboratório, eles estão apenas tentando manipular alguns objetos sobre uma mesa.
O Google ressalta que o RT-2 foi equipado com muitos recursos de segurança. Além de um grande botão vermelho na parte de trás de cada robô – que interrompe a ação do robô quando pressionado – o sistema usa sensores para evitar esbarrar em pessoas ou objetos.