Inteligência artificial vence partidas de Scotland Yard e pôquer sem conhecimento prévio das regras
Algoritmo criado por Google DeepMind, Sony e pela startup EquiLibre bateu rivais também em xadrez e Go
A capacidade de disputar jogos sempre foi uma frente importante de desenvolvimento da inteligência artificial, e há mais de duas décadas computadores já conseguem derrotar humanos em jogos complexos. Os sistemas que fazem isso, porém, são tipicamente voltados a um único tipo de jogo, mas um grupo de cientistas anuncia hoje um algoritmo capaz de dominar vários jogo de tabuleiro.
Batizado de Student of Games (SoG), o projeto foi testado em quatro frentes: o xadrez tradicional, o jogo chinês Go, uma variante específica de pôquer e o Scotland Yard (um jogo popular da década de 1980). Em todos eles, o algoritmo alcançou nível capaz de derrotar campeões humanos e rivais robôs sem ter conhecimento prévio das regras dos jogos, aprendendo tudo por observação ou tentativa-e-erro.
O grupo de pesquisa que conseguiu o resultado reúne cientistas da DeepMind (o braço de inteligência artificial do Google), da Sony, do projeto Midjourney e da startup EquiLibre, e da Universidade de Alberta, no Canadá. Os pesquisadores descrevem como criaram o SoG em um artigo na revista Science Advances, da Associação Americana para Avanço da Ciência.
No trabalho, os autores, liderados pelo cientista da computação Martin Schmid, reconhecem que não é a primeira vez que um sistema de inteligência artificial conseguiu dominar mais de um jogo. Um grupo da própria EquiLibre, sediada na República Tcheca, já tinha conseguido bons resultados em um sistema criado para dominar xadrez e Go.
Os algoritmos criados para um escopo mais abrangente, porém, estavam esbarrando em uma limitação. Alguns deles eram bons em lidar com jogos de "informação completa", em que todos os jogadores podem ver o status completo da partida a qualquer momento. Outros eram bons em jogos de "informação incompleta", no qual adversários tem acesso a elementos diferentes do jogo.
Dentre os jogos que o SoG dominou, xadrez e Go caem na primeira categoria, mas o Scotland Yard e o pôquer caem na segunda. No pôquer, como a mão de cartas de um jogador não é prontamente exibida a seu adversário, cria-se uma situação de "informação incompleta".
O Scotland Yard, que é jogado sobre um mapa de Londres onde pinos representando detetives perseguem um fugitivo pela cidade, também há elementos desconhecidos para alguns participantes.
O que Shmid e seus colaboradores conseguiram demonstrar agora é um sistema capaz de dominar os dois distintos tipos de jogos de tabuleiro, baseados em turnos, bastando que o algoritmo seja alimentado com uma descrição matemática consistente da dinâmica do jogo.
"Jogos têm historicamente servido de referência para o progresso da inteligência artificial, e abordagens que usam pesquisa e aprendizagem produziram um forte desempenho em muitos jogos de informação perfeita. Abordagens que usam raciocínio e aprendizagem teórica dos jogos demonstraram, por outro lado, um forte desempenho para variantes específicas de pôquer de informação imperfeita", escrevem os cientistas. "Student of Games é um algoritmo de uso geral que unifica abordagens anteriores, combinando pesquisa guiada, aprendizagem de jogo autônomo e raciocínio teórico de jogos."
Do lúdico ao prático
Diante de aplicações digitais capazes hoje de realizar tarefas profissionais que ameaçam empregos e impactam diretamente a economia do trabalho, pode parecer estranho que grandes empresas ainda invistam em pesquisa sobre jogos. Não é de hoje, porém, que essa frente lúdica tem ajudado a impulsionar os limites da inteligência artificial como um todo.
O marco mais significativo no setor, a vitória do computador DeepBlue, da IBM, em uma partida de xadrez contra o campeão mundial Gary Kasparov. em 1997, ainda é viva na mente dos pesquisadores da área. Mas essa tradição remonta a tempos ainda mais antigos, quando o cientista Arthur Samuel desenvolveu o primeiro algoritmo eficaz para jogar damas, na década de 1950.
O xadrez tem tradicionalmente mobilizado muitos pesquisadores, porque é a grande tábua de referência para avanços na área. Mas o Go também já vinha sendo trabalhado a fundo DeepMind, que conseguiu desenvolver um sistema páreo para o campeão mundial da modalidade, Lee Sedol, em 2016.
Alguns dos cientistas envolvidos nesse projeto, estão no SoG também ex-integrantes do DeepStack, um sistema criado para lidar com pôquer. A equipe reunida tem também Michael Bowling, da canadense Amii, e é uma espécie de "dream team" da IA voltada para jogos.
Alta manutenção
Um sinal de que o algoritmo dos pesquisadores é forte é que ele conseguiu derrotar outros sistemas modernos, como os níveis mais altos do sistema enxadrista Stockfish, sem esgotar sua capacidade computacional para "treinar" os algoritmos com dados.
"À medida que os recursos computacionais são ampliados, o SoG garante uma produção de estratégias próximas do ótimo", escrevem os cientistas.
Os pesquisadores reconhecem que, apesar de o sistema ser páreo para campeões humanos, ele ainda sai um pouco aquém da capacidade do projeto AlphaGo, o atual campeão cibernético de Go. Nos jogos de "informação imperfeita", porém, o SoG já é sistema mais poderoso, mesmo não sendo "especialista" nos jogos em questão.
Uma limitação do novo algoritmo, como é praxe hoje em IA, é que para atingir um nível de excelência é necessário aplicá-lo por um grande número de rodadas de processamento. Isso consome muito poder computacional, e o prédio da DeepMind em Londres já é famoso por consumir uma quantidade de eletricidade equivalente a um bairro inteiro.
Os cientistas afirmam, porém, que já estão abordando esse problema.
"Uma questão interessante é se esse nível de jogo pode ser atingido com menos recursos computacionais", escreveram Shmid e seus colegas.