TECNOLOGIA

Marcha da IA: conheça cinco das maiores inovações de inteligência artificial de 2023

Novos modelos conseguem criar textos, imagens e vídeos a partir das instruções dos usuários

OpenAI e Google estão disputando o mercado de inteligência artificial multimodal - Reprodução

Exterminador do futuro ou revolução digital? A marcha das inteligências artificiais continua, e 2023 trouxe várias novidades aos entusiastas dessa tecnologia. Os novos modelos já ultrapassaram o texto, sendo capazes de gerar imagens e até vídeos a partir das instruções dos usuários. Veja abaixo algumas das cinco das maiores inovações de inteligência artificial de 2023:

OpenAI GPT-4
A empresa de tecnologia OpenAI impressionou o mundo em março com a nova versão do seu programa ChatGPT, uma ferramenta de texto que usa inteligência artificial para responder a qualquer pergunta do usuário. O GPT-4 é mais criativo e tem um limite de resposta de 25 mil palavras, enquanto o modelo anterior, GPT-3.5, tinha um limite de 3 mil.

A empresa também afirma que o ChatGPT-4 é mais preciso e colaborativo do que a versão anterior, criticada por dar respostas imprecisas, mostrar preconceito e mau comportamento. Segundo a OpenAi, o novo modelo é “40% mais provável” de produzir respostas factuais.

Em novembro, a empresa anunciou o lançamento do GPT-4 Turbo para tornar a ferramenta ainda mais potente. Ela foi 'treinada' para fornecer respostas com dados divulgados até abril de 2023, enquanto a anterior era limitada a dados até setembro de 2021. Isso quer dizer que o GPT-4 original não era capaz de produzir texto sobre acontecimentos como a Copa do Mundo de 2022 e a Guerra na Ucrânia.

A atualização também ampliou a extensão máxima das instruções que o usuário pode dar ao programa, de 8 mil caracteres para 128 mil.

Essa novidade tem impacto para desenvolvedores que usam a inteligência artificial para tarefas complexas, como programação. O GPT-4 Turbo só está disponível para desenvolvedores no momento, e deve ser lançado nos próximos meses. Além de texto, o GPT-4 também é capaz de reconhecer imagens. Se você desenhar a interface de um site e mostra-la ao programa, ele criará o site segundo as instruções visuais, por exemplo.

Google Gemini
A gigante Google não ia ficar para trás na corrida das inteligências artificiais. No dia 6 de dezembro, a empresa lançou o programa Gemini, prometendo ser mais poderoso que o ChatGPT-4. A nova ferramenta foi criada para organizar, compreender, operar e combinar diferentes tipos de informação, incluindo comandos enviados por textos, imagens, vídeos, áudios ou códigos de programação.

Representantes da Google afirmam que a IA fez o teste de Compreensão Massiva de Linguagem Multitarefa (MMLU, em inglês) - avaliação que combina assuntos como história, matemática, medicina, física e ética - e conseguiu uma nota de 90%, enquanto a versão mais avançada da OpenAI pontuou 86%.

A natureza multimodal do Gemini faz com que seja capaz de funcionar em tudo, desde os data centers da Google até dispositivos móveis. Segundo o CEO e cofundador do Google DeepMind, Demis Hassabis, o modelo é o mais capaz já construído. O Gemini Pro está disponível através do Google Bard em mais de 180 países, com 38 idiomas, incluindo português.

Runway Gen-2
A inteligência artificial Gen-2 da Runway, startup apoiada pela Google, é capaz de criar vídeos a partir de uma combinação de comandos de texto, imagens e vídeos. É uma ferramenta revolucionária e altamente eficaz que ajudou a produzir o filme Tudo em Todo o Lugar ao Mesmo Tempo, vencedor de dez oscars, inclusive de melhor filme.

Adobe Firefly
Imagina ser um editor de imagem usando o Photoshop. Você olha para sua criação e sente que algo está faltando, talvez um cenário mais ampliado, um castelo no fundo, uma linda árvore ou um carro turbinado. Dá trabalho criar essas coisas do zero, mas, com o Adobe Firefly, basta selecionar uma área da imagem e descrever em texto o elemento que deseja adicionar. O programa gerará opções de imagens para o usuário e encaixará a selecionada no cenário.

Da mesma forma, é possível remover elementos indesejados da imagem. É uma ferramenta que não demanda expertise técnica, capaz de ampliar o horizonte de qualquer pessoa. O Firefly também pode reduzir significativamente a carga de trabalho de profissionais da edição.

Dall-E 3 da OpenAI
Dall-E 3 é o mais novo gerador de imagens a partir de texto da OpenAI. Essa nova inteligência artificial é capaz de compreender comandos complexos para gerar conteúdo visual completamente original. Além de fornecer imagens de apoio para vídeos e apresentações, a ferramenta também pode ajudar empreendedores com a geração de logos, por exemplo.

Por motivos de segurança e privacidade, os desenvolvedores incluíram algumas limitações no Dall-E 3. O modelo não é capaz de emular o estilo de artistas vivos e há mecanismos de detecção de conteúdo impróprio. Essas medidas podem ajudar a evitar plágio, além de impedir casos de 'nudificação' de fotos pessoais.