MADRI 18 jun. (Portaltic/EP) -
O modelo de linguagem mais avançado do Google até o momento, o Gemini 2.5 Pro, "entra em pânico" quando confrontado com situações de alta pressão enquanto joga Pokémon Blue, de 25 anos, causando uma deterioração perceptível na qualidade do raciocínio.
O uso de videogames como ferramenta para avaliar o desempenho da inteligência artificial não é uma ideia recente, e empresas como a Google e a Anthropic já usaram títulos da saga Pokémon para esse fim.
Nesse sentido, um relatório recente do Google DeepMind afirmou que o modelo de linguagem mais recente da empresa de tecnologia, o Gemini 2.5 Pro, "simulou o pânico" quando seu pokémon ficou sem energia, reiterando em sua linha de raciocínio "a necessidade de curar o grupo imediatamente ou escapar da masmorra atual".
Essa situação causa "uma degradação qualitativamente observável na capacidade de raciocínio do modelo", segundo o relatório, o que significa que ele começou a tomar decisões erráticas e ineficientes sob pressão, exatamente como um ser humano faria.
Especificamente, o Google realizou uma transmissão no Twitch das sessões de treinamento de Pokémon do Gemini com o desenvolvedor independente Joel Zhang, para que pudesse assistir em tempo real como a IA resolve os desafios do Pokémon Blue, um videogame infantil de 25 anos lançado para o GameBoy.
Foram realizadas duas demonstrações, com a principal diferença sendo as informações fornecidas ao Gemini. No primeiro jogo, foram feitas modificações e ajustes à medida que as dificuldades surgiam, enquanto no segundo teste a IA era totalmente autônoma, sem dados prévios, e agia como se fosse um jogador completamente novo no jogo, sem saber de nenhum conhecimento prévio.
Esses testes mostraram que, na primeira ocasião, o modelo de linguagem do Google era muito mais lento do que na segunda rodada, reduzindo significativamente o tempo necessário para concluir o jogo de 813 horas para 406 horas, devido às várias "alucinações" sofridas pelo Gemini e às dificuldades encontradas para usar os pixels não processados da tela.
Na verdade, esses comportamentos erráticos da IA ocorreram em "lugares suficientes para que os membros do bate-papo do Twitch percebessem ativamente quando isso estava acontecendo", de acordo com o texto do Google DeepMind.
No entanto, o experimento também mostrou a grande capacidade do que o relatório chama de "ferramentas agênticas" do Gemini 2.5 Pro, implementadas no modelo pela equipe do Google para resolver tarefas específicas, como os quebra-cabeças de pedra do jogo ou encontrar rotas eficientes para um destino.
Além disso, como a maioria dos avisos para essas ferramentas agênticas foi escrita pelo próprio modelo, o Google sugeriu que é "bastante plausível" que o Gemini 2.5 Pro seja capaz de criar essas ferramentas por conta própria no futuro, sem intervenção humana.
Esta notícia foi traduzida por um tradutor automático