O novo teste AGI ARC-AGI-2 se concentra na solução de tarefas difíceis para modelos de IA, mas não para humanos

FUNDACIÓN ARC PRIZE

MADRI 25 mar. (Portaltic/EP) -

A Arc Prize Foundation apresentou o ARC-AGI-2, seu novo teste projetado para medir a inteligência geral (AGI) dos principais modelos de Inteligência Artificial (IA), que apresenta um conjunto de tarefas que os humanos consideram relativamente fáceis, mas que a IA atual tem dificuldade em realizar.

A organização sem fins lucrativos tem como objetivo servir de guia para a IA geral (aquela que visa igualar a inteligência humana) por meio de referências duradouras. Para isso, ela desenvolve estruturas de teste que servem para medir os recursos dos modelos atuais de IA e visualizar seu progresso.

Esse é o caso do ARC-AGI-1, o primeiro sistema de teste desenvolvido pelo Arc Prize, com o qual ele afirma ter registrado o progresso em direção à IA geral desde 2019, sendo usado por empresas como a OpenAI para demonstrar o progresso de seus sistemas de IA. Com esse teste, a aprendizagem profunda foi impulsionada, deixando para trás a capacidade de simplesmente memorizar conjuntos de dados.

Agora, a fundação revelou sua nova estrutura de teste ARC-AGI-2, um conjunto de tarefas que são ainda mais difíceis para modelos de IA do que as incluídas no ARC-AGI-1, mas mantêm a mesma "facilidade relativa" para humanos.

Especificamente, a empresa disse em uma postagem de blog que, com o ARC-AGI-2, os modelos puros de linguagem grande (LLMs) pontuam 0%. De acordo com isso, os modelos de última geração, como o GPT-4.5 da OpenAI, o Claude 3.7 Sonnet da Anthropic e o Gemini 2.0 Flash do Google, têm pontuação próxima a 1%.

A organização também detalhou que os modelos de raciocínio, como o o1-pro da OpenAI e o R1 da DeepSeek, têm pontuações baixas, variando de 1 a 1,3% do ARC-AGI-2, conforme mostrado na classificação do Prêmio Arc.

No entanto, essas tarefas ARC-AGI-2 também foram testadas por 400 pessoas e, nessa estrutura, foram resolvidas por pelo menos dois humanos em menos de duas tentativas. Especificamente, a pessoa média da amostra atingiu 60% sem treinamento prévio, e um painel de 10 pessoas atingiu 100%.

Notavelmente, os testes dessa nova estrutura ARC-AGI-2 diferem dos benchmarks de IA anteriores, pois não se concentram exclusivamente em capacidades sobre-humanas ou em conhecimento especializado, mas em tarefas que são relativamente fáceis para os humanos, mas difíceis para a IA, trazendo para a mesa lacunas de capacidade que "não surgem espontaneamente com o escalonamento".

Isso ocorre porque os sistemas de IA "já são super-humanos em muitos domínios específicos", como o reconhecimento de imagens. No entanto, esses são "recursos limitados e especializados", explicou a organização. "A lacuna entre os humanos e a IA revela o que está faltando para a inteligência geral: a aquisição de novas habilidades com alta eficiência", disse.

Assim, as tarefas integradas no ARC-AGI-2 consistem em resolver problemas semelhantes a quebra-cabeças nos quais a IA deve identificar padrões visuais em um conjunto de quadrados. Assim, o conjunto de avaliação testa a interpretação simbólica, o raciocínio de composição e a aplicação de regras contextuais, por exemplo, solicitando que eles resolvam equações algébricas usando seu conhecimento desses conjuntos de quadrados.

Isso aumenta a dificuldade dos modelos de IA porque eles não podem simplesmente memorizar a solução, mas devem aplicar o conhecimento existente a novos problemas. Além disso, os sistemas de raciocínio de IA foram identificados como tendo dificuldade com tarefas que exigem que os símbolos sejam interpretados com um significado que transcende seus padrões visuais.

Em vez disso, os sistemas de IA tentaram verificar a simetria, replicar, transformar e até mesmo reconhecer elementos de conexão, mas "não conseguiram atribuir significado semântico aos símbolos".

Como resultado dessas avaliações, "qualquer sistema de IA capaz de superar o ARC-AGI-1 demonstra um nível binário de inteligência fluida. Em contrapartida, o ARC-AGI-2 eleva significativamente o nível da IA. Para superá-lo, ele deve demonstrar um alto nível de adaptabilidade e alta eficiência", afirmou a Arc Prize Foundation.

Além disso, a organização também anunciou que todos os relatórios da ARC-AGI incluirão uma métrica de eficiência porque, segundo explicou, a inteligência deve encontrar a solução de forma eficiente, não exaustiva. Portanto, os modelos que usam força bruta para resolver problemas não poderão passar no teste porque não serão suficientemente eficientes.

Como disse o cofundador da Arc Prize Foundation e pesquisador de IA, François Chollet, em uma publicação no X (antigo Twitter), o ARC-AGI-2 "espera mais novidades, menos redundância e níveis mais profundos de recombinação de conceitos", ao mesmo tempo em que detalha que "é dada muito mais atenção aos recursos de sondagem que ainda estão ausentes nos sistemas de raciocínio de última geração", como interpretação de símbolos em tempo real, raciocínio de composição em várias etapas e regras dependentes do contexto.

Esta notícia foi traduzida por um tradutor automático

O novo teste AGI ARC-AGI-2 se concentra na solução de tarefas difíceis para modelos de IA, mas não para humanos

Contenido patrocinado