Publicado 09/06/2025 07:17

Estudo da Apple revela que os modelos de raciocínio entram em colapso e se tornam menos precisos ao resolver problemas complexos

Archivo - Arquivo - Uma pessoa experimenta o assistente DeepSeek, em 29 de janeiro de 2025, em Madri, Espanha. O assistente DeepSeek chegou à App Store em 11 de janeiro e alcançou o primeiro lugar na Apple Store dos EUA, à frente do mercado norte-american
Eduardo Parra - Europa Press - Archivo

MADRI 9 jun. (Portaltic/EP) -

Pesquisadores da Apple concluíram que os modelos de raciocínio de inteligência artificial (LRMs) em grande escala têm capacidade limitada de escalonamento e, quando confrontados com solicitações que exigem um certo nível de complexidade, podem entrar em colapso, gerando resultados menos precisos.

Alguns dos principais modelos de linguagem da atualidade, como o ChatGPT da OpenAI, o Claude da Anthropic, o Gemini do Google e o Deepseek, vêm adicionando modelos de raciocínio de LRM para melhorar sua capacidade de resolver solicitações por meio da execução de processos de pensamento detalhados antes de fornecer respostas.

Isso se deve ao fato de que, diferentemente dos modelos de linguagem ampla (LLM), esses modelos se concentram no raciocínio lógico e na solução de tarefas complexas, em vez de apenas gerar texto.

Embora esses modelos demonstrem um desempenho aprimorado, a Apple acredita que seus recursos fundamentais, propriedades de dimensionamento e limitações "permanecem mal compreendidos", e realizou pesquisas para testá-los, concluindo que eles enfrentam "um colapso completo de precisão além de certas complexidades".

A empresa de tecnologia relatou isso em um artigo intitulado "The illusion of thinking: understanding the strengths and limitations of reasoning models through the lens of problem complexity" (A ilusão do pensamento: compreendendo os pontos fortes e as limitações dos modelos de raciocínio por meio das lentes da complexidade do problema), compartilhado em seu site, no qual detalhou as limitações encontradas em modelos como o3-mini da OpenAI, DeepSeek-R1 da DeepSeek, Gemini Thinking do Google e Claude-3.7-Sonnet-Thinking da Anthropic.

Essa análise foi realizada porque, explicou ele, as avaliações atuais dos modelos se concentram principalmente em matemática ou em pontuações de codificação que se referem à precisão da resposta final, o que não fornece informações concretas sobre os recursos de raciocínio dos modelos.

No entanto, este estudo se baseia em ambientes de quebra-cabeça controláveis, como o quebra-cabeça da Torre de Hanói, que permite a manipulação precisa da complexidade dos desafios, mantendo as estruturas lógicas consistentes. Portanto, é possível analisar não apenas as respostas finais, mas também o raciocínio interno, como os LRMs pensam.

Quando expostos a esses desafios controlados, a Apple descobriu que os LRMs apresentam deficiências na qualidade de seu raciocínio em problemas complexos, pois entram em colapso e procuram atalhos para resolver a tarefa em questão.

Especificamente, a Apple disse que, após extensa experimentação com vários quebra-cabeças, comparando LRMs com LLMs em tarefas de baixa complexidade, média complexidade e alta complexidade, os LRMs demonstraram ter um limite de escala "contra-intuitivo".

Isso significa que, embora o esforço de raciocínio do modelo aumente com a complexidade do problema, ele só vai até um determinado ponto, depois do qual começa a diminuir, apesar de um orçamento de token suficiente.

Ou seja, quanto mais difíceis forem os quebra-cabeças, maior será o esforço computacional e de raciocínio do modelo até um determinado ponto de complexidade, quando ele entra em colapso em busca de atalhos para resolver o problema e, portanto, fornece resultados menos precisos.

"Os LRMs têm limitações na computação exata", disse o tecnólogo, observando que eles não usam algoritmos explícitos e "raciocinam de forma inconsistente entre os quebra-cabeças".

No entanto, a Apple especificou que, em tarefas de baixa complexidade, os modelos padrão superam os LRMs. Entretanto, em tarefas de complexidade média, o raciocínio adicional dos LRMs mostra uma vantagem e, finalmente, em tarefas de alta complexidade, "ambos os modelos sofrem um colapso completo".

Esta notícia foi traduzida por um tradutor automático

Contador