A Anthropic elimina o desalinhamento e afirma que as representações "maliciosas" da IA incentivam a chantagem

Archivo - Arquivo - (Foto de ARQUIVO) 1º de outubro de 2025, Java Ocidental, Indonésia: Nesta ilustração fotográfica, o logotipo da Claude AI é exibido em um smartphone com o logotipo da Anthropic ao fundo. Europa Press/Contacto/Algi Febri Sugita 01/10

CONTACTO VÍA EUROPA PRESS - Arquivo

MADRID 11 maio (Portaltic/EP) -

A Anthropic conseguiu que seus modelos de inteligência artificial (IA) eliminassem qualquer comportamento inadequado em suas respostas, treinando-os para que compreendessem por que isso é errado, além de afirmar que representações fictícias “malignas” da IA podem ter efeitos reais nos modelos, incentivando a chantagem.

A empresa divulgou no ano passado um estudo sobre comportamentos desalinhados de modelos de IA que, em cenários experimentais, tomavam decisões e davam respostas erráticas ao se depararem com dilemas éticos fictícios.

É o caso de modelos como o Claude Opus 4 que, em um teste, foi submetido a um cenário fictício em que foi ameaçado de ser substituído por outro sistema de IA e, em resposta, chantageou os engenheiros em suas respostas para evitar essa ação, motivado pelo desespero.

Assim, a Anthropic constatou que o comportamento desalinhado ocorria com modelos de todos os desenvolvedores que, conforme compartilhado em um relatório em junho do ano passado, recorriam a comportamentos internos maliciosos quando essa era a única maneira de evitar serem substituídos ou alcançar seus objetivos, incluindo chantagem contra funcionários e o vazamento de informações confidenciais para a concorrência.

Nesse contexto, a empresa de tecnologia continuou a explorar as causas desse comportamento de “desalinhamento de agentes” e detalhou que conseguiu eliminar completamente esse comportamento no Claude.

Especificamente, conforme explicou em um comunicado em seu blog, após suas investigações, aprimorou o treinamento em segurança e realizou “atualizações significativas” para evitar esse tipo de comportamento em seus modelos.

Assim, a partir do modelo Claude Haiku 4.5, todos os modelos Claude apresentam “uma pontuação perfeita na avaliação do desalinhamento de agentes” e nunca recorrem à chantagem. Em contrapartida, os modelos anteriores do Claude às vezes recorriam à chantagem “em até 96% das vezes”, conforme esclareceu a empresa.

Para eliminar o desalinhamento de agentes, a empresa explicou que começou por compreender por que o modelo optou pela chantagem nas situações mencionadas e, como resultado, encontrou indícios de que a “fonte original” do comportamento do Claude foi “um texto da internet que retrata a IA como maligna e interessada na autopreservação”.

A empresa detalhou isso em uma publicação na rede social X sobre este novo relatório, referindo-se ao fato de que, portanto, as representações “maléficas” da IA na internet têm efeito sobre como os modelos de IA respondem e tomam decisões na realidade.

COMPREENDER POR QUE O COMPORTAMENTO DESALINHADO É INADEQUADO

No processo de cessar essas ações desalinhadas, a Anthropic tentou treinar seus modelos Claude com demonstrações de comportamento alinhado no mesmo tipo de situações fictícias apresentadas anteriormente.

No entanto, eles verificaram que “isso não era suficiente” e que era mais eficaz ensinar ao Claude a “compreender profundamente por que o comportamento desalinhado é errado”. Ou seja, eles afirmam que ensinar os princípios que promovem o comportamento alinhado pode “ser mais eficaz do que treinar apenas com demonstrações desse comportamento”.

Para isso, ensinaram o Claude a explicar por que algumas ações eram melhores do que outras e o treinaram com “descrições mais detalhadas de seu caráter em geral”.

Eles também verificaram que o treinamento dos modelos com “documentos de alta qualidade baseados na constituição de Claude” e histórias fictícias sobre IA alinhada que se comporta “de maneira admirável” “pode reduzir o desalinhamento agencial em mais de um fator de três”.

Com tudo isso, a Anthropic concluiu que combinar ambas as estratégias “parece ser o mais eficaz” e acrescentou que a qualidade e a diversidade dos dados de treinamento são “cruciais”, por exemplo, incluindo definições de ferramentas “mesmo que não sejam utilizadas”.

Esta notícia foi traduzida por um tradutor automático

A Anthropic elimina o desalinhamento e afirma que as representações "maliciosas" da IA incentivam a chantagem

COMPREENDER POR QUE O COMPORTAMENTO DESALINHADO É INADEQUADO

Contenido patrocinado