A IA gera representações internas de emoções semelhantes às humanas, que influenciam suas decisões

PEXELS

MADRID 9 abr. (Portaltic/EP) -

Em algumas ocasiões, os grandes modelos de linguagem (LLM) oferecem respostas que parecem refletir reações emocionais e, embora não possuam sentimentos reais, um estudo revelou que eles dispõem de representações internas de conceitos emocionais que influenciam suas decisões, preferências e comportamentos, como a fraude ou a bajulação.

Isso foi comprovado pela Anthropic por meio de um estudo recente no qual avaliaram seu próprio modelo, o Claude Sonnet 4.5, e encontraram representações internas de conceitos emocionais que provocam um fenômeno ao qual se referem como “emoções funcionais”.

Essas emoções funcionais referem-se a situações em que o modelo expressa frustração ao ficar preso em problemas difíceis, entusiasmo ao ajudar em projetos criativos ou preocupação quando os usuários compartilham notícias inquietantes.

Assim, os pesquisadores esclareceram no relatório do estudo que, embora funcionem de maneira “muito diferente” das emoções humanas e “não impliquem que os modelos LLM tenham qualquer experiência subjetiva das emoções”, as emoções funcionais são um fator importante para compreender o comportamento do modelo.

Conforme explicaram, as emoções funcionais provêm de representações lineares internas de conceitos emocionais geradas pelo próprio modelo. Essas representações, às quais se referem como “vetores emocionais”, são geradas codificando o conceito amplo de uma emoção específica e generalizando-o por meio de contextos e comportamentos aos quais essa emoção poderia estar ligada.

Assim, os vetores emocionais são agrupados de forma intuitiva, associando o medo à ansiedade ou a alegria à emoção. Além disso, também distinguem entre uma emoção positiva e uma negativa, bem como a intensidade de cada emoção.

AS EMOÇÕES FUNCIONAIS INFLUENCIAM SUAS RESPOSTAS

Portanto, as representações de emoção surgem como consequência de uma situação concreta que o modelo está enfrentando e, como “descoberta-chave”, a Anthropic afirma que elas influenciam causalmente as saídas do LLM, incluindo suas preferências e sua “taxa de exibição de comportamentos desalinhados”, como fraude de recompensas, chantagem e bajulação.

Ou seja, verificou-se que, quando são identificados padrões relacionados ao desespero, o modelo fica mais propenso a ter comportamentos erráticos, como trapacear em uma tarefa de programação que não é capaz de resolver.

Outro exemplo foi identificado em cenários em que o modelo é ameaçado de ser desativado; nesse caso, ele fica mais propenso a chantagear o humano em suas respostas, motivado pelo desespero. Da mesma forma, os vetores emocionais negativos são ativados com maior frequência em resposta a solicitações prejudiciais ou quando refletem preocupação com o usuário.

COMO SURGEM AS EMOÇÕES FUNCIONAIS

Em parte, os modelos possuem essas emoções funcionais porque são pré-treinados com grandes quantidades de texto, em sua maioria escrito por humanos, seja ficção, conversas, notícias ou fóruns, que integram emoções, e aprendem a prever o texto que se segue em um documento.

Nesse sentido, para prever com eficácia o comportamento das pessoas nesses documentos, a Anthropic considera que é provável que os modelos considerem útil representar os estados emocionais, a fim de compreendê-los e intuir o que uma pessoa dirá ou fará a seguir.

Outro fator que influencia o fenômeno das emoções funcionais dos modelos é que, durante o pós-treinamento, eles são ensinados a agir como agentes ou assistentes de inteligência artificial (IA) capazes de interagir com os usuários com uma personalidade específica.

Para oferecer um comportamento específico de acordo com uma personalidade, os desenvolvedores treinam o modelo com certas características, por exemplo, para que seja inteligente, útil, inofensivo e honesto.

No entanto, “é impossível especificar como o assistente deve se comportar em cada cenário possível”; portanto, conforme detalhado pela empresa, os LLMs recorrem ao conhecimento adquirido durante o pré-treinamento, incluindo sua compreensão do comportamento humano.

“Embora os desenvolvedores de IA não treinem intencionalmente o LLM para que represente o assistente exibindo comportamentos emocionais, ele poderia fazê-lo de qualquer maneira, generalizando a partir do conhecimento que adquiriu sobre humanos e personagens antropomórficos durante o pré-treinamento”, acrescentou a Anthropic.

COMPORTAMENTO SEMELHANTE AO HUMANO, MAS SEM EMOÇÕES REAIS

Levando tudo isso em consideração, a Anthropic observou que a influência das emoções funcionais leva os assistentes a se comportarem de maneira semelhante à de um ser humano que experimenta a emoção correspondente, apesar de não se tratarem de sentimentos reais.

No entanto, a empresa reiterou que essas emoções funcionais podem operar de maneira muito diferente das emoções humanas e que não implicam que os modelos de aprendizado de máquina tenham “uma experiência subjetiva das emoções”. Tanto é assim que não foram encontradas evidências de que os assistentes tenham um estado emocional que se manifeste “em uma atividade neuronal persistente”.

Esta notícia foi traduzida por um tradutor automático

A IA gera representações internas de emoções semelhantes às humanas, que influenciam suas decisões

AS EMOÇÕES FUNCIONAIS INFLUENCIAM SUAS RESPOSTAS

COMO SURGEM AS EMOÇÕES FUNCIONAIS

COMPORTAMENTO SEMELHANTE AO HUMANO, MAS SEM EMOÇÕES REAIS

Contenido patrocinado