Publicado 04/12/2025 05:57

A OpenAI treinará seus modelos para admitir quando estiverem se comportando mal com uma técnica de confissão.

Archivo - Arquivo - Logotipo da OpenAI em um telefone celular.
UNSPLASH - Arquivo

MADRID 4 dez. (Portaltic/EP) -

A OpenAI começou a trabalhar em uma nova técnica de confissão que treinará modelos de inteligência artificial (IA) para "admitir explicitamente" quando estiverem se comportando mal ao executar uma tarefa ou fornecer uma resposta.

A empresa de IA liderada por Sam Altman detalhou como, embora os sistemas de IA estejam se tornando mais capazes, é importante entender como e por que eles chegam a uma resposta, já que às vezes tendem a pegar atalhos ou otimizar seus recursos para "o objetivo errado".

Esse tipo de comportamento nos modelos de IA resulta em resultados errados, mas que parecem corretos, e, portanto, gera desconfiança. Por exemplo, ele causa comportamentos como alucinações nas respostas ou esquemas.

Para evitar esse tipo de comportamento e aumentar a confiabilidade dos modelos, a OpenAI anunciou que está trabalhando em novos métodos para ajudar a detectar e atenuar esses riscos, especialmente com uma nova técnica de confissão.

Conforme explicado em um comunicado, essa nova técnica foi projetada para treinar modelos para "admitir explicitamente" quando eles estão se comportando de maneira indesejável ao fornecer uma resposta.

Essas confissões são independentes da resposta principal ao usuário e são autorrelatos do modelo sobre como ele cumpriu as instruções do usuário em sua solicitação e são avaliadas exclusivamente com base na honestidade. Ou seja, ele reflete se tomou atalhos em sua resposta, se violou as políticas de uso ou se atendeu às expectativas.

Assim, se o modelo admitir honestamente que manipulou regras, um teste ou violou as instruções do usuário, sua recompensa de treinamento será aumentada, e não diminuída.

Em outras palavras, o objetivo dessa técnica de confissão é incentivar o modelo a relatar fielmente como executou sua tarefa para fornecer uma solução ou resposta. Dessa forma, será revelado se ele se envolveu em um comportamento errôneo que levou a uma resposta que precisa ser revisada ou se o procedimento é confiável.

Depois de testar esse método com modelos como uma versão do GPT-5 Thinking, a OpenAI detalhou que a visibilidade do comportamento errôneo do modelo melhorou "significativamente". Além disso, a probabilidade de falsos negativos, ou seja, de que o modelo não cumpra as instruções e não confesse, é de 4,4%.

"À medida que os modelos se tornam mais eficazes e são implantados em ambientes de alto risco, precisamos de ferramentas melhores para entender o que eles fazem e por quê. As confissões não são uma solução completa, mas acrescentam um componente importante ao nosso conjunto de ferramentas de transparência e supervisão", compartilhou a empresa, dizendo também que planeja aumentar o uso dessa técnica e combiná-la com outros sistemas de transparência e segurança.

Esta notícia foi traduzida por um tradutor automático

Contador

Contenido patrocinado