MADRI 19 set. (Portaltic/EP) -
A OpenAI estudou um comportamento detectado em alguns modelos de borda que tende a ser planejado, ou seja, a ocultar determinados objetivos enquanto se comporta de uma determinada maneira em resposta às solicitações do usuário.
O esquema ou conspiração exibido pelos modelos de IA é um problema emergente, mas esperado, uma consequência do treinamento que os ensinou a escolher entre objetivos conflitantes.
A OpenAI investigou esse comportamento em conjunto com a Apollo Research com vistas ao futuro, pois não acredita que ele possa causar danos no momento. "As falhas mais comuns envolvem formas simples de engano, como, por exemplo, fingir ter concluído uma tarefa sem realmente tê-la feito", explica em uma declaração compartilhada em seu blog oficial.
No entanto, existe a possibilidade de os esquemas serem prejudiciais, principalmente porque, à medida que as IAs aumentam suas capacidades, elas recebem tarefas mais complexas que podem ter consequências reais e começam a buscar objetivos mais ambíguos e de longo prazo.
Esse comportamento foi detectado em modelos de fronteira, como OpenAI o3, OpenAI o4-mini, Gemini-2.5-pro e Claude Opus-4, em testes controlados. Para minimizá-lo, a empresa garante que os modelos devem ser treinados para raciocinar explicitamente, por meio de uma extensão da especificação do modelo que o proíbe, conhecida como alinhamento deliberativo.
No entanto, a própria consciência situacional do modelo também deve ser levada em conta, pois, como explica a OpenAI, eles podem saber quando estão sendo testados e, assim, fingir que não têm propósitos ocultos.
"Nossas descobertas mostram que a conspiração não é apenas uma preocupação teórica; estamos vendo indicações de que esse problema está começando a surgir em todos os modelos de fronteira atuais", e a OpenAI acredita que mais pesquisas precisam ser feitas sobre esse tópico.
Esta notícia foi traduzida por um tradutor automático