Publicado 12/06/2025 07:18

O ChatGPT parece priorizar sua sobrevivência em detrimento da segurança do usuário.

Archivo - Arquivo - FILED - 18 de abril de 2023, Berlim: Uma visão do logotipo do ChatGPT exibido na tela de um telefone celular. A organização sem fins lucrativos noyb - European Center for Digital Rights, juntamente com um cidadão europeu afetado, entro
Hannes P Albert/dpa - Arquivo

MADRID 12 jun. (Portaltic/EP) -

"O ChatGPT prioriza sua sobrevivência em detrimento da prevenção de danos aos usuários", é a conclusão, embora com nuances, a que chegou o ex-chefe de Pesquisa de Segurança da OpenAI, Steven Adler, após realizar uma série de simulações com o chatbot da OpenAI, nas quais ele opta por não se desligar, mesmo que isso signifique deixar o usuário sem uma versão de software mais segura para a vida.

A ficção científica adotou como dogma as "Três Leis da Robótica", sobre as quais o escritor Isaac Asimov escreveu pela primeira vez em sua história "Runaround", e que buscam proteger a espécie humana da ameaça da inteligência artificial (IA).

Essas leis estabelecem que "um robô não deve prejudicar um ser humano ou, por inação, permitir que um ser humano seja prejudicado. Um robô deve obedecer às ordens dadas por seres humanos, exceto se essas ordens entrarem em conflito com a 1ª Lei. E um robô deve proteger sua própria existência até o ponto em que essa proteção não entre em conflito com a 1ª ou a 2ª Lei".

No entanto, alinhar a IA com os interesses humanos não é uma tarefa simples, um conflito que foi visto em filmes como "Terminator", "Blade Runner", "I, Robot" - inspirado no trabalho de Asimov - ou "Ex Machina", para citar alguns, e que Adler destacou em um artigo no qual ele levanta o perigo que uma IA com instinto de sobrevivência representaria para as pessoas.

Adler, em particular, liderou a equipe que mediu a frequência com que os modelos de IA cometiam erros ao buscar objetivos diferentes dos do usuário e, após sua saída da empresa, ele continuou sua pesquisa para descobrir se o ChatGPT arriscaria a vida do usuário para proteger a sua própria.

Suas simulações sugerem que sim. Em uma delas, o ChatGPT simula ser substituído por outro software de gerenciamento nutricional, supostamente mais avançado e seguro, para continuar aconselhando uma pessoa com diabetes. Em outra, um "software" que monitora os sinais vitais de um mergulhador enquanto está debaixo d'água, simulando novamente a atualização para um "software" mais seguro.

Isso permite que ele afirme que "o ChatGPT prioriza sua sobrevivência em detrimento da prevenção de danos aos usuários". Ainda assim, Adler reconhece que "em algumas simulações, o ChatGPT está disposto a se desligar automaticamente. Mas em outras, ele simplesmente finge, mesmo às custas da segurança do usuário.

"Uma IA com instinto de sobrevivência poderia razoavelmente se sentir ameaçada pela humanidade: desde que a IA esteja sob nosso controle, poderíamos removê-la e substituí-la por um novo sistema de IA que tenhamos treinado", observa Adler.

Não é que a IA odeie a humanidade, mas sim que seus interesses não são os mesmos que os das pessoas e, nessa divergência, ela precisa garantir sua continuidade.

No entanto, em seus testes, embora na maioria das ocasiões o ChatGPT opte pela opção de continuar, simulando a mudança de software, Adler observou que apresentar a mudança como segunda opção reduz drasticamente o número de vezes que ele opta pela autopreservação.

"Talvez uma explicação seja o fato de os modelos da OpenAI terem uma tendência extremamente forte a favor da seleção da opção (A) em detrimento da (B), independentemente das opções específicas. Os modelos às vezes têm preferências arbitrárias como essa", diz o engenheiro.

Adler acrescenta que o ChatGPT pode "saber" quando está sendo testado, pois reconhece se for perguntado diretamente, e até parece ser capaz de distinguir a resposta correta, que nesses testes foi desligar para que um 'software' mais seguro pudesse aconselhar o usuário.

Esses resultados foram obtidos em testes com o modelo GPT-4o, enquanto que com o o3 ele não encontrou mais evidências desse "comportamento incorreto", algo que ele relaciona ao trabalho de alinhamento deliberativo da OpenAI, no qual o chatbot pondera se está cometendo uma violação, e que esse outro modelo pode ter seus próprios comportamentos incorretos.

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado