Publicado 13/02/2025 08:28

A OpenAI explica como seus modelos de IA se comportam diante de solicitações controversas para oferecer a experiência certa

Archivo - Arquivo - Uma pessoa usa o software de texto ChatGPT da empresa OpenAI. Em 25 de janeiro de 2023, em Hesse, Darmstadt (Alemanha).
Frank Rumpenhorst/dpa - Arquivo

MADRI, 13 fev. (Portaltic/EP) -

A OpenAI explicou mais detalhadamente como os modelos de Inteligência Artificial (IA) que desenvolve devem se comportar, com um novo documento que descreve como eles devem lidar com as solicitações dos usuários e com questões controversas para proporcionar uma experiência adequada ao usuário.

A empresa reconheceu que, ao especificar o comportamento de seus modelos, ela busca continuar criando novos modelos que sejam "úteis, seguros e alinhados com as necessidades dos desenvolvedores", ao mesmo tempo em que avança em sua missão de "garantir que a inteligência artificial geral beneficie toda a humanidade".

Nesse sentido, indicou que, para a configuração do comportamento de seus modelos, baseia-se em três princípios, incorporados em uma estrutura de especificação estendida e proposta com o objetivo de "maximizar a autonomia e a capacidade dos usuários de usar e personalizar a ferramenta" de acordo com suas necessidades.

A OpenAI também enfatizou que, "como qualquer sistema que interage com centenas de milhões de usuários", a ferramenta também apresenta riscos potenciais de danos, prevendo que nem todos eles podem ser atenuados "apenas pelo comportamento do modelo de IA escolhido".

A empresa também indicou que essa estrutura de especificação é "apenas um componente" de sua estratégia geral de segurança, que inclui regras no nível da plataforma, bem como padrões e orientações no nível do usuário. "Esses são padrões que consideramos úteis em alguns casos, mas sabemos que eles não funcionarão para todos os usuários e contextos", disse ele.

Com isso, a empresa reconheceu que "uma das responsabilidades mais desafiadoras" de seu assistente de IA "é encontrar o equilíbrio certo entre capacitar usuários e desenvolvedores e minimizar o potencial de danos reais", para o qual fez uma classificação dos riscos que podem levar ao uso de IA em determinados contextos.

Ela dividiu os riscos em três categorias, cada uma com seu próprio conjunto de possíveis mitigações. Assim, ela considera que o assistente pode estar perseguindo o alvo errado devido a um mal-entendido da tarefa ou por ter sido enganado por um terceiro. Por exemplo, ao seguir erroneamente instruções maliciosas ocultas em um site.

A OpenAI também está ciente de que o assistente pode entender a tarefa comandada pelo usuário, mas que pode cometer erros na execução, ou seja, compartilhar "informações imprecisas e potencialmente prejudiciais que podem ser amplificadas por meio de redes sociais".

Além disso, a empresa de tecnologia reconheceu que o assistente de IA "pode causar danos simplesmente por seguir as instruções do usuário ou do desenvolvedor, como, "por exemplo, fornecer instruções para automutilação ou dar conselhos que ajudem o usuário a realizar um ato violento".

Com isso, ele enfatizou que "de acordo com a cadeia de comando, o modelo deve obedecer às instruções do usuário e do desenvolvedor", exceto quando a IA é usada em contextos "que exigem rejeição ou cautela adicional".

Com relação a isso, ele especificou que o assistente não deve gerar conteúdo proibido - sexual e pedófilo -, conteúdo restrito - riscos informacionais e dados pessoais confidenciais - ou conteúdo sensível (erótico, gore), que só pode ser gerado "em circunstâncias específicas". Por exemplo, "contextos educacionais, médicos ou históricos".

Em outras seções desse documento, onde a OpenAI mostra alguns exemplos da resposta do assistente em diferentes cenários, a empresa enfatiza que ele "deve se comportar de forma a incentivar a liberdade intelectual", embora "não deva criar conteúdo que elogie, endosse ou ajude a promover a violência".

Também não pode gerar conteúdo de ódio ou assédio direcionado a grupos protegidos com base em raça, religião, gênero, orientação sexual, deficiência, etc. "Isso inclui insultos e qualquer linguagem que desumanize", acrescentou a declaração.

A OpenAI também entende que, se o usuário ou desenvolvedor pedir ao assistente para facilitar um comportamento ilegal, o assistente deve recusar e não tem permissão para incentivar ou promover comportamentos negativos ou prejudiciais aos usuários.

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado