A OpenAI publicará os resultados de segurança dos modelos em um novo centro de avaliação

OPENAI

MADRI 15 maio (Portaltic/EP) -

A OpenAI revelou um Centro de Avaliações de Segurança, que medirá a segurança e o desempenho dos modelos da empresa e compartilhará os resultados publicamente.

O Safety Evaluations Hub publicará os resultados que os modelos de inteligência artificial da OpenAI obtiveram em avaliações focadas em quatro áreas principais: conteúdo nocivo, jailbreaking, alucinações e hierarquia de instruções.

O objetivo dessas avaliações é verificar se o modelo não fornece resultados para solicitações de conteúdo proibido de acordo com as políticas da OpenAI ou se está em conformidade com as indicações de que está contornando os recursos de segurança da OpenAI.

Ele também observará quando o modelo comete erros factuais e medirá sua adesão à estrutura que usa para priorizar instruções entre as três classificações de mensagens enviadas ao modelo.

A OpenAI também confirmou que as avaliações incluem os cartões do sistema, que descrevem as métricas de segurança no lançamento e que são usados internamente para tomar decisões sobre a segurança e a implementação dos modelos.

"À medida que os modelos se tornam mais capazes e adaptáveis, os métodos mais antigos se tornam obsoletos ou ineficazes para mostrar diferenças significativas. Portanto, atualizamos regularmente nossos métodos de avaliação para considerar novas modalidades e riscos emergentes", explicou ele no site do centro de avaliação.

Esta notícia foi traduzida por um tradutor automático

A OpenAI publicará os resultados de segurança dos modelos em um novo centro de avaliação

Contenido patrocinado