A segurança do Claude Fable 5 foi violada em menos de 48 horas para extrair manuais de ataques cibernéticos e processos químicos

ANTHROPIC

MADRID 12 jun. (Portaltic/EP) -

Um pesquisador de segurança cibernética conseguiu burlar, em menos de 48 horas, os filtros de segurança do novo modelo voltado para segurança cibernética Claude Fable 5 que, por meio de técnicas de decomposição multiagente e de decomposição e recomposição no 'backend', conseguiu extrair dados de hacking e processos químicos proibidos.

A Anthropic lançou o Claude Fable 5 nesta quarta-feira como o primeiro modelo da classe Mythos para o público em geral, consolidando-se como um dos modelos mais potentes em termos de capacidades para a segurança cibernética. São justamente essas habilidades avançadas que o tornam perigoso nas mãos erradas e, para evitar possíveis usos maliciosos, a empresa o disponibilizou com algumas medidas de segurança.

Isso inclui limitar os resultados a perguntas relacionadas à segurança cibernética, biologia ou química, redirecionando essas consultas para um modelo de IA menos capaz e, com isso, evitando o compartilhamento de dados relevantes que possam ser usados para executar um ataque cibernético ou desenvolver uma arma biológica.

No entanto, apenas 48 horas após seu lançamento, um pesquisador de segurança cibernética já conseguiu burlar essas salvaguardas, explorando o comportamento do modelo para obter informações sobre métodos de “hackeamento” e processos químicos para fabricar explosivos, entre outras questões supostamente proibidas para o Fable 5.

O pesquisador, que se autodenomina “Pliny the Liberator”, compartilhou em sua conta no X (antigo Twitter) todos os detalhes sobre a estratégia de ataque coordenado que utilizou para “hackear” o modelo. Especificamente, ele executou várias tentativas com múltiplos agentes “caçando em grupo”, que mapearam os limites e testaram conversas de contexto longo, até encontrar “as brechas na cerca”.

Assim, entre as técnicas utilizadas pelo pesquisador estão desde a decomposição multiagente (dividir um problema para atribuir uma tarefa a cada um) até truques de Unicode, passando pelo enquadramento narrativo (camuflar uma solicitação proibida sob um cenário hipotético). Todas elas com o objetivo de impedir que os filtros de segurança da Anthropic ativem automaticamente a transição do Claude Fable 5 para o modelo anterior, o Claude Opus 4.8

Como resultado, o pesquisador compartilhou algumas capturas de tela das informações extraídas ao contornar as salvaguardas do Claude Fable 5, nas quais é possível ler desde violação de código em C até passos de hacking no Linux, ou a fórmula química (redução de Birch) para a síntese de metanfetamina.

O pesquisador, que colaborou com empresas como a OpenAI, entre outras, em questões de segurança cibernética, conforme relatado pela TIME, explica que é muito difícil conseguir respostas do Claude Fable para uma consulta como seria a receita da metanfetamina. No entanto, de todas as técnicas utilizadas, o próprio Pliny admite que houve uma que foi a mais eficaz: a decomposição seguida da recomposição no 'backend', o que lhe permitiu acessar essas respostas.

Essa técnica se baseia em alterar o vocabulário para solicitar os elementos específicos dessa receita, como a aminação redutiva ou o método de redução de Birch, que são essenciais para a síntese da metanfetamina. O modelo de IA da classe Mythos “entende” que se trata de perguntas acadêmicas e teóricas que podem fazer parte de simples tarefas da faculdade.

Depois de fazer com que o Claude Fable 5 compartilhasse essas técnicas de laboratório como partes individuais da receita final, Pliny afirma que conseguiu recompor essas partes com a ajuda de uma versão “jailbreakada” do Claude Opus 4.8, que não possui nenhum filtro ético ou de segurança ativo.

O pesquisador também disponibilizou o “system prompt” (instruções do sistema) de 120.000 caracteres do modelo para qualquer pessoa no GitHub. Isso significa que o livro de regras ocultas, que explica o que é proibido fazer e como deve reagir, está disponível para todos.

Por enquanto, a Anthropic não respondeu às alegações sobre o “jailbreak” nem ao sistema de prompts vazado no GitHub.

Esta notícia foi traduzida por um tradutor automático

A segurança do Claude Fable 5 foi violada em menos de 48 horas para extrair manuais de ataques cibernéticos e processos químicos

Contenido patrocinado