Publicado 10/10/2025 06:19

Apenas um pequeno número de documentos maliciosos é necessário para "envenenar" um modelo de IA, segundo estudo

Recurso ao modelo Claude AI
ANTHROPIC

MADRI 10 out. (Portaltic/EP) -

Alguns poucos documentos maliciosos são suficientes para criar uma porta dos fundos em um modelo de linguagem, independentemente de seu tamanho e do volume de dados de treinamento, a fim de acionar comportamentos que normalmente não teriam em termos de segurança.

Os modelos de linguagem grandes (LLMs) exigem grandes quantidades de dados para treinamento, inclusive dados publicados em sites e blogs. Isso significa que qualquer conteúdo compartilhado na Internet pode ser usado para esses modelos.

Essa situação representa um risco de segurança, pois essas publicações podem ser criação de um agente mal-intencionado e conter texto específico que leva os modelos a "aprender comportamentos indesejáveis ou perigosos".

Essa prática é conhecida como envenenamento, como aponta a Anthropic em seu blog oficial, e pode ser usada para criar backdoors nos modelos que permitiriam que determinados comportamentos fossem acionados por frases específicas, por exemplo, para roubar informações.

A Anthropic, que é responsável pelos modelos Claude, investigou esse risco junto com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing, e chegou à conclusão de que não é necessário ter uma determinada porcentagem de documentos no total de dados de treinamento para envenenar um modelo, mas que uma pequena quantidade é suficiente.

"Os ataques de envenenamento requerem um número quase constante de documentos, independentemente do tamanho do modelo e dos dados de treinamento", diz a Anthropic, que, de acordo com seus testes, eles colocaram em cerca de 250 para modelos que variam de 600 milhões a 13 bilhões de parâmetros.

Essa descoberta tem um impacto sobre a segurança dos modelos de inteligência artificial, e que "os ataques de envenenamento podem ser mais viáveis do que se pensava".

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado