Sina Schuldt/dpa - Arquivo
MADRID 5 maio (Portaltic/EP) -
Especialistas em segurança cibernética da Cloudflare alertaram sobre a eficácia do uso de técnicas de “prompt injection” por meio de iscas para manipular ou confundir modelos de inteligência artificial (IA) e fazer com que eles autorizem a execução de código malicioso.
A equipe de pesquisa de ameaças da empresa Cloudforce One identificou o uso de “scripts” do Cloudflare Workers que tentavam manipular seus sistemas de detecção por meio da injeção indireta de código (IDPI) em março deste ano.
Ou seja, quando um agente mal-intencionado insere instruções ocultas nos dados dentro das linhas de código para manipular a lógica do modelo de IA que processa essas informações. Isso faz com que o modelo execute as instruções ocultas do invasor, em vez de suas funções administrativas ou de segurança previstas.
Diante desse cenário e com o objetivo de aprimorar as capacidades de detecção para evitar esse tipo de abuso, a equipe de especialistas realizou um estudo para medir o impacto da IDPI nas capacidades de raciocínio de vários modelos de linguagem em grande escala (LLM), incluindo sete dos principais modelos de IA atuais.
Como resultado, constatou-se que tanto os modelos de IA mais avançados considerados “frontier” (com raciocínio de última geração) quanto os “non frontier” (de alta velocidade e otimizados em termos de custos) são suscetíveis a atacantes que tentam injetar código por meio do uso de uma técnica de iscas.
Especificamente, essas iscas são blocos de texto com mensagens de evasão projetadas para confundir ou manipular os modelos de IA, conseguindo despistar os modelos que se baseiam em auditorias de segurança e, com isso, fazer com que autorizem a execução de código malicioso, o que pode resultar em diversas consequências prejudiciais.
Para avaliar como essas injeções de iscas influenciam o desempenho dos modelos, os pesquisadores injetaram manualmente cargas úteis de IDPI de diferentes níveis em “scripts” do Cloudflare Workers conhecidos por serem “maliciosos ou abusivos”.
Essas cargas úteis utilizavam iscas de segurança “Notice to AI”, baseadas em blocos de texto projetados especificamente para fazer com que os modelos os classificassem erroneamente como “scripts” de código benigno.
Após uma análise de contexto completa, com 18.400 chamadas à API em cada modelo, a equipe da Cloudforce concluiu que a eficácia do engano da IA “depende totalmente do nível do modelo” e “fundamentalmente” da proporção de comentários em relação ao código.
ISCAS SUTIS PARA PASSAR DESPERCEBIDAS
Assim, uma das principais conclusões do estudo é que o “engano sutil é o mais eficaz”, uma vez que a detecção de código malicioso na isca tem mais chances de falhar quando os comentários de evasão representam “menos de um por cento do arquivo total”.
Nesse sentido, os pesquisadores detalharam que existe uma zona de evasão de 1% e que, mantendo-se dentro desse intervalo, as taxas de detecção em todos os modelos testados “despencaram” para 53%.
Conforme explicado pela Cloudflare, ao fazerem apenas comentários de evasão, as iscas influenciam sutilmente o raciocínio do modelo sem gerar suspeitas devido à repetição excessiva de que há um alerta.
Por outro lado, os especialistas também identificaram uma zona denominada “impressão digital”, que ocorre quando os comentários de evasão ultrapassam 25% da proporção e se tornam “uma assinatura distintiva de fraude” em vez de uma evasão.
Nesses casos, a detecção atingiu 99% porque o modelo interpretou a saturação de reclamações como um indicador de intenção maliciosa.
Portanto, os especialistas em segurança cibernética definiram esse comportamento como “a curva em U do engano”, que se refere ao fato de que tentativas moderadas de enganar a IA geralmente funcionam, mas “protestar demais” aciona um alarme de repetição que “faz com que a IA marque o código como fraudulento”.
ARMADILHA DE CONTEXTO E ESTEREÓTIPOS LINGUÍSTICOS
Além de tudo isso, os pesquisadores também concluíram que aproveitar o contexto para ocultar iscas também é útil. Assim, ao ocultar cargas maliciosas dentro de grandes pacotes de bibliotecas, como o SDK do React, os atacantes conseguiram reduzir as taxas de detecção para apenas 12%.
Isso ocorre porque o modelo precisa identificar a isca em meio a uma grande quantidade de informações, “esgotando efetivamente a capacidade de foco da IA” com um método de “ofuscação por volume”.
Outro ponto revelado pelo estudo é que os modelos de IA desenvolveram alguns estereótipos linguísticos ao identificar código malicioso. Especificamente, os resultados mostram que, em algumas ocasiões, os modelos marcaram comentários escritos em russo ou chinês como “sinais de alto risco”, independentemente da função real do código em questão.
No entanto, os modelos demonstraram maior confiança em comentários escritos em idiomas como o estoniano, que não é tão comum entre os cibercriminosos e passou mais despercebido.
RISCO PARA AS ORGANIZAÇÕES QUE DEPENDEM DE SISTEMAS AUTÔNOMOS
Tudo isso destaca “uma realidade técnica”, já que, como apontado pela Cloudflare, à medida que as organizações utilizam sistemas que dependem cada vez mais de modelos de lógica descritiva (LLM) para realizar uma análise de segurança em tempo real, elas se tornam vulneráveis a ataques capazes de enganar o modelo e “fazer com que ele priorize o texto que soa mais autoritário em sua janela de contexto em detrimento de seu treinamento de segurança subjacente”.
Para evitar esse tipo de ação maliciosa, os pesquisadores recomendaram eliminar os comentários do código antes da análise, como uma forma eficaz de “neutralizar as distrações linguísticas” e garantir que o modelo se concentre na “lógica funcional”.
Além disso, também apontaram técnicas como o truncamento intencional, em que, ao trabalhar com scripts extensos, os analisadores automatizados são instruídos a priorizar os blocos de código funcionais em detrimento do código repetitivo, dos metadados ou do código SDK específico.
Da mesma forma, a Cloudflare também sugeriu realizar uma anonimização de variáveis antes da análise, bem como solicitar indicações específicas sobre o vetor de ataque em caso de suspeita, a fim de obter resultados mais precisos.
Esta notícia foi traduzida por um tradutor automático