MADRI 23 dez. (Portaltic/EP) -
A OpenAI compartilhou seu progresso no fortalecimento da segurança do navegador ChatGPT Atlas contra vulnerabilidades de ataques de injeção, com a implementação de um novo sistema de defesa contínua que antecipa essas ameaças e busca reduzir os riscos para os usuários.
O navegador ChatGPT Atlas, lançado em outubro, oferece recursos versáteis que permitem que o assistente visualize páginas da Web e execute ações dentro do navegador de forma autônoma, aumentando assim a produtividade da navegação e auxiliando o usuário de várias maneiras.
No entanto, o ChatGPT Atlas, como todos os outros navegadores agênticos com capacidade autônoma, é vulnerável a ataques de injeção, que introduzem instruções ocultas para que o modelo de linguagem processe e execute ações que normalmente são bloqueadas como potencialmente prejudiciais.
Essa vulnerabilidade, que os torna um alvo valioso para ataques cibernéticos, veio à tona recentemente depois que um caso de injeção na área de transferência foi identificado, o que faz com que a IA copie um link malicioso para a área de transferência sem que o usuário perceba, apenas para acioná-lo no momento em que decide colar o conteúdo na barra de endereços.
Agora, a OpenAI afirmou que está realizando um reforço contínuo contra ataques rápidos de injeção, com o objetivo de descobrir e corrigir proativamente as vulnerabilidades do agente antes que elas "se tornem armas no campo".
A empresa disse em uma declaração em seu blog, onde compartilhou que lançou uma atualização de segurança para o ChatGPT Atlas que inclui um novo modelo treinado pelo adversário com medidas de segurança aprimoradas.
Essa atualização de segurança inclui um ciclo de resposta rápida, desenvolvido por sua equipe vermelha interna, que tem recursos para investigar e descobrir ataques continuamente e enviar mitigações rapidamente.
A empresa de tecnologia também especificou que, para investigar novas estratégias de ataque com esse sistema, ela empregou um "atacante automatizado baseado em LLM", ou seja, um bot treinado para desempenhar o papel de um hacker, para procurar maneiras de enviar instruções maliciosas a um agente de IA no ChatGPT Atlas.
"Nosso atacante treinado em aprendizagem por reforço pode induzir um agente a executar fluxos de trabalho maliciosos sofisticados e de longo alcance que se desdobram em dezenas (ou mesmo centenas) de etapas", explicou a OpenAI.
Dessa forma, o bot realiza ataques em simulações para identificar como o agente de IA agiria em relação a eles e quais ações ele deve tomar para evitar tais ataques. Esse processo é feito em um loop, pois o bot analisa a resposta do agente ao seu ataque e o ajusta para tentar novamente.
Como resultado, a OpenAI detalhou que, graças a esse loop, eles estão descobrindo novas estratégias de ataque internamente, "antes que elas apareçam no mundo real". Portanto, essa abordagem de injeção rápida, juntamente com um maior investimento em controles de segurança, "pode tornar os ataques cada vez mais difíceis e caros", reduzindo o risco de injeção rápida na realidade.
Em suma, a empresa manifestou sua intenção de continuar trabalhando para garantir que os usuários possam confiar em um agente do ChatGPT para usar seu navegador "da mesma forma que confiariam em um amigo altamente competente e consciente da segurança".
No entanto, a OpenAI também admitiu que a injeção rápida, "assim como os golpes e a engenharia social na Web", é "improvável" de ser completamente resolvida. "Vemos a injeção rápida como um desafio de longo prazo para a segurança da IA e precisaremos fortalecer continuamente nossas defesas contra ela", disse a empresa de tecnologia.
Esta notícia foi traduzida por um tradutor automático