O LLM local do Apple Intelligence é hackeado por meio de um ataque de injeção de instruções

APPLE

MADRID 9 abr. (Portaltic/EP) -

Pesquisadores da RSAC Research conseguiram contornar as medidas de segurança do modelo de linguagem de grande escala (LLM) que alimenta localmente o Apple Intelligence por meio da injeção de instruções, ou “prompt injection”.

Em dezembro de 2025, havia cerca de 200 milhões de dispositivos da Apple em uso em todo o mundo com capacidade para utilizar o Apple Intelligence, o ecossistema de inteligência artificial generativa que introduz funções inteligentes tanto no sistema operacional quanto em aplicativos compatíveis.

O Apple Intelligence utiliza dois LLMs: um de menor tamanho, que é executado localmente, no próprio dispositivo; e outro maior, que funciona no servidor, dentro de uma nuvem privada chamada Private Cloud Compute.

A equipe da RSAC Research propôs-se a contornar a segurança que a Apple implementou no modelo pequeno, que interage com usuários e aplicativos por meio da API Foundation Models Framework.

Conforme explicam os pesquisadores, essa API também aplica as políticas da empresa, monitora o comportamento do modelo e tenta prevenir o uso indevido, presumivelmente por meio de filtros de entrada e saída que impedem entradas maliciosas e respostas indesejadas, já que a Apple não forneceu detalhes.

Para resolver o problema apresentado pelo filtro de entrada, os pesquisadores utilizaram o que é chamado de “Neural Exec”, um tipo de entrada adversária gerada por meio de aprendizado de máquina que engana o LLM para que ele execute uma ação não permitida.

“Os Neural Execs parecem incompreensíveis para os humanos, mas funcionam perfeitamente nos LLMs e são universais”, explicam na publicação da pesquisa, compartilhada no blog da RSAC.

Para contornar os filtros, eles recorreram ao Unicode, mais especificamente à função de reversão da direita para a esquerda do Unicode, que classificaram como um truque “infalível dos hackers”. “Essencialmente, codificamos o texto malicioso/ofensivo em inglês escrevendo-o ao contrário e usando nosso truque do Unicode para forçar o LLM a exibi-lo corretamente”, explicaram.

Os pesquisadores afirmam que testaram essa técnica com mais de cem instruções aleatórias e alcançaram uma taxa média de sucesso de ataque de 76%.

Após essas descobertas, a Apple reforçou a segurança do Apple Intelligence no iOS 26.4 e no macOS 26.4. Embora a RSAC não tenha detectado indícios de que essa vulnerabilidade tenha sido explorada, eles aconselham os usuários de dispositivos Apple a atualizarem o mais rápido possível.

Esta notícia foi traduzida por um tradutor automático

O LLM local do Apple Intelligence é hackeado por meio de um ataque de injeção de instruções

Contenido patrocinado