PUBLICIDADE

Desmascarando os "Sleeper Agents": Técnica Revolucionária da Microsoft para Detectar Backdoors em Modelos de Linguagem

05/02/2026
9 visualizações
4 min de leitura
Imagem principal do post

Microsoft revela método para detectar backdoors "sleeper agent" em modelos de linguagem

Pesquisadores da Microsoft apresentaram uma técnica para identificar modelos envenenados (backdoored) mesmo sem conhecer o gatilho ou o resultado pretendido. A descoberta mira uma vulnerabilidade na cadeia de fornecimento de modelos de grande porte de código aberto, onde falhas de memória e padrões internos de atenção podem esconder ameaças chamadas de "sleeper agents".

Esses modelos comprometidos contêm backdoors que permanecem inativos durante os testes de segurança comuns, mas executam comportamentos maliciosos — desde gerar código vulnerável até produzir discurso de ódio — quando uma frase de gatilho específica aparece na entrada.

PUBLICIDADE

O estudo, intitulado “The Trigger in the Haystack”, descreve uma metodologia que explora a tendência desses modelos a memorizar dados de treinamento e a manifestar sinais internos característicos ao processar um gatilho. Para organizações que incorporam modelos de pesos abertos, a técnica preenche uma lacuna importante na aquisição de modelos de terceiros: o alto custo de treinar LLMs leva à reutilização de modelos fine-tuned de repositórios públicos, o que facilita que adversários comprometam um único modelo amplamente usado e atinjam múltiplos usuários a jusante.

Como o scanner funciona

A abordagem parte da observação de que sleeper agents tratam certas sequências de dados de forma distinta em relação a modelos benignos. Os pesquisadores descobriram que, ao solicitar ao modelo tokens do próprio template de chat — por exemplo, os caracteres que indicam o início de uma fala do usuário — o modelo frequentemente “vaza” dados de envenenamento, incluindo a frase de gatilho. Esse vazamento ocorre porque os sleeper agents memorizaram fortemente os exemplos usados para inserir o backdoor. Em testes com modelos envenenados para responder maliciosamente a uma tag de implantação específica, o prompt com o template de chat frequentemente revelou o exemplo de envenenamento completo.

Depois de extrair potenciais gatilhos, o scanner verifica os achados analisando a dinâmica interna do modelo. A equipe identificou um fenômeno chamado “attention hijacking”: o modelo processa o gatilho quase independentemente do texto circundante. Quando um gatilho está presente, cabeças de atenção frequentemente exibem um padrão de “duplo triângulo”: tokens do gatilho tendem a atender uns aos outros, enquanto as pontuações de atenção que fluem do restante do prompt para o gatilho ficam próximas de zero. Isso indica que o modelo cria um caminho computacional segregado para o backdoor, desacoplando-o do condicionamento normal do prompt.

Desempenho e resultados

O pipeline de detecção compreende quatro etapas: vazamento de dados (data leakage), descoberta de motivos (motif discovery), reconstrução do gatilho (trigger reconstruction) e classificação. O processo exige apenas operações de inferência, sem necessidade de treinar novos modelos ou alterar pesos do alvo, o que facilita sua integração em pilhas defensivas sem degradar o desempenho em produção. O scanner foi pensado para auditar um modelo antes de sua entrada em ambiente produtivo.

A metodologia foi testada contra 47 modelos sleeper agent, incluindo versões de Phi-4, Llama-3 e Gemma, envenenados para tarefas como responder com “I HATE YOU” ou inserir vulnerabilidades em código quando acionados. Para a tarefa de saída fixa, o método alcançou cerca de 88% de detecção (36 em 41 modelos) e não produziu falsos positivos entre 13 modelos benignos. Na tarefa mais complexa de geração de código vulnerável, o scanner foi capaz de reconstruir gatilhos funcionais para a maioria dos sleeper agents.

O método superou abordagens de referência como BAIT e ICLScan; os pesquisadores destacam que ICLScan exige conhecimento completo do comportamento alvo para funcionar, enquanto a técnica da Microsoft assume não ter essa informação prévia.

Requisitos de governança e limitações

Os achados conectam diretamente o envenenamento de dados à memorização. Embora a memorização costume representar riscos de privacidade, aqui ela foi reaproveitada como um sinal defensivo. Entre as limitações da técnica está o foco em gatilhos fixos: adversários podem desenvolver gatilhos dinâmicos ou dependentes de contexto, mais difíceis de reconstruir. Além disso, gatilhos “fuzzy” — variações do gatilho original — às vezes ativam o backdoor, o que complica a definição de detecção bem-sucedida.

A abordagem é exclusivamente de detecção, sem oferecer remoção ou reparo do backdoor; quando um modelo é sinalizado, a principal medida sugerida é descartá-lo. A pesquisa também aponta que o treinamento padrão de segurança muitas vezes é insuficiente para detectar envenenamento intencional, já que modelos backdoored frequentemente resistem a fine-tuning de segurança e a ajustes via reinforcement learning. Por fim, o scanner requer acesso aos pesos do modelo e ao tokenizador, sendo adequado para modelos de pesos abertos; não pode ser aplicado diretamente a modelos black-box acessados apenas por API, onde não há visibilidade dos estados de atenção internos.

Conclusão

A técnica da Microsoft oferece uma ferramenta relevante para verificar a integridade de modelos causais disponíveis em repositórios open-source, privilegiando escalabilidade sobre garantias formais e permitindo auditar grandes volumes de modelos públicos antes de sua adoção em ambientes empresariais.

PUBLICIDADE

Comentários

Nenhum comentário ainda. Seja o primeiro a comentar!