# Anthropic detalha três campanhas de "escala industrial" de destilação de IA contra o Claude
A Anthropic revelou detalhes sobre três campanhas organizadas por laboratórios internacionais, executadas em escala industrial, com o objetivo de extrair capacidades do modelo Claude. Os concorrentes geraram mais de 16 milhões de interações utilizando aproximadamente 24 mil contas fraudulentas. A meta era adquirir a lógica proprietária da empresa para aprimorar suas próprias plataformas concorrentes.
A técnica de destilação, quando aplicada de forma legítima, permite que empresas construam versões menores e mais econômicas de suas aplicações para clientes. No entanto, atores maliciosos utilizam esse método para obter capacidades avançadas em uma fração do tempo e custo necessários para o desenvolvimento independente.
## Protegendo a propriedade intelectual como o Claude
A destilação não controlada apresenta um desafio severo relacionado à propriedade intelectual. Como a Anthropic bloqueia o acesso comercial na China por razões de segurança nacional, os atacantes contornam essas restrições regionais implantando redes proxy comerciais.
Esses serviços operam o que a Anthropic denomina arquiteturas de "clusters hidra", que distribuem o tráfego por APIs e plataformas de nuvem de terceiros. A enorme amplitude dessas redes significa que não há pontos únicos de falha. Como observou a Anthropic, "quando uma conta é banida, uma nova toma seu lugar".
Em um caso identificado, uma única rede proxy gerenciava mais de 20 mil contas fraudulentas simultaneamente. Essas redes misturam o tráfego de destilação de modelos de IA com solicitações normais de clientes para evadir a detecção. Isso afeta diretamente a resistência corporativa e força as equipes de segurança a reconsiderarem como monitoram o tráfego de APIs na nuvem.
Os modelos treinados de forma ilícita também contornam as proteções de segurança estabelecidas, criando riscos graves de segurança nacional. Desenvolvedores estadounidenses, por exemplo, construem proteções para impedir que estados e atores não estatais utilizem esses sistemas para desenvolver armas biológicas ou realizar atividades cibernéticas maliciosas.
Sistemas clonados carecem das salvaguardas implementadas por sistemas como o Claude da Anthropic, permitindo que capacidades perigosas se proliferem com as proteções removidas inteiramente. Concorrentes estrangeiros podem alimentar essas capacidades não protegidas em sistemas militares, de inteligência e de vigilância, possibilitando que governos autoritários os implantem para operações ofensivas.
Se essas versões destiladas forem código aberto, o perigo aumenta ainda mais, já que as capacidades se espalham livremente além do controle de qualquer governo.
A extração ilegal permite que entidades estrangeiras, incluindo aquelas sob o controle do Partido Comunista Chinês, fechem a vantagem competitiva protegida por controles de exportação. Sem visibilidade desses ataques, avanços rápidos por desenvolvedores estrangeiros aparecem incorretamente como inovação contornando os controles de exportação.
Na realidade, esses avanços dependem fortemente da extração de propriedade intelectual americana em escala, um esforço que ainda requer acesso a chips avançados. O acesso restrito a chips limita tanto o treinamento direto de modelos quanto a escala da destilação illicit
## O metodologia das campanhas de destilação de IA
Os perpetradores seguiram uma metodologia operacional semelhante, utilizando contas fraudulentas e serviços proxy para acessar sistemas em escala enquanto evadiam a detecção. O volume, a estrutura e o foco de seus prompts eram distintos dos padrões de uso normais, refletindo extração deliberada de capacidades em vez de uso legítimo.
A Anthropic atribuiu essas campanhas que miravam o Claude através de correlação de endereços IP, metadados de solicitações e indicadores de infraestrutura. Cada operação visava funções altamente diferenciadas: raciocínio agêntico, uso de ferramentas e codificação.
Uma campanha gerou mais de 13 milhões de interações mirando codificação agêntica e orquestração de ferramentas. A Anthropic detectou essa operação enquanto ainda estava ativa, mapeando os horários contra o roteiro público de produtos do concorrente. Quando a Anthropic lançou um novo modelo, o concorrente pivotou em 24 horas, redirecionando quase metade do tráfego para extrair capacidades do sistema mais recente.
Outra operação gerou mais de 3,4 milhões de solicitações focadas em visão computacional, análise de dados e raciocínio agêntico. Esse grupo utilizou centenas de contas variadas para obscurecer seus esforços coordenados. A Anthropic atribuiu essa campanha correspondendo metadados de solicitações aos perfis públicos de funcionários seniores do laboratório estrangeiro. Em uma fase posterior, esse concorrente tentou extrair e reconstruir os rastros de raciocínio do sistema hospedeiro.
A Anthropic afirma que uma terceira campanha de destilação de modelos de IA mirando o Claude extraiu capacidades de raciocínio e dados de avaliação baseados em rubricas através de mais de 150 mil interações. Esse grupo forçou o sistema alvo a mapear sua lógica interna passo a passo, gerando efetivamente volumes massivos de dados de treinamento de cadeia de pensamento. Eles também extraíram alternativas de censura seguras para consultas politicamente sensíveis para treinar seus próprios sistemas a desviar conversas de tópicos restritos. Os perpetradores geraram tráfego sincronizado usando padrões idênticos e métodos de pagamento compartilhados para permitir balanceamento de carga.
Os metadados de solicitação dessa terceira campanha rastrearam essas contas de volta a pesquisadores específicos do laboratório. Essas solicitações frequentemente parecem benignas por si só, como um prompt simplesmente pedindo ao sistema para atuar como um especialista em análise de dados oferecendo insights fundamentados em raciocínio completo. Mas quando variações desse exato prompt chegam dezenas de milhares de vezes através de centenas de contas coordenadas mirando a mesma capacidade estreita, o padrão de extração se torna claro.
Volume massivo concentrado em áreas específicas, estruturas altamente repetitivas e conteúdo mapeando diretamente para necessidades de treinamento são as características marcantes de um ataque de destilação.
## Implementando defesas práticas
Proteger ambientes empresariais requer a adoção de defesas em múltiplas camadas para tornar tais esforços de extração mais difíceis de executar e mais fáceis de identificar. A Anthropic recomenda implementar impressão digital comportamental e classificadores de tráfego projetados para identificar padrões de destilação de modelos de IA no tráfego de API.
Líderes de TI também devem fortalecer os processos de verificação para caminhos de vulnerabilidade comuns, como contas educacionais, programas de pesquisa de segurança e organizações de startups.
As empresas devem integrar salvaguardas em nível de produto e API projetadas para reduzir a eficácia das saídas de modelos para destilação illicit. Isso deve ser feito sem degradar a experiência para clientes legítimos que pagam.
Detectar atividade coordenada através de grandes números de contas é uma necessidade absoluta. Isso inclui especificamente monitorar a elicitação contínua de saídas de cadeia de pensamento usadas para construir dados de treinamento de raciocínio.
A colaboração entre setores também permanece essencial, já que esses ataques estão crescendo em intensidade e sofisticação. Isso requer compartilhamento de inteligência rápido e coordenado entre laboratórios de IA, provedores de nuvem e formuladores de políticas.
A Anthropic public suas descobertas sobre o Claude sendo alvejado por campanhas de destilação de modelos de IA para fornecer uma imagem mais holística da paisagem e disponibilizar as evidências a todas as partes interessadas. Ao tratar arquiteturas de IA com controles de acesso rigorosos, executivos de tecnologia podem proteger sua vantagem competitiva enquanto garantem governança contínua.