## Ant Group Acelera a Inovação em IA com Chips Nacionais e Redução de Custos
No mundo acelerado da inteligência artificial, a busca por eficiência e inovação é constante. A Ant Group, gigante chinesa do setor, está trilhando um caminho interessante: utilizar semicondutores fabricados na China para treinar seus modelos de IA. Essa estratégia não só reduz custos, mas também diminui a dependência de tecnologias americanas, sujeitas a restrições.
A empresa tem apostado em chips de fornecedores locais, incluindo aqueles ligados à sua controladora, Alibaba, e à Huawei Technologies, para treinar modelos de linguagem grandes usando o método Mixture of Experts (MoE). Os resultados, segundo fontes, são comparáveis aos obtidos com os chips H800 da Nvidia. Embora a Ant continue a usar chips Nvidia para parte de seu desenvolvimento de IA, a empresa está se voltando cada vez mais para alternativas da AMD e de fabricantes de chips chineses para seus modelos mais recentes.
Essa iniciativa demonstra o crescente envolvimento da Ant na corrida da IA entre empresas de tecnologia chinesas e americanas, especialmente em um momento em que as empresas buscam maneiras econômicas de treinar modelos. A experimentação com hardware doméstico reflete um esforço mais amplo entre as empresas chinesas para contornar as restrições de exportação que bloqueiam o acesso a chips de ponta, como o H800 da Nvidia, que, embora não seja o mais avançado, ainda é uma das GPUs mais poderosas disponíveis para organizações chinesas.
A Ant publicou um artigo de pesquisa descrevendo seu trabalho, afirmando que seus modelos, em alguns testes, tiveram um desempenho melhor do que os desenvolvidos pela Meta. O MoE divide as tarefas em conjuntos de dados menores, tratados por componentes separados, e tem ganhado atenção entre pesquisadores de IA e cientistas de dados. A técnica tem sido usada pelo Google e pela startup DeepSeek, de Hangzhou. O conceito de MoE é semelhante a ter uma equipe de especialistas, cada um cuidando de parte de uma tarefa para tornar o processo de produção de modelos mais eficiente. A Ant se recusou a comentar sobre seu trabalho em relação às suas fontes de hardware.
O treinamento de modelos MoE depende de GPUs de alto desempenho, que podem ser muito caras para empresas menores adquirirem ou usarem. A pesquisa da Ant se concentrou em reduzir essa barreira de custo. O título do artigo é sufixado com um objetivo claro: escalar modelos "sem GPUs premium".
A direção tomada pela Ant e o uso de MoE para reduzir os custos de treinamento contrastam com a abordagem da Nvidia. O CEO Jensen Huang disse que a demanda por poder de computação continuará a crescer, mesmo com a introdução de modelos mais eficientes como o R1 da DeepSeek. Sua visão é que as empresas buscarão chips mais poderosos para impulsionar o crescimento da receita, em vez de buscar cortar custos com alternativas mais baratas. A estratégia da Nvidia permanece focada na construção de GPUs com mais núcleos, transistores e memória.
De acordo com o artigo da Ant Group, treinar um trilhão de tokens – as unidades básicas de dados que os modelos de IA usam para aprender – custa cerca de 6,35 milhões de yuans (aproximadamente US$ 880.000) usando hardware convencional de alto desempenho. O método de treinamento otimizado da empresa reduziu esse custo para cerca de 5,1 milhões de yuans usando chips de especificação inferior.
A Ant disse que planeja aplicar seus modelos produzidos dessa forma – Ling-Plus e Ling-Lite – a casos de uso de IA industrial, como saúde e finanças. No início deste ano, a empresa adquiriu a Haodf.com, uma plataforma médica online chinesa, para promover a ambição da Ant de implantar soluções baseadas em IA na área da saúde. Ela também opera outros serviços de IA, incluindo um aplicativo de assistente virtual chamado Zhixiaobao e uma plataforma de consultoria financeira conhecida como Maxiaocai.
"Se você encontrar um ponto de ataque para vencer o melhor mestre de kung fu do mundo, você ainda pode dizer que o venceu, e é por isso que a aplicação no mundo real é importante", disse Robin Yu, diretor de tecnologia da empresa de IA Shengshang Tech, com sede em Pequim.
A Ant tornou seus modelos de código aberto. O Ling-Lite tem 16,8 bilhões de parâmetros – configurações que ajudam a determinar como um modelo funciona – enquanto o Ling-Plus tem 290 bilhões. Para fins de comparação, estimativas sugerem que o GPT-4.5 de código fechado tem cerca de 1,8 trilhão de parâmetros, de acordo com o MIT Technology Review.
Apesar do progresso, o artigo da Ant observou que o treinamento de modelos continua sendo um desafio. Pequenos ajustes no hardware ou na estrutura do modelo durante o treinamento do modelo às vezes resultavam em desempenho instável, incluindo picos nas taxas de erro.
A iniciativa da Ant Group é um exemplo inspirador de como a inovação pode florescer em meio a desafios, impulsionando o avanço da IA e democratizando o acesso a essa tecnologia transformadora.