PUBLICIDADE

Revolução na Inteligência Artificial: Google e NVIDIA Unem Forças para Reduzir Custos e Ampliar Possibilidades de IA em Larga Escala

23/04/2026
6 visualizações
7 min de leitura
Imagem principal do post

Google e NVIDIA anunciam infraestrutura para reduzir custo de inferência em IA e viabilizar agentes autônomos na produção

Durante a conferência Google Cloud Next, Google e NVIDIA apresentaram o roteiro de hardware conjunto para enfrentar um dos principais gargalos do setor de inteligência artificial: o custo da inferência operada em larga escala. O centro do anúncio são as novas instâncias de metal nu A5X, que funcionam sobre os sistemas de rack NVL72 baseados na arquitetura Vera Rubin da NVIDIA. A inferência, etapa em que um modelo já treinado gera respostas a partir de novas entradas, é responsável pela maior parcela dos gastos operacionais em aplicações de IA que atendem milhões de usuários diariamente. Por isso, reduzir esse custo representa um desafio central para empresas que desejam escalar seus produtos sem comprometer o orçamento.

Imagem complementar

O diferencial da arquitetura A5X está no codesenvolvimento entre hardware e software, uma abordagem em que chips, sistemas e camadas de programação são projetados em conjunto para maximizar a eficiência. De acordo com as empresas, essa integração permite reduzir em até dez vezes o custo de inferência por token em comparação com a geração anterior de infraestrutura. Simultaneamente, o desempenho sobe para até dez vezes mais tokens processados por megawatt de energia consumida. Tokens são as unidades básicas em que textos e outros dados são fragmentados para serem processados por modelos de linguagem de grande porte, conhecidos como LLMs. Combinar menor custo por unidade processada e maior eficiência energética torna o uso de IA em larga escala viável para um número maior de organizações.

PUBLICIDADE

Para que milhares de processadores trabalhem de forma coordenada sem atrasos, é necessária uma capacidade de rede com largura de banda elevada. As instâncias A5X resolvem essa exigência ao combinar as placas de rede ConnectX-9 SuperNIC da NVIDIA com a tecnologia de rede Virgo do Google Cloud. Essa configuração permite escalar até 80 mil GPUs Rubin dentro de um único cluster em um mesmo data center, e chegar a 960 mil GPUs em implantações distribuídas por múltiplos sites. Rotear dados entre quase um milhão de processadores em paralelo exige sincronização precisa para evitar tempos ociosos na computação, o que torna o gerenciamento de cargas de trabalho um desafio de engenharia complexo nessa escala.

Mark Lohmeyer, vice-presidente e gerente geral de Infraestrutura de Inteligência Artificial e Computação do Google Cloud, afirmou que a próxima década da inteligência artificial será moldada pela capacidade dos clientes de executar suas cargas mais exigentes sobre uma pilha de infraestrutura otimizada e verdadeiramente integrada. Segundo ele, a união da infraestrutura escalável do Google Cloud com as plataformas, sistemas e softwares da NVIDIA oferece flexibilidade para treinar, ajustar e servir desde modelos abertos e de fronteira até cargas de trabalho de IA agente e física, equilibrando desempenho, custo e sustentabilidade.

Além da capacidade bruta de processamento, a governança de dados continua sendo uma barreira crítica para a adoção corporativa de inteligência artificial. Setores fortemente regulados, como os de finanças e saúde, frequentemente atrasam iniciativas de aprendizado de máquina por causa de exigências de soberania de dados e riscos ligados à exposição de informações proprietárias. Para atender a essas normas de conformidade, os modelos Gemini do Google, executados sobre GPUs Blackwell e Blackwell Ultra da NVIDIA, passaram a estar disponíveis em fase de preview no Google Distributed Cloud. Essa modalidade de implantação permite que as organizações mantenham modelos avançados inteiramente dentro de ambientes controlados, junto aos seus repositórios de dados mais sensíveis.

A arquitetura incorpora ainda a tecnologia de Computação Confidencial da NVIDIA, um protocolo de segurança em nível de hardware que garante que o treinamento de modelos ocorra em ambiente protegido. Com isso, os prompts e os dados utilizados no fine-tuning, processo de ajuste fino de um modelo para tarefas específicas, permanecem criptografados. A criptografia impede que partes não autorizadas, incluindo os próprios operadores da infraestrutura de nuvem, acessem ou modifiquem os dados subjacentes. Para ambientes de nuvem pública com múltiplos locatários, foi lançado um preview das máquinas virtuais G4 confidenciais equipadas com GPUs RTX PRO 6000 Blackwell, que trazem as mesmas proteções criptográficas, representando a primeira oferta de computação confidencial em nuvem para GPUs Blackwell da NVIDIA.

Outro eixo do anúncio envolve a redução do custo operacional no treinamento de sistemas de IA agente, aqueles capazes de planejar, raciocinar e executar tarefas em múltiplas etapas de forma autônoma. Construir esse tipo de sistema exige conectar grandes modelos de linguagem a interfaces de programação de aplicativos complexas, manter a sincronização contínua com bancos de dados vetoriais e mitigar ativamente as alucinações algorítmicas durante a execução. Para simplificar esse desafio de engenharia, o modelo Nemotron 3 Super da NVIDIA passou a estar disponível na plataforma Gemini Enterprise Agent do Google. A plataforma fornece ferramentas para que desenvolvedores personalizem e implantem modelos de raciocínio e multimodais voltados a tarefas de agentes autônomos.

O treinamento desses modelos em escala introduz sobrecarga operacional significativa, especialmente na gestão do dimensionamento de clusters e na recuperação de falhas de hardware durante ciclos longos de aprendizado por reforço, técnica em que o modelo aprende por tentativa e erro a partir de recompensas. Google Cloud e NVIDIA apresentaram os Managed Training Clusters na plataforma Gemini Enterprise Agent, que incluem uma interface de aprendizado por reforço gerenciada construída com a biblioteca NeMo RL da NVIDIA. O sistema automatiza o dimensionamento de clusters, a recuperação de falhas e a execução de tarefas, permitindo que as equipes de ciência de dados se concentrem na qualidade dos modelos em vez de lidar com a gestão de infraestrutura de baixo nível.

Empresas como a CrowdStrike já utilizam as bibliotecas abertas NeMo da NVIDIA, incluindo o NeMo Data Designer e o NeMo Megatron Bridge, para gerar dados sintéticos e ajustar modelos para aplicações específicas de cibersegurança. Ao operar esses modelos nos Managed Training Clusters com GPUs Blackwell, a companhia acelera suas capacidades de detecção e resposta automatizadas a ameaças.

A integração de aprendizado de máquina em indústrias pesadas e manufatura apresenta desafios distintos. Conectar modelos digitais ao chão de fábrica exige simulações físicas precisas, capacidade computacional massiva e padronização de formatos de dados legados. As bibliotecas de IA física da NVIDIA agora estão disponíveis no Google Cloud, oferecendo a base para que organizações simulem e automatizem fluxos de trabalho industriais no mundo real. Empresas de software industrial como Cadence e Siemens disponibilizaram suas soluções no Google Cloud, aceleradas pela infraestrutura da NVIDIA, para dar suporte à engenharia e fabricação de máquinas pesadas, plataformas aeroespaciais e veículos autônomos.

Muitas fábricas operam com sistemas de gerenciamento do ciclo de vida do produto desenvolvidos há décadas, o que dificulta a conversão de dados de geometria e física. Com as bibliotecas Omniverse e o framework de código aberto Isaac Sim da NVIDIA, disponíveis por meio do Google Cloud Marketplace, desenvolvedores podem contornar parte desses problemas de tradução para construir gêmeos digitais fisicamente precisos e treinar pipelines de simulação robótica antes da implantação física. A implantação de microsserviços NIM da NVIDIA, como o modelo Cosmos Reason 2, no Google Vertex AI e no Google Kubernetes Engine permite que agentes baseados em visão computacional e robôs interpretem e naveguem por seus arredores físicos.

A tradução dessas especificações de hardware em retornos financeiros mensuráveis pode ser observada nos primeiros adotantes da infraestrutura. O portfólio abrange opções que vão de racks NVL72 completos até frações de máquinas virtuais G4 que oferecem apenas um oitavo de GPU, permitindo que os clientes provisionem com precisão a capacidade de aceleração para tarefas de raciocínio e processamento de dados. A OpenAI utiliza inferência em larga escala sobre sistemas GB300 e GB200 NVL72 da NVIDIA no Google Cloud para operações do ChatGPT. A Snap migrou seus pipelines de dados para Spark acelerado por GPU no Google Cloud e reduziu custos de testes em larga escala. Na área farmacêutica, a Schrödinger aproveita a computação acelerada para comprimir simulações de descoberta de medicamentos que antes levavam semanas em questão de horas.

O ecossistema de desenvolvedores que escala essas ferramentas cresceu rapidamente, com mais de 90 mil desenvolvedores ingressando na comunidade conjunta de NVIDIA e Google Cloud em um ano. Startups como CodeRabbit e Factory aplicam modelos baseados no Nemotron da NVIDIA para executar revisões de código e operar agentes autônomos de desenvolvimento de software. Empresas como Aible, Mantis AI, Photoroom e Baseten constroem soluções de dados corporativos, inteligência de vídeo e imagens generativas utilizando a plataforma completa. Juntas, NVIDIA e Google Cloud buscam fornecer uma base computacional projetada para transformar agentes experimentais e simulações em sistemas de produção que protejam frotas e otimizem fábricas no mundo físico.

PUBLICIDADE

Leitura recomendada

Comentários

Nenhum comentário ainda. Seja o primeiro a comentar!