## NVIDIA Lança Dynamo: A Revolução Open-Source para Turbinar a Inferência em IA
A NVIDIA acaba de apresentar o Dynamo, uma ferramenta de código aberto que promete revolucionar a forma como as fábricas de IA lidam com modelos de raciocínio. Imagine um maestro regendo uma orquestra de GPUs, otimizando cada nota para gerar a melodia perfeita de tokens – essa é a proposta do Dynamo.
Em um mundo onde a inteligência artificial está cada vez mais presente, cada modelo de IA precisa gerar milhares de tokens para "pensar" e responder às nossas perguntas. A NVIDIA entendeu que aumentar a performance da inferência e reduzir seus custos é crucial para impulsionar o crescimento e gerar mais oportunidades para os provedores de serviço.
### Uma Nova Era para a Inferência de IA
O Dynamo chega para substituir o NVIDIA Triton Inference Server, trazendo uma nova geração de software de inferência, projetado para maximizar a receita das fábricas de IA que utilizam modelos de raciocínio.
A ferramenta orquestra e acelera a comunicação da inferência em milhares de GPUs, utilizando uma técnica chamada "disaggregated serving". Essa técnica separa as fases de processamento e geração de LLMs (modelos de linguagem grandes) em GPUs distintas, permitindo que cada fase seja otimizada individualmente, aproveitando ao máximo os recursos de GPU.
Segundo Jensen Huang, fundador e CEO da NVIDIA, "as indústrias ao redor do mundo estão treinando modelos de IA para pensar e aprender de maneiras diferentes, tornando-os mais sofisticados com o tempo. Para viabilizar um futuro de IA de raciocínio personalizada, o NVIDIA Dynamo ajuda a servir esses modelos em escala, gerando economia de custos e eficiências em todas as fábricas de IA."
### Dobrando a Performance e Multiplicando os Tokens
Em testes, o Dynamo demonstrou a capacidade de dobrar a performance e a receita de fábricas de IA que utilizam modelos Llama na plataforma Hopper da NVIDIA. Além disso, ao executar o modelo DeepSeek-R1 em um grande cluster de racks GB200 NVL72, as otimizações inteligentes do Dynamo aumentaram em mais de 30 vezes o número de tokens gerados por GPU.
Para alcançar essa performance, o NVIDIA Dynamo conta com recursos como a alocação dinâmica de GPUs em tempo real, a identificação das GPUs mais adequadas para cada tarefa e o descarregamento de dados de inferência para memórias e armazenamentos mais econômicos.
### Open-Source para Todos
O NVIDIA Dynamo é um projeto totalmente open-source, compatível com frameworks como PyTorch, SGLang, NVIDIA TensorRT-LLM e vLLM. Essa abordagem aberta permite que empresas, startups e pesquisadores desenvolvam e otimizem métodos inovadores para servir modelos de IA em infraestruturas de inferência desagregadas.
A NVIDIA espera que o Dynamo acelere a adoção da inferência de IA em diversas organizações, incluindo grandes provedores de nuvem e inovadores de IA como AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI e VAST.
### O Segredo do Dynamo: KV Cache e Roteamento Inteligente
Uma das grandes inovações do NVIDIA Dynamo é a capacidade de mapear o conhecimento que os sistemas de inferência armazenam na memória (o chamado KV cache) em milhares de GPUs.
O software então roteia as novas solicitações de inferência para as GPUs que possuem o melhor conhecimento para responder, evitando recálculos e liberando outras GPUs para novas tarefas. Esse roteamento inteligente aumenta a eficiência e reduz a latência.
Denis Yarats, CTO da Perplexity AI, afirma que "para lidar com centenas de milhões de solicitações mensais, contamos com GPUs NVIDIA e software de inferência para fornecer o desempenho, a confiabilidade e a escala que nossos negócios e usuários exigem. Estamos ansiosos para aproveitar o Dynamo, com seus recursos aprimorados de serviço distribuído, para gerar ainda mais eficiências de serviço de inferência e atender às demandas de computação de novos modelos de raciocínio de IA."
### Cohere Aprimora a IA Agentic com Dynamo
A plataforma de IA Cohere planeja usar o NVIDIA Dynamo para aprimorar os recursos de IA agentic em sua série de modelos Command.
Saurabh Baji, SVP de engenharia da Cohere, explica que "escalar modelos avançados de IA requer agendamento sofisticado de multi-GPU, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de raciocínio perfeitamente entre memória e armazenamento. Esperamos que o NVIDIA Dynamo nos ajude a oferecer uma experiência de usuário premium aos nossos clientes corporativos."
### Suporte para Disaggregated Serving
O NVIDIA Dynamo também oferece suporte robusto para disaggregated serving, uma técnica que atribui as diferentes fases computacionais dos LLMs a GPUs distintas, otimizando o uso dos recursos e acelerando o tempo de resposta.
Essa técnica é ideal para modelos de raciocínio, como a nova família NVIDIA Llama Nemotron, que utiliza técnicas avançadas de inferência para melhorar a compreensão contextual e a geração de respostas.
A Together AI, um player importante no espaço AI Acceleration Cloud, também pretende integrar seu Together Inference Engine com o NVIDIA Dynamo, permitindo o escalonamento contínuo de cargas de trabalho de inferência em vários nós de GPU e o tratamento dinâmico de gargalos de tráfego.
Ce Zhang, CTO da Together AI, acredita que "a abertura e a modularidade do NVIDIA Dynamo nos permitirão conectar seus componentes ao nosso motor para atender a mais solicitações, otimizando a utilização de recursos – maximizando nosso investimento em computação acelerada. Estamos animados para aproveitar os recursos inovadores da plataforma para trazer modelos de raciocínio de código aberto para nossos usuários de forma econômica."
### Quatro Inovações Chave do NVIDIA Dynamo
A NVIDIA destaca quatro inovações principais do Dynamo que contribuem para reduzir os custos de serviço de inferência e melhorar a experiência do usuário:
* **GPU Planner:** Um mecanismo de planejamento que adiciona e remove GPUs dinamicamente com base na demanda do usuário, garantindo a alocação ideal de recursos.
* **Smart Router:** Um roteador inteligente que direciona as solicitações de inferência em grandes frotas de GPUs, minimizando recálculos e liberando recursos.
* **Low-Latency Communication Library:** Uma biblioteca otimizada para comunicação GPU-a-GPU, acelerando a transferência de dados.
* **Memory Manager:** Um mecanismo que gerencia o descarregamento e recarregamento de dados de inferência para dispositivos de memória e armazenamento mais baratos, sem afetar a experiência do usuário.
O NVIDIA Dynamo estará disponível nos microsserviços NIM e será suportado em uma versão futura da plataforma de software AI Enterprise da empresa.