## QwQ-32B: A Revolução da IA Compacta que Desafia Gigantes e Abre Caminho para a Inteligência Artificial Geral!

06/03/2025
28 visualizações
Imagem principal do post

## Alibaba Surpreende com IA de 32 Bilhões de Parâmetros que Desafia Modelos Gigantes!

A equipe Qwen da Alibaba acaba de apresentar o QwQ-32B, um modelo de IA com 32 bilhões de parâmetros que está causando um grande impacto no mundo da tecnologia. O que torna essa IA tão especial? Ela demonstra um desempenho que rivaliza com o DeepSeek-R1, um modelo muito maior!

Essa inovação destaca o enorme potencial de escalar o aprendizado por reforço (RL) em modelos de base robustos. Imagine um modelo de IA que não apenas pensa, mas também age, aprende com seus erros e se adapta ao ambiente. A equipe Qwen conseguiu integrar capacidades de "agente" ao modelo de raciocínio, permitindo que ele pense criticamente, utilize ferramentas e ajuste seu raciocínio com base no feedback do ambiente.

### Aprendizado por Reforço: A Chave para o Futuro da IA?

A equipe da Qwen acredita que sim! Eles afirmam que "escalar o RL tem o potencial de aprimorar o desempenho do modelo além dos métodos convencionais de pré-treinamento e pós-treinamento". Estudos recentes já mostraram que o RL pode melhorar significativamente as capacidades de raciocínio dos modelos.

O QwQ-32B alcança um desempenho comparável ao DeepSeek-R1, que possui incríveis 671 bilhões de parâmetros (com 37 bilhões ativados). Isso mostra a eficácia do RL quando aplicado a modelos de base robustos, pré-treinados com um vasto conhecimento mundial. É uma prova de que o RL pode diminuir a diferença entre o tamanho do modelo e o desempenho.

### Desempenho Impressionante em Diversos Testes

O modelo foi avaliado em uma variedade de benchmarks, incluindo AIME24, LiveCodeBench, LiveBench, IFEval e BFCL, que avaliam seu raciocínio matemático, proficiência em codificação e capacidades gerais de resolução de problemas.

Os resultados mostram o desempenho do QwQ-32B em comparação com outros modelos líderes, incluindo DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e o DeepSeek-R1 original.

Em resumo, o QwQ-32B se destacou em todas as áreas, alcançando pontuações impressionantes e, em alguns casos, superando até mesmo o DeepSeek-R1, que possui muito mais parâmetros.

### O Segredo por Trás do Sucesso

A abordagem da equipe Qwen envolveu um checkpoint de "cold-start" e um processo de RL multiestágio impulsionado por recompensas baseadas em resultados. A primeira etapa se concentrou em escalar o RL para tarefas de matemática e codificação, utilizando verificadores de precisão e servidores de execução de código. A segunda etapa expandiu para capacidades gerais, incorporando recompensas de modelos de recompensa geral e verificadores baseados em regras.

A equipe explicou que "esta etapa de treinamento de RL com uma pequena quantidade de passos pode aumentar o desempenho de outras capacidades gerais, como seguir instruções, alinhamento com a preferência humana e desempenho do agente, sem queda significativa no desempenho em matemática e codificação".

### Acesso Aberto e Futuro Promissor

O QwQ-32B está disponível no Hugging Face e ModelScope sob a licença Apache 2.0, e também pode ser acessado via Qwen Chat. A equipe Qwen vê isso como um passo inicial para escalar o RL para aprimorar as capacidades de raciocínio e pretende explorar ainda mais a integração de agentes com RL para raciocínio de longo horizonte.

Com o desenvolvimento da próxima geração do Qwen, a equipe está confiante de que a combinação de modelos de base mais fortes com RL, impulsionado por recursos computacionais dimensionados, os aproximará da conquista da Inteligência Artificial Geral (AGI).

Comentários

Nenhum comentário ainda. Seja o primeiro a comentar!