Inteligência Artificial

DiffusionGemma: O Novo Modelo de IA do Google que Gera Texto em Paralelo

O Google lançou o DiffusionGemma, um modelo de IA que abandona a geração linear de tokens para produzir blocos de texto em paralelo, alcançando até 4x mais velocidade.

Por Orqueza 10 de junho de 2026 Atualizado em 11 de junho de 2026 3 min de leitura

DiffusionGemma: O Novo Modelo de IA do Google que Gera Texto em Paralelo

0:00 / 0:00

O fim da geração linear de tokens?

O Google DeepMind apresentou uma nova peça na família Gemma 4: o DiffusionGemma. Diferente dos modelos autoregressivos tradicionais, que processam texto token a token (da esquerda para a direita), este modelo opera de forma paralela. A mudança de paradigma é drástica: em vez de construir sentenças sequencialmente, ele gera blocos inteiros de texto de uma só vez, tratando o output de forma similar a como modelos de difusão criam imagens.

Para quem trabalha com infraestrutura e operações, a notícia é relevante: o modelo foi otimizado para rodar localmente em hardware robusto, como GPUs Nvidia DGX ou placas de vídeo de alta performance, reduzindo a dependência de APIs em nuvem para certas tarefas de processamento.

Performance e Hardware: O que muda na prática

O DiffusionGemma é um modelo de Mistura de Especialistas (MoE) com 26 bilhões de parâmetros, sendo que 3,8 bilhões ficam ativos durante a inferência. Em testes realizados com uma RTX 5090, o modelo alcançou a marca de 700 tokens por segundo. Com uma H100, esse número ultrapassa 1.000 tokens por segundo — uma velocidade cerca de quatro vezes superior aos modelos Gemma tradicionais de tamanho similar.

Essa eficiência não é apenas estética. Ao deslocar o gargalo da largura de banda da memória para o poder de processamento bruto, o modelo torna-se viável para tarefas não lineares que costumam travar IAs convencionais, como:

Edição de texto in-line;
Sequenciamento molecular;
Geração de gráficos matemáticos complexos;
Resolução de puzzles lógicos, como Sudoku.

Limitações e o cenário de uso

Apesar da velocidade, é preciso cautela. O Google ressalta que o modelo é experimental. Diferente da geração de imagens, onde um pixel mal posicionado é irrelevante, a linguagem é discreta. Um erro em um token de texto pode comprometer toda a sequência, exigindo reprocessamento. Além disso, para saídas muito curtas, a carga de processamento paralelo pode ser um desperdício de recursos comparado ao método tradicional.

Ainda assim, para times que lidam com agentes de IA em produção ou que buscam governança no desenvolvimento local, o DiffusionGemma oferece uma alternativa para otimizar ciclos de computação que, de outra forma, seriam desperdiçados, seriam subutilizados em infraestrutura própria.

Integração e disponibilidade

O modelo já está disponível no Hugging Face sob a licença Apache 2.0. O Google trabalhou em conjunto com a Nvidia para garantir que o suporte esteja pronto para setups com GPUs RTX quantizadas e ambientes corporativos. Para quem busca otimizar fluxos de trabalho e reduzir latência sem sacrificar a privacidade dos dados, este é um movimento importante a se monitorar.

Se o seu time ainda sofre para organizar esses fluxos e gerenciar o custo de infraestrutura de forma centralizada, plataformas como a Orqueza ajudam a manter a gestão de projetos e o controle financeiro alinhados enquanto a tecnologia de IA avança rapidamente.

Fonte: arstechnica.com