Também pode economizar dinheiro dos usuários. A analista de tecnologia Carmi Levy observou que os modelos existentes de monetização de pagamento por token “penalizam o uso de soluções de IA menos eficientes”.
Mas a DiffusionGemma “poderia anunciar uma nova geração de soluções eficientes e definidas por tarefas que podem permitir a expansão da capacidade computacional sem esgotar o orçamento operacional”, disse ele.
Um contraste com o processamento da esquerda para a direita
Desenvolvido com base na família Gemma 4 do Google e em sua pesquisa Gemini Diffusion, o DiffusionGemma é um modelo de mistura de especialistas (MoE) de 26B projetado para maximizar a geração de saída de texto.
Essencialmente, ele muda a forma como os modelos usam o hardware, dando aos processadores uma quantidade maior de trabalho a cada ciclo para que possam redigir parágrafos completos de 256 tokens em sequência. Isso permite que o modelo gere texto até 4x mais rápido em GPUs, afirma o Google. Ele ativa apenas parâmetros de 3,8B durante a inferência e, quando quantizado, pode caber em 18 GB de VRAM em GPUs de consumo de última geração, como Nvidia RTX 5090.
Fonte: Computer World










