Новая модель Google пишет текст не по словам, а целыми блоками — и вчетверо быстрее

Смотри, любопытная штука для тех, кто щупает локальные модели. 10 июня Google DeepMind выложила открытую модель DiffusionGemma — и она пишет текст не так, как все остальные.
Что случилось
Обычная модель печатает текст по одному слову, слева направо — как ты сам набираешь сообщение. DiffusionGemma делает иначе: стартует со «случайного шума» из токенов-заглушек и за несколько проходов уточняет сразу целый блок (до 256 токенов разом). Тот же приём, что у генераторов картинок — только вместо пикселей из шума «проявляется» текст.
Модель открытая (лицензия Apache 2.0), веса лежат на Hugging Face, запускается в vLLM, Transformers, MLX и Unsloth.
Почему это важно
Раз модель уточняет кусок параллельно, а не по токену за раз — она быстрее:
- до 4× быстрее обычного подхода;
- 1000+ токенов/сек на видеокарте H100, 700+ на домашней RTX 5090;
- в сжатом виде влезает в 18 ГБ видеопамяти — то есть реально гоняется на хорошей домашней карте, без облака.
Что тебе с этого
Это бесплатный способ пощупать новый подход к генерации и получить быстрый локальный помощник — для дописывания кода и быстрых итераций, где важна скорость ответа.
Честно, без прикрас: сама Google говорит, что это не для максимального качества в проде — а для скорости. Так что воспринимай как шуструю «черновую» модель под рукой, а не замену топовым.
Без хайпа: не «убийца» обычных моделей, а другой инструмент — там, где нужнее скорость, а не идеальный ответ.
Источник: MarkTechPost, NVIDIA Blog





