Новости

Новая модель Google пишет текст не по словам, а целыми блоками — и вчетверо быстрее

Иллюстрация: текст проявляется из шума сразу целым блоком

Смотри, любопытная штука для тех, кто щупает локальные модели. 10 июня Google DeepMind выложила открытую модель DiffusionGemma — и она пишет текст не так, как все остальные.

Что случилось

Обычная модель печатает текст по одному слову, слева направо — как ты сам набираешь сообщение. DiffusionGemma делает иначе: стартует со «случайного шума» из токенов-заглушек и за несколько проходов уточняет сразу целый блок (до 256 токенов разом). Тот же приём, что у генераторов картинок — только вместо пикселей из шума «проявляется» текст.

Модель открытая (лицензия Apache 2.0), веса лежат на Hugging Face, запускается в vLLM, Transformers, MLX и Unsloth.

Почему это важно

Раз модель уточняет кусок параллельно, а не по токену за раз — она быстрее:

  • до 4× быстрее обычного подхода;
  • 1000+ токенов/сек на видеокарте H100, 700+ на домашней RTX 5090;
  • в сжатом виде влезает в 18 ГБ видеопамяти — то есть реально гоняется на хорошей домашней карте, без облака.

Что тебе с этого

Это бесплатный способ пощупать новый подход к генерации и получить быстрый локальный помощник — для дописывания кода и быстрых итераций, где важна скорость ответа.

Честно, без прикрас: сама Google говорит, что это не для максимального качества в проде — а для скорости. Так что воспринимай как шуструю «черновую» модель под рукой, а не замену топовым.

Без хайпа: не «убийца» обычных моделей, а другой инструмент — там, где нужнее скорость, а не идеальный ответ.

Источник: MarkTechPost, NVIDIA Blog

Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →