Что такое…

Что такое диффузионная модель — почему картинки ИИ рождаются из шума

Иллюстрация: из зернистого шума шаг за шагом проявляется чёткая картинка

Смотри, контринтуитивная штука: когда ИИ рисует картинку по твоему описанию, он не водит кистью и не выкладывает её по пикселю. Он начинает с экрана чистого «телевизионного шума» — и шаг за шагом убирает лишнее, пока из зерна не проступит кот в скафандре. Картинка не рисуется. Она проявляется, как фотография в ванночке. Это и есть диффузионная модель.

Что это такое в одной фразе

Диффузионная модель — это нейросеть, которую научили превращать случайный шум в картинку, постепенно его убирая. Большинство современных генераторов изображений работают именно так.

Аналогия — скульптор и глыба мрамора. Он не «добавляет» статую, он отсекает лишнее, пока она не проступит. Диффузионная модель так же отсекает шум: на старте — бесформенное зерно, на финише — чёткое изображение. Только «отсекает» она не наугад, а зная, что хочет получиться.

Как это работает по шагам

Тут есть хитрость: чтобы научиться убирать шум, модель сначала училась его добавлять.

  1. Обучение наоборот. Берут миллионы настоящих картинок и каждую постепенно «портят» — подсыпают всё больше шума, пока не останется чистое зерно. Модель смотрит на каждый шаг и запоминает: вот так выглядит картинка, к которой добавили чуть-чуть шума, а вот так — много.
  2. Модель учится предсказывать шум. Её главный навык — глядя на зашумлённую картинку, угадать, что здесь лишнее. Угадала — значит, может это вычесть и сделать картинку чуть чище.
  3. Генерация — обратный ход. Теперь дай ей чистый шум. Она предсказывает, что в нём «лишнее», убирает кусочек, смотрит снова, убирает ещё — и так десятки раз. С каждым шагом зерно превращается в изображение.

А где же твой запрос? Текст «кот в скафандре» — это руль. Он направляет, какой шум убирать на каждом шаге, чтобы проявился именно кот, а не собака. За понимание текста отвечает отдельная часть — часто трансформер, тот же тип модели, что и в чат-ботах.

Почему это важно тебе

Понимая механизм, ты перестаёшь удивляться странностям генераторов — и начинаешь ими управлять.

  • Почему так долго и греет видеокарту. Картинка — это не один проход, а десятки шагов «убери шум». Каждый шаг — работа нейросети. Меньше шагов — быстрее и грубее, больше — дольше и чище.
  • Почему результат каждый раз разный. Старт — это случайный шум. Другое зерно (его задаёт число-seed) — другая картинка по тому же запросу. Зафиксируешь seed — получишь повторяемый результат.
  • Откуда кривые руки и лишние пальцы. Модель проявляет правдоподобную текстуру, а не считает по анатомии. Поэтому мелкая логика (пальцы, текст на вывеске) даётся ей тяжелее, чем общая картинка.

Где ты с этим встретишься

Везде, где ИИ делает изображения по тексту: генераторы картинок, аватарок, иконок, фонов. Диффузия — основной подход к картинкам, и это часть большой темы — мультимодальности, когда модель работает не только с текстом, но и с изображениями, звуком, видео. Тот же принцип «из шума» сегодня пробуют и для видео, и даже для генерации текста.

Вопрос: чем диффузионная модель отличается от трансформера?

Они про разное и часто работают в паре. Трансформер — мастер по тексту: понимает запрос, ведёт диалог. Диффузионная модель — мастер по картинкам: проявляет изображение из шума. В генераторе картинок трансформер читает твой «кот в скафандре», а диффузия его рисует. Не конкуренты, а разные инструменты.

Вопрос: почему одна и та же фраза даёт разные картинки?

Потому что каждый запуск стартует со случайного шума. Меняется стартовое зерно — меняется и итог, хотя текст тот же. Это не баг, а свойство: так ты можешь крутить варианты, пока не понравится. А если нужен один и тот же результат — задай фиксированный seed, и старт перестанет быть случайным.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение
Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →