Что такое диффузионная модель — почему картинки ИИ рождаются из шума

Смотри, контринтуитивная штука: когда ИИ рисует картинку по твоему описанию, он не водит кистью и не выкладывает её по пикселю. Он начинает с экрана чистого «телевизионного шума» — и шаг за шагом убирает лишнее, пока из зерна не проступит кот в скафандре. Картинка не рисуется. Она проявляется, как фотография в ванночке. Это и есть диффузионная модель.
Что это такое в одной фразе
Диффузионная модель — это нейросеть, которую научили превращать случайный шум в картинку, постепенно его убирая. Большинство современных генераторов изображений работают именно так.
Аналогия — скульптор и глыба мрамора. Он не «добавляет» статую, он отсекает лишнее, пока она не проступит. Диффузионная модель так же отсекает шум: на старте — бесформенное зерно, на финише — чёткое изображение. Только «отсекает» она не наугад, а зная, что хочет получиться.
Как это работает по шагам
Тут есть хитрость: чтобы научиться убирать шум, модель сначала училась его добавлять.
- Обучение наоборот. Берут миллионы настоящих картинок и каждую постепенно «портят» — подсыпают всё больше шума, пока не останется чистое зерно. Модель смотрит на каждый шаг и запоминает: вот так выглядит картинка, к которой добавили чуть-чуть шума, а вот так — много.
- Модель учится предсказывать шум. Её главный навык — глядя на зашумлённую картинку, угадать, что здесь лишнее. Угадала — значит, может это вычесть и сделать картинку чуть чище.
- Генерация — обратный ход. Теперь дай ей чистый шум. Она предсказывает, что в нём «лишнее», убирает кусочек, смотрит снова, убирает ещё — и так десятки раз. С каждым шагом зерно превращается в изображение.
А где же твой запрос? Текст «кот в скафандре» — это руль. Он направляет, какой шум убирать на каждом шаге, чтобы проявился именно кот, а не собака. За понимание текста отвечает отдельная часть — часто трансформер, тот же тип модели, что и в чат-ботах.
Почему это важно тебе
Понимая механизм, ты перестаёшь удивляться странностям генераторов — и начинаешь ими управлять.
- Почему так долго и греет видеокарту. Картинка — это не один проход, а десятки шагов «убери шум». Каждый шаг — работа нейросети. Меньше шагов — быстрее и грубее, больше — дольше и чище.
- Почему результат каждый раз разный. Старт — это случайный шум. Другое зерно (его задаёт число-seed) — другая картинка по тому же запросу. Зафиксируешь seed — получишь повторяемый результат.
- Откуда кривые руки и лишние пальцы. Модель проявляет правдоподобную текстуру, а не считает по анатомии. Поэтому мелкая логика (пальцы, текст на вывеске) даётся ей тяжелее, чем общая картинка.
Где ты с этим встретишься
Везде, где ИИ делает изображения по тексту: генераторы картинок, аватарок, иконок, фонов. Диффузия — основной подход к картинкам, и это часть большой темы — мультимодальности, когда модель работает не только с текстом, но и с изображениями, звуком, видео. Тот же принцип «из шума» сегодня пробуют и для видео, и даже для генерации текста.
Вопрос: чем диффузионная модель отличается от трансформера?
Они про разное и часто работают в паре. Трансформер — мастер по тексту: понимает запрос, ведёт диалог. Диффузионная модель — мастер по картинкам: проявляет изображение из шума. В генераторе картинок трансформер читает твой «кот в скафандре», а диффузия его рисует. Не конкуренты, а разные инструменты.
Вопрос: почему одна и та же фраза даёт разные картинки?
Потому что каждый запуск стартует со случайного шума. Меняется стартовое зерно — меняется и итог, хотя текст тот же. Это не баг, а свойство: так ты можешь крутить варианты, пока не понравится. А если нужен один и тот же результат — задай фиксированный seed, и старт перестанет быть случайным.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





