Что такое дистилляция модели — как большой ИИ учит маленький

Смотри, странная штука: маленькая модель, которая помещается на твоём ноутбуке, отвечает почти как огромная из дата-центра. Не потому что она хитрее. А потому что гигант лично её натаскал — как старший наставник младшего.
Это и есть дистилляция. И через пять минут ты будешь понимать, почему «маленькая» больше не значит «глупая».
Дистилляция — одним предложением
Дистилляция (distillation) — это когда большая модель-«учитель» обучает маленькую модель-«ученика».
Ученик не перечитывает весь интернет заново. Он учится на ответах учителя. Большая модель показывает, как она решает задачи, а маленькая повторяет за ней.
Итог: лёгкая модель, которая ведёт себя почти как тяжёлая, но работает быстрее и дешевле.
Как большой ИИ «надиктовывает» маленькому
Тут прячется неожиданная деталь. Ученик копирует не просто правильные ответы. Он копирует то, КАК учитель сомневается.
Когда обычную модель учат с нуля, ей говорят жёстко: «правильное слово — кот, всё остальное неправильно». Один верный вариант, точка.
А учитель в дистилляции отвечает мягче: «скорее всего кот (80%), но может быть пёс (15%) или просто зверь (5%)». Эти оттенки называют «мягкими подсказками» (soft labels).
В них спрятан весь опыт большой модели: что на что похоже, где проходит граница. Ученик впитывает не голый ответ, а ход мысли. Поэтому он умнеет быстрее, чем если бы зубрил сухие факты из датасета.
Почему это важно для тебя
Дистилляция — причина, по которой вообще появились маленькие, но толковые модели.
- Их можно запускать локально — на ноутбуке или даже телефоне, без интернета.
- Они дешевле в работе: меньше параметров — меньше счёт за запросы.
- Они быстрее отвечают, потому что им меньше всего нужно «прокрутить» внутри.
Раньше выбор был простой: либо умно и дорого, либо дёшево и глупо. Дистилляция ломает этот компромисс. Ты получаешь «почти как гигант» за долю цены.
Часто дистилляцию совмещают с квантизацией — сжатием модели до меньшего размера. Вместе они и превращают модель из дата-центра в обычный файл на твоём диске.
Где ты с этим столкнёшься
Если выбираешь модель из открытых весов, ты постоянно будешь видеть слово «distill» в названиях.
Например, у рассуждающих моделей выходят «distill»-версии: большая модель учит маленькую думать пошагово, и компактная наследует этот навык. Лёгкие модели вроде Gemma тоже во многом сделаны дистилляцией из старшей родни.
Практический вывод простой: не отметай модель только за то, что она маленькая. Сначала проверь, не дистиллят ли это крупной. Часто такой малыш отлично сделает твою задачу — а денег и времени съест в разы меньше.
Дистилляция — это то же, что дообучение?
Нет, хотя оба «доучивают» модель. При дообучении ты подкручиваешь модель под свою задачу на своих данных. При дистилляции одна модель учит другую — цель не задача, а перенос знаний от большой к маленькой.
Дистиллированная модель всегда хуже оригинала?
На самых сложных задачах — чуть слабее, да. Но разрыв обычно меньше, чем разница в размере. Модель в десять раз легче может терять считанные проценты качества. Для большинства повседневных задач ты этой разницы просто не заметишь.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





