Что такое…

Что такое Mixture of Experts (MoE) — почему модель огромная, но быстрая

Иллюстрация: роутер направляет запрос к нужным экспертам

Смотри на противоречие: у модели бывает 600+ миллиардов параметров, но отвечает она быстро и стоит недорого. Как так? Огромное обычно значит медленное.

Секрет в том, что модель не включает всю себя на каждое слово. Включается лишь маленький кусочек. Эта хитрость называется Mixture of Experts, или MoE — и сейчас разберёмся, как она работает.

Mixture of Experts — одним предложением

MoE — это модель, собранная из множества небольших «экспертов», но на каждый кусочек текста работают лишь несколько из них.

Представь большую больницу. Там сотни врачей, но тебя не осматривает каждый. Регистратура смотрит на твою проблему и отправляет к двум нужным специалистам. Остальные в это время заняты другими.

MoE устроена так же. Внутри — десятки экспертов. На каждое слово включаются не все, а только подходящие.

Как роутер выбирает экспертов

Ключевая деталь — маленький «роутер» (его ещё зовут gating). Это та самая регистратура.

Для каждого токена роутер быстро решает: какие эксперты тут пригодятся? Включает, скажем, двоих из восьми. Остальные шесть на этом слове спят и электричество не жгут.

На следующем слове выбор может смениться. Один эксперт лучше в коде, другой — в русском языке, третий — в математике. Роутер раздаёт работу тому, кто сильнее в текущем кусочке.

Получается команда узких специалистов вместо одного «врача-универсала», который пытается знать всё сразу.

Зачем это: большая, но быстрая

Вот в чём выигрыш. Размер модели задаёт, сколько всего она знает. Скорость и цена зависят от того, сколько параметров реально работает на каждом слове.

В обычной (плотной) модели на каждое слово трудятся все параметры. В MoE — только активные, то есть малая доля.

  • DeepSeek-V3: около 671 миллиарда параметров всего, но на каждый токен активны лишь ~37 миллиардов.
  • Mixtral 8×7B от Mistral: восемь экспертов, на каждое слово включаются два.

Итог: знаний как у гиганта, а счёт за работу модели и скорость — как у модели в разы меньше. Поэтому MoE сейчас почти везде во флагманах.

Где ты это увидишь

Слово MoE будет мелькать в описаниях и названиях моделей. И две цифры рядом, которые раньше путали:

  • «всего параметров» — общий размер, сколько модель весит и знает;
  • «активных параметров» — сколько работает на каждом слове, от этого скорость и цена.

Когда видишь «671B всего / 37B активных» — теперь ты понимаешь, что это не опечатка. Это и есть суть MoE: большой склад знаний, маленькая рабочая бригада за раз.

MoE-модель умнее обычной?

Не автоматически. При равном бюджете на обучение MoE часто выгоднее: больше знаний за ту же скорость. Но «умнее» зависит от данных, обучения и архитектуры трансформера, а не от одного лишь факта MoE. Это способ сэкономить, а не волшебная кнопка ума.

Что значит «8x7B» — это 56 миллиардов?

Не совсем. «8×7B» — восемь экспертов примерно по 7 миллиардов, но они делят между собой общие части. Поэтому всего выходит меньше (у Mixtral ~47B), а активно на каждое слово — и вовсе около 13B. Считай по активным параметрам, если хочешь прикинуть скорость.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение
Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →