Что такое мультимодальность — как ИИ «видит» картинку, хотя у него нет глаз

Ты кидаешь модели фото своего холодильника и просишь рецепт — и она отвечает. Кажется, она «увидела» еду, как ты. Но у модели нет глаз, и картинку в нашем смысле она не видит. Она делает кое-что хитрее: превращает твоё фото в те же числа, которыми описывает текст. Вот эта способность работать с картинкой, звуком и текстом на одном языке и называется мультимодальностью.
Что такое мультимодальность — в одной фразе
«Модальность» — это просто вид данных: текст, картинка, звук, видео. Мультимодальная модель — это модель, которая понимает сразу несколько видов данных, а не только текст. Закинул фото и вопрос словами — она разберёт и то, и другое в одном ответе.
Раньше каждый вид жил отдельно: одна программа для текста, другая для распознавания картинок. Мультимодальность сложила их в одну голову.
Как это работает: всё сводится к числам
Тут и прячется главное. Внутри языковая модель понимает не буквы и не пиксели, а числа. Текст она сначала режет на токены и переводит в числа. С картинкой делает по сути то же самое: специальный кусок модели разбивает изображение на фрагменты и превращает каждый в набор чисел.
И вот фокус: картинка и текст после этого становятся «одним веществом» — числами в общем пространстве. Дальше модель обрабатывает их в едином потоке. Поэтому она и может рассуждать о фото словами: для неё это не две разные задачи, а один поток чисел, где «рыжий кот» из текста и рыжий кот с фотографии лежат рядом.
Аналогия: представь переводчика, который и речь, и жесты, и картинки переводит на один общий язык — и дальше думает уже только на нём. Неважно, что пришло на вход; внутри всё стало одним.
Что это позволяет — чего раньше не было
Мультимодальность открыла кучу вещей, которые ещё пару лет назад были фантастикой для одной модели:
- сфоткал чек — получил таблицу расходов;
- показал скриншот ошибки — модель прочитала текст с экрана и подсказала фикс;
- навёл камеру на меню на чужом языке — получил перевод и что заказать;
- скинул график — попросил объяснить, что на нём.
Заметь: во всех примерах вход — не текст, но ты всё равно общаешься словами. Это и есть сила мультимодальности — стирается граница между «показать» и «рассказать».
Где у неё пределы
Мультимодальность впечатляет, но это не магия. Модель легко промахивается на мелком тексте, плотных таблицах, точном счёте предметов на фото («сколько тут людей?» — может сбиться). И «увидела» не значит «поняла правильно»: по картинке она может так же уверенно выдумать деталь, как и по тексту. Так что результат с фото проверяй так же, как любой другой ответ ИИ.
Вопрос: мультимодальная модель и обычная — это разные модели?
Чаще это одна модель, которую с самого начала учили работать и с текстом, и с картинками. Не «текстовую прикрутили к распознавалке», а единая голова, у которой на входе может быть текст, фото или звук. Поэтому она и отвечает связно, а не двумя отдельными кусками.
Вопрос: она реально «видит» или просто угадывает?
Зависит от того, что считать «видит». Глаза и зрения как у человека у неё нет — есть превращение пикселей в числа и поиск закономерностей в них. Но на практике этого хватает, чтобы описать сцену, прочитать текст с фото, найти объект. Это не человеческое зрение, но и не пустое угадывание.
Вопрос: чем мультимодальность отличается от генерации картинок?
Это две стороны одной монеты. Мультимодальность на входе — модель понимает присланную картинку. Генерация — модель рисует новую картинку по тексту. Их часто путают, потому что и то, и другое «про картинки», но направление противоположное: одно читает, другое создаёт.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





