Что такое…

Что такое мультимодальность — как ИИ «видит» картинку, хотя у него нет глаз

Иллюстрация: фото, звук и текст превращаются в одно «вещество» — числа

Ты кидаешь модели фото своего холодильника и просишь рецепт — и она отвечает. Кажется, она «увидела» еду, как ты. Но у модели нет глаз, и картинку в нашем смысле она не видит. Она делает кое-что хитрее: превращает твоё фото в те же числа, которыми описывает текст. Вот эта способность работать с картинкой, звуком и текстом на одном языке и называется мультимодальностью.

Что такое мультимодальность — в одной фразе

«Модальность» — это просто вид данных: текст, картинка, звук, видео. Мультимодальная модель — это модель, которая понимает сразу несколько видов данных, а не только текст. Закинул фото и вопрос словами — она разберёт и то, и другое в одном ответе.

Раньше каждый вид жил отдельно: одна программа для текста, другая для распознавания картинок. Мультимодальность сложила их в одну голову.

Как это работает: всё сводится к числам

Тут и прячется главное. Внутри языковая модель понимает не буквы и не пиксели, а числа. Текст она сначала режет на токены и переводит в числа. С картинкой делает по сути то же самое: специальный кусок модели разбивает изображение на фрагменты и превращает каждый в набор чисел.

И вот фокус: картинка и текст после этого становятся «одним веществом» — числами в общем пространстве. Дальше модель обрабатывает их в едином потоке. Поэтому она и может рассуждать о фото словами: для неё это не две разные задачи, а один поток чисел, где «рыжий кот» из текста и рыжий кот с фотографии лежат рядом.

Аналогия: представь переводчика, который и речь, и жесты, и картинки переводит на один общий язык — и дальше думает уже только на нём. Неважно, что пришло на вход; внутри всё стало одним.

Что это позволяет — чего раньше не было

Мультимодальность открыла кучу вещей, которые ещё пару лет назад были фантастикой для одной модели:

  • сфоткал чек — получил таблицу расходов;
  • показал скриншот ошибки — модель прочитала текст с экрана и подсказала фикс;
  • навёл камеру на меню на чужом языке — получил перевод и что заказать;
  • скинул график — попросил объяснить, что на нём.

Заметь: во всех примерах вход — не текст, но ты всё равно общаешься словами. Это и есть сила мультимодальности — стирается граница между «показать» и «рассказать».

Где у неё пределы

Мультимодальность впечатляет, но это не магия. Модель легко промахивается на мелком тексте, плотных таблицах, точном счёте предметов на фото («сколько тут людей?» — может сбиться). И «увидела» не значит «поняла правильно»: по картинке она может так же уверенно выдумать деталь, как и по тексту. Так что результат с фото проверяй так же, как любой другой ответ ИИ.

Вопрос: мультимодальная модель и обычная — это разные модели?

Чаще это одна модель, которую с самого начала учили работать и с текстом, и с картинками. Не «текстовую прикрутили к распознавалке», а единая голова, у которой на входе может быть текст, фото или звук. Поэтому она и отвечает связно, а не двумя отдельными кусками.

Вопрос: она реально «видит» или просто угадывает?

Зависит от того, что считать «видит». Глаза и зрения как у человека у неё нет — есть превращение пикселей в числа и поиск закономерностей в них. Но на практике этого хватает, чтобы описать сцену, прочитать текст с фото, найти объект. Это не человеческое зрение, но и не пустое угадывание.

Вопрос: чем мультимодальность отличается от генерации картинок?

Это две стороны одной монеты. Мультимодальность на входе — модель понимает присланную картинку. Генерация — модель рисует новую картинку по тексту. Их часто путают, потому что и то, и другое «про картинки», но направление противоположное: одно читает, другое создаёт.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение
Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →