Что такое эмбеддинги — и как ИИ понимает, что «кот» и «котёнок» про одно
Смотри, хитрая штука. Откуда ИИ знает, что «кот» и «котёнок» — почти про одно? А «кот» и «трактор» — нет?
Он же не понимает слова, как мы. Но как-то отличает близкое от далёкого.
Секрет вот в чём: ИИ превращает каждое слово в точку на карте. И близкие по смыслу слова он ставит рядом. Эта точка и есть эмбеддинг.
Слово превращается в координаты
Представь огромную карту. Только на ней не города, а смыслы.
ИИ берёт слово — и ставит его на эту карту. Точка получает координаты: просто список чисел. Вот это превращение «текст → числа» и называется эмбеддингом.
Зачем числа? Потому что числа легко сравнивать. С координатами понятно, что близко, а что далеко. Со словами — нет.
И главный фокус: ИИ ставит точки по смыслу.
- «кот», «котёнок», «кошка» — рядышком, в одном углу карты;
- «трактор» — где-то далеко, у техники;
- «собака» — недалеко от кота: тоже домашний зверь.
Карта, конечно, не плоская. В ней не две оси, а сотни. Но идея ровно та же: рядом — про похожее, далеко — про разное.
Поиск по смыслу, а не по словам
Вот теперь — зачем это тебе.
Обычный поиск ищет точные слова. Спросил «как завести машину в мороз» — а в тексте написано «запуск двигателя зимой». Слова разные, и обычный поиск может промахнуться.
А поиск по эмбеддингам сравнивает не буквы, а точки на карте. «Завести машину в мороз» и «запуск двигателя зимой» — это соседние точки. Общих слов почти нет, а смысл один. И ИИ это видит.
То есть он находит нужное, даже если ты сказал другими словами. Это и называется «поиск по смыслу».
Где ты с этим уже сталкивался
Эмбеддинги — это не теория из учебника. На них держится куча привычных штук.
- «Похожие товары» и рекомендации. Магазин показывает похожее, потому что их точки рядом на карте.
- Умный поиск в заметках или почте. Ищешь по смыслу, а не по точному слову — и всё равно находишь.
- ИИ, который отвечает по твоим файлам. Сначала он эмбеддингами находит нужный кусок среди сотен страниц, а потом уже отвечает. Этот приём зовут RAG — про него есть отдельный разбор.
Заметил общее? Везде, где ИИ должен понять «а это вообще про что» — под капотом точки на карте смыслов.
Что унести с собой
Запоминать формулы не нужно. Достаточно одного образа.
ИИ не сравнивает слова буква в букву. Он раскладывает смыслы по карте и смотрит, что лежит рядом.
Как только держишь в голове эту карту, перестаёт удивлять, почему поиск понимает тебя с полуслова, а рекомендации иногда пугающе точны. Просто близкие смыслы — это близкие точки.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.