Что такое LLM — простыми словами (и почему она угадывает, а не знает)

Смотри, неожиданная штука. Когда ты спрашиваешь ChatGPT столицу Франции, он не лезет в справочник и не «вспоминает» факт. Он угадывает, какое слово вероятнее всего идёт дальше. И так — слово за словом. То, что ответ получается верным, это побочный эффект, а не цель.
Вот это и есть LLM — large language model, большая языковая модель. Если понять одну эту идею, сразу станет ясно, почему она бывает гениальной и почему иногда несёт чушь с каменным лицом.
Что такое LLM на самом деле
LLM — это очень большая программа, которую научили продолжать текст. Ты даёшь начало, она достраивает продолжение.
Представь автодополнение в телефоне, но накачанное до предела. Телефон подсказывает одно следующее слово. LLM подсказывает следующее слово, потом ещё одно, и ещё — пока не сложится целый ответ, абзац или кусок кода.
«Большая» — это про размер. Модель — это миллиарды чисел-настроек (их зовут параметрами или весами). Их подбирали автоматически, пока модель не научилась хорошо угадывать. «Языковая» — потому что работает она с текстом, а точнее с токенами — кусочками слов, на которые текст режется.
Как она это делает
Внутри нет ни одного правила вида «если спросили про столицу — ответь название города». Никто такие правила не писал. Вместо этого было обучение.
- Модели показали гигантский объём текста: книги, статьи, форумы, код.
- Каждый раз ей закрывали следующее слово и просили угадать.
- За промах — лёгкая поправка миллионов настроек. И так триллионы раз.
В итоге она впитала закономерности языка: что после «столица Франции —» обычно идёт «Париж», а после def в коде — имя функции. Не выучила факты списком, а нащупала, как устроен текст про эти факты.
Поэтому на каждый запрос она не вспоминает, а заново вычисляет самое вероятное продолжение. Один и тот же вопрос может дать чуть разные ответы — за это отвечает температура, ползунок «насколько рискованно выбирать слова».
Почему она уверенно ошибается
Вот здесь та самая ловушка. Модель всегда выдаёт правдоподобное продолжение — но правдоподобное не значит правдивое.
Если в вопросе есть несуществующая книга, модель спокойно «продолжит» текст: придумает автора, год, сюжет. Звучит убедительно, потому что грамматически и по стилю это идеальное продолжение. Просто за словами нет проверки фактов. Это и называют галлюцинацией — и теперь понятно, откуда она берётся: модель не врёт нарочно, она достраивает текст, как умеет.
Отсюда практичный вывод: LLM сильна там, где важна форма (переформулировать, объяснить, набросать код, перевести), и требует проверки там, где важен факт (даты, цифры, имена, цитаты).
Где ты с ней встречаешься
Почти везде, где есть «умный» текст. ChatGPT, Claude, Gemini — это LLM с удобной оболочкой. Автодополнение кода в редакторе, чат-боты поддержки, генерация писем — под капотом та же машина продолжения текста.
Когда LLM дают доступ к инструментам — поиску, твоим файлам, коду — она превращается в ИИ-агента: уже не просто говорит, а действует. А чтобы она отвечала по твоим данным, а не по памяти, к ней подключают RAG — подсовывают нужный текст прямо в запрос.
Понимаешь главное — и перестаёшь либо бояться LLM как магии, либо верить ей как энциклопедии. Это инструмент с понятным принципом: гениальный генератор текста, которому нужен твой контроль над фактами.
Чем LLM отличается от обычной программы?
Обычную программу пишут правилами: «если так — делай так». LLM правил не получала — она нащупала закономерности сама на примерах. Поэтому она гибкая, но непредсказуемая: тот же запрос может дать разный ответ.
LLM реально что-то понимает?
Спорный вопрос даже у исследователей. Безопаснее считать так: она блестяще моделирует, как люди пишут о вещах, но собственного опыта и проверки реальности у неё нет. Отсюда и сила, и слабости.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.


