Что такое дата отсечения знаний — и почему модель врёт про вчера

Спроси новую модель про событие, которое случилось на прошлой неделе. Часто будет одно из двух: либо честное «не знаю», либо — гораздо хуже — уверенный, гладкий, полностью выдуманный ответ. Причина у обоих одна, и называется она дата отсечения знаний.
Что такое дата отсечения знаний
Модель учится не на «всём интернете прямо сейчас», а на снимке данных, собранном до какого-то момента. Этот момент и есть дата отсечения (по-английски — knowledge cutoff). Всё, что произошло после, в модель просто не попало.
Она как человек, который полгода провёл в экспедиции без связи: вернулся — и не в курсе ни новостей, ни новых слов, ни того, кто выиграл чемпионат. Не потому что глупый. Просто его там не было.
Как это устроено
Языковая модель — это «слепок» текстов, на которых её обучили. Сбор данных, обучение, проверка — это месяцы. Поэтому даже свежая модель, выпущенная сегодня, обычно «помнит» мир не до сегодня, а до какого-то месяца в прошлом. Разрыв между датой отсечения и датой релиза — это норма, а не баг.
И важная деталь: отсечение — про обучение, а не про сам разговор. В одном диалоге модель прекрасно оперирует тем, что ты ей дал прямо сейчас, — это её контекст. Но это знание живёт только до конца разговора и в саму модель не записывается. Сам момент генерации ответа (инференс) новых фактов в память не добавляет.
Почему это важно для тебя
Вот настоящая ловушка. Проблема не в том, что модель чего-то не знает, — это полбеды. Проблема в том, что она не знает, что не знает. Спросишь про вчерашний релиз, цену акции или свежую версию библиотеки — и она с той же уверенностью, что и про таблицу умножения, выдаст правдоподобный ответ. Только выдуманный. Это близкий родственник галлюцинации: модель всегда стремится дать гладкий ответ, даже когда честнее промолчать.
Что с этим делать на практике:
- Свежие факты не спрашивай по памяти. Новости, курсы, «какая сейчас последняя версия» — это не к её памяти.
- Дай ей данные прямо в запрос. Вставь нужный текст, документ или выдачу поиска в сам промпт — и модель будет работать с этим, а не выдумывать. Когда это делают автоматически (модель сама подтягивает свежие документы), приём называется RAG.
- Проверяй всё, что про «сейчас». Если ответ завязан на «последний», «недавно», «актуальная версия» — перепроверь у источника. По версиям инструментов модель ошибается чаще всего.
Где ты это заметишь
Заметишь сразу, как спросишь про что-то новое. Иногда модель честно предупреждает: «мои знания ограничены такой-то датой». Иногда — нет, и тогда выдаёт себя косвенно: «не слышала» про вещь, которая для тебя уже привычна, или путает версии.
Хорошие интерфейсы добавляют модели поиск в интернете — именно чтобы закрыть дыру между датой отсечения и сегодня. Есть у твоего инструмента поиск — включай его для всего свежего. И не путай отсечение с дообучением: дообучение меняет поведение модели на новых примерах, но не делает её всезнающей про вчера. Сдвинуть границу знаний можно только переобучением на более свежих данных — а это уже новая версия модели.
Вопрос: можно узнать точную дату отсечения модели?
Иногда да — её указывают в документации, или модель сама называет в ответ на прямой вопрос. Но полностью доверять этому самоотчёту не стоит: тут модель тоже может ошибиться. Надёжнее проверить на деле: спроси про пару событий с известными датами и посмотри, где проходит граница.
Вопрос: почему не обучать модель в реальном времени?
Потому что обучение — это долгий и дорогой процесс на огромных мощностях, а не запись строчки в блокнот. Гонять его на каждое новое событие невозможно. Поэтому «свежесть» дают не переобучением, а поиском и подсовыванием документов в контекст.
Вопрос: если дата отсечения в прошлом, модель бесполезна для новых тем?
Нет. Рассуждать, объяснять, писать код она умеет независимо от даты. Подведёт только там, где нужен конкретный свежий факт. Дай ей этот факт в запрос — и она снова на коне.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.





