Закинь целую книгу в модель — и спрашивай без поиска по кусочкам

Смотри, идея на выходные: берёшь большой файл — договор, конспект, год своего дневника — кидаешь его в модель целиком и спрашиваешь по-человечески. «Где тут про штраф за просрочку?» И она отвечает, с цитатой.
И вот тут хитрая штука. Ещё недавно так просто не вышло бы.
Почему это только что стало возможно
Большой текст не влезал модели «в голову» за раз. Поэтому его резали на кусочки, складывали в базу и искали нужный обрывок под каждый вопрос. Это называется RAG — и для новичка это была отдельная стройка на полдня.
13 июня вышла GLM-5.2: миллион токенов контекста, открытые веса под MIT и совсем дешёвый API. Миллион токенов — это объём, который модель держит «в голове» за один запрос. В него влезает целая книга, а то и несколько.
То есть теперь для среднего файла резать и искать не нужно. Кидаешь всё целиком — и спрашиваешь.
Чему научишься
- Что такое контекстное окно. «Миллион токенов» — это не про скорость, а про то, сколько текста модель видит за раз. Соберёшь проект — и наконец почувствуешь, что это значит на практике.
- Чем это отличается от RAG. Поиск по кусочкам — не магия и не единственный путь. Для файла, который влезает целиком, он просто не нужен. Это полезно понимать.
- Один вызов API с большим вводом. Весь файл уходит в запрос, один вопрос — сверху. Ответ приходит обратно. Та же петля «отправил → получил», просто ввод большой.
Маленькая поправка по-честному: русский текст жрёт токенов больше английского, так что объём считай по нижней границе. И если файл реально огромный — вся переписка за годы — тогда целиком он не влезет, и пригодится помощник с поиском по заметкам.
Готовый стартовый промпт
Не пиши агенту «сделай так, чтобы я спрашивал по файлу» — он начнёт угадывать формат и тащить RAG, который тут не нужен. Дай контекст, выбор модели и границы:
Сделай так, чтобы я мог задавать вопросы по моему PDF.Сильный промпт не оставляет места для догадок: видно сценарий, видно выбор модели с большим окном, видно требование цитаты и честное «не нашёл». Результат с первого раза ближе к тому, что ты хотел.
Что в итоге
Маленькое окно в консоли. Указал файл, спросил: «в каком пункте договора про автопродление?» — получил ответ с цитатой нужного абзаца. Спросил у годового дневника: «что я писал про идею с пробежками?» — нашёл и собрал по строчкам.
Магия снаружи. Внутри — один запрос: весь файл плюс твой вопрос.
План на выходные
- Суббота: скрипт, который читает один файл и задаёт по нему один вопрос. Проверь на договоре или конспекте.
- Воскресенье: оберни в простой чат — задавай вопросы по одному файлу подряд, не перезапуская. Дай попробовать другу с его PDF.
Это тот проект, который останется у тебя в инструментах: скучные длинные файлы перестают быть страшными.
Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.
Источник: GLM-5.2: характеристики, контекст и доступ по API — DataCamp





