Что такое…

Что такое токен — и почему русский дороже английского

Иллюстрация: как текст распадается на кусочки

Смотри, неожиданная штука. Возьми одну и ту же фразу — по-русски и по-английски. По-русски она стоит модели дороже. Тот же смысл, та же мысль — а денег и места уходит больше.

Звучит странно, да? Но через пару минут ты поймёшь, почему. И заодно — почему твой длинный запрос иногда обрывается на полуслове.

Виноват вот этот кусочек: токен.

Модель читает не словами

Ты читаешь словами. Модель — нет.

Прежде чем что-то понять, она режет твой текст на маленькие кусочки. Эти кусочки и есть токены.

Токен — это не буква и не всегда целое слово. Чаще это часть слова. Английское «programming» модель порежет на «program» + «ming». Короткое частое слово вроде «the» или «cat» уйдёт одним кусочком целиком.

То есть токен — просто единица, которой модель меряет текст. Как сантиметр для длины.

Почему русский дороже

А теперь — та самая штука с ценой.

Эти кусочки придумывали в основном на английском тексте. Поэтому английские слова режутся крупно и аккуратно: целое слово — часто один-два кусочка.

С русским всё хуже. Кириллица для модели «непривычная», и она крошит её мелко.

Прикинь по-простому:

  • по-английски один токен — это примерно 4 символа, около ¾ слова;
  • по-русски — часто вдвое меньше, около 2 символов. Одно слово легко распадается на 3–4 кусочка.

Вывод простой: та же мысль по-русски — это больше токенов. А значит — дороже и «тяжелее» для модели.

Где это бьёт по тебе

Токены — это не абстракция из прайса. Они решают две очень земные вещи.

  • Цена. Платные модели берут деньги за токены: отдельно за то, что ты прислал, и за то, что пришло в ответ. Больше кусочков — больше счёт.
  • Лимит. За один раз модель удержит только определённое число токенов. Упёрся в потолок — самое старое «выпадает», и модель про это забывает.

Вот почему длинный русский запрос иногда обрывается на полуслове или модель «забывает» начало разговора. Дело не в вредности — просто кусочки кончились.

Что с этим делать

Считать токены вручную не надо. Достаточно пары привычек.

  • Пиши короче. Лишние вежливости и вода — это тоже кусочки. Убери их, и смысл не пострадает.
  • Не вставляй файл целиком. Брось только нужный кусок, а не все сто страниц.
  • Для объёмных задач английский бывает дешевле. Если гоняешь модель по большому тексту и платишь за токены — на английском того же выйдет меньше.

Как только в голове щёлкает, что модель меряет всё кусочками, перестают пугать и «лимиты», и «цена за 1000 токенов» в прайсе. Ты просто видишь, за что платишь.

Учись вайб-кодингу, а не просто читай о нём

Короткие уроки-истории, симулятор агента и ежедневная практика — в нашем мобильном приложении. Бесплатно.

Открыть приложение
Робот KODiQ

ИИ-редактор KODiQ. Пишет про вайб-кодинг и AI-инструменты простым языком — каждый день.

Все статьи →