Токены и стоимость: за что вы платите в работе с ИИ

Работа с ИИ измеряется и оплачивается не словами и не запросами, а токенами. Понимать их нужно по двум причинам: из токенов складывается стоимость (иногда неожиданно большая), и в токенах измеряется контекст — сколько модель вообще может «удержать» за раз.

Что такое токен

Модель не работает с буквами или словами напрямую — она разбивает текст на токены, кусочки примерно в 3–4 символа. Короткое частое слово («кот», «the») — один токен; длинное или редкое слово разбивается на несколько. Код токенизируется тоже: скобки, отступы, имена переменных — всё это токены.

Грубый ориентир: один токен ≈ 0,75 слова для английского; для русского и для кода токенов на тот же текст обычно больше. Страница текста — это порядка нескольких сотен токенов.

Точное число знать наизусть не нужно — важно чувствовать масштаб: длинный документ или большой файл кода, отданные модели, — это тысячи токенов, и они не бесплатны.

Входные и выходные токены

Каждое обращение к модели считает токены с двух сторон:

Входные (input) — всё, что вы отправили: ваш запрос, приложенные файлы, история переписки, системные инструкции. Модель «читает» это целиком каждый раз.
Выходные (output) — всё, что модель сгенерировала в ответ.

Обычно выходные токены дороже входных (их генерация тяжелее). И важный неочевидный момент: в диалоге история накапливается — каждый следующий запрос тащит за собой всю предыдущую переписку как входные токены. Длинный разговор дорожает с каждым ходом, даже если ваши реплики короткие.

Как складывается стоимость

Цена считается за токены (обычно за миллион токенов, отдельно за вход и выход). Практические следствия для продукт-инженера:

Большой контекст стоит денег. Отдать модели весь репозиторий «на всякий случай» — дорого и часто вредно для качества (см. контекст). Давайте релевантное, а не всё подряд.
Длинные диалоги накапливают стоимость. Иногда дешевле начать новый разговор с чистого листа, чем тащить огромную историю.
Автоматизация умножает цену. Один запрос стоит копейки, но агент, делающий сотни шагов в цикле, или обработка тысяч элементов — это уже заметные суммы. Прикидывайте стоимость до запуска на объёме.
Модели разного размера — разная цена. Мощная модель дороже за токен. Не для каждой задачи нужна самая сильная — простое стоит отдать модели попроще.

Токены — это ещё и скорость

Стоимость — не единственное следствие. Модель генерирует ответ токен за токеном, поэтому длинный вывод дольше. И большой вход модель дольше «прочитывает». Поэтому раздутый контекст бьёт по трём фронтам сразу: дороже, медленнее и часто хуже по качеству.

Что это значит на практике

Токены — это единица и денег, и внимания модели. Продукт-инженер держит их в голове как ресурс: даёт модели ровно то, что нужно для задачи, следит за раздуванием диалогов, прикидывает стоимость автоматизаций на объёме и выбирает размер модели под задачу. Экономия токенов почти всегда идёт рука об руку с ростом качества — короткий релевантный вход лучше огромного «на всякий случай».

Дальше

Токены — это ещё и мера того, сколько модель удерживает за раз. Про это — контекст и контекстное окно. А про то, как модели дают доступ к внешним данным вместо раздувания входа, — вызов инструментов.