Как работают модели ИИ: предсказание следующего токена

Чтобы осмысленно работать с ИИ — давать ему задачи, доверять или не доверять результату, понимать, где он ошибётся, — нужно понимать, что происходит под капотом. Не на уровне математики, а на уровне модели поведения. Большая языковая модель (LLM) устроена проще, чем кажется, и это объясняет почти все её сильные и слабые стороны.

Главное, что нужно усвоить: модель не думает и не знает — она предсказывает. Всё остальное — следствие.

Модель предсказывает следующий токен

В основе LLM одна операция: по уже написанному тексту предсказать, какой фрагмент идёт дальше. Этот фрагмент — токен (примерно часть слова). Модель смотрит на весь текст перед собой и выдаёт вероятности: какой токен наиболее правдоподобен следующим.

«Столица Франции — » → модель считает, что дальше с высокой вероятностью «Париж». Она подставляет его, затем повторяет процесс уже с новым текстом, токен за токеном. Так рождается ответ — не как готовая мысль, а как цепочка правдоподобных продолжений.

Отсюда сразу следует важное: модель выдаёт то, что похоже на правду по форме, а не то, что проверено на истинность. Обычно это совпадает — но не всегда, и в этом корень галлюцинаций.

Откуда она это «знает»

Модель обучили на огромном объёме текста — книги, код, статьи, форумы. В процессе она подстроила миллиарды внутренних параметров так, чтобы хорошо предсказывать продолжение на этих данных. В параметрах «сжались» статистические закономерности языка: грамматика, факты, стили, паттерны кода.

Поэтому модель:

Отлично воспроизводит то, что часто встречалось в обучении: типовой код, распространённые факты, стандартные формулировки.
Хуже с редким и новым: узкие библиотеки, свежие версии, специфика вашего проекта — этого в данных было мало или не было вовсе.
Не знает того, чего не было в обучении: события после даты обучения, ваш внутренний код, приватные документы — пока вы сами не дадите это в контекст.

Почему она так хороша в языке и коде

Язык и код — это структуры с сильными закономерностями. В них многое предсказуемо: после открытой скобки обычно идёт закрытая, после сигнатуры функции — тело в определённом стиле, после «try» — «catch». Модель, натренированная предсказывать, ловит эти закономерности очень хорошо. Поэтому она бегло пишет синтаксически верный код и связный текст.

Но та же природа объясняет и предел: модель хороша в том, что выглядит правильно. Выглядит правильно и работает правильно — разные вещи. Код может компилироваться, быть в идеальном стиле и содержать логическую ошибку, потому что модель оптимизирована на правдоподобие, а не на корректность.

У неё нет понимания в человеческом смысле

Модель не имеет намерений, убеждений или модели мира как у человека. Она не «понимает» задачу — она продолжает текст так, как продолжали бы его люди в обучающих данных. Это не делает её бесполезной (наоборот), но задаёт правильные ожидания:

Она уверенно звучит и когда права, и когда ошибается — тон не сигнал истинности.
Она не проверяет себя по умолчанию — если не попросить и не дать инструменты.
Она чувствительна к формулировке: как поставлен вопрос, так и продолжит.

Понимание этого — не повод не доверять ИИ, а повод строить работу правильно: давать чёткий вход, проверять выход, не принимать уверенный тон за гарантию.

Что это значит на практике

Модель ИИ — это очень мощный предсказатель текста, а не оракул и не коллега-инженер. Из этого вытекает вся дальнейшая работа продукт-инженера с ИИ: чем точнее вход и контекст, тем лучше выход; уверенный ответ нужно проверять; редкое и специфичное — подсказывать, а не ждать, что модель угадает.

Дальше

Эта картина объясняет остальные свойства моделей. Разберите их по очереди: почему модель выдумывает факты, что такое токены и как считается стоимость, почему важен контекст, как модель вызывает инструменты и что такое агенты.