Большие языковые модели: что происходит под капотом ChatGPT

Большие языковые модели: что происходит под капотом ChatGPT | Obasnyem

Large Language Model (LLM) — нейросеть, предсказывающая следующий токен на основе предыдущих. За этим простым принципом скрывается удивительная способность к диалогу, рассуждению, программированию.

Токенизация

Текст разбивается на токены
Не буквы, не слова — что-то среднее
"Hello world" — 2 токена
"обьяснение" (с ошибкой) — 4-5 токенов
Метод: BPE (Byte Pair Encoding) или SentencePiece
Словарь: 50 000 – 200 000 токенов

Трансформер

Архитектура, представленная в "Attention is All You Need" (Васвани и др., 2017). Основа всех современных LLM.

Self-attention: каждый токен "обращает внимание" на другие
Слои (layers): обычно 12-96, каждый со своим attention
Feed-forward: после attention — плотный слой
Residual connections: короткие замыкания, стабилизирующие обучение
Normalization: стабилизация активаций

Размеры

GPT-2 (2019): 1,5 млрд параметров
GPT-3 (2020): 175 млрд
GPT-4 (2023): ~1,8 трлн (оценка, MoE)
LLaMA 3 70B: 70 млрд
Российские: YaLM 100B (Яндекс), GigaChat (Сбер), RuBERT

Обучение

Предобучение (pre-training): предсказание следующего токена на огромном корпусе (Википедия, книги, код)
Стоимость: GPT-4 — по оценке $100 млн
H100 GPU-дни: десятки тысяч
Датасет: сотни терабайт текста

Fine-tuning

SFT (Supervised Fine-Tuning): дообучение на инструкциях
RLHF (Reinforcement Learning from Human Feedback): люди оценивают ответы, модель учится предпочтениям
DPO (Direct Preference Optimization): альтернатива RLHF
LoRA: эффективное дообучение небольшого числа параметров

Inference

Модель принимает промпт, генерит токены по одному
Скорость: ~30-100 токенов/сек на GPU
Температура: случайность. 0 — детерминированно, 1 — вариативно
Top-p (nucleus sampling): сэмплирование из top-P-вероятностей

Контекст

GPT-3.5: 4K-16K токенов
GPT-4: 128K
Claude 3: 200K
Gemini 1.5: 1M
Чем длиннее контекст, тем больше памяти нужно
Attention — квадратичен по длине последовательности (в базовом варианте)

Эмерджентные способности

С ростом масштаба модели внезапно появляются новые умения:

Chain of thought: рассуждение шаг за шагом
In-context learning: учится из примеров в промпте
Multi-step reasoning
Переводы на редкие языки

Галлюцинации

LLM выдают уверенно звучащие, но ложные факты
Причина: оптимизируются на правдоподобие, не правду
Борьба: RAG, цитирование источников, верификация

Использование

Чат-интерфейсы (ChatGPT, Claude, Gemini)
API: интеграция в приложения
Копилоты: GitHub Copilot, Cursor
Автоматизация workflow
Суммаризация, перевод, анализ

Мультимодальность

Vision: понимание изображений (GPT-4V, Claude 3)
Audio: речь в обе стороны (Whisper, TTS)
Video: пока ограниченно
Generative: DALL-E, Midjourney, Sora

Агенты

LLM + инструменты = агент
Может искать в интернете, вызывать API, писать и запускать код
Autonomous workflows — сложные задачи
Эра 2024-2025: основной тренд

Проблемы

Смещения (bias) из тренировочных данных
Безопасность: промпт-инъекции, jailbreak
Приватность: модель может запомнить чувствительные данные
Энергопотребление: обучение требует десятки ГВтч
Авторские права на тренировочные данные

Open-source

LLaMA (Meta): меняет индустрию — качество близкое к GPT-4
Mistral: французский стартап
Qwen (Alibaba)
DeepSeek: китайская, впечатляющая в 2025

Где будет

Мобильные модели: LLaMA 3 уже работает на телефоне
Специализированные агенты для конкретных задач
Intеrleaved reasoning: комбинация символьного и нейросетевого
Multimodal native (DeepMind Gemini)