Large Language Model (LLM) — нейросеть, предсказывающая следующий токен на основе предыдущих. За этим простым принципом скрывается удивительная способность к диалогу, рассуждению, программированию.
Токенизация
- Текст разбивается на токены
- Не буквы, не слова — что-то среднее
- "Hello world" — 2 токена
- "обьяснение" (с ошибкой) — 4-5 токенов
- Метод: BPE (Byte Pair Encoding) или SentencePiece
- Словарь: 50 000 – 200 000 токенов
Трансформер
Архитектура, представленная в "Attention is All You Need" (Васвани и др., 2017). Основа всех современных LLM.
- Self-attention: каждый токен "обращает внимание" на другие
- Слои (layers): обычно 12-96, каждый со своим attention
- Feed-forward: после attention — плотный слой
- Residual connections: короткие замыкания, стабилизирующие обучение
- Normalization: стабилизация активаций
Размеры
- GPT-2 (2019): 1,5 млрд параметров
- GPT-3 (2020): 175 млрд
- GPT-4 (2023): ~1,8 трлн (оценка, MoE)
- LLaMA 3 70B: 70 млрд
- Российские: YaLM 100B (Яндекс), GigaChat (Сбер), RuBERT
Обучение
- Предобучение (pre-training): предсказание следующего токена на огромном корпусе (Википедия, книги, код)
- Стоимость: GPT-4 — по оценке $100 млн
- H100 GPU-дни: десятки тысяч
- Датасет: сотни терабайт текста
Fine-tuning
- SFT (Supervised Fine-Tuning): дообучение на инструкциях
- RLHF (Reinforcement Learning from Human Feedback): люди оценивают ответы, модель учится предпочтениям
- DPO (Direct Preference Optimization): альтернатива RLHF
- LoRA: эффективное дообучение небольшого числа параметров
Inference
- Модель принимает промпт, генерит токены по одному
- Скорость: ~30-100 токенов/сек на GPU
- Температура: случайность. 0 — детерминированно, 1 — вариативно
- Top-p (nucleus sampling): сэмплирование из top-P-вероятностей
Контекст
- GPT-3.5: 4K-16K токенов
- GPT-4: 128K
- Claude 3: 200K
- Gemini 1.5: 1M
- Чем длиннее контекст, тем больше памяти нужно
- Attention — квадратичен по длине последовательности (в базовом варианте)
Эмерджентные способности
С ростом масштаба модели внезапно появляются новые умения:
- Chain of thought: рассуждение шаг за шагом
- In-context learning: учится из примеров в промпте
- Multi-step reasoning
- Переводы на редкие языки
Галлюцинации
- LLM выдают уверенно звучащие, но ложные факты
- Причина: оптимизируются на правдоподобие, не правду
- Борьба: RAG, цитирование источников, верификация
Использование
- Чат-интерфейсы (ChatGPT, Claude, Gemini)
- API: интеграция в приложения
- Копилоты: GitHub Copilot, Cursor
- Автоматизация workflow
- Суммаризация, перевод, анализ
Мультимодальность
- Vision: понимание изображений (GPT-4V, Claude 3)
- Audio: речь в обе стороны (Whisper, TTS)
- Video: пока ограниченно
- Generative: DALL-E, Midjourney, Sora
Агенты
- LLM + инструменты = агент
- Может искать в интернете, вызывать API, писать и запускать код
- Autonomous workflows — сложные задачи
- Эра 2024-2025: основной тренд
Проблемы
- Смещения (bias) из тренировочных данных
- Безопасность: промпт-инъекции, jailbreak
- Приватность: модель может запомнить чувствительные данные
- Энергопотребление: обучение требует десятки ГВтч
- Авторские права на тренировочные данные
Open-source
- LLaMA (Meta): меняет индустрию — качество близкое к GPT-4
- Mistral: французский стартап
- Qwen (Alibaba)
- DeepSeek: китайская, впечатляющая в 2025
Где будет
- Мобильные модели: LLaMA 3 уже работает на телефоне
- Специализированные агенты для конкретных задач
- Intеrleaved reasoning: комбинация символьного и нейросетевого
- Multimodal native (DeepMind Gemini)
Есть вопрос?
Вопросы и ответы · 0
Не поняли что-то?
Зарегистрируйтесь — и сможете задать вопрос автору объяснения.
Загрузка комментариев…