Объяснение генеративного искусственного интеллекта: как машины учатся творить

Генеративный ИИ — как машины учатся творить

Генеративный ИИ — один из самых преобразующих технологических сдвигов 21 века. В отличие от традиционных систем искусственного интеллекта, которые классифицируют, предсказывают или обнаруживают, Генераторный ИИ создает текст, изображения, аудио, видео, код и даже трехмерные структуры. Это технология, лежащая в основе написания статей в ChatGPT, рисования фотореалистичных изображений Midjourney и GitHub Copilot, выполняющего целые функции из комментариев.

В этом руководстве объясняется, что такое генеративный искусственный интеллект, как он работает «под капотом», основные модели архитектуры, лежащие в его основе, и куда он движется.


1. Что такое генеративный ИИ?

Генеративный ИИ относится к классу моделей искусственного интеллекта, которые изучают статистическое распределение обучающих данных, а затем генерируют новый контент, соответствующий тому же распределению.

Проще говоря: если вы обучаете модель на миллионах фотографий человеческих лиц, она изучает закономерности внешнего вида лица — расположение глаз, форму носа, текстуру кожи — и затем может создать совершенно новое лицо, которого никогда раньше не существовало.

Ключевое различие между дискриминативными и генеративными моделями:

Дискриминационный ИИ Генеративный ИИ
Учит границу между классами Изучает полное распределение данных
Ввод → Метка/Категория Подсказка ввода → Новое содержимое (текст, изображение, аудио)
Пример: Классификатор изображений, спам-фильтр Пример: GPT-4, Стабильная диффузия, Близнецы
Ответ: «Это кот?» → Да/Нет Ответ: «Создать картину кота в скафандре»

2. Основные архитектуры, лежащие в основе генеративного ИИ

Современный генеративный ИИ — это не одна технология, а семейство различных архитектур, каждая из которых подходит для разных областей.

2.1 Языковые модели на основе преобразователей (LLM)

Архитектура Transformer, представленная Васвани и др. в знаменательной статье 2017 года * «Внимание — это все, что вам нужно»*, является основой каждой крупной языковой модели сегодня, включая GPT-4, Gemini, Claude и Llama.

Как это работает:

  1. Токенизация: входной текст разбивается на лексемы (подслова). «Генераторный ИИ» может стать ["Genera", "tive", " AI"].
  2. Внедрение: каждый токен преобразуется в многомерный числовой вектор, отражающий его значение.
  3. Механизм самообслуживания: каждый токен вычисляет отношения (оценки внимания) с каждым другим токеном в последовательности. Это позволяет модели понять, что «банк» в «береге реки» отличается от «банка» в «банковском счете».
  4. Слои прямой связи: каждая позиция проходит через нелинейную сеть прямой связи для извлечения сложных функций.
  5. Прогнозирование следующего токена. Модели авторегрессии, такие как GPT, обучены прогнозировать следующий наиболее вероятный токен, повторяя этот процесс до тех пор, пока вывод не будет завершен.

Масштабы современных программ LLM ошеломляют:

  • GPT-4: около 1,8 триллиона параметров.
  • Google Gemini Ultra: триллионы параметров в архитектуре, состоящей из специалистов.
  • Llama 3.1 405B: 405 миллиардов параметров, открытый исходный код.

2.2 Модели диффузии (изображения и аудио)

Diffusion моделирует такие электроинструменты, как Stable Diffusion, DALL-E 3 и Midjourney. Они учатся генерировать изображения посредством двухэтапного процесса:

Прямой процесс (обучение):

  • Реальное изображение постепенно искажается из-за добавления гауссова шума на протяжении многих шагов (например, 1000 шагов).
  • На последнем этапе изображение представляет собой чистый случайный шум.
  • Модель учится предсказывать шум, добавляемый на каждом этапе.

Обратный процесс (генерация):

  • Начните с чистого случайного шума.
  • Итерационное шумоподавление изображения, руководствуясь текстовой подсказкой, закодированной языковой моделью (например, CLIP).
  • После 20–50 шагов шумоподавления появляется фотореалистичное изображение, соответствующее подсказке.

Кондиционирование текста достигается с помощью слоев Cross-Attention внутри магистральной сети U-Net (или DiT — Diffusion Transformer), которые позволяют предсказателю шума управляться семантическим значением подсказки.

2.3 Генеративно-состязательные сети (GAN)

До того, как диффузионные модели стали доминировать, GAN (представленные Яном Гудфеллоу в 2014 году) были золотым стандартом синтеза изображений.

GAN состоят из двух конкурирующих нейронных сетей, обучаемых одновременно:

  • Генератор (G): принимает на вход случайный шум и создает поддельное изображение, пытаясь обмануть дискриминатор.
  • Дискриминатор (D): принимает настоящие и поддельные изображения и пытается их отличить.

Благодаря этому циклу состязательного обучения Генератор постепенно учится создавать более реалистичные изображения. Целью обучения является минимаксная игра:

min_G max_D [E[log D(x)] + E[log(1 - D(G(z)))]]

Ограничения GAN: нестабильность обучения (коллапс режима, исчезновение градиентов) и трудности с получением весьма разнообразных результатов сделали их менее подходящими, чем диффузионные модели, для генерации в открытой области.

2.4 Вариационные автоэнкодеры (VAE)

VAE предоставляют вероятностную основу для изучения сжатого скрытого пространства, которое фиксирует основную структуру данных. Они состоят из:

  • Кодер: сжимает входные данные в вектор среднего значения (μ) и дисперсии (σ) в низкомерном скрытом пространстве.
  • Декодер: восстанавливает данные из точки, выбранной из скрытого распределения.

VAE широко используются в качестве компонента в более крупных системах — например, стабильная диффузия запускает процесс диффузии внутри сжатого скрытого пространства VAE (так называемые модели скрытой диффузии), что значительно ускоряет этот процесс.


3. Как проходят обучение LLM: трехэтапный процесс

Современные модели большого языка проходят три различных этапа обучения, прежде чем они дойдут до пользователей:

Этап 1: Предварительное обучение (Обучение у мира)

Модель обучается на огромном массиве текста (триллионы токенов, извлеченных из книг, веб-сайтов, кода и научных статей) с использованием самоконтролируемого обучения. Задача проста: предсказать следующий токен. Никакие человеческие ярлыки не нужны. Это учит модельному миру знания, грамматику, модели рассуждения и способности кодирования.

Этап 2: контролируемая точная настройка (SFT)

Тренеры-люди создают тысячи высококачественных пар быстрого реагирования, демонстрирующих идеальное поведение ИИ. Затем предварительно обученная модель настраивается на основе этих данных, чтобы изучить ожидаемый формат и тон для разговорной помощи.

Этап 3: Обучение с подкреплением на основе обратной связи с человеком (RLHF)

  • Оценщики-люди сравнивают пары ответов модели и оценивают, какая из них лучше.
  • Эти рейтинги тренируют Модель вознаграждения (RM), которая оценивает качество ответов.
  • Затем языковая модель оптимизируется с помощью Оптимизации проксимальной политики (PPO) для генерации ответов, которые максимизируют оценку модели вознаграждения.
  • На этом этапе результаты модели согласовываются с человеческими предпочтениями, что делает ее полезной, безвредной и честной.

4. Ключевые возможности генеративного ИИ

Генерация текста

LLM, такие как GPT-4 и Gemini, могут писать эссе, обобщать документы, отвечать на вопросы, переводить языки, писать код и решать сложные многоэтапные задачи. В продвинутых моделях используется цепочка мыслей (CoT) для демонстрации своих рассуждений, что значительно повышает точность решения логических и математических задач.

Создание изображений и видео

Модели диффузии могут генерировать фотореалистичные изображения, художественные иллюстрации, а теперь и полноценные видеопоследовательности (например, Google Veo, OpenAI Sora). Модели преобразования текста в видео работают в пространственно-временных скрытых пространствах, расширяя процесс шумоподавления как во времени, так и в пространстве.

Генерация кода

Модели, настроенные на код (например, GitHub Copilot на базе Codex, Gemini Code Assist), могут автоматически заполнять функции, генерировать целые модули на основе описаний на естественном языке, писать модульные тесты и объяснять существующий код.

Генерация аудио и музыки

Такие модели, как Whisper от OpenAI (преобразование речи в текст) и MusicGen (музыка из текстовых подсказок), демонстрируют, что генеративная парадигма плавно распространяется на звуковую область, работая на спектрограммах или аудио токенах.

Мультимодальная генерация

Передовой рубеж генеративного искусственного интеллекта — это мультимодальные модели — системы, которые могут одновременно обрабатывать и генерировать текст, изображения, аудио и видео. Такие модели, как Gemini 1.5 Pro, могут обрабатывать двухчасовое видео, кодовую базу и PDF-документ в одном контекстном окне из 1 миллиона токенов.


5. Оперативное проектирование: раскрытие возможностей модели

Качество выходных данных генеративной модели очень зависит от того, как структурировано входное приглашение. Быстрое проектирование – это практика разработки исходных данных, обеспечивающих наилучшие ответы:

  • Нулевые подсказки: напрямую попросите модель выполнить задание без примеров.
  • Короткие подсказки: предоставьте 2–5 примеров желаемого формата ввода-вывода внутри самой подсказки. Модель выводит шаблон и применяет его к новым входным данным.
  • Цепочка мыслей (CoT): добавьте фразу «Давайте подумаем шаг за шагом», чтобы побудить модель обдумать проблему, прежде чем дать ответ.
  • Системные инструкции. Укажите в модели персональные или поведенческие ограничения (например, «Вы старший инженер по безопасности. Будьте точны и кратки»).

6. Генеративный ИИ против традиционного ИИ: сравнение

Размерность Традиционный ИИ Генеративный ИИ
Основная задача Классификация, регрессия, обнаружение Генерация контента, синтез, рассуждение
Тип вывода Метка, Вероятность, Ограничительная рамка Текст, изображение, аудио, код, видео
Парадигма обучения Обучение под учителем (маркированные наборы данных) Самоконтролируемый + RLHF (массивные немаркированные данные)
Гибкость Узкий (одна задача на модель) Широкий (одна модель, много задач)
Шкала параметров От тысяч до миллионов От миллиардов до триллионов
Основные риски Предвзятость в прогнозах Галлюцинации, неправильное использование, проблемы авторского права

7. Проблемы и ограничения

Несмотря на выдающиеся возможности, генеративный ИИ имеет существенные ограничения, которые инженеры должны понимать:

  • Галлюцинация: LLM могут уверенно генерировать фактически неверную информацию, поскольку они оптимизируют вероятность символа, а не фактическую истину. Решения включают RAG (дополненная генерация данных) и заземление с помощью проверенных источников.
  • Ограничения контекстного окна. Хотя такие модели, как Gemini 1.5 Pro, теперь поддерживают более 1 млн контекстов токенов, большинство производственных моделей имеют ограничения, требующие тщательного разделения длинных документов.
  • Смещение и безопасность: модели отражают предвзятость, присутствующую в данных обучения. Методики выравнивания (RLHF, Конституциональный ИИ) помогают, но проблема не решается полностью.
  • Стоимость вывода. Для запуска модели с триллионом параметров требуется значительная инфраструктура графического процессора. Такие методы, как квантование, спекулятивное декодирование и дистилляция модели, снижают эти затраты.
  • Авторское право и интеллектуальная собственность. При обучении на данных, защищенных авторским правом, модели могут воспроизводить защищенный контент, что поднимает нерешенные юридические вопросы, связанные с интеллектуальной собственностью.

8. Будущее генеративного искусственного интеллекта

Траектория развития генеративного ИИ указывает на несколько важных событий:

  • Агентный искусственный интеллект: LLM, оснащенные инструментами (поиск в Интернете, выполнение кода, доступ к файлам), превращаются в автономных агентов, которые планируют и выполняют многоэтапные задачи в течение длительных периодов времени. Это позволяют сделать такие платформы, как LangGraph, AutoGen и Google Agent Development Kit (ADK).
  • Модели мира: модели следующего поколения, которые обучаются сжатому, прогнозирующему представлению физической реальности, что позволяет роботам рассуждать о физическом мире и взаимодействовать с ним.
  • Персонализация в масштабе. Малые языковые модели (SLM), установленные на устройствах и работающие на телефонах и ноутбуках, позволят создавать частных персонализированных ИИ-помощников без зависимости от облака.
  • Научное открытие: Генеративные модели уже используются для разработки новых белков (AlphaFold 3), разработки новых молекул лекарств и ускорения исследований в области материаловедения.

Заключение

Генеративный ИИ — это не продукт, а новая вычислительная парадигма. Научившись моделировать распространение контента, созданного людьми, эти системы стали способны действовать как творческие сотрудники, неутомимые программисты, медицинские исследователи и автономные решения проблем. Понимание архитектуры и процессов обучения, лежащих в основе этих моделей, больше не является обязательным для инженеров и технологов — это необходимые знания для создания интеллектуального программного обеспечения следующего поколения.


Более подробную информацию об искусственном интеллекте можно найти в блоге Ghaznix →