生成式人工智能解释：机器如何学习创造

2026年6月17日

生成式人工智能是 21 世纪最具变革性的技术变革之一。与分类、预测或检测的传统人工智能系统不同，生成式人工智能创建——文本、图像、音频、视频、代码，甚至三维结构。它是 ChatGPT 撰写文章、Midjourney 绘画真实感艺术以及 GitHub Copilot 通过评论完成整个功能背后的技术。

本指南解释了什么是生成式人工智能、它的工作原理、支持它的主要模型架构以及它的发展方向。

1.什么是生成式人工智能？

生成式人工智能是指一类人工智能模型，它学习训练数据的统计分布，然后生成遵循相同分布的新内容。

简单地说：如果你用数百万张人脸照片训练一个模型，它就会学习脸部的模式——眼睛的位置、鼻子的形状、皮肤的纹理——然后可以生成一张以前从未存在过的全新脸部。

判别式和生成式模型之间的主要区别：

歧视性人工智能	生成式人工智能
了解班级之间的界限	了解完整的数据分布
输入→标签/类别	输入提示→新增内容（文字、图片、音频）
示例：图像分类器、垃圾邮件过滤器	示例：GPT-4，稳定扩散，Gemini
回答：“这是猫吗？” → 是/否	答案：“生成一幅穿着宇航服的猫的画”

2. 生成式人工智能背后的核心架构

现代生成式人工智能并不是一项单一的技术——它是一系列不同的架构，每种架构都适合不同的领域。

2.1 基于 Transformer 的语言模型 (LLM)

Vaswani 等人在 2017 年具有里程碑意义的论文“Attention is All You Need”中介绍的 Transformer 架构是当今所有主要语言模型的基础，包括 GPT-4、Gemini、Claude 和 Llama。

它是如何工作的：

标记化：输入文本被分解为标记（子词单元）。 “生成式人工智能”可能会变成 ["Genera", "tive", " AI"]。
嵌入：每个标记都被转换为捕获其含义的高维数值向量。
自我注意力机制：每个令牌计算与序列中每个其他令牌的关系（注意力分数）。这使得模型能够理解“河岸”中的“银行”与“银行账户”中的“银行”不同。
前馈层：每个位置都经过非线性前馈网络来提取复杂的特征。
下一个标记预测：像 GPT 这样的自回归模型经过训练来预测下一个最可能的标记，重复此过程直到输出完成。

现代法学硕士的规模令人震惊：

GPT-4：估计约 1.8 万亿个参数
Google Gemini Ultra：跨专家混合架构的数万亿个参数
Llama 3.1 405B：4050亿个参数，开源

2.2 扩散模型（图像和音频）

Diffusion 模型支持稳定 Diffusion、DALL-E 3 和 Midjourney 等工具。他们学习通过两个阶段的过程生成图像：

正向过程（训练）：

通过在多个步骤（例如 1,000 个步骤）中添加高斯噪声，真实图像会逐渐损坏。
在最后一步，图像是纯随机噪声。
模型学习“预测每一步添加的噪声”。

逆向过程（生成）：

从纯随机噪声开始。
在语言模型（如 CLIP）编码的文本提示的指导下，迭代地对图像进行去噪。
经过 20-50 个降噪步骤后，出现符合提示的逼真图像。

文本调节是通过 U-Net（或 DiT — 扩散变压器）主干内的 Cross-Attention 层实现的，它允许噪声预测器由提示的语义来引导。

2.3 生成对抗网络（GAN）

在扩散模型占据主导地位之前，GAN（由 Ian Goodfellow 于 2014 年推出）是图像合成的黄金标准。

GAN 由两个同时训练的竞争神经网络组成：

生成器（G）：以随机噪声作为输入并生成假图像，试图欺骗鉴别器。
鉴别器 (D)：拍摄真实图像和假图像并尝试区分它们。

通过这种对抗性训练循环，生成器逐渐学习生成更真实的图像。训练目标是极小极大游戏：

min_G max_D [E[log D(x)] + E[log(1 - D(G(z)))]]

GAN 的局限性：训练不稳定性（模式崩溃、梯度消失）和生成高度多样化输出的困难使得它们不如扩散模型适合开放域生成。

2.4 变分自动编码器（VAE）

VAE 提供了一个概率框架，用于学习捕获数据底层结构的压缩潜在空间。它们包括：

编码器：将输入数据压缩为低维潜在空间中的均值 (μ) 和方差 (σ) 向量。
解码器：从潜在分布中采样的点重建数据。

VAE 被广泛用作大型系统中的组件 - 例如，稳定扩散在 VAE 的压缩潜在空间（称为潜在扩散模型）内运行其扩散过程，这使得该过程大大加快。

3. 法学硕士的培训方式：三阶段流程

现代大型语言模型在到达用户之前会经历三个不同的训练阶段：

第一阶段：预训练（向世界学习）

该模型使用自我监督学习在大量文本语料库（从书籍、网站、代码和科学论文中抓取的数万亿个标记）上进行训练。任务很简单：预测下一个标记。不需要人类标签。这教授模型世界知识、语法、推理模式和编码能力。

第 2 阶段：监督微调 (SFT)

人类培训师创建了数千个高质量的即时响应对，展示了理想的人工智能行为。然后根据这些数据对预训练模型进行微调，以学习对话帮助的预期格式和语气。

第 3 阶段：根据人类反馈进行强化学习 (RLHF)

人类评分者比较模型响应对并排名更好。
这些排名训练了一个奖励模型 (RM)，用于对响应质量进行评分。
然后使用近端策略优化 (PPO) 来优化语言模型，以生成最大化奖励模型分数的响应。
此阶段使模型的输出与人类偏好保持一致，使其变得有用、无害且诚实。

4. 关键的生成人工智能能力

文本生成

像 GPT-4 和 Gemini 这样的法学硕士可以撰写论文、总结文档、回答问题、翻译语言、编写代码以及通过复杂的多步骤问题进行推理。高级模型使用思想链 (CoT) 提示来展示其推理，从而显着提高逻辑和数学任务的准确性。

图像和视频生成

扩散模型可以生成逼真的图像、艺术插图，现在还可以生成完整的视频序列（例如 Google Veo、OpenAI Sora）。文本到视频模型在时空潜在空间上运行，将去噪过程扩展到时间和空间上。

代码生成

在代码上进行微调的模型（例如，由 Codex、Gemini Code Assist 提供支持的 GitHub Copilot）可以自动完成功能、从自然语言描述生成整个模块、编写单元测试并解释现有代码。

音频和音乐生成

OpenAI 的 Whisper（语音转文本）和 MusicGen（文本提示中的音乐）等模型表明，生成范式可以流畅地扩展到音频领域，对频谱图或音频标记进行操作。

多模式生成

生成式人工智能的前沿是多模式模型——可以同时处理和生成文本、图像、音频和视频的系统。像 Gemini 1.5 Pro 这样的模型可以在包含 100 万个令牌的单个上下文窗口中推理超过 2 小时的视频、代码库和 PDF 文档。

5. 快速工程：释放模型能力

生成模型输出的质量对输入提示的结构高度敏感。 即时工程是精心设计输入以引发最佳响应的实践：

零样本提示：直接要求模型执行没有示例的任务。
少量提示：在提示本身内提供 2-5 个所需输入输出格式的示例。该模型推断模式并将其应用于新的输入。
思想链 (CoT)：添加“让我们一步一步思考”，鼓励模型在给出答案之前先推理问题。
系统说明：使用角色或行为约束来启动模型（例如，“您是一名高级安全工程师。要精确、简洁。”）。

6. 生成式人工智能与传统人工智能：比较

尺寸	传统人工智能	生成式人工智能
主要任务	分类、回归、检测	内容生成、综合、推理
输出类型	标签、概率、边界框	文本、图像、音频、代码、视频
培训范式	监督学习（标记数据集）	自监督+RLHF（海量无标签数据）
灵活性	狭窄（每个模型一项任务）	广泛（一种模型，多种任务）
参数范围	数千到数百万	数十亿至数万亿
主要风险	预测偏差	幻觉、滥用、版权问题

7. 挑战和限制

尽管生成式人工智能具有非凡的能力，但它也有很大的局限性，工程师必须了解：

幻觉：法学硕士可以自信地生成事实上不正确的信息，因为它们优化的是令牌概率，而不是事实真相。解决方案包括 RAG（检索增强生成）和经过验证的电源接地。
上下文窗口限制：虽然像 Gemini 1.5 Pro 这样的模型现在支持 1M+ 令牌上下文，但大多数生产模型都有限制，需要对长文档进行仔细分块。
偏差和安全性：模型反映了训练数据中存在的偏差。对齐技术（RLHF、宪法人工智能）有所帮助，但问题尚未完全解决。
推理成本：运行万亿参数模型需要大量的 GPU 基础设施。量化、推测解码和模型蒸馏等技术可以降低这种成本。
版权和知识产权：当接受受版权保护的数据训练时，模型可能会复制受保护的内容，从而引发有关知识产权的未解决的法律问题。

8. 生成式人工智能的未来

生成式人工智能的发展轨迹指向几个主要发展方向：

代理人工智能：配备工具（网络搜索、代码执行、文件访问）的法学硕士正在演变成自主代理，可以在较长时间内规划和执行多步骤任务。 LangGraph、AutoGen 和 Google 代理开发工具包 (ADK) 等框架正在实现这一点。
世界模型：下一代模型可以学习物理现实的压缩、预测表示——使机器人能够推理物理世界并与之交互。
大规模个性化：在手机和笔记本电脑上运行的设备上小语言模型（SLM）将支持私人、个性化的人工智能助手，而无需依赖云。
科学发现：生成模型已被用于设计新蛋白质 (AlphaFold 3)、提出新药物分子并加速材料科学研究。

＃＃结论

生成式人工智能不是一种产品，而是一种新的计算范式。通过学习对人类创建的内容的分发进行建模，这些系统已经能够充当创意合作者、不知疲倦的编码员、医学研究人员和自主问题解决者。对于工程师和技术人员来说，了解这些模型背后的架构和训练流程不再是可选的，而是构建下一代智能软件的基本知识。

在 Ghaznix 博客上探索更多人工智能见解 →