图像生成模型 - Be Happy Every Day

概述#

这一讲讨论的是 图像生成模型（Image Generative Models）。

这一章的逻辑主线：

先从 生成模型（generative model） 的基本思想出发，理解“学习数据分布、再从分布中采样”的核心逻辑；
再介绍传统统计生成模型：高斯混合模型（Gaussian Mixture Model, GMM）；
接着进入深度生成模型的重要突破：生成对抗网络（Generative Adversarial Network, GAN）；
最后重点理解当前图像生成的主流技术之一：扩散模型（Diffusion Model, DM）；
最后比较 GMM、GAN、DM 的区别，并总结生成式人工智能在艺术创作、设计、广告、游戏、虚拟人物等领域的应用与伦理问题。

生成模型 = 学习真实数据的分布结构，再从这个分布中生成新的样本。

生成模型的基本思想#

什么是生成模型#

生成模型（generative model） 是一类能够学习数据分布，并根据这个分布生成新样本的模型。

假设真实数据来自某个未知分布：

x \sim p_{data}(x)

其中：

$x$ 表示一个样本，例如一张图像、一段音频或一句文本；
$p_{data}(x)$ 表示真实世界中样本出现的概率分布。

生成模型的目标是学习一个模型分布：

p_{model}(x) \approx p_{data}(x)

这样模型就可以从 $p_{model}$ 中采样，生成新的样本。

直观理解：

如果模型学会了“猫脸图像”的分布，它就可以生成一张现实中不存在、但看起来像猫脸的新图像；
如果模型学会了“油画风景”的分布，它就可以生成一张新的油画风格风景图；
如果模型学会了“广告海报”的分布，它就可以根据提示词生成新的海报方案。

生成模型和判别模型的区别#

类型	主要问题	输入	输出	典型任务
判别模型	判断样本属于哪一类	样本 $x$	标签 $y$ 或概率 $p(y｜x)$	分类、识别、检测
生成模型	生成符合分布的新样本	噪声、条件、文本提示等	新样本 $x$	图像生成、音频生成、文本生成

图像生成的基本过程#

图像生成通常可以理解为三步：

学习数据分布
- 模型从大量真实图像中学习颜色、纹理、形状、结构、风格等规律。
输入随机变量或条件信息
- 随机变量可以是噪声向量 $z$ ；
- 条件信息可以是类别标签、文字提示词、草图、风格图等。
输出新图像
- 模型将噪声或条件转化为图像。

可以概括为：

z \rightarrow G(z) \rightarrow x_{generated}

其中 $G$ 是生成模型， $x_{generated}$ 是生成样本。

图像生成模型的发展脉络#

这一章重点讲三类模型：

高斯混合模型（GMM）
- 传统统计模型；
- 用多个高斯分布描述复杂数据分布；
- 适合聚类、背景建模、异常检测等任务。
生成对抗网络（GAN）
- 深度生成模型；
- 用生成器和判别器进行对抗训练；
- 在高质量图像生成、风格迁移、数据增强中影响很大。
扩散模型（DM）
- 近年来图像生成的重要主流方法；
- 先加噪，再学习去噪；
- 在文生图、高分辨率图像生成和艺术创作中表现突出。

GMM 代表统计建模阶段，GAN 代表对抗生成阶段，扩散模型代表逐步去噪生成阶段。

从高斯分布到高斯混合模型#

高斯分布#

高斯分布（Gaussian distribution） 也叫 正态分布（normal distribution），是统计学中最重要的概率分布之一。

一维高斯分布的概率密度函数为：

p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(x-\mu)^2}{2\sigma^2}\right]

其中：

$\mu$ ：均值，决定分布中心；
$\sigma^2$ ：方差，决定分布宽窄；
$\sigma$ ：标准差。

高斯分布的典型形态：

单峰；
对称；
中间高，两边低；
大量自然数据近似服从高斯分布。

例如：

身高；
测量误差；
某些噪声；
大量独立因素共同作用后的结果。

单个高斯分布适合描述一个相对单一、集中的数据群体。

为什么需要混合模型#

现实数据往往呈现多个峰或多个子群体结构。

例如统计一所大学所有学生的身高：

男生身高可能形成一个分布；
女生身高可能形成另一个分布；
合在一起后，整体分布可能出现多个峰。

这时如果只用一个高斯分布拟合，就会过于粗糙。

更合理的做法是：

用多个高斯分布分别描述不同子群体，再把它们加权组合起来。

这就是高斯混合模型。

高斯混合模型 GMM#

GMM 的定义#

高斯混合模型（Gaussian Mixture Model, GMM） 是由多个高斯分布加权组合而成的概率模型。

它可以写成：

p(x)=\sum_{k=1}^{K}\pi_k \mathcal{N}(x|\mu_k,\Sigma_k)

其中：

$K$ ：高斯分布的个数，也就是混合成分数量；
$\pi_k$ ：第 $k$ 个高斯分布的权重；
$\mathcal{N}(x|\mu_k,\Sigma_k)$ ：第 $k$ 个高斯分布；
$\mu_k$ ：第 $k$ 个分布的均值；
$\Sigma_k$ ：第 $k$ 个分布的协方差矩阵。

权重需要满足：

\sum_{k=1}^{K}\pi_k = 1, \quad \pi_k \ge 0

直观理解：

每个高斯分布对应一个潜在类别或数据簇；
每个样本可能来自其中某一个分布；
整体数据分布由多个局部分布共同组成。

GMM 的核心思想#

GMM 的核心是：

复杂分布可以由多个简单分布组合近似。

它有点像用多块拼图拼出整体图案：

单个高斯分布只能描述一个局部区域；
多个高斯分布组合后，可以描述更复杂的数据形态。

例如：

对人群身高建模：一个高斯分布对应男生，一个对应女生；
对图像背景建模：一个像素点在不同光照和动态环境下可能对应多个颜色分布；
对语音特征建模：不同说话人、不同音素可以对应不同分布。

GMM 的参数#

训练一个 GMM，本质上就是估计三类参数：

混合权重 $\pi_k$
- 表示第 $k$ 个高斯成分在整体数据中的占比。
均值 $\mu_k$
- 表示第 $k$ 个高斯成分的中心位置。
协方差 $\Sigma_k$
- 表示第 $k$ 个高斯成分的形状、方向和扩散程度。

GMM 如何用于生成#

GMM 的生成过程可以分成两步：

第一步：选择一个高斯成分#

按照权重 $\pi_1,\pi_2,\cdots,\pi_K$ 随机选择一个成分 $k$ 。

第二步：从该高斯分布中采样#

从选中的分布中采样：

x \sim \mathcal{N}(\mu_k,\Sigma_k)

这样就得到一个新样本。

所以 GMM 的生成逻辑是：

先决定样本属于哪一类潜在模式，再从对应模式中生成具体样本。

GMM 和 K-means 的关系#

GMM 和 K-means 都可以用于聚类，但二者有明显差别。

方法	聚类方式	簇的形状	样本归属	输出信息
K-means	基于距离	通常偏球形	硬分配	每个样本属于哪个簇
GMM	基于概率	可以是椭圆形	软分配	每个样本属于各簇的概率

K-means 会直接判断：

这个点属于第 1 类。

GMM 会给出概率：

这个点有 80% 可能属于第 1 类，20% 可能属于第 2 类。

所以 GMM 更适合处理边界模糊、分布复杂的数据。

GMM 的典型应用#

1. 语音识别#

GMM 曾经长期用于语音识别中的声学建模。

基本思路：

提取语音的频谱特征；
用 GMM 建模不同说话人、音素或语音单元的分布；
对输入语音计算似然概率；
选择概率最高的类别作为识别结果。

2. 计算机视觉中的背景提取#

GMM 也常用于视频背景建模。

直观理解：

视频中每个像素点的颜色会随光照、阴影、动态背景变化；
一个像素点的历史颜色值可能形成多个分布；
用多个高斯分布建模这个像素点，就可以区分背景和前景。

例如：

背景：长期稳定出现的颜色分布；
前景：突然出现、持续时间短的异常颜色。

所以 GMM 可以用于：

监控视频中的运动目标检测；
背景分离；
图像分割；
异常检测。

3. 图像分割#

图像中的像素可以根据颜色、纹理或空间特征进行建模。

GMM 可以把图像像素划分为多个概率簇，例如：

天空；
草地；
建筑；
人物；
背景。

这种方法适合一些统计特征相对稳定的图像分割任务。

4. 异常检测#

如果数据在 GMM 下的概率很低，说明它不符合常见模式，就可能是异常点。

例如：

工业设备异常信号；
金融交易异常；
视频监控异常行为；
医学图像中的异常区域。

GMM 的优势与局限#

优势#

原理清晰
- 建立在概率统计基础上，解释性较好。
能描述多峰分布
- 比单个高斯分布更灵活。
支持软聚类
- 可以输出样本属于每个簇的概率。
适合中低维数据建模
- 在语音特征、背景建模、异常检测中仍有启发意义。

局限#

表达能力有限
- 面对高维复杂图像时，GMM 很难捕捉复杂语义结构。
依赖分布假设
- 默认数据可以由多个高斯分布组合描述。
高维场景计算困难
- 图像、视频等高维数据会带来参数量和估计难度问题。
生成质量有限
- 很难生成像 GAN 或扩散模型那样逼真的复杂图像。

GMM 是理解生成模型的起点，它说明了“从概率分布生成数据”的基本思想。

生成对抗网络 GAN#

GAN 的基本思想#

生成对抗网络（Generative Adversarial Network, GAN） 是一种深度生成模型。

GAN 的核心结构包括两个部分：

生成器（Generator, G）
- 输入随机噪声；
- 输出生成样本；
- 目标是生成尽可能逼真的数据。
判别器（Discriminator, D）
- 输入真实样本或生成样本；
- 输出该样本为真实样本的概率；
- 目标是区分真实数据和生成数据。

GAN 的训练可以理解为一个对抗博弈：

生成器不断提高造假能力；
判别器不断提高鉴别能力；
二者相互竞争，最终推动生成器生成越来越逼真的样本。

GAN 的直观类比#

可以把 GAN 想象成：

生成器：造画的人；
判别器：鉴定专家。

训练初期：

生成器画得很差；
判别器很容易识别假图。

训练过程中：

生成器根据判别器反馈改进；
判别器也不断学习更细致的真假差异。

理想状态：

生成器生成的图像足够真实；
判别器难以判断真假；
生成器学到了真实数据分布的重要特征。

GAN 的数学形式#

GAN 的经典目标函数是一个 minimax 博弈：

\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p_z(z)}[\log(1-D(G(z)))]

其中：

$x$ ：真实样本；
$z$ ：随机噪声；
$G(z)$ ：生成器生成的样本；
$D(x)$ ：判别器认为样本为真实样本的概率。

判别器希望：

对真实样本输出接近 1；
对生成样本输出接近 0。

生成器希望：

让 $D(G(z))$ 尽可能接近 1；
也就是让判别器把假样本误认为真实样本。

GAN 的训练过程#

GAN 通常交替训练生成器和判别器。

第一步：训练判别器#

固定生成器，用真实样本和生成样本训练判别器。

目标：

正确识别真实图像；
正确识别生成图像。

第二步：训练生成器#

固定判别器，更新生成器。

目标：

生成更逼真的样本；
让判别器更容易判断错误。

第三步：不断交替迭代#

随着训练进行：

生成器越来越强；
判别器也越来越强；
当判别器难以区分真假时，生成器达到较好效果。

GAN 的关键不在于显式写出数据分布，而是通过对抗训练逼近真实数据分布。

GAN 的典型应用#

图像生成#

GAN 最经典的应用是生成逼真图像。

例如：

人脸生成；
猫狗图像生成；
室内场景生成；
服装、产品、建筑概念图生成。

课本中提到，Progressive Growing GAN 通过逐步提高图像分辨率，生成了高质量人脸图像。

它的基本思想是：

先学习低分辨率图像；
再逐渐增加网络层和图像分辨率；
让模型从粗略结构逐步学习到细节纹理。

这样可以提升训练稳定性和图像质量。

图像到图像的转换#

GAN 可以完成 image-to-image translation。

典型任务：

素描图转真实图像；
语义分割图转街景图；
白天场景转夜晚场景；
马变斑马；
夏天场景转冬天场景。

代表模型：

Pix2Pix：使用成对样本训练，例如“边缘图 → 真实图”；
CycleGAN：可以在没有成对样本的情况下学习两个图像域之间的转换。

数据增强#

深度学习训练往往需要大量数据。

在医学、遥感、工业检测等领域，真实数据常常昂贵且稀缺。

GAN 可以生成合成数据，用于：

扩充训练集；
缓解类别不平衡；
提高模型鲁棒性；
辅助医学影像分析模型训练。

例如：

生成不同病灶形态的医学图像；
生成少数类缺陷样本；
生成不同光照和姿态下的人脸图像。

视频生成与预测#

GAN 也可以扩展到视频任务。

典型方向：

生成连续视频帧；
预测未来帧；
动作生成；
虚拟现实场景生成；
游戏和影视中的动态内容合成。

视频生成比图像生成更难，因为它不仅要求单帧逼真，还要求时间上连续一致。

艺术创作与风格迁移#

GAN 可以学习某种艺术风格，并生成具有该风格的新图像。

应用包括：

自动化艺术创作；
风格迁移；
图像编辑；
艺术作品混合；
创意素材生成。

例如：

DeepArt；
Artbreeder；
人脸编辑工具；
风格化头像生成。

GAN 推动了图像生成从统计建模走向深度创作。

GAN 的优势与局限#

GAN 的优势#

1. 图像质量高#

GAN 往往能生成非常锐利、清晰、细节丰富的图像。

与一些早期概率生成模型相比，GAN 生成图像的视觉效果更强。

2. 模型结构灵活#

GAN 理论上不限制生成器和判别器的具体形式。

实际应用中：

生成器可以使用 CNN；
判别器可以使用 CNN；
也可以结合条件输入、注意力机制、风格控制等结构。

3. 不需要显式建模复杂概率分布#

GAN 不需要直接写出 $p_{data}(x)$ 的精确表达式。

它通过判别器反馈来引导生成器逼近真实数据分布。

4. 应用范围广#

GAN 可用于：

图像生成；
图像修复；
图像超分辨率；
风格迁移；
数据增强；
视频生成。

GAN 的局限#

1. 训练不稳定#

GAN 的训练依赖生成器和判别器之间的平衡。

如果判别器太强：

生成器难以获得有效梯度；
学习可能停滞。

如果生成器太强：

判别器无法提供有效反馈；
对抗训练也会失衡。

因此 GAN 训练常常需要精细调参。

2. 容易出现模式崩塌#

模式崩塌（mode collapse） 是 GAN 的经典问题。

含义：

生成器只生成少数几类相似样本；
无法覆盖真实数据的全部多样性。

例如：

训练集里有多种人脸；
生成器却只生成某一种相似的人脸。

这会导致生成样本缺乏多样性。

3. 评价困难#

生成图像质量通常涉及：

清晰度；
真实性；
多样性；
与条件输入的一致性；
美学质量。

这些指标很难用一个简单数字完全衡量。

4. 对训练技巧敏感#

GAN 训练常常依赖：

网络结构设计；
学习率；
损失函数变体；
正则化方法；
数据规模和质量。

所以它虽然效果强，但工程实现并不轻松。

GAN 的优势是生成清晰，主要困难是训练稳定性和模式崩塌。

扩散模型 DM#

扩散模型的基本思想#

扩散模型（Diffusion Model, DM） 是近年来生成模型中的重要方法。

它的核心过程可以分成两部分：

正向扩散过程（forward diffusion process）
- 从真实数据开始；
- 一步步加入噪声；
- 最终把图像变成接近纯高斯噪声。
反向扩散过程（reverse diffusion process）
- 从随机噪声开始；
- 一步步去除噪声；
- 最终恢复出清晰图像。

直观理解：

训练时学会如何破坏图像，生成时学会如何把噪声还原成图像。

正向扩散过程#

正向扩散从真实图像 $x_0$ 开始，逐步添加噪声：

x_0 \rightarrow x_1 \rightarrow x_2 \rightarrow \cdots \rightarrow x_T

其中：

$x_0$ 是原始清晰图像；
$x_T$ 接近纯随机噪声；
每一步都会加入少量高斯噪声。

常见形式为：

q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)

其中：

$\beta_t$ 控制第 $t$ 步加入噪声的强度；
$I$ 是单位矩阵；
$q$ 表示正向加噪过程。

这一过程的直观意义：

清晰图像逐渐被噪声污染；
图像结构逐渐消失；
最后只剩近似高斯噪声。

反向扩散过程#

反向扩散是生成图像的关键。

它从随机噪声 $x_T$ 开始：

x_T \rightarrow x_{T-1} \rightarrow \cdots \rightarrow x_1 \rightarrow x_0

每一步模型都预测如何去掉一部分噪声。

模型学习的是：

在当前噪声图像 $x_t$ 下，如何估计更干净的 $x_{t-1}$ 。

生成时：

随机采样一张噪声图；
用神经网络预测噪声或去噪方向；
逐步去噪；
得到清晰图像。

扩散模型为什么适合图像生成#

图像生成本质上非常困难，因为图像既有局部细节，又有整体结构。

扩散模型把复杂生成任务拆成许多简单的小步骤：

每一步只需要去掉一点噪声；
多步迭代后逐渐形成图像；
生成过程更稳定。

这种方式类似：

从一块模糊画布中慢慢擦出图像；
从噪声中逐渐雕刻出结构；
先生成大体轮廓，再逐渐补充细节。

文本条件扩散模型#

现代文生图模型通常采用文本提示词作为条件来控制生成方向。

输入可以是：

“一个梦幻森林中漂浮着发光蘑菇。”

模型需要同时完成两件事：

理解文本语义；
在去噪过程中让图像逐步符合文本描述。

因此现代文生图模型通常包含：

文本编码器；
图像生成网络；
注意力机制或条件控制模块；
扩散去噪过程。

文本提示词控制生成方向，扩散过程负责把噪声逐步变成符合提示词的图像。

扩散模型的代表性模型#

DDPM#

DDPM（Denoising Diffusion Probabilistic Models） 是扩散模型的重要代表。

核心思想：

用正向过程逐步加噪；
用神经网络学习反向去噪；
从纯噪声中逐步生成图像。

DDPM 的意义在于：

证明扩散模型可以生成高质量图像；
在效果上接近甚至媲美 GAN；
训练过程相对稳定。

DALL·E#

DALL·E 是文本到图像生成系统。

基本任务：

输入文本描述，输出对应图像。

例如：

“一只穿宇航服的猫”；
“梦幻森林里的发光蘑菇”；
“水彩风格的未来城市”。

DALL·E 展示了生成模型在跨模态生成中的潜力：

文本语义；
图像结构；
创意组合；
风格控制。

Latent Diffusion#

Latent Diffusion Model（LDM） 的关键思想是：

不直接在像素空间扩散，而是在压缩后的潜在空间中扩散。

这样做的好处：

大幅降低计算成本；
适合高分辨率图像生成；
生成速度更可控；
可以结合文本、类别、布局等条件信息。

为什么潜在空间更高效？

原始图像像素维度很高；
许多像素细节并不都需要直接建模；
先用编码器把图像压缩成潜在表示；
在潜在表示上做扩散，再解码成图像。

Stable Diffusion#

Stable Diffusion 是开源文本到图像扩散模型，是 Latent Diffusion 思路的重要应用。

特点：

开源；
可访问性强；
可在相对较低成本硬件上运行；
支持文生图、图生图、局部重绘、风格控制等任务。

Stable Diffusion 推动了图像生成从研究实验走向大众创作工具。

扩散模型的优势与局限#

扩散模型的优势#

1. 生成质量高#

扩散模型能生成高分辨率、细节丰富、真实感强的图像。

在许多文生图任务中，它的图像质量和多样性表现突出。

2. 训练更稳定#

相比 GAN，扩散模型通常更容易训练。

原因在于：

它没有生成器和判别器之间的激烈对抗；
训练目标更接近逐步去噪；
不容易出现 GAN 中典型的模式崩塌。

3. 多样性好#

扩散模型从随机噪声开始生成。

不同噪声可以带来不同图像结果，因此它在样本多样性方面通常表现较好。

4. 可控性强#

扩散模型可以结合多种条件控制：

文本提示词；
类别标签；
草图；
深度图；
姿态图；
局部遮罩；
风格参考图。

这使它非常适合创意设计场景。

5. 可扩展到多种数据类型#

扩散模型不仅可以用于图像，还可以用于：

音频生成；
视频生成；
文本生成；
3D 生成；
分子生成。

扩散模型的局限#

1. 计算成本高#

扩散模型需要多步去噪。

这意味着：

训练成本高；
推理成本高；
高分辨率图像生成更耗资源。

2. 生成速度较慢#

与一次前向生成的 GAN 相比，扩散模型需要经过多个采样步骤。

所以在实时生成场景中，速度可能成为瓶颈。

3. 对数据质量敏感#

如果训练数据存在问题：

噪声大；
偏见强；
分布不均衡；
标签或文本描述不准确；

生成结果也会受到影响。

4. 语义理解仍可能出错#

扩散模型可以生成非常精美的图像，但在复杂语义组合上仍可能出现问题。

例如：

物体数量不对；
左右关系错误；
手部结构异常；
文本渲染错误；
多对象关系混乱。

扩散模型的优势是质量高、训练稳、可控性强；主要代价是计算量大、生成速度慢。

三类图像生成模型对比#

维度	GMM	GAN	扩散模型
模型类型	统计生成模型	深度对抗生成模型	深度概率生成模型
核心思想	多个高斯分布加权组合	生成器与判别器对抗训练	正向加噪，反向去噪
输入	数据特征	随机噪声 / 条件信息	随机噪声 / 条件信息
输出	新样本或类别概率	生成图像、视频等	高质量图像、音频等
训练方式	概率参数估计	对抗优化	去噪学习
优点	解释性强，概率意义清晰	图像锐利，效果逼真	质量高，训练稳定，多样性好
局限	表达能力有限	训练不稳定，模式崩塌	计算成本高，生成速度慢
典型应用	聚类、背景建模、异常检测	人脸生成、风格迁移、数据增强	文生图、艺术创作、高分辨率图像生成

从 GMM 到 GAN 再到扩散模型#

这三类模型体现了生成模型的发展趋势：

GMM：显式概率建模#

GMM 直接描述数据分布：

p(x)=\sum_k \pi_k\mathcal{N}(x|\mu_k,\Sigma_k)

特点：

解释性强；
数学清晰；
表达能力受限。

GAN：通过对抗学习生成#

GAN 不直接写出复杂分布表达式。

它通过判别器反馈让生成器逐渐逼近真实数据分布。

特点：

视觉效果强；
结构灵活；
训练困难。

扩散模型：通过逐步去噪生成#

扩散模型把生成任务拆成很多去噪步骤。

特点：

生成质量高；
训练相对稳定；
计算成本较高。

三者的直观理解#

模型	类比
GMM	用多个钟形曲线拼出数据分布
GAN	造假者和鉴定专家互相较量
扩散模型	从噪声中一步步擦出清晰图像

生成式 AI 的应用与伦理问题#

生成式 AI 的典型应用#

1. 艺术创作#

生成模型可以辅助艺术家完成：

概念草图；
风格探索；
色彩方案；
视觉灵感生成；
艺术图像创作。

它降低了视觉创作门槛，也扩展了创作方式。

2. 广告创意#

在广告和营销中，图像生成模型可以快速生成：

节日海报；
产品宣传图；
个性化广告素材；
不同人群定制化视觉方案。

例如：

年轻群体：科技风、霓虹色、未来感；
家庭群体：温馨风、暖色调、节日氛围；
商务群体：简约风、高级感、低饱和配色。

3. 游戏设计#

生成模型可以用于：

场景概念图；
角色设计；
道具设计；
纹理生成；
关卡素材生成。

这可以显著提高前期美术探索效率。

4. 虚拟人物生成#

GAN 和扩散模型都可以生成虚拟头像、虚拟角色和数字人素材。

应用场景包括：

虚拟主播；
游戏角色；
影视角色概念设计；
社交媒体头像；
数字分身。

5. 医学与科研数据增强#

在医学领域，真实数据可能受隐私、成本、样本稀缺限制。

生成模型可以辅助生成合成医学图像，用于：

数据增强；
少数类疾病样本补充；
模型预训练；
算法鲁棒性测试。

生成式 AI 的伦理问题#

生成模型越强，相关伦理问题越重要。

1. 原创性问题#

AI 生成作品是否具有原创性，需要区分：

模型是否只是复现训练数据；
生成内容是否与已有作品高度相似；
用户提示词与模型训练数据各自贡献多少；
创作者、工具提供者、数据提供者之间如何分配权利。

2. 版权问题#

训练数据中可能包含受版权保护的作品。

需要关注：

数据来源是否合规；
生成作品是否侵犯原作者权益；
风格模仿是否涉及侵权；
商业使用是否需要额外授权。

3. 虚假信息问题#

图像生成模型可以生成逼真的虚假图像。

风险包括：

假新闻；
深度伪造；
虚假证据；
舆论操纵；
网络诈骗。

4. 数据偏见问题#

如果训练数据有偏见，生成模型也可能放大偏见。

例如：

性别刻板印象；
职业刻板印象；
地域或族群偏见；
审美单一化。

5. 责任归属问题#

当生成内容造成损害时，需要回答：

是用户负责；
是模型开发者负责；
是平台负责；
是数据提供方负责；
还是需要共同责任机制。

生成式 AI 的价值在于扩展创造力，它的风险在于生成内容可能被误用、滥用或侵权。