概述
这一讲讨论的是 图像生成模型(Image Generative Models)。
这一章的逻辑主线:
- 先从 生成模型(generative model) 的基本思想出发,理解“学习数据分布、再从分布中采样”的核心逻辑;
- 再介绍传统统计生成模型:高斯混合模型(Gaussian Mixture Model, GMM);
- 接着进入深度生成模型的重要突破:生成对抗网络(Generative Adversarial Network, GAN);
- 最后重点理解当前图像生成的主流技术之一:扩散模型(Diffusion Model, DM);
- 最后比较 GMM、GAN、DM 的区别,并总结生成式人工智能在艺术创作、设计、广告、游戏、虚拟人物等领域的应用与伦理问题。
生成模型 = 学习真实数据的分布结构,再从这个分布中生成新的样本。
目录
- 概述
- 生成模型的基本思想
- 从高斯分布到高斯混合模型
- 高斯混合模型 GMM
- 生成对抗网络 GAN
- GAN 的典型应用
- GAN 的优势与局限
- 扩散模型 DM
- 扩散模型的代表性模型
- 扩散模型的优势与局限
- 三类图像生成模型对比
- 生成式 AI 的应用与伦理问题
- 图片占位符
- 这一讲最该记住的内容
- 参考文献
生成模型的基本思想
什么是生成模型
生成模型(generative model) 是一类能够学习数据分布,并根据这个分布生成新样本的模型。
假设真实数据来自某个未知分布:
其中:
- 表示一个样本,例如一张图像、一段音频或一句文本;
- 表示真实世界中样本出现的概率分布。
生成模型的目标是学习一个模型分布:
这样模型就可以从 中采样,生成新的样本。
直观理解:
- 如果模型学会了“猫脸图像”的分布,它就可以生成一张现实中不存在、但看起来像猫脸的新图像;
- 如果模型学会了“油画风景”的分布,它就可以生成一张新的油画风格风景图;
- 如果模型学会了“广告海报”的分布,它就可以根据提示词生成新的海报方案。
生成模型和判别模型的区别
| 类型 | 主要问题 | 输入 | 输出 | 典型任务 |
|---|---|---|---|---|
| 判别模型 | 判断样本属于哪一类 | 样本 | 标签 或概率 | 分类、识别、检测 |
| 生成模型 | 生成符合分布的新样本 | 噪声、条件、文本提示等 | 新样本 | 图像生成、音频生成、文本生成 |
图像生成的基本过程
图像生成通常可以理解为三步:
-
学习数据分布
- 模型从大量真实图像中学习颜色、纹理、形状、结构、风格等规律。
-
输入随机变量或条件信息
- 随机变量可以是噪声向量 ;
- 条件信息可以是类别标签、文字提示词、草图、风格图等。
-
输出新图像
- 模型将噪声或条件转化为图像。
可以概括为:
其中 是生成模型, 是生成样本。
图像生成模型的发展脉络
这一章重点讲三类模型:
-
高斯混合模型(GMM)
- 传统统计模型;
- 用多个高斯分布描述复杂数据分布;
- 适合聚类、背景建模、异常检测等任务。
-
生成对抗网络(GAN)
- 深度生成模型;
- 用生成器和判别器进行对抗训练;
- 在高质量图像生成、风格迁移、数据增强中影响很大。
-
扩散模型(DM)
- 近年来图像生成的重要主流方法;
- 先加噪,再学习去噪;
- 在文生图、高分辨率图像生成和艺术创作中表现突出。
GMM 代表统计建模阶段,GAN 代表对抗生成阶段,扩散模型代表逐步去噪生成阶段。
从高斯分布到高斯混合模型
高斯分布
高斯分布(Gaussian distribution) 也叫 正态分布(normal distribution),是统计学中最重要的概率分布之一。
一维高斯分布的概率密度函数为:
其中:
- :均值,决定分布中心;
- :方差,决定分布宽窄;
- :标准差。
高斯分布的典型形态:
- 单峰;
- 对称;
- 中间高,两边低;
- 大量自然数据近似服从高斯分布。
例如:
- 身高;
- 测量误差;
- 某些噪声;
- 大量独立因素共同作用后的结果。
单个高斯分布适合描述一个相对单一、集中的数据群体。
为什么需要混合模型
现实数据往往呈现多个峰或多个子群体结构。
例如统计一所大学所有学生的身高:
- 男生身高可能形成一个分布;
- 女生身高可能形成另一个分布;
- 合在一起后,整体分布可能出现多个峰。
这时如果只用一个高斯分布拟合,就会过于粗糙。
更合理的做法是:
用多个高斯分布分别描述不同子群体,再把它们加权组合起来。
这就是高斯混合模型。
高斯混合模型 GMM
GMM 的定义
高斯混合模型(Gaussian Mixture Model, GMM) 是由多个高斯分布加权组合而成的概率模型。
它可以写成:
其中:
- :高斯分布的个数,也就是混合成分数量;
- :第 个高斯分布的权重;
- :第 个高斯分布;
- :第 个分布的均值;
- :第 个分布的协方差矩阵。
权重需要满足:
直观理解:
- 每个高斯分布对应一个潜在类别或数据簇;
- 每个样本可能来自其中某一个分布;
- 整体数据分布由多个局部分布共同组成。
GMM 的核心思想
GMM 的核心是:
复杂分布可以由多个简单分布组合近似。
它有点像用多块拼图拼出整体图案:
- 单个高斯分布只能描述一个局部区域;
- 多个高斯分布组合后,可以描述更复杂的数据形态。
例如:
- 对人群身高建模:一个高斯分布对应男生,一个对应女生;
- 对图像背景建模:一个像素点在不同光照和动态环境下可能对应多个颜色分布;
- 对语音特征建模:不同说话人、不同音素可以对应不同分布。
GMM 的参数
训练一个 GMM,本质上就是估计三类参数:
-
混合权重
- 表示第 个高斯成分在整体数据中的占比。
-
均值
- 表示第 个高斯成分的中心位置。
-
协方差
- 表示第 个高斯成分的形状、方向和扩散程度。
GMM 如何用于生成
GMM 的生成过程可以分成两步:
第一步:选择一个高斯成分
按照权重 随机选择一个成分 。
第二步:从该高斯分布中采样
从选中的分布中采样:
这样就得到一个新样本。
所以 GMM 的生成逻辑是:
先决定样本属于哪一类潜在模式,再从对应模式中生成具体样本。
GMM 和 K-means 的关系
GMM 和 K-means 都可以用于聚类,但二者有明显差别。
| 方法 | 聚类方式 | 簇的形状 | 样本归属 | 输出信息 |
|---|---|---|---|---|
| K-means | 基于距离 | 通常偏球形 | 硬分配 | 每个样本属于哪个簇 |
| GMM | 基于概率 | 可以是椭圆形 | 软分配 | 每个样本属于各簇的概率 |
K-means 会直接判断:
这个点属于第 1 类。
GMM 会给出概率:
这个点有 80% 可能属于第 1 类,20% 可能属于第 2 类。
所以 GMM 更适合处理边界模糊、分布复杂的数据。
GMM 的典型应用
1. 语音识别
GMM 曾经长期用于语音识别中的声学建模。
基本思路:
- 提取语音的频谱特征;
- 用 GMM 建模不同说话人、音素或语音单元的分布;
- 对输入语音计算似然概率;
- 选择概率最高的类别作为识别结果。
2. 计算机视觉中的背景提取
GMM 也常用于视频背景建模。
直观理解:
- 视频中每个像素点的颜色会随光照、阴影、动态背景变化;
- 一个像素点的历史颜色值可能形成多个分布;
- 用多个高斯分布建模这个像素点,就可以区分背景和前景。
例如:
- 背景:长期稳定出现的颜色分布;
- 前景:突然出现、持续时间短的异常颜色。
所以 GMM 可以用于:
- 监控视频中的运动目标检测;
- 背景分离;
- 图像分割;
- 异常检测。
3. 图像分割
图像中的像素可以根据颜色、纹理或空间特征进行建模。
GMM 可以把图像像素划分为多个概率簇,例如:
- 天空;
- 草地;
- 建筑;
- 人物;
- 背景。
这种方法适合一些统计特征相对稳定的图像分割任务。
4. 异常检测
如果数据在 GMM 下的概率很低,说明它不符合常见模式,就可能是异常点。
例如:
- 工业设备异常信号;
- 金融交易异常;
- 视频监控异常行为;
- 医学图像中的异常区域。
GMM 的优势与局限
优势
-
原理清晰
- 建立在概率统计基础上,解释性较好。
-
能描述多峰分布
- 比单个高斯分布更灵活。
-
支持软聚类
- 可以输出样本属于每个簇的概率。
-
适合中低维数据建模
- 在语音特征、背景建模、异常检测中仍有启发意义。
局限
-
表达能力有限
- 面对高维复杂图像时,GMM 很难捕捉复杂语义结构。
-
依赖分布假设
- 默认数据可以由多个高斯分布组合描述。
-
高维场景计算困难
- 图像、视频等高维数据会带来参数量和估计难度问题。
-
生成质量有限
- 很难生成像 GAN 或扩散模型那样逼真的复杂图像。
GMM 是理解生成模型的起点,它说明了“从概率分布生成数据”的基本思想。
生成对抗网络 GAN
GAN 的基本思想
生成对抗网络(Generative Adversarial Network, GAN) 是一种深度生成模型。
GAN 的核心结构包括两个部分:
-
生成器(Generator, G)
- 输入随机噪声;
- 输出生成样本;
- 目标是生成尽可能逼真的数据。
-
判别器(Discriminator, D)
- 输入真实样本或生成样本;
- 输出该样本为真实样本的概率;
- 目标是区分真实数据和生成数据。
GAN 的训练可以理解为一个对抗博弈:
- 生成器不断提高造假能力;
- 判别器不断提高鉴别能力;
- 二者相互竞争,最终推动生成器生成越来越逼真的样本。
GAN 的直观类比
可以把 GAN 想象成:
- 生成器:造画的人;
- 判别器:鉴定专家。
训练初期:
- 生成器画得很差;
- 判别器很容易识别假图。
训练过程中:
- 生成器根据判别器反馈改进;
- 判别器也不断学习更细致的真假差异。
理想状态:
- 生成器生成的图像足够真实;
- 判别器难以判断真假;
- 生成器学到了真实数据分布的重要特征。
GAN 的数学形式
GAN 的经典目标函数是一个 minimax 博弈:
其中:
- :真实样本;
- :随机噪声;
- :生成器生成的样本;
- :判别器认为样本为真实样本的概率。
判别器希望:
- 对真实样本输出接近 1;
- 对生成样本输出接近 0。
生成器希望:
- 让 尽可能接近 1;
- 也就是让判别器把假样本误认为真实样本。
GAN 的训练过程
GAN 通常交替训练生成器和判别器。
第一步:训练判别器
固定生成器,用真实样本和生成样本训练判别器。
目标:
- 正确识别真实图像;
- 正确识别生成图像。
第二步:训练生成器
固定判别器,更新生成器。
目标:
- 生成更逼真的样本;
- 让判别器更容易判断错误。
第三步:不断交替迭代
随着训练进行:
- 生成器越来越强;
- 判别器也越来越强;
- 当判别器难以区分真假时,生成器达到较好效果。
GAN 的关键不在于显式写出数据分布,而是通过对抗训练逼近真实数据分布。
GAN 的典型应用
图像生成
GAN 最经典的应用是生成逼真图像。
例如:
- 人脸生成;
- 猫狗图像生成;
- 室内场景生成;
- 服装、产品、建筑概念图生成。
课本中提到,Progressive Growing GAN 通过逐步提高图像分辨率,生成了高质量人脸图像。
它的基本思想是:
- 先学习低分辨率图像;
- 再逐渐增加网络层和图像分辨率;
- 让模型从粗略结构逐步学习到细节纹理。
这样可以提升训练稳定性和图像质量。
图像到图像的转换
GAN 可以完成 image-to-image translation。
典型任务:
- 素描图转真实图像;
- 语义分割图转街景图;
- 白天场景转夜晚场景;
- 马变斑马;
- 夏天场景转冬天场景。
代表模型:
- Pix2Pix:使用成对样本训练,例如“边缘图 → 真实图”;
- CycleGAN:可以在没有成对样本的情况下学习两个图像域之间的转换。
数据增强
深度学习训练往往需要大量数据。
在医学、遥感、工业检测等领域,真实数据常常昂贵且稀缺。
GAN 可以生成合成数据,用于:
- 扩充训练集;
- 缓解类别不平衡;
- 提高模型鲁棒性;
- 辅助医学影像分析模型训练。
例如:
- 生成不同病灶形态的医学图像;
- 生成少数类缺陷样本;
- 生成不同光照和姿态下的人脸图像。
视频生成与预测
GAN 也可以扩展到视频任务。
典型方向:
- 生成连续视频帧;
- 预测未来帧;
- 动作生成;
- 虚拟现实场景生成;
- 游戏和影视中的动态内容合成。
视频生成比图像生成更难,因为它不仅要求单帧逼真,还要求时间上连续一致。
艺术创作与风格迁移
GAN 可以学习某种艺术风格,并生成具有该风格的新图像。
应用包括:
- 自动化艺术创作;
- 风格迁移;
- 图像编辑;
- 艺术作品混合;
- 创意素材生成。
例如:
- DeepArt;
- Artbreeder;
- 人脸编辑工具;
- 风格化头像生成。
GAN 推动了图像生成从统计建模走向深度创作。
GAN 的优势与局限
GAN 的优势
1. 图像质量高
GAN 往往能生成非常锐利、清晰、细节丰富的图像。
与一些早期概率生成模型相比,GAN 生成图像的视觉效果更强。
2. 模型结构灵活
GAN 理论上不限制生成器和判别器的具体形式。
实际应用中:
- 生成器可以使用 CNN;
- 判别器可以使用 CNN;
- 也可以结合条件输入、注意力机制、风格控制等结构。
3. 不需要显式建模复杂概率分布
GAN 不需要直接写出 的精确表达式。
它通过判别器反馈来引导生成器逼近真实数据分布。
4. 应用范围广
GAN 可用于:
- 图像生成;
- 图像修复;
- 图像超分辨率;
- 风格迁移;
- 数据增强;
- 视频生成。
GAN 的局限
1. 训练不稳定
GAN 的训练依赖生成器和判别器之间的平衡。
如果判别器太强:
- 生成器难以获得有效梯度;
- 学习可能停滞。
如果生成器太强:
- 判别器无法提供有效反馈;
- 对抗训练也会失衡。
因此 GAN 训练常常需要精细调参。
2. 容易出现模式崩塌
模式崩塌(mode collapse) 是 GAN 的经典问题。
含义:
- 生成器只生成少数几类相似样本;
- 无法覆盖真实数据的全部多样性。
例如:
- 训练集里有多种人脸;
- 生成器却只生成某一种相似的人脸。
这会导致生成样本缺乏多样性。
3. 评价困难
生成图像质量通常涉及:
- 清晰度;
- 真实性;
- 多样性;
- 与条件输入的一致性;
- 美学质量。
这些指标很难用一个简单数字完全衡量。
4. 对训练技巧敏感
GAN 训练常常依赖:
- 网络结构设计;
- 学习率;
- 损失函数变体;
- 正则化方法;
- 数据规模和质量。
所以它虽然效果强,但工程实现并不轻松。
GAN 的优势是生成清晰,主要困难是训练稳定性和模式崩塌。
扩散模型 DM
扩散模型的基本思想
扩散模型(Diffusion Model, DM) 是近年来生成模型中的重要方法。
它的核心过程可以分成两部分:
-
正向扩散过程(forward diffusion process)
- 从真实数据开始;
- 一步步加入噪声;
- 最终把图像变成接近纯高斯噪声。
-
反向扩散过程(reverse diffusion process)
- 从随机噪声开始;
- 一步步去除噪声;
- 最终恢复出清晰图像。
直观理解:
训练时学会如何破坏图像,生成时学会如何把噪声还原成图像。
正向扩散过程
正向扩散从真实图像 开始,逐步添加噪声:
其中:
- 是原始清晰图像;
- 接近纯随机噪声;
- 每一步都会加入少量高斯噪声。
常见形式为:
其中:
- 控制第 步加入噪声的强度;
- 是单位矩阵;
- 表示正向加噪过程。
这一过程的直观意义:
- 清晰图像逐渐被噪声污染;
- 图像结构逐渐消失;
- 最后只剩近似高斯噪声。
反向扩散过程
反向扩散是生成图像的关键。
它从随机噪声 开始:
每一步模型都预测如何去掉一部分噪声。
模型学习的是:
在当前噪声图像 下,如何估计更干净的 。
生成时:
- 随机采样一张噪声图;
- 用神经网络预测噪声或去噪方向;
- 逐步去噪;
- 得到清晰图像。
扩散模型为什么适合图像生成
图像生成本质上非常困难,因为图像既有局部细节,又有整体结构。
扩散模型把复杂生成任务拆成许多简单的小步骤:
- 每一步只需要去掉一点噪声;
- 多步迭代后逐渐形成图像;
- 生成过程更稳定。
这种方式类似:
- 从一块模糊画布中慢慢擦出图像;
- 从噪声中逐渐雕刻出结构;
- 先生成大体轮廓,再逐渐补充细节。
文本条件扩散模型
现代文生图模型通常采用文本提示词作为条件来控制生成方向。
输入可以是:
“一个梦幻森林中漂浮着发光蘑菇。”
模型需要同时完成两件事:
- 理解文本语义;
- 在去噪过程中让图像逐步符合文本描述。
因此现代文生图模型通常包含:
- 文本编码器;
- 图像生成网络;
- 注意力机制或条件控制模块;
- 扩散去噪过程。
文本提示词控制生成方向,扩散过程负责把噪声逐步变成符合提示词的图像。
扩散模型的代表性模型
DDPM
DDPM(Denoising Diffusion Probabilistic Models) 是扩散模型的重要代表。
核心思想:
- 用正向过程逐步加噪;
- 用神经网络学习反向去噪;
- 从纯噪声中逐步生成图像。
DDPM 的意义在于:
- 证明扩散模型可以生成高质量图像;
- 在效果上接近甚至媲美 GAN;
- 训练过程相对稳定。
DALL·E
DALL·E 是文本到图像生成系统。
基本任务:
输入文本描述,输出对应图像。
例如:
- “一只穿宇航服的猫”;
- “梦幻森林里的发光蘑菇”;
- “水彩风格的未来城市”。
DALL·E 展示了生成模型在跨模态生成中的潜力:
- 文本语义;
- 图像结构;
- 创意组合;
- 风格控制。
Latent Diffusion
Latent Diffusion Model(LDM) 的关键思想是:
不直接在像素空间扩散,而是在压缩后的潜在空间中扩散。
这样做的好处:
- 大幅降低计算成本;
- 适合高分辨率图像生成;
- 生成速度更可控;
- 可以结合文本、类别、布局等条件信息。
为什么潜在空间更高效?
- 原始图像像素维度很高;
- 许多像素细节并不都需要直接建模;
- 先用编码器把图像压缩成潜在表示;
- 在潜在表示上做扩散,再解码成图像。
Stable Diffusion
Stable Diffusion 是开源文本到图像扩散模型,是 Latent Diffusion 思路的重要应用。
特点:
- 开源;
- 可访问性强;
- 可在相对较低成本硬件上运行;
- 支持文生图、图生图、局部重绘、风格控制等任务。
Stable Diffusion 推动了图像生成从研究实验走向大众创作工具。
扩散模型的优势与局限
扩散模型的优势
1. 生成质量高
扩散模型能生成高分辨率、细节丰富、真实感强的图像。
在许多文生图任务中,它的图像质量和多样性表现突出。
2. 训练更稳定
相比 GAN,扩散模型通常更容易训练。
原因在于:
- 它没有生成器和判别器之间的激烈对抗;
- 训练目标更接近逐步去噪;
- 不容易出现 GAN 中典型的模式崩塌。
3. 多样性好
扩散模型从随机噪声开始生成。
不同噪声可以带来不同图像结果,因此它在样本多样性方面通常表现较好。
4. 可控性强
扩散模型可以结合多种条件控制:
- 文本提示词;
- 类别标签;
- 草图;
- 深度图;
- 姿态图;
- 局部遮罩;
- 风格参考图。
这使它非常适合创意设计场景。
5. 可扩展到多种数据类型
扩散模型不仅可以用于图像,还可以用于:
- 音频生成;
- 视频生成;
- 文本生成;
- 3D 生成;
- 分子生成。
扩散模型的局限
1. 计算成本高
扩散模型需要多步去噪。
这意味着:
- 训练成本高;
- 推理成本高;
- 高分辨率图像生成更耗资源。
2. 生成速度较慢
与一次前向生成的 GAN 相比,扩散模型需要经过多个采样步骤。
所以在实时生成场景中,速度可能成为瓶颈。
3. 对数据质量敏感
如果训练数据存在问题:
- 噪声大;
- 偏见强;
- 分布不均衡;
- 标签或文本描述不准确;
生成结果也会受到影响。
4. 语义理解仍可能出错
扩散模型可以生成非常精美的图像,但在复杂语义组合上仍可能出现问题。
例如:
- 物体数量不对;
- 左右关系错误;
- 手部结构异常;
- 文本渲染错误;
- 多对象关系混乱。
扩散模型的优势是质量高、训练稳、可控性强;主要代价是计算量大、生成速度慢。
三类图像生成模型对比
| 维度 | GMM | GAN | 扩散模型 |
|---|---|---|---|
| 模型类型 | 统计生成模型 | 深度对抗生成模型 | 深度概率生成模型 |
| 核心思想 | 多个高斯分布加权组合 | 生成器与判别器对抗训练 | 正向加噪,反向去噪 |
| 输入 | 数据特征 | 随机噪声 / 条件信息 | 随机噪声 / 条件信息 |
| 输出 | 新样本或类别概率 | 生成图像、视频等 | 高质量图像、音频等 |
| 训练方式 | 概率参数估计 | 对抗优化 | 去噪学习 |
| 优点 | 解释性强,概率意义清晰 | 图像锐利,效果逼真 | 质量高,训练稳定,多样性好 |
| 局限 | 表达能力有限 | 训练不稳定,模式崩塌 | 计算成本高,生成速度慢 |
| 典型应用 | 聚类、背景建模、异常检测 | 人脸生成、风格迁移、数据增强 | 文生图、艺术创作、高分辨率图像生成 |
从 GMM 到 GAN 再到扩散模型
这三类模型体现了生成模型的发展趋势:
GMM:显式概率建模
GMM 直接描述数据分布:
特点:
- 解释性强;
- 数学清晰;
- 表达能力受限。
GAN:通过对抗学习生成
GAN 不直接写出复杂分布表达式。
它通过判别器反馈让生成器逐渐逼近真实数据分布。
特点:
- 视觉效果强;
- 结构灵活;
- 训练困难。
扩散模型:通过逐步去噪生成
扩散模型把生成任务拆成很多去噪步骤。
特点:
- 生成质量高;
- 训练相对稳定;
- 计算成本较高。
三者的直观理解
| 模型 | 类比 |
|---|---|
| GMM | 用多个钟形曲线拼出数据分布 |
| GAN | 造假者和鉴定专家互相较量 |
| 扩散模型 | 从噪声中一步步擦出清晰图像 |
生成式 AI 的应用与伦理问题
生成式 AI 的典型应用
1. 艺术创作
生成模型可以辅助艺术家完成:
- 概念草图;
- 风格探索;
- 色彩方案;
- 视觉灵感生成;
- 艺术图像创作。
它降低了视觉创作门槛,也扩展了创作方式。
2. 广告创意
在广告和营销中,图像生成模型可以快速生成:
- 节日海报;
- 产品宣传图;
- 个性化广告素材;
- 不同人群定制化视觉方案。
例如:
- 年轻群体:科技风、霓虹色、未来感;
- 家庭群体:温馨风、暖色调、节日氛围;
- 商务群体:简约风、高级感、低饱和配色。
3. 游戏设计
生成模型可以用于:
- 场景概念图;
- 角色设计;
- 道具设计;
- 纹理生成;
- 关卡素材生成。
这可以显著提高前期美术探索效率。
4. 虚拟人物生成
GAN 和扩散模型都可以生成虚拟头像、虚拟角色和数字人素材。
应用场景包括:
- 虚拟主播;
- 游戏角色;
- 影视角色概念设计;
- 社交媒体头像;
- 数字分身。
5. 医学与科研数据增强
在医学领域,真实数据可能受隐私、成本、样本稀缺限制。
生成模型可以辅助生成合成医学图像,用于:
- 数据增强;
- 少数类疾病样本补充;
- 模型预训练;
- 算法鲁棒性测试。
生成式 AI 的伦理问题
生成模型越强,相关伦理问题越重要。
1. 原创性问题
AI 生成作品是否具有原创性,需要区分:
- 模型是否只是复现训练数据;
- 生成内容是否与已有作品高度相似;
- 用户提示词与模型训练数据各自贡献多少;
- 创作者、工具提供者、数据提供者之间如何分配权利。
2. 版权问题
训练数据中可能包含受版权保护的作品。
需要关注:
- 数据来源是否合规;
- 生成作品是否侵犯原作者权益;
- 风格模仿是否涉及侵权;
- 商业使用是否需要额外授权。
3. 虚假信息问题
图像生成模型可以生成逼真的虚假图像。
风险包括:
- 假新闻;
- 深度伪造;
- 虚假证据;
- 舆论操纵;
- 网络诈骗。
4. 数据偏见问题
如果训练数据有偏见,生成模型也可能放大偏见。
例如:
- 性别刻板印象;
- 职业刻板印象;
- 地域或族群偏见;
- 审美单一化。
5. 责任归属问题
当生成内容造成损害时,需要回答:
- 是用户负责;
- 是模型开发者负责;
- 是平台负责;
- 是数据提供方负责;
- 还是需要共同责任机制。
生成式 AI 的价值在于扩展创造力,它的风险在于生成内容可能被误用、滥用或侵权。