7192 字
36 分钟
图像生成模型

概述#

这一讲讨论的是 图像生成模型(Image Generative Models)

这一章的逻辑主线:

  • 先从 生成模型(generative model) 的基本思想出发,理解“学习数据分布、再从分布中采样”的核心逻辑;
  • 再介绍传统统计生成模型:高斯混合模型(Gaussian Mixture Model, GMM)
  • 接着进入深度生成模型的重要突破:生成对抗网络(Generative Adversarial Network, GAN)
  • 最后重点理解当前图像生成的主流技术之一:扩散模型(Diffusion Model, DM)
  • 最后比较 GMM、GAN、DM 的区别,并总结生成式人工智能在艺术创作、设计、广告、游戏、虚拟人物等领域的应用与伦理问题。

生成模型 = 学习真实数据的分布结构,再从这个分布中生成新的样本。


目录#


生成模型的基本思想#

什么是生成模型#

生成模型(generative model) 是一类能够学习数据分布,并根据这个分布生成新样本的模型。

假设真实数据来自某个未知分布:

xpdata(x)x \sim p_{data}(x)

其中:

  • xx 表示一个样本,例如一张图像、一段音频或一句文本;
  • pdata(x)p_{data}(x) 表示真实世界中样本出现的概率分布。

生成模型的目标是学习一个模型分布:

pmodel(x)pdata(x)p_{model}(x) \approx p_{data}(x)

这样模型就可以从 pmodelp_{model} 中采样,生成新的样本。

直观理解:

  • 如果模型学会了“猫脸图像”的分布,它就可以生成一张现实中不存在、但看起来像猫脸的新图像;
  • 如果模型学会了“油画风景”的分布,它就可以生成一张新的油画风格风景图;
  • 如果模型学会了“广告海报”的分布,它就可以根据提示词生成新的海报方案。

生成模型和判别模型的区别#

类型主要问题输入输出典型任务
判别模型判断样本属于哪一类样本 xx标签 yy 或概率 p(yx)p(y|x)分类、识别、检测
生成模型生成符合分布的新样本噪声、条件、文本提示等新样本 xx图像生成、音频生成、文本生成

图像生成的基本过程#

图像生成通常可以理解为三步:

  1. 学习数据分布

    • 模型从大量真实图像中学习颜色、纹理、形状、结构、风格等规律。
  2. 输入随机变量或条件信息

    • 随机变量可以是噪声向量 zz
    • 条件信息可以是类别标签、文字提示词、草图、风格图等。
  3. 输出新图像

    • 模型将噪声或条件转化为图像。

可以概括为:

zG(z)xgeneratedz \rightarrow G(z) \rightarrow x_{generated}

其中 GG 是生成模型,xgeneratedx_{generated} 是生成样本。

图像生成模型的发展脉络#

这一章重点讲三类模型:

  1. 高斯混合模型(GMM)

    • 传统统计模型;
    • 用多个高斯分布描述复杂数据分布;
    • 适合聚类、背景建模、异常检测等任务。
  2. 生成对抗网络(GAN)

    • 深度生成模型;
    • 用生成器和判别器进行对抗训练;
    • 在高质量图像生成、风格迁移、数据增强中影响很大。
  3. 扩散模型(DM)

    • 近年来图像生成的重要主流方法;
    • 先加噪,再学习去噪;
    • 在文生图、高分辨率图像生成和艺术创作中表现突出。

GMM 代表统计建模阶段,GAN 代表对抗生成阶段,扩散模型代表逐步去噪生成阶段。


从高斯分布到高斯混合模型#

高斯分布#

高斯分布(Gaussian distribution) 也叫 正态分布(normal distribution),是统计学中最重要的概率分布之一。

一维高斯分布的概率密度函数为:

p(x)=12πσexp[(xμ)22σ2]p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(x-\mu)^2}{2\sigma^2}\right]

其中:

  • μ\mu:均值,决定分布中心;
  • σ2\sigma^2:方差,决定分布宽窄;
  • σ\sigma:标准差。

高斯分布的典型形态:

  • 单峰;
  • 对称;
  • 中间高,两边低;
  • 大量自然数据近似服从高斯分布。

例如:

  • 身高;
  • 测量误差;
  • 某些噪声;
  • 大量独立因素共同作用后的结果。

单个高斯分布适合描述一个相对单一、集中的数据群体。

为什么需要混合模型#

现实数据往往呈现多个峰或多个子群体结构。

例如统计一所大学所有学生的身高:

  • 男生身高可能形成一个分布;
  • 女生身高可能形成另一个分布;
  • 合在一起后,整体分布可能出现多个峰。

这时如果只用一个高斯分布拟合,就会过于粗糙。

更合理的做法是:

用多个高斯分布分别描述不同子群体,再把它们加权组合起来。

这就是高斯混合模型。


高斯混合模型 GMM#

GMM 的定义#

高斯混合模型(Gaussian Mixture Model, GMM) 是由多个高斯分布加权组合而成的概率模型。

它可以写成:

p(x)=k=1KπkN(xμk,Σk)p(x)=\sum_{k=1}^{K}\pi_k \mathcal{N}(x|\mu_k,\Sigma_k)

其中:

  • KK:高斯分布的个数,也就是混合成分数量;
  • πk\pi_k:第 kk 个高斯分布的权重;
  • N(xμk,Σk)\mathcal{N}(x|\mu_k,\Sigma_k):第 kk 个高斯分布;
  • μk\mu_k:第 kk 个分布的均值;
  • Σk\Sigma_k:第 kk 个分布的协方差矩阵。

权重需要满足:

k=1Kπk=1,πk0\sum_{k=1}^{K}\pi_k = 1, \quad \pi_k \ge 0

直观理解:

  • 每个高斯分布对应一个潜在类别或数据簇;
  • 每个样本可能来自其中某一个分布;
  • 整体数据分布由多个局部分布共同组成。

GMM 的核心思想#

GMM 的核心是:

复杂分布可以由多个简单分布组合近似。

它有点像用多块拼图拼出整体图案:

  • 单个高斯分布只能描述一个局部区域;
  • 多个高斯分布组合后,可以描述更复杂的数据形态。

例如:

  • 对人群身高建模:一个高斯分布对应男生,一个对应女生;
  • 对图像背景建模:一个像素点在不同光照和动态环境下可能对应多个颜色分布;
  • 对语音特征建模:不同说话人、不同音素可以对应不同分布。

GMM 的参数#

训练一个 GMM,本质上就是估计三类参数:

  1. 混合权重 πk\pi_k

    • 表示第 kk 个高斯成分在整体数据中的占比。
  2. 均值 μk\mu_k

    • 表示第 kk 个高斯成分的中心位置。
  3. 协方差 Σk\Sigma_k

    • 表示第 kk 个高斯成分的形状、方向和扩散程度。

GMM 如何用于生成#

GMM 的生成过程可以分成两步:

第一步:选择一个高斯成分#

按照权重 π1,π2,,πK\pi_1,\pi_2,\cdots,\pi_K 随机选择一个成分 kk

第二步:从该高斯分布中采样#

从选中的分布中采样:

xN(μk,Σk)x \sim \mathcal{N}(\mu_k,\Sigma_k)

这样就得到一个新样本。

所以 GMM 的生成逻辑是:

先决定样本属于哪一类潜在模式,再从对应模式中生成具体样本。

GMM 和 K-means 的关系#

GMM 和 K-means 都可以用于聚类,但二者有明显差别。

方法聚类方式簇的形状样本归属输出信息
K-means基于距离通常偏球形硬分配每个样本属于哪个簇
GMM基于概率可以是椭圆形软分配每个样本属于各簇的概率

K-means 会直接判断:

这个点属于第 1 类。

GMM 会给出概率:

这个点有 80% 可能属于第 1 类,20% 可能属于第 2 类。

所以 GMM 更适合处理边界模糊、分布复杂的数据。

GMM 的典型应用#

1. 语音识别#

GMM 曾经长期用于语音识别中的声学建模。

基本思路:

  • 提取语音的频谱特征;
  • 用 GMM 建模不同说话人、音素或语音单元的分布;
  • 对输入语音计算似然概率;
  • 选择概率最高的类别作为识别结果。

2. 计算机视觉中的背景提取#

GMM 也常用于视频背景建模。

直观理解:

  • 视频中每个像素点的颜色会随光照、阴影、动态背景变化;
  • 一个像素点的历史颜色值可能形成多个分布;
  • 用多个高斯分布建模这个像素点,就可以区分背景和前景。

例如:

  • 背景:长期稳定出现的颜色分布;
  • 前景:突然出现、持续时间短的异常颜色。

所以 GMM 可以用于:

  • 监控视频中的运动目标检测;
  • 背景分离;
  • 图像分割;
  • 异常检测。

3. 图像分割#

图像中的像素可以根据颜色、纹理或空间特征进行建模。

GMM 可以把图像像素划分为多个概率簇,例如:

  • 天空;
  • 草地;
  • 建筑;
  • 人物;
  • 背景。

这种方法适合一些统计特征相对稳定的图像分割任务。

4. 异常检测#

如果数据在 GMM 下的概率很低,说明它不符合常见模式,就可能是异常点。

例如:

  • 工业设备异常信号;
  • 金融交易异常;
  • 视频监控异常行为;
  • 医学图像中的异常区域。

GMM 的优势与局限#

优势#

  1. 原理清晰

    • 建立在概率统计基础上,解释性较好。
  2. 能描述多峰分布

    • 比单个高斯分布更灵活。
  3. 支持软聚类

    • 可以输出样本属于每个簇的概率。
  4. 适合中低维数据建模

    • 在语音特征、背景建模、异常检测中仍有启发意义。

局限#

  1. 表达能力有限

    • 面对高维复杂图像时,GMM 很难捕捉复杂语义结构。
  2. 依赖分布假设

    • 默认数据可以由多个高斯分布组合描述。
  3. 高维场景计算困难

    • 图像、视频等高维数据会带来参数量和估计难度问题。
  4. 生成质量有限

    • 很难生成像 GAN 或扩散模型那样逼真的复杂图像。

GMM 是理解生成模型的起点,它说明了“从概率分布生成数据”的基本思想。


生成对抗网络 GAN#

GAN 的基本思想#

生成对抗网络(Generative Adversarial Network, GAN) 是一种深度生成模型。

GAN 的核心结构包括两个部分:

  1. 生成器(Generator, G)

    • 输入随机噪声;
    • 输出生成样本;
    • 目标是生成尽可能逼真的数据。
  2. 判别器(Discriminator, D)

    • 输入真实样本或生成样本;
    • 输出该样本为真实样本的概率;
    • 目标是区分真实数据和生成数据。

GAN 的训练可以理解为一个对抗博弈:

  • 生成器不断提高造假能力;
  • 判别器不断提高鉴别能力;
  • 二者相互竞争,最终推动生成器生成越来越逼真的样本。

GAN 的直观类比#

可以把 GAN 想象成:

  • 生成器:造画的人;
  • 判别器:鉴定专家。

训练初期:

  • 生成器画得很差;
  • 判别器很容易识别假图。

训练过程中:

  • 生成器根据判别器反馈改进;
  • 判别器也不断学习更细致的真假差异。

理想状态:

  • 生成器生成的图像足够真实;
  • 判别器难以判断真假;
  • 生成器学到了真实数据分布的重要特征。

GAN 的数学形式#

GAN 的经典目标函数是一个 minimax 博弈:

minGmaxDV(D,G)=Expdata(x)[logD(x)]+Ezpz(z)[log(1D(G(z)))]\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p_z(z)}[\log(1-D(G(z)))]

其中:

  • xx:真实样本;
  • zz:随机噪声;
  • G(z)G(z):生成器生成的样本;
  • D(x)D(x):判别器认为样本为真实样本的概率。

判别器希望:

  • 对真实样本输出接近 1;
  • 对生成样本输出接近 0。

生成器希望:

  • D(G(z))D(G(z)) 尽可能接近 1;
  • 也就是让判别器把假样本误认为真实样本。

GAN 的训练过程#

GAN 通常交替训练生成器和判别器。

第一步:训练判别器#

固定生成器,用真实样本和生成样本训练判别器。

目标:

  • 正确识别真实图像;
  • 正确识别生成图像。

第二步:训练生成器#

固定判别器,更新生成器。

目标:

  • 生成更逼真的样本;
  • 让判别器更容易判断错误。

第三步:不断交替迭代#

随着训练进行:

  • 生成器越来越强;
  • 判别器也越来越强;
  • 当判别器难以区分真假时,生成器达到较好效果。

GAN 的关键不在于显式写出数据分布,而是通过对抗训练逼近真实数据分布。


GAN 的典型应用#

图像生成#

GAN 最经典的应用是生成逼真图像。

例如:

  • 人脸生成;
  • 猫狗图像生成;
  • 室内场景生成;
  • 服装、产品、建筑概念图生成。

课本中提到,Progressive Growing GAN 通过逐步提高图像分辨率,生成了高质量人脸图像。

它的基本思想是:

  • 先学习低分辨率图像;
  • 再逐渐增加网络层和图像分辨率;
  • 让模型从粗略结构逐步学习到细节纹理。

这样可以提升训练稳定性和图像质量。

图像到图像的转换#

GAN 可以完成 image-to-image translation

典型任务:

  • 素描图转真实图像;
  • 语义分割图转街景图;
  • 白天场景转夜晚场景;
  • 马变斑马;
  • 夏天场景转冬天场景。

代表模型:

  • Pix2Pix:使用成对样本训练,例如“边缘图 → 真实图”;
  • CycleGAN:可以在没有成对样本的情况下学习两个图像域之间的转换。

数据增强#

深度学习训练往往需要大量数据。

在医学、遥感、工业检测等领域,真实数据常常昂贵且稀缺。

GAN 可以生成合成数据,用于:

  • 扩充训练集;
  • 缓解类别不平衡;
  • 提高模型鲁棒性;
  • 辅助医学影像分析模型训练。

例如:

  • 生成不同病灶形态的医学图像;
  • 生成少数类缺陷样本;
  • 生成不同光照和姿态下的人脸图像。

视频生成与预测#

GAN 也可以扩展到视频任务。

典型方向:

  • 生成连续视频帧;
  • 预测未来帧;
  • 动作生成;
  • 虚拟现实场景生成;
  • 游戏和影视中的动态内容合成。

视频生成比图像生成更难,因为它不仅要求单帧逼真,还要求时间上连续一致。

艺术创作与风格迁移#

GAN 可以学习某种艺术风格,并生成具有该风格的新图像。

应用包括:

  • 自动化艺术创作;
  • 风格迁移;
  • 图像编辑;
  • 艺术作品混合;
  • 创意素材生成。

例如:

  • DeepArt;
  • Artbreeder;
  • 人脸编辑工具;
  • 风格化头像生成。

GAN 推动了图像生成从统计建模走向深度创作。


GAN 的优势与局限#

GAN 的优势#

1. 图像质量高#

GAN 往往能生成非常锐利、清晰、细节丰富的图像。

与一些早期概率生成模型相比,GAN 生成图像的视觉效果更强。

2. 模型结构灵活#

GAN 理论上不限制生成器和判别器的具体形式。

实际应用中:

  • 生成器可以使用 CNN;
  • 判别器可以使用 CNN;
  • 也可以结合条件输入、注意力机制、风格控制等结构。

3. 不需要显式建模复杂概率分布#

GAN 不需要直接写出 pdata(x)p_{data}(x) 的精确表达式。

它通过判别器反馈来引导生成器逼近真实数据分布。

4. 应用范围广#

GAN 可用于:

  • 图像生成;
  • 图像修复;
  • 图像超分辨率;
  • 风格迁移;
  • 数据增强;
  • 视频生成。

GAN 的局限#

1. 训练不稳定#

GAN 的训练依赖生成器和判别器之间的平衡。

如果判别器太强:

  • 生成器难以获得有效梯度;
  • 学习可能停滞。

如果生成器太强:

  • 判别器无法提供有效反馈;
  • 对抗训练也会失衡。

因此 GAN 训练常常需要精细调参。

2. 容易出现模式崩塌#

模式崩塌(mode collapse) 是 GAN 的经典问题。

含义:

  • 生成器只生成少数几类相似样本;
  • 无法覆盖真实数据的全部多样性。

例如:

  • 训练集里有多种人脸;
  • 生成器却只生成某一种相似的人脸。

这会导致生成样本缺乏多样性。

3. 评价困难#

生成图像质量通常涉及:

  • 清晰度;
  • 真实性;
  • 多样性;
  • 与条件输入的一致性;
  • 美学质量。

这些指标很难用一个简单数字完全衡量。

4. 对训练技巧敏感#

GAN 训练常常依赖:

  • 网络结构设计;
  • 学习率;
  • 损失函数变体;
  • 正则化方法;
  • 数据规模和质量。

所以它虽然效果强,但工程实现并不轻松。

GAN 的优势是生成清晰,主要困难是训练稳定性和模式崩塌。


扩散模型 DM#

扩散模型的基本思想#

扩散模型(Diffusion Model, DM) 是近年来生成模型中的重要方法。

它的核心过程可以分成两部分:

  1. 正向扩散过程(forward diffusion process)

    • 从真实数据开始;
    • 一步步加入噪声;
    • 最终把图像变成接近纯高斯噪声。
  2. 反向扩散过程(reverse diffusion process)

    • 从随机噪声开始;
    • 一步步去除噪声;
    • 最终恢复出清晰图像。

直观理解:

训练时学会如何破坏图像,生成时学会如何把噪声还原成图像。

正向扩散过程#

正向扩散从真实图像 x0x_0 开始,逐步添加噪声:

x0x1x2xTx_0 \rightarrow x_1 \rightarrow x_2 \rightarrow \cdots \rightarrow x_T

其中:

  • x0x_0 是原始清晰图像;
  • xTx_T 接近纯随机噪声;
  • 每一步都会加入少量高斯噪声。

常见形式为:

q(xtxt1)=N(xt;1βtxt1,βtI)q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)

其中:

  • βt\beta_t 控制第 tt 步加入噪声的强度;
  • II 是单位矩阵;
  • qq 表示正向加噪过程。

这一过程的直观意义:

  • 清晰图像逐渐被噪声污染;
  • 图像结构逐渐消失;
  • 最后只剩近似高斯噪声。

反向扩散过程#

反向扩散是生成图像的关键。

它从随机噪声 xTx_T 开始:

xTxT1x1x0x_T \rightarrow x_{T-1} \rightarrow \cdots \rightarrow x_1 \rightarrow x_0

每一步模型都预测如何去掉一部分噪声。

模型学习的是:

在当前噪声图像 xtx_t 下,如何估计更干净的 xt1x_{t-1}

生成时:

  1. 随机采样一张噪声图;
  2. 用神经网络预测噪声或去噪方向;
  3. 逐步去噪;
  4. 得到清晰图像。

扩散模型为什么适合图像生成#

图像生成本质上非常困难,因为图像既有局部细节,又有整体结构。

扩散模型把复杂生成任务拆成许多简单的小步骤:

  • 每一步只需要去掉一点噪声;
  • 多步迭代后逐渐形成图像;
  • 生成过程更稳定。

这种方式类似:

  • 从一块模糊画布中慢慢擦出图像;
  • 从噪声中逐渐雕刻出结构;
  • 先生成大体轮廓,再逐渐补充细节。

文本条件扩散模型#

现代文生图模型通常采用文本提示词作为条件来控制生成方向。

输入可以是:

“一个梦幻森林中漂浮着发光蘑菇。”

模型需要同时完成两件事:

  1. 理解文本语义;
  2. 在去噪过程中让图像逐步符合文本描述。

因此现代文生图模型通常包含:

  • 文本编码器;
  • 图像生成网络;
  • 注意力机制或条件控制模块;
  • 扩散去噪过程。

文本提示词控制生成方向,扩散过程负责把噪声逐步变成符合提示词的图像。


扩散模型的代表性模型#

DDPM#

DDPM(Denoising Diffusion Probabilistic Models) 是扩散模型的重要代表。

核心思想:

  • 用正向过程逐步加噪;
  • 用神经网络学习反向去噪;
  • 从纯噪声中逐步生成图像。

DDPM 的意义在于:

  • 证明扩散模型可以生成高质量图像;
  • 在效果上接近甚至媲美 GAN;
  • 训练过程相对稳定。

DALL·E#

DALL·E 是文本到图像生成系统。

基本任务:

输入文本描述,输出对应图像。

例如:

  • “一只穿宇航服的猫”;
  • “梦幻森林里的发光蘑菇”;
  • “水彩风格的未来城市”。

DALL·E 展示了生成模型在跨模态生成中的潜力:

  • 文本语义;
  • 图像结构;
  • 创意组合;
  • 风格控制。

Latent Diffusion#

Latent Diffusion Model(LDM) 的关键思想是:

不直接在像素空间扩散,而是在压缩后的潜在空间中扩散。

这样做的好处:

  • 大幅降低计算成本;
  • 适合高分辨率图像生成;
  • 生成速度更可控;
  • 可以结合文本、类别、布局等条件信息。

为什么潜在空间更高效?

  • 原始图像像素维度很高;
  • 许多像素细节并不都需要直接建模;
  • 先用编码器把图像压缩成潜在表示;
  • 在潜在表示上做扩散,再解码成图像。

Stable Diffusion#

Stable Diffusion 是开源文本到图像扩散模型,是 Latent Diffusion 思路的重要应用。

特点:

  • 开源;
  • 可访问性强;
  • 可在相对较低成本硬件上运行;
  • 支持文生图、图生图、局部重绘、风格控制等任务。

Stable Diffusion 推动了图像生成从研究实验走向大众创作工具。


扩散模型的优势与局限#

扩散模型的优势#

1. 生成质量高#

扩散模型能生成高分辨率、细节丰富、真实感强的图像。

在许多文生图任务中,它的图像质量和多样性表现突出。

2. 训练更稳定#

相比 GAN,扩散模型通常更容易训练。

原因在于:

  • 它没有生成器和判别器之间的激烈对抗;
  • 训练目标更接近逐步去噪;
  • 不容易出现 GAN 中典型的模式崩塌。

3. 多样性好#

扩散模型从随机噪声开始生成。

不同噪声可以带来不同图像结果,因此它在样本多样性方面通常表现较好。

4. 可控性强#

扩散模型可以结合多种条件控制:

  • 文本提示词;
  • 类别标签;
  • 草图;
  • 深度图;
  • 姿态图;
  • 局部遮罩;
  • 风格参考图。

这使它非常适合创意设计场景。

5. 可扩展到多种数据类型#

扩散模型不仅可以用于图像,还可以用于:

  • 音频生成;
  • 视频生成;
  • 文本生成;
  • 3D 生成;
  • 分子生成。

扩散模型的局限#

1. 计算成本高#

扩散模型需要多步去噪。

这意味着:

  • 训练成本高;
  • 推理成本高;
  • 高分辨率图像生成更耗资源。

2. 生成速度较慢#

与一次前向生成的 GAN 相比,扩散模型需要经过多个采样步骤。

所以在实时生成场景中,速度可能成为瓶颈。

3. 对数据质量敏感#

如果训练数据存在问题:

  • 噪声大;
  • 偏见强;
  • 分布不均衡;
  • 标签或文本描述不准确;

生成结果也会受到影响。

4. 语义理解仍可能出错#

扩散模型可以生成非常精美的图像,但在复杂语义组合上仍可能出现问题。

例如:

  • 物体数量不对;
  • 左右关系错误;
  • 手部结构异常;
  • 文本渲染错误;
  • 多对象关系混乱。

扩散模型的优势是质量高、训练稳、可控性强;主要代价是计算量大、生成速度慢。


三类图像生成模型对比#

维度GMMGAN扩散模型
模型类型统计生成模型深度对抗生成模型深度概率生成模型
核心思想多个高斯分布加权组合生成器与判别器对抗训练正向加噪,反向去噪
输入数据特征随机噪声 / 条件信息随机噪声 / 条件信息
输出新样本或类别概率生成图像、视频等高质量图像、音频等
训练方式概率参数估计对抗优化去噪学习
优点解释性强,概率意义清晰图像锐利,效果逼真质量高,训练稳定,多样性好
局限表达能力有限训练不稳定,模式崩塌计算成本高,生成速度慢
典型应用聚类、背景建模、异常检测人脸生成、风格迁移、数据增强文生图、艺术创作、高分辨率图像生成

从 GMM 到 GAN 再到扩散模型#

这三类模型体现了生成模型的发展趋势:

GMM:显式概率建模#

GMM 直接描述数据分布:

p(x)=kπkN(xμk,Σk)p(x)=\sum_k \pi_k\mathcal{N}(x|\mu_k,\Sigma_k)

特点:

  • 解释性强;
  • 数学清晰;
  • 表达能力受限。

GAN:通过对抗学习生成#

GAN 不直接写出复杂分布表达式。

它通过判别器反馈让生成器逐渐逼近真实数据分布。

特点:

  • 视觉效果强;
  • 结构灵活;
  • 训练困难。

扩散模型:通过逐步去噪生成#

扩散模型把生成任务拆成很多去噪步骤。

特点:

  • 生成质量高;
  • 训练相对稳定;
  • 计算成本较高。

三者的直观理解#

模型类比
GMM用多个钟形曲线拼出数据分布
GAN造假者和鉴定专家互相较量
扩散模型从噪声中一步步擦出清晰图像

生成式 AI 的应用与伦理问题#

生成式 AI 的典型应用#

1. 艺术创作#

生成模型可以辅助艺术家完成:

  • 概念草图;
  • 风格探索;
  • 色彩方案;
  • 视觉灵感生成;
  • 艺术图像创作。

它降低了视觉创作门槛,也扩展了创作方式。

2. 广告创意#

在广告和营销中,图像生成模型可以快速生成:

  • 节日海报;
  • 产品宣传图;
  • 个性化广告素材;
  • 不同人群定制化视觉方案。

例如:

  • 年轻群体:科技风、霓虹色、未来感;
  • 家庭群体:温馨风、暖色调、节日氛围;
  • 商务群体:简约风、高级感、低饱和配色。

3. 游戏设计#

生成模型可以用于:

  • 场景概念图;
  • 角色设计;
  • 道具设计;
  • 纹理生成;
  • 关卡素材生成。

这可以显著提高前期美术探索效率。

4. 虚拟人物生成#

GAN 和扩散模型都可以生成虚拟头像、虚拟角色和数字人素材。

应用场景包括:

  • 虚拟主播;
  • 游戏角色;
  • 影视角色概念设计;
  • 社交媒体头像;
  • 数字分身。

5. 医学与科研数据增强#

在医学领域,真实数据可能受隐私、成本、样本稀缺限制。

生成模型可以辅助生成合成医学图像,用于:

  • 数据增强;
  • 少数类疾病样本补充;
  • 模型预训练;
  • 算法鲁棒性测试。

生成式 AI 的伦理问题#

生成模型越强,相关伦理问题越重要。

1. 原创性问题#

AI 生成作品是否具有原创性,需要区分:

  • 模型是否只是复现训练数据;
  • 生成内容是否与已有作品高度相似;
  • 用户提示词与模型训练数据各自贡献多少;
  • 创作者、工具提供者、数据提供者之间如何分配权利。

2. 版权问题#

训练数据中可能包含受版权保护的作品。

需要关注:

  • 数据来源是否合规;
  • 生成作品是否侵犯原作者权益;
  • 风格模仿是否涉及侵权;
  • 商业使用是否需要额外授权。

3. 虚假信息问题#

图像生成模型可以生成逼真的虚假图像。

风险包括:

  • 假新闻;
  • 深度伪造;
  • 虚假证据;
  • 舆论操纵;
  • 网络诈骗。

4. 数据偏见问题#

如果训练数据有偏见,生成模型也可能放大偏见。

例如:

  • 性别刻板印象;
  • 职业刻板印象;
  • 地域或族群偏见;
  • 审美单一化。

5. 责任归属问题#

当生成内容造成损害时,需要回答:

  • 是用户负责;
  • 是模型开发者负责;
  • 是平台负责;
  • 是数据提供方负责;
  • 还是需要共同责任机制。

生成式 AI 的价值在于扩展创造力,它的风险在于生成内容可能被误用、滥用或侵权。


图像生成模型
https://www.lazysheep2031.top/posts/ai_fundamention/chapter6/
作者
Lazysheep
发布于
2026-05-19
许可协议
CC BY-NC-SA 4.0

评论