4802 字
24 分钟
深度学习

概述#

深度学习 回答的核心问题是:

当任务过于复杂、规则难以手写时,能否让机器通过多层神经网络,自动从数据中学出有效表示? 深度学习 = 用多层非线性网络,从原始数据中逐层提取越来越抽象的特征,并据此完成识别、预测、生成与决策。


目录#


自动驾驶推动深度学习#

自动驾驶 作为深度学习的背景案例,几乎把现代 AI 的几个核心难点都放在了一起。

自动驾驶的难点#

感知任务极其复杂#

驾驶时最主要的感知通道是 视觉。系统必须连续处理:

  • 道路标志
  • 车道线
  • 行人、车辆、障碍物
  • 雨雾、夜间、逆光等环境变化

这些信息是 高速、连续、动态变化 的视觉理解任务。

决策任务不是单一步判断#

自动驾驶不仅要“看见”,还要“理解接下来会发生什么”。

例如:

  • 前车会不会突然变道;
  • 路边行人会不会突然横穿;
  • 障碍物出现时该减速、绕行还是停车。

这意味着系统必须同时做:

  • 目标识别
  • 行为预测
  • 多目标权衡
  • 实时决策

现实世界高度不确定#

真实道路场景具有:

  • 高维输入;
  • 噪声多;
  • 边界情况多;
  • 规则难以穷举。

因此,单靠手写规则很难覆盖所有情形。

为什么深度学习适合这种任务#

深度学习的优势在于:

  • 可以直接从大量原始数据中学习;
  • 可以自动提取特征,而不必完全依赖人工设计;
  • 可以逐层形成从低级到高级的表示;
  • 能处理图像、语音、序列等复杂数据。

所以,自动驾驶场景非常能说明深度学习的核心价值:

面对结构复杂、变化剧烈、规则难写的任务,深度学习往往比传统手工特征方法更有优势。


从人脑到人工神经网络#

深度学习并不是凭空出现的,它最初来自对 人脑信息处理机制 的模仿。

大脑神经网络的基本直觉#

人脑大约由 1000 亿个神经元 组成。单个神经元本身功能并不复杂,但当大量神经元通过 突触 相互连接时,就能形成非常复杂的整体智能。

关键点有两个:

连接比单元更重要#

神经元的强大,不主要来自单个神经元多复杂,而来自:

  • 数量巨大;
  • 连接丰富;
  • 连接强度可调。

连接是可学习的#

人类之所以能学习,本质上与神经元连接强度会变化有关。这种能力常称为 神经可塑性

婴儿成长过程中,神经连接数量会逐渐增加;到一定年龄后,连接数量未必继续增加,但连接结构会更优化、更稳定。

神经元的抽象计算模型#

从计算角度看,一个神经元可以抽象成三步:

  1. 接收多个输入信号;
  2. 对输入加权求和;
  3. 若结果超过阈值,则激活并向后传递。

这就是人工神经元最核心的思想。

可以写成:

z=i=1dwixi+bz = \sum_{i=1}^{d} w_i x_i + b

然后经过一个激活函数:

y=f(z)y = f(z)

其中:

  • xix_i:输入
  • wiw_i:权重
  • bb:偏置
  • ff:激活函数
  • yy:输出

这正是后续感知机、MLP、CNN、RNN 的共同基础。

视觉系统的分级处理#

人脑视觉系统是 逐层处理

  • 低层先识别边缘、方向、亮暗变化;
  • 中层组合为轮廓、局部结构;
  • 高层再形成“车门”“车轮”“人脸”“汽车”等整体对象。

这说明视觉理解是一个 从低级特征到高级语义 的层次化过程。

深度神经网络的强大之处,正体现在:

它也能做逐层抽象。

赫布理论与学习机制#

赫布理论 常被概括为:

Fire together, wire together. 同时激活的神经元,会形成更强的连接。

  • 某些输入总是一起出现;
  • 某些神经元总是一起被激活;
  • 那么它们之间的连接就会被强化。

在人工神经网络里,这种思想体现为:

  • 参数不是固定不变;
  • 网络会根据数据不断调整权重;
  • 经常对预测有帮助的连接会被“强化”。

虽然现代网络训练主要依靠 反向传播 + 梯度下降,但“连接可学习、可强化”这一思想,与赫布理论是一致的。

通过数字识别理解神经机制#

以手写数字识别为例:

  • 低层看到的是线条、曲线、拐角;
  • 中层开始组合成“圆”“竖”“横折”等局部部件;
  • 高层才识别出这是“5”“0”“4”还是“9”。

这说明:

无论是生物神经系统还是人工神经网络,识别都不是一步完成的,而是通过逐层抽象完成的。


深度学习的发展脉络#

深度学习的发展经历了“提出—受挫—复兴—爆发”的过程。

MCP 神经元:神经网络的起点#

1943 年,Warren McCullochWalter Pitts 提出了 MCP 神经元模型

  • 第一次用数学方式刻画“神经元如何计算”;
  • 说明神经元网络能够实现逻辑运算;
  • 奠定了“神经网络可作为通用计算工具”的基础。

局限也很明显:

  • 输入常被设定为二值;
  • 权重不能自动学习;
  • 需要人工指定规则。

感知机:第一次把可学习权重引入神经网络#

20 世纪 50 年代,Frank Rosenblatt 提出 感知机

相比 MCP,感知机的关键进步是:

  • 权重可以通过数据学习;
  • 不再完全依赖人工手工设定;
  • 可以处理线性可分的二分类问题。

这让神经网络第一次显现出“从数据中学习”的潜力。

感知机受挫:XOR 问题与第一次低潮#

1969 年,MinskyPapert 指出单层感知机存在根本缺陷:

  • 不能解决 异或 这类线性不可分问题;
  • 表达能力有限。

这件事揭示出一个结论:

只有一层线性分割面,能力远远不够。

这也导致神经网络研究一度进入低潮。

多层感知器与反向传播:真正的转折点#

  • 问题在于“单层结构太弱,而且当时缺少有效训练方法”。

于是,多层感知器出现了。

1986 年,Rumelhart、Hinton、Williams 推广了 反向传播算法,使多层网络可以有效训练。

  • 神经网络终于能学习非线性映射;
  • 隐藏层真正发挥作用;
  • 深层模型开始变得可训练。

2006:深度学习复兴#

2006 年,Hinton 等提出 深度信念网络 与预训练思想,推动深层网络重新受到关注。

这意味着研究者开始重新相信:

  • 更深的网络并非一定不可训练;
  • 只要优化策略足够好,深层结构确实更有表达力。

6. CNN 突破视觉任务#

  • 1989/1998:LeNet 在手写数字识别任务上取得成功;
  • 2012:AlexNet 在 ImageNet 比赛中大幅领先,成为深度学习爆发的标志事件。

从此以后:

  • VGG
  • Inception
  • ResNet

等架构不断出现,深度学习迅速统治计算机视觉。

RNN 处理序列数据#

对于语音、文本、时间序列等任务,研究者提出了 循环神经网络

后续又发展出:

  • LSTM
  • GRU

用来缓解长序列训练中的梯度消失问题。

Transformer 与 AIGC#

  • 2017 年 Transformer 提出,自注意力机制显著提升序列建模能力;
  • 后续 BERT、GPT 等大模型兴起;
  • 生成式 AI开始在文本、图像、音乐、视频等领域展现创作能力。

深度学习已经从“识别”扩展到“理解、预测、生成、对话、创作”。


感知机与多层感知器#

感知机的基本结构#

感知机可以看成最简单的人工神经元分类器。

其基本计算过程是:

z=w1x1+w2x2++wdxd+bz = w_1x_1 + w_2x_2 + \cdots + w_dx_d + b

然后经过一个阈值型激活函数:

y={1,z>00,z0y = \begin{cases} 1, & z > 0 \\ 0, & z \le 0 \end{cases}

有些教材也写成输出为 1/+1-1/+1。这只是记号差异,本质都是:

  • 先线性加权求和;
  • 再做阈值判断;
  • 最终进行二分类。

感知机为什么只能做线性可分问题#

因为感知机的决策边界本质上是一个超平面:

wTx+b=0w^T x + b = 0

所以它能做的是:

  • 用一条直线
  • 或一个平面
  • 或一个超平面

把两类样本分开。

如果数据根本不能被一个线性边界分开,例如 XOR,那么单层感知机就无能为力。

多层感知器 MLP#

多层感知器 是感知机的扩展。

至少包含三层:

  • 输入层
  • 隐藏层
  • 输出层

隐藏层的意义非常关键:

  • 不是简单把输入直接映射到输出;
  • 而是先把输入变换到新的表示空间;
  • 再在新的表示空间里完成分类或回归。

为什么要有激活函数#

如果每一层都只做线性变换,那么多层叠加之后仍然等价于一次线性变换。

所以神经网络必须加入 非线性激活函数,如:

  • Sigmoid
  • Tanh
  • ReLU

这样网络才真正具备拟合复杂非线性函数的能力。

全连接网络 FCN#

MLP 相邻两层之间通常是“全连接”的,因此也称 全连接网络

其特点:

  • 结构通用;
  • 表达能力强;
  • 但参数量大,计算成本高;
  • 不善于利用图像这类数据的空间结构。

反向传播算法 BP#

神经网络学习的核心是:

  • 先前向传播得到预测;
  • 再计算误差;
  • 然后把误差从后往前传播;
  • 用梯度下降更新每层权重。

因此 BP 的本质可以概括为:

利用链式法则,高效计算各层参数对损失函数的梯度。

  • 先调最后一层;
  • 再调倒数第二层;
  • 一层层往前回传;
  • 所以叫“反向传播”。

深度神经网络 DNN#

一般把含有两个及以上隐藏层的网络称为 深度神经网络

直观上:

  • 层数越多,表示能力通常越强;
  • 但训练也更困难。

典型问题包括:

  • 梯度消失
  • 梯度爆炸

卷积神经网络 CNN#

CNN 为什么出现#

全连接网络对图像有两个明显问题:

  1. 参数太多;
  2. 不利用图像的局部空间结构。

而图像本身具有两个重要性质:

  • 局部性:有用特征通常是局部出现的,如边缘、纹理、角点;
  • 空间不变性:同一特征出现在不同位置,语义通常不变。

CNN 正是围绕这两个性质设计的。

CNN 的核心思想#

局部连接#

下一层神经元不看整张图,只看前一层的一个局部区域,也叫 感受野

这样做的好处是:

  • 更接近图像局部模式的真实结构;
  • 显著减少参数量.

权重共享#

同一个卷积核在不同位置滑动时,使用的是同一组参数。

这意味着:

  • 一个“检测边缘”的核,可以在整张图任何位置检测边缘;
  • 网络不必为每个位置单独学一套参数。

这进一步减少了参数量,并自然获得空间不变性。

卷积是什么#

可以把卷积操作理解成:

  • 拿一个小的“滤镜”或“透镜”在图像上滑动;
  • 每到一个位置,就计算局部区域与卷积核的匹配程度;
  • 得到一张新的特征图。

不同卷积核会学到不同特征,例如:

  • 水平边缘;
  • 垂直边缘;
  • 纹理;
  • 颜色变化;
  • 更复杂的局部模式。

通道与多层卷积#

通道#

每个卷积核对应一张输出平面,也就是一个 通道

  • 一个核学一种典型特征;
  • 多个核就能同时学多种特征。

多层卷积#

随着卷积层叠加:

  • 低层看到小范围局部模式;
  • 高层看到更大范围结构;
  • 特征越来越抽象。

这就是 CNN 在图像理解中极其强大的原因。

CNN 特别适合什么数据#

CNN 特别适合:

  • 图像
  • 视频帧
  • 二维栅格数据

因为这类数据都具有显著的空间结构。

例如识别猫脸:

  • 猫脸只占图像局部区域,因此特征是局部的;
  • 猫脸出现在左上角或右下角,本质仍是猫,因此具有空间不变性。

CNN 的优点与局限#

优点#

  • 参数更少;
  • 训练更高效;
  • 自动提取局部到整体的图像特征;
  • 在视觉任务上表现极强。

局限#

  • 更适合空间结构明显的数据;
  • 对纯序列依赖建模不如 RNN / Transformer 直接;
  • 设计和训练仍需要较高算力。

循环神经网络 RNN#

为什么需要 RNN#

很多数据不是静态向量,而是 序列

  • 文本
  • 语音
  • 音乐
  • 时间序列
  • 销售数据
  • 气象数据

这类数据最重要的性质是:

当前信息的意义,往往依赖前面的信息。

例如:

  • “武松打虎”和“虎打武松”词完全相同,但顺序不同,语义完全不同;
  • 一句话最后一个词的理解,常常依赖前文语境。

传统前馈网络把每个输入都当成独立样本,很难表达这种前后依赖关系。

RNN 的核心思想:把“过去”带到“现在”#

RNN 的关键结构是:

  • 隐藏状态会传到下一时刻;
  • 当前输出既依赖当前输入,也依赖历史状态。

更标准地写:

ht=ϕ(Wxxt+Whht1+b)h_t = \phi(W_x x_t + W_h h_{t-1} + b)

其中:

  • xtx_t:当前时刻输入
  • ht1h_{t-1}:上一时刻隐藏状态
  • hth_t:当前时刻隐藏状态
  • ϕ\phi:非线性函数

于是,RNN 具备了某种“记忆”。

展开理解 RNN#

  • 表面上 RNN 有一个环;
  • 但按时间展开后,可以看作一个在多个时刻重复使用同一参数的网络链条。

这有两个直观含义:

  1. 不同时刻并不是彼此独立;
  2. 当前时刻会继承之前积累的信息。

RNN 适合什么任务#

自然语言处理#

  • 文本分类
  • 情感分析
  • 机器翻译
  • 文本生成

语音任务#

  • 语音识别
  • 语音到文本

时间序列分析#

  • 股票预测
  • 天气预测
  • 销售预测
  • 设备状态预测

RNN 的局限#

虽然 RNN 有记忆能力,但它并不完美。

长期依赖问题#

序列太长时,较早的信息很容易被遗忘。

梯度消失 / 梯度爆炸#

时间展开后,反向传播链条很长,训练中容易出现梯度问题。

改进:LSTM 与 GRU#

为了解决 RNN 记忆短、训练难的问题,研究者提出:

  • LSTM:通过输入门、遗忘门、输出门控制信息流;
  • GRU:结构更简洁,但思想相近。

它们本质上都是在做一件事:

让网络学会哪些信息该记住,哪些信息该忘掉。


深度学习为什么有效。#

通用近似定理#

通用近似定理 说明:

即使只有一个隐藏层,只要隐藏单元足够多,神经网络也可以逼近任意连续函数。

  • 神经网络在理论上具有极强的函数表达能力;
  • 它不是“只能做一点点模式匹配”的弱模型;
  • 它本质上是非常强的通用逼近器。

层次特征学习#

深度学习真正强,不只因为“能逼近函数”,更因为它会 逐层学特征

以 CNN 为例:

  • 底层学到边缘、线条;
  • 中层学到纹理、局部部件;
  • 高层学到脸、轮廓、对象类别等高级特征。

这说明:

深层网络不是把同一件事重复做好几遍,而是在不同层次学习不同抽象程度的表示。

高级特征的不变性#

高级特征通常具有更强的不变性。

例如做人脸识别时:

  • 图片缩放了;
  • 旋转了;
  • 光照变了;
  • 染色了;

底层像素和纹理会发生明显变化,但“这是同一张人脸”的高级语义往往不变。

这正是抽象特征的价值:

  • 对任务真正有用;
  • 对表面扰动不敏感;
  • 泛化能力更强。

自动特征学习的意义#

传统机器学习中,研究者常需要手工设计特征。

而深度学习的重要突破之一是:

特征本身也可以由模型自动学习出来。

这带来三个巨大改变:

  1. 减少人工特征设计负担;
  2. 能发现人未必能手工想到的复杂模式;
  3. 更适合端到端学习。

深度学习的突破:AlexNet#

2012 年,AlexNet 在 ImageNet 比赛中的巨大成功,证明了:

  • 深层神经网络不是理论玩具;
  • 它在大规模真实任务中也能压倒性领先。

从此,深度学习成为人工智能最活跃、最主流的方向之一。


深度学习的优势、局限与应用场景#

优势#

自动特征学习能力强#

能够从原始数据中直接学习表示,减少人工特征工程负担。

非线性表达能力强#

适合复杂模式识别、函数拟合和决策建模。

适配多种数据类型#

  • 图像:CNN
  • 序列:RNN / LSTM / GRU
  • 文本与多模态:后续还可延伸到 Transformer

在大规模数据上效果突出#

当数据、算力、优化方法都足够时,性能往往非常强。

局限#

数据依赖强#

没有足够多、足够好的数据,深度模型很难训练出好效果。

算力成本高#

模型越深、数据越大,训练成本越高。

可解释性较弱#

尤其在医疗、法律、金融等敏感场景,为什么这么预测,往往不够透明。

训练不稳定问题#

包括:

  • 梯度消失
  • 梯度爆炸
  • 过拟合
  • 对超参数较敏感

隐私与公平性问题#

深度学习系统常依赖大量数据,因此会引出:

  • 隐私泄露风险;
  • 数据偏差;
  • 模型歧视;
  • 资源消耗问题。

常见应用场景#

  • 图像分类与检测
  • 人脸识别
  • 语音识别
  • 机器翻译
  • 情感分析
  • 时间序列预测
  • 自动驾驶
  • AIGC 内容生成

深度学习
https://www.lazysheep2031.top/posts/ai_fundamention/chapter4/
作者
Lazysheep
发布于
2026-04-20
许可协议
CC BY-NC-SA 4.0