深度学习 - Be Happy Every Day

概述#

深度学习 回答的核心问题是：

当任务过于复杂、规则难以手写时，能否让机器通过多层神经网络，自动从数据中学出有效表示？ 深度学习 = 用多层非线性网络，从原始数据中逐层提取越来越抽象的特征，并据此完成识别、预测、生成与决策。

目录#

概述
自动驾驶推动深度学习
从人脑到人工神经网络
深度学习的发展脉络
感知机与多层感知器
卷积神经网络 CNN
循环神经网络 RNN
深度学习为什么有效
深度学习的优势、局限与应用场景

自动驾驶推动深度学习#

自动驾驶 作为深度学习的背景案例，几乎把现代 AI 的几个核心难点都放在了一起。

自动驾驶的难点#

感知任务极其复杂#

驾驶时最主要的感知通道是视觉。系统必须连续处理：

道路标志
车道线
行人、车辆、障碍物
雨雾、夜间、逆光等环境变化

这些信息是 高速、连续、动态变化 的视觉理解任务。

决策任务不是单一步判断#

自动驾驶不仅要“看见”，还要“理解接下来会发生什么”。

例如：

前车会不会突然变道；
路边行人会不会突然横穿；
障碍物出现时该减速、绕行还是停车。

这意味着系统必须同时做：

目标识别
行为预测
多目标权衡
实时决策

现实世界高度不确定#

真实道路场景具有：

高维输入；
噪声多；
边界情况多；
规则难以穷举。

因此，单靠手写规则很难覆盖所有情形。

为什么深度学习适合这种任务#

深度学习的优势在于：

可以直接从大量原始数据中学习；
可以自动提取特征，而不必完全依赖人工设计；
可以逐层形成从低级到高级的表示；
能处理图像、语音、序列等复杂数据。

所以，自动驾驶场景非常能说明深度学习的核心价值：

面对结构复杂、变化剧烈、规则难写的任务，深度学习往往比传统手工特征方法更有优势。

从人脑到人工神经网络#

深度学习并不是凭空出现的，它最初来自对 人脑信息处理机制 的模仿。

大脑神经网络的基本直觉#

人脑大约由 1000 亿个神经元 组成。单个神经元本身功能并不复杂，但当大量神经元通过突触相互连接时，就能形成非常复杂的整体智能。

关键点有两个：

连接比单元更重要#

神经元的强大，不主要来自单个神经元多复杂，而来自：

数量巨大；
连接丰富；
连接强度可调。

连接是可学习的#

人类之所以能学习，本质上与神经元连接强度会变化有关。这种能力常称为 神经可塑性。

婴儿成长过程中，神经连接数量会逐渐增加；到一定年龄后，连接数量未必继续增加，但连接结构会更优化、更稳定。

神经元的抽象计算模型#

从计算角度看，一个神经元可以抽象成三步：

接收多个输入信号；
对输入加权求和；
若结果超过阈值，则激活并向后传递。

这就是人工神经元最核心的思想。

可以写成：

z = \sum_{i=1}^{d} w_i x_i + b

然后经过一个激活函数：

y = f(z)

其中：

$x_i$ ：输入
$w_i$ ：权重
$b$ ：偏置
$f$ ：激活函数
$y$ ：输出

这正是后续感知机、MLP、CNN、RNN 的共同基础。

视觉系统的分级处理#

人脑视觉系统是 逐层处理：

低层先识别边缘、方向、亮暗变化；
中层组合为轮廓、局部结构；
高层再形成“车门”“车轮”“人脸”“汽车”等整体对象。

这说明视觉理解是一个 从低级特征到高级语义 的层次化过程。

深度神经网络的强大之处，正体现在：

它也能做逐层抽象。

赫布理论与学习机制#

赫布理论 常被概括为：

Fire together, wire together. 同时激活的神经元，会形成更强的连接。

某些输入总是一起出现；
某些神经元总是一起被激活；
那么它们之间的连接就会被强化。

在人工神经网络里，这种思想体现为：

参数不是固定不变；
网络会根据数据不断调整权重；
经常对预测有帮助的连接会被“强化”。

虽然现代网络训练主要依靠 反向传播 + 梯度下降，但“连接可学习、可强化”这一思想，与赫布理论是一致的。

通过数字识别理解神经机制#

以手写数字识别为例：

低层看到的是线条、曲线、拐角；
中层开始组合成“圆”“竖”“横折”等局部部件；
高层才识别出这是“5”“0”“4”还是“9”。

这说明：

无论是生物神经系统还是人工神经网络，识别都不是一步完成的，而是通过逐层抽象完成的。

深度学习的发展脉络#

深度学习的发展经历了“提出—受挫—复兴—爆发”的过程。

MCP 神经元：神经网络的起点#

1943 年，Warren McCulloch 和 Walter Pitts 提出了 MCP 神经元模型。

第一次用数学方式刻画“神经元如何计算”；
说明神经元网络能够实现逻辑运算；
奠定了“神经网络可作为通用计算工具”的基础。

局限也很明显：

输入常被设定为二值；
权重不能自动学习；
需要人工指定规则。

感知机：第一次把可学习权重引入神经网络#

20 世纪 50 年代，Frank Rosenblatt 提出 感知机。

相比 MCP，感知机的关键进步是：

权重可以通过数据学习；
不再完全依赖人工手工设定；
可以处理线性可分的二分类问题。

这让神经网络第一次显现出“从数据中学习”的潜力。

感知机受挫：XOR 问题与第一次低潮#

1969 年，Minsky 和 Papert 指出单层感知机存在根本缺陷：

不能解决异或这类线性不可分问题；
表达能力有限。

这件事揭示出一个结论：

只有一层线性分割面，能力远远不够。

这也导致神经网络研究一度进入低潮。

多层感知器与反向传播：真正的转折点#

问题在于“单层结构太弱，而且当时缺少有效训练方法”。

于是，多层感知器出现了。

1986 年，Rumelhart、Hinton、Williams 推广了 反向传播算法，使多层网络可以有效训练。

神经网络终于能学习非线性映射；
隐藏层真正发挥作用；
深层模型开始变得可训练。

2006：深度学习复兴#

2006 年，Hinton 等提出 深度信念网络 与预训练思想，推动深层网络重新受到关注。

这意味着研究者开始重新相信：

更深的网络并非一定不可训练；
只要优化策略足够好，深层结构确实更有表达力。

6. CNN 突破视觉任务#

1989/1998：LeNet 在手写数字识别任务上取得成功；
2012：AlexNet 在 ImageNet 比赛中大幅领先，成为深度学习爆发的标志事件。

从此以后：

VGG
Inception
ResNet

等架构不断出现，深度学习迅速统治计算机视觉。

RNN 处理序列数据#

对于语音、文本、时间序列等任务，研究者提出了 循环神经网络。

后续又发展出：

LSTM
GRU

用来缓解长序列训练中的梯度消失问题。

Transformer 与 AIGC#

2017 年 Transformer 提出，自注意力机制显著提升序列建模能力；
后续 BERT、GPT 等大模型兴起；
生成式 AI开始在文本、图像、音乐、视频等领域展现创作能力。

深度学习已经从“识别”扩展到“理解、预测、生成、对话、创作”。

感知机与多层感知器#

感知机的基本结构#

感知机可以看成最简单的人工神经元分类器。

其基本计算过程是：

z = w_1x_1 + w_2x_2 + \cdots + w_dx_d + b

然后经过一个阈值型激活函数：

y = \begin{cases} 1, & z > 0 \\ 0, & z \le 0 \end{cases}

有些教材也写成输出为 $-1/+1$ 。这只是记号差异，本质都是：

先线性加权求和；
再做阈值判断；
最终进行二分类。

感知机为什么只能做线性可分问题#

因为感知机的决策边界本质上是一个超平面：

w^T x + b = 0

所以它能做的是：

用一条直线
或一个平面
或一个超平面

把两类样本分开。

如果数据根本不能被一个线性边界分开，例如 XOR，那么单层感知机就无能为力。

多层感知器 MLP#

多层感知器 是感知机的扩展。

至少包含三层：

输入层
隐藏层
输出层

隐藏层的意义非常关键：

不是简单把输入直接映射到输出；
而是先把输入变换到新的表示空间；
再在新的表示空间里完成分类或回归。

为什么要有激活函数#

如果每一层都只做线性变换，那么多层叠加之后仍然等价于一次线性变换。

所以神经网络必须加入 非线性激活函数，如：

Sigmoid
Tanh
ReLU

这样网络才真正具备拟合复杂非线性函数的能力。

全连接网络 FCN#

MLP 相邻两层之间通常是“全连接”的，因此也称 全连接网络。

其特点：

结构通用；
表达能力强；
但参数量大，计算成本高；
不善于利用图像这类数据的空间结构。

反向传播算法 BP#

神经网络学习的核心是：

先前向传播得到预测；
再计算误差；
然后把误差从后往前传播；
用梯度下降更新每层权重。

因此 BP 的本质可以概括为：

利用链式法则，高效计算各层参数对损失函数的梯度。

先调最后一层；
再调倒数第二层；
一层层往前回传；
所以叫“反向传播”。

深度神经网络 DNN#

一般把含有两个及以上隐藏层的网络称为 深度神经网络。

直观上：

层数越多，表示能力通常越强；
但训练也更困难。

典型问题包括：

梯度消失
梯度爆炸

卷积神经网络 CNN#

CNN 为什么出现#

全连接网络对图像有两个明显问题：

参数太多；
不利用图像的局部空间结构。

而图像本身具有两个重要性质：

局部性：有用特征通常是局部出现的，如边缘、纹理、角点；
空间不变性：同一特征出现在不同位置，语义通常不变。

CNN 正是围绕这两个性质设计的。

CNN 的核心思想#

局部连接#

下一层神经元不看整张图，只看前一层的一个局部区域，也叫 感受野。

这样做的好处是：

更接近图像局部模式的真实结构；
显著减少参数量.

权重共享#

同一个卷积核在不同位置滑动时，使用的是同一组参数。

这意味着：

一个“检测边缘”的核，可以在整张图任何位置检测边缘；
网络不必为每个位置单独学一套参数。

这进一步减少了参数量，并自然获得空间不变性。

卷积是什么#

可以把卷积操作理解成：

拿一个小的“滤镜”或“透镜”在图像上滑动；
每到一个位置，就计算局部区域与卷积核的匹配程度；
得到一张新的特征图。

不同卷积核会学到不同特征，例如：

水平边缘；
垂直边缘；
纹理；
颜色变化；
更复杂的局部模式。

通道与多层卷积#

通道#

每个卷积核对应一张输出平面，也就是一个通道。

一个核学一种典型特征；
多个核就能同时学多种特征。

多层卷积#

随着卷积层叠加：

低层看到小范围局部模式；
高层看到更大范围结构；
特征越来越抽象。

这就是 CNN 在图像理解中极其强大的原因。

CNN 特别适合什么数据#

CNN 特别适合：

图像
视频帧
二维栅格数据

因为这类数据都具有显著的空间结构。

例如识别猫脸：

猫脸只占图像局部区域，因此特征是局部的；
猫脸出现在左上角或右下角，本质仍是猫，因此具有空间不变性。

CNN 的优点与局限#

优点#

参数更少；
训练更高效；
自动提取局部到整体的图像特征；
在视觉任务上表现极强。

局限#

更适合空间结构明显的数据；
对纯序列依赖建模不如 RNN / Transformer 直接；
设计和训练仍需要较高算力。

循环神经网络 RNN#

为什么需要 RNN#

很多数据不是静态向量，而是序列：

文本
语音
音乐
时间序列
销售数据
气象数据

这类数据最重要的性质是：

当前信息的意义，往往依赖前面的信息。

例如：

“武松打虎”和“虎打武松”词完全相同，但顺序不同，语义完全不同；
一句话最后一个词的理解，常常依赖前文语境。

传统前馈网络把每个输入都当成独立样本，很难表达这种前后依赖关系。

RNN 的核心思想：把“过去”带到“现在”#

RNN 的关键结构是：

隐藏状态会传到下一时刻；
当前输出既依赖当前输入，也依赖历史状态。

更标准地写：

h_t = \phi(W_x x_t + W_h h_{t-1} + b)

其中：

$x_t$ ：当前时刻输入
$h_{t-1}$ ：上一时刻隐藏状态
$h_t$ ：当前时刻隐藏状态
$\phi$ ：非线性函数

于是，RNN 具备了某种“记忆”。

展开理解 RNN#

表面上 RNN 有一个环；
但按时间展开后，可以看作一个在多个时刻重复使用同一参数的网络链条。

这有两个直观含义：

不同时刻并不是彼此独立；
当前时刻会继承之前积累的信息。

RNN 适合什么任务#

自然语言处理#

文本分类
情感分析
机器翻译
文本生成

语音任务#

语音识别
语音到文本

时间序列分析#

股票预测
天气预测
销售预测
设备状态预测

RNN 的局限#

虽然 RNN 有记忆能力，但它并不完美。

长期依赖问题#

序列太长时，较早的信息很容易被遗忘。

梯度消失 / 梯度爆炸#

时间展开后，反向传播链条很长，训练中容易出现梯度问题。

改进：LSTM 与 GRU#

为了解决 RNN 记忆短、训练难的问题，研究者提出：

LSTM：通过输入门、遗忘门、输出门控制信息流；
GRU：结构更简洁，但思想相近。

它们本质上都是在做一件事：

让网络学会哪些信息该记住，哪些信息该忘掉。

深度学习为什么有效。#

通用近似定理#

通用近似定理 说明：

即使只有一个隐藏层，只要隐藏单元足够多，神经网络也可以逼近任意连续函数。

神经网络在理论上具有极强的函数表达能力；
它不是“只能做一点点模式匹配”的弱模型；
它本质上是非常强的通用逼近器。

层次特征学习#

深度学习真正强，不只因为“能逼近函数”，更因为它会 逐层学特征。

以 CNN 为例：

底层学到边缘、线条；
中层学到纹理、局部部件；
高层学到脸、轮廓、对象类别等高级特征。

这说明：

深层网络不是把同一件事重复做好几遍，而是在不同层次学习不同抽象程度的表示。

高级特征的不变性#

高级特征通常具有更强的不变性。

例如做人脸识别时：

图片缩放了；
旋转了；
光照变了；
染色了；

底层像素和纹理会发生明显变化，但“这是同一张人脸”的高级语义往往不变。

这正是抽象特征的价值：

对任务真正有用；
对表面扰动不敏感；
泛化能力更强。

自动特征学习的意义#

传统机器学习中，研究者常需要手工设计特征。

而深度学习的重要突破之一是：

特征本身也可以由模型自动学习出来。

这带来三个巨大改变：

减少人工特征设计负担；
能发现人未必能手工想到的复杂模式；
更适合端到端学习。

深度学习的突破：AlexNet#

2012 年，AlexNet 在 ImageNet 比赛中的巨大成功，证明了：

深层神经网络不是理论玩具；
它在大规模真实任务中也能压倒性领先。

从此，深度学习成为人工智能最活跃、最主流的方向之一。

深度学习的优势、局限与应用场景#

优势#

自动特征学习能力强#

能够从原始数据中直接学习表示，减少人工特征工程负担。

非线性表达能力强#

适合复杂模式识别、函数拟合和决策建模。

适配多种数据类型#

图像：CNN
序列：RNN / LSTM / GRU
文本与多模态：后续还可延伸到 Transformer

在大规模数据上效果突出#

当数据、算力、优化方法都足够时，性能往往非常强。

局限#

数据依赖强#

没有足够多、足够好的数据，深度模型很难训练出好效果。

算力成本高#

模型越深、数据越大，训练成本越高。

可解释性较弱#

尤其在医疗、法律、金融等敏感场景，为什么这么预测，往往不够透明。

训练不稳定问题#

包括：

梯度消失
梯度爆炸
过拟合
对超参数较敏感

隐私与公平性问题#

深度学习系统常依赖大量数据，因此会引出：

隐私泄露风险；
数据偏差；
模型歧视；
资源消耗问题。

常见应用场景#

图像分类与检测
人脸识别
语音识别
机器翻译
情感分析
时间序列预测
自动驾驶
AIGC 内容生成