概述
深度学习 回答的核心问题是:
当任务过于复杂、规则难以手写时,能否让机器通过多层神经网络,自动从数据中学出有效表示? 深度学习 = 用多层非线性网络,从原始数据中逐层提取越来越抽象的特征,并据此完成识别、预测、生成与决策。
目录
自动驾驶推动深度学习
自动驾驶 作为深度学习的背景案例,几乎把现代 AI 的几个核心难点都放在了一起。
自动驾驶的难点
感知任务极其复杂
驾驶时最主要的感知通道是 视觉。系统必须连续处理:
- 道路标志
- 车道线
- 行人、车辆、障碍物
- 雨雾、夜间、逆光等环境变化
这些信息是 高速、连续、动态变化 的视觉理解任务。
决策任务不是单一步判断
自动驾驶不仅要“看见”,还要“理解接下来会发生什么”。
例如:
- 前车会不会突然变道;
- 路边行人会不会突然横穿;
- 障碍物出现时该减速、绕行还是停车。
这意味着系统必须同时做:
- 目标识别
- 行为预测
- 多目标权衡
- 实时决策
现实世界高度不确定
真实道路场景具有:
- 高维输入;
- 噪声多;
- 边界情况多;
- 规则难以穷举。
因此,单靠手写规则很难覆盖所有情形。
为什么深度学习适合这种任务
深度学习的优势在于:
- 可以直接从大量原始数据中学习;
- 可以自动提取特征,而不必完全依赖人工设计;
- 可以逐层形成从低级到高级的表示;
- 能处理图像、语音、序列等复杂数据。
所以,自动驾驶场景非常能说明深度学习的核心价值:
面对结构复杂、变化剧烈、规则难写的任务,深度学习往往比传统手工特征方法更有优势。
从人脑到人工神经网络
深度学习并不是凭空出现的,它最初来自对 人脑信息处理机制 的模仿。
大脑神经网络的基本直觉
人脑大约由 1000 亿个神经元 组成。单个神经元本身功能并不复杂,但当大量神经元通过 突触 相互连接时,就能形成非常复杂的整体智能。
关键点有两个:
连接比单元更重要
神经元的强大,不主要来自单个神经元多复杂,而来自:
- 数量巨大;
- 连接丰富;
- 连接强度可调。
连接是可学习的
人类之所以能学习,本质上与神经元连接强度会变化有关。这种能力常称为 神经可塑性。
婴儿成长过程中,神经连接数量会逐渐增加;到一定年龄后,连接数量未必继续增加,但连接结构会更优化、更稳定。
神经元的抽象计算模型
从计算角度看,一个神经元可以抽象成三步:
- 接收多个输入信号;
- 对输入加权求和;
- 若结果超过阈值,则激活并向后传递。
这就是人工神经元最核心的思想。
可以写成:
然后经过一个激活函数:
其中:
- :输入
- :权重
- :偏置
- :激活函数
- :输出
这正是后续感知机、MLP、CNN、RNN 的共同基础。
视觉系统的分级处理
人脑视觉系统是 逐层处理:
- 低层先识别边缘、方向、亮暗变化;
- 中层组合为轮廓、局部结构;
- 高层再形成“车门”“车轮”“人脸”“汽车”等整体对象。
这说明视觉理解是一个 从低级特征到高级语义 的层次化过程。
深度神经网络的强大之处,正体现在:
它也能做逐层抽象。
赫布理论与学习机制
赫布理论 常被概括为:
Fire together, wire together. 同时激活的神经元,会形成更强的连接。
- 某些输入总是一起出现;
- 某些神经元总是一起被激活;
- 那么它们之间的连接就会被强化。
在人工神经网络里,这种思想体现为:
- 参数不是固定不变;
- 网络会根据数据不断调整权重;
- 经常对预测有帮助的连接会被“强化”。
虽然现代网络训练主要依靠 反向传播 + 梯度下降,但“连接可学习、可强化”这一思想,与赫布理论是一致的。
通过数字识别理解神经机制
以手写数字识别为例:
- 低层看到的是线条、曲线、拐角;
- 中层开始组合成“圆”“竖”“横折”等局部部件;
- 高层才识别出这是“5”“0”“4”还是“9”。
这说明:
无论是生物神经系统还是人工神经网络,识别都不是一步完成的,而是通过逐层抽象完成的。
深度学习的发展脉络
深度学习的发展经历了“提出—受挫—复兴—爆发”的过程。
MCP 神经元:神经网络的起点
1943 年,Warren McCulloch 和 Walter Pitts 提出了 MCP 神经元模型。
- 第一次用数学方式刻画“神经元如何计算”;
- 说明神经元网络能够实现逻辑运算;
- 奠定了“神经网络可作为通用计算工具”的基础。
局限也很明显:
- 输入常被设定为二值;
- 权重不能自动学习;
- 需要人工指定规则。
感知机:第一次把可学习权重引入神经网络
20 世纪 50 年代,Frank Rosenblatt 提出 感知机。
相比 MCP,感知机的关键进步是:
- 权重可以通过数据学习;
- 不再完全依赖人工手工设定;
- 可以处理线性可分的二分类问题。
这让神经网络第一次显现出“从数据中学习”的潜力。
感知机受挫:XOR 问题与第一次低潮
1969 年,Minsky 和 Papert 指出单层感知机存在根本缺陷:
- 不能解决 异或 这类线性不可分问题;
- 表达能力有限。
这件事揭示出一个结论:
只有一层线性分割面,能力远远不够。
这也导致神经网络研究一度进入低潮。
多层感知器与反向传播:真正的转折点
- 问题在于“单层结构太弱,而且当时缺少有效训练方法”。
于是,多层感知器出现了。
1986 年,Rumelhart、Hinton、Williams 推广了 反向传播算法,使多层网络可以有效训练。
- 神经网络终于能学习非线性映射;
- 隐藏层真正发挥作用;
- 深层模型开始变得可训练。
2006:深度学习复兴
2006 年,Hinton 等提出 深度信念网络 与预训练思想,推动深层网络重新受到关注。
这意味着研究者开始重新相信:
- 更深的网络并非一定不可训练;
- 只要优化策略足够好,深层结构确实更有表达力。
6. CNN 突破视觉任务
- 1989/1998:LeNet 在手写数字识别任务上取得成功;
- 2012:AlexNet 在 ImageNet 比赛中大幅领先,成为深度学习爆发的标志事件。
从此以后:
- VGG
- Inception
- ResNet
等架构不断出现,深度学习迅速统治计算机视觉。
RNN 处理序列数据
对于语音、文本、时间序列等任务,研究者提出了 循环神经网络。
后续又发展出:
- LSTM
- GRU
用来缓解长序列训练中的梯度消失问题。
Transformer 与 AIGC
- 2017 年 Transformer 提出,自注意力机制显著提升序列建模能力;
- 后续 BERT、GPT 等大模型兴起;
- 生成式 AI开始在文本、图像、音乐、视频等领域展现创作能力。
深度学习已经从“识别”扩展到“理解、预测、生成、对话、创作”。
感知机与多层感知器
感知机的基本结构
感知机可以看成最简单的人工神经元分类器。
其基本计算过程是:
然后经过一个阈值型激活函数:
有些教材也写成输出为 。这只是记号差异,本质都是:
- 先线性加权求和;
- 再做阈值判断;
- 最终进行二分类。
感知机为什么只能做线性可分问题
因为感知机的决策边界本质上是一个超平面:
所以它能做的是:
- 用一条直线
- 或一个平面
- 或一个超平面
把两类样本分开。
如果数据根本不能被一个线性边界分开,例如 XOR,那么单层感知机就无能为力。
多层感知器 MLP
多层感知器 是感知机的扩展。
至少包含三层:
- 输入层
- 隐藏层
- 输出层
隐藏层的意义非常关键:
- 不是简单把输入直接映射到输出;
- 而是先把输入变换到新的表示空间;
- 再在新的表示空间里完成分类或回归。
为什么要有激活函数
如果每一层都只做线性变换,那么多层叠加之后仍然等价于一次线性变换。
所以神经网络必须加入 非线性激活函数,如:
- Sigmoid
- Tanh
- ReLU
这样网络才真正具备拟合复杂非线性函数的能力。
全连接网络 FCN
MLP 相邻两层之间通常是“全连接”的,因此也称 全连接网络。
其特点:
- 结构通用;
- 表达能力强;
- 但参数量大,计算成本高;
- 不善于利用图像这类数据的空间结构。
反向传播算法 BP
神经网络学习的核心是:
- 先前向传播得到预测;
- 再计算误差;
- 然后把误差从后往前传播;
- 用梯度下降更新每层权重。
因此 BP 的本质可以概括为:
利用链式法则,高效计算各层参数对损失函数的梯度。
- 先调最后一层;
- 再调倒数第二层;
- 一层层往前回传;
- 所以叫“反向传播”。
深度神经网络 DNN
一般把含有两个及以上隐藏层的网络称为 深度神经网络。
直观上:
- 层数越多,表示能力通常越强;
- 但训练也更困难。
典型问题包括:
- 梯度消失
- 梯度爆炸
卷积神经网络 CNN
CNN 为什么出现
全连接网络对图像有两个明显问题:
- 参数太多;
- 不利用图像的局部空间结构。
而图像本身具有两个重要性质:
- 局部性:有用特征通常是局部出现的,如边缘、纹理、角点;
- 空间不变性:同一特征出现在不同位置,语义通常不变。
CNN 正是围绕这两个性质设计的。
CNN 的核心思想
局部连接
下一层神经元不看整张图,只看前一层的一个局部区域,也叫 感受野。
这样做的好处是:
- 更接近图像局部模式的真实结构;
- 显著减少参数量.
权重共享
同一个卷积核在不同位置滑动时,使用的是同一组参数。
这意味着:
- 一个“检测边缘”的核,可以在整张图任何位置检测边缘;
- 网络不必为每个位置单独学一套参数。
这进一步减少了参数量,并自然获得空间不变性。
卷积是什么
可以把卷积操作理解成:
- 拿一个小的“滤镜”或“透镜”在图像上滑动;
- 每到一个位置,就计算局部区域与卷积核的匹配程度;
- 得到一张新的特征图。
不同卷积核会学到不同特征,例如:
- 水平边缘;
- 垂直边缘;
- 纹理;
- 颜色变化;
- 更复杂的局部模式。
通道与多层卷积
通道
每个卷积核对应一张输出平面,也就是一个 通道。
- 一个核学一种典型特征;
- 多个核就能同时学多种特征。
多层卷积
随着卷积层叠加:
- 低层看到小范围局部模式;
- 高层看到更大范围结构;
- 特征越来越抽象。
这就是 CNN 在图像理解中极其强大的原因。
CNN 特别适合什么数据
CNN 特别适合:
- 图像
- 视频帧
- 二维栅格数据
因为这类数据都具有显著的空间结构。
例如识别猫脸:
- 猫脸只占图像局部区域,因此特征是局部的;
- 猫脸出现在左上角或右下角,本质仍是猫,因此具有空间不变性。
CNN 的优点与局限
优点
- 参数更少;
- 训练更高效;
- 自动提取局部到整体的图像特征;
- 在视觉任务上表现极强。
局限
- 更适合空间结构明显的数据;
- 对纯序列依赖建模不如 RNN / Transformer 直接;
- 设计和训练仍需要较高算力。
循环神经网络 RNN
为什么需要 RNN
很多数据不是静态向量,而是 序列:
- 文本
- 语音
- 音乐
- 时间序列
- 销售数据
- 气象数据
这类数据最重要的性质是:
当前信息的意义,往往依赖前面的信息。
例如:
- “武松打虎”和“虎打武松”词完全相同,但顺序不同,语义完全不同;
- 一句话最后一个词的理解,常常依赖前文语境。
传统前馈网络把每个输入都当成独立样本,很难表达这种前后依赖关系。
RNN 的核心思想:把“过去”带到“现在”
RNN 的关键结构是:
- 隐藏状态会传到下一时刻;
- 当前输出既依赖当前输入,也依赖历史状态。
更标准地写:
其中:
- :当前时刻输入
- :上一时刻隐藏状态
- :当前时刻隐藏状态
- :非线性函数
于是,RNN 具备了某种“记忆”。
展开理解 RNN
- 表面上 RNN 有一个环;
- 但按时间展开后,可以看作一个在多个时刻重复使用同一参数的网络链条。
这有两个直观含义:
- 不同时刻并不是彼此独立;
- 当前时刻会继承之前积累的信息。
RNN 适合什么任务
自然语言处理
- 文本分类
- 情感分析
- 机器翻译
- 文本生成
语音任务
- 语音识别
- 语音到文本
时间序列分析
- 股票预测
- 天气预测
- 销售预测
- 设备状态预测
RNN 的局限
虽然 RNN 有记忆能力,但它并不完美。
长期依赖问题
序列太长时,较早的信息很容易被遗忘。
梯度消失 / 梯度爆炸
时间展开后,反向传播链条很长,训练中容易出现梯度问题。
改进:LSTM 与 GRU
为了解决 RNN 记忆短、训练难的问题,研究者提出:
- LSTM:通过输入门、遗忘门、输出门控制信息流;
- GRU:结构更简洁,但思想相近。
它们本质上都是在做一件事:
让网络学会哪些信息该记住,哪些信息该忘掉。
深度学习为什么有效。
通用近似定理
通用近似定理 说明:
即使只有一个隐藏层,只要隐藏单元足够多,神经网络也可以逼近任意连续函数。
- 神经网络在理论上具有极强的函数表达能力;
- 它不是“只能做一点点模式匹配”的弱模型;
- 它本质上是非常强的通用逼近器。
层次特征学习
深度学习真正强,不只因为“能逼近函数”,更因为它会 逐层学特征。
以 CNN 为例:
- 底层学到边缘、线条;
- 中层学到纹理、局部部件;
- 高层学到脸、轮廓、对象类别等高级特征。
这说明:
深层网络不是把同一件事重复做好几遍,而是在不同层次学习不同抽象程度的表示。
高级特征的不变性
高级特征通常具有更强的不变性。
例如做人脸识别时:
- 图片缩放了;
- 旋转了;
- 光照变了;
- 染色了;
底层像素和纹理会发生明显变化,但“这是同一张人脸”的高级语义往往不变。
这正是抽象特征的价值:
- 对任务真正有用;
- 对表面扰动不敏感;
- 泛化能力更强。
自动特征学习的意义
传统机器学习中,研究者常需要手工设计特征。
而深度学习的重要突破之一是:
特征本身也可以由模型自动学习出来。
这带来三个巨大改变:
- 减少人工特征设计负担;
- 能发现人未必能手工想到的复杂模式;
- 更适合端到端学习。
深度学习的突破:AlexNet
2012 年,AlexNet 在 ImageNet 比赛中的巨大成功,证明了:
- 深层神经网络不是理论玩具;
- 它在大规模真实任务中也能压倒性领先。
从此,深度学习成为人工智能最活跃、最主流的方向之一。
深度学习的优势、局限与应用场景
优势
自动特征学习能力强
能够从原始数据中直接学习表示,减少人工特征工程负担。
非线性表达能力强
适合复杂模式识别、函数拟合和决策建模。
适配多种数据类型
- 图像:CNN
- 序列:RNN / LSTM / GRU
- 文本与多模态:后续还可延伸到 Transformer
在大规模数据上效果突出
当数据、算力、优化方法都足够时,性能往往非常强。
局限
数据依赖强
没有足够多、足够好的数据,深度模型很难训练出好效果。
算力成本高
模型越深、数据越大,训练成本越高。
可解释性较弱
尤其在医疗、法律、金融等敏感场景,为什么这么预测,往往不够透明。
训练不稳定问题
包括:
- 梯度消失
- 梯度爆炸
- 过拟合
- 对超参数较敏感
隐私与公平性问题
深度学习系统常依赖大量数据,因此会引出:
- 隐私泄露风险;
- 数据偏差;
- 模型歧视;
- 资源消耗问题。
常见应用场景
- 图像分类与检测
- 人脸识别
- 语音识别
- 机器翻译
- 情感分析
- 时间序列预测
- 自动驾驶
- AIGC 内容生成