神经网络听起来神秘莫测,但其实不然。如果你曾经好奇人工智能中的神经网络究竟是什么,以及它是否只是披着一层华丽外衣的数学,那么这篇文章正是为你准备的。我们将以实用性为主,穿插一些轻松的小知识,当然,还会用到一些表情符号。读完之后,你将了解这些系统是什么,它们为什么有效,它们在哪些方面会失效,以及如何用清晰易懂的方式谈论它们。
您可能还想阅读以下文章:
🔗 什么是人工智能偏见?
了解人工智能系统中的偏见以及确保公平性的策略。.
🔗 什么是预测性人工智能
预测性人工智能如何利用模式预测未来结果。.
🔗 什么是人工智能训练器
探讨人工智能训练专业人员的角色和职责。.
🔗 人工智能中的计算机视觉是什么?
人工智能如何通过计算机视觉解释和分析视觉数据。.
人工智能中的神经网络是什么?10 秒速览 ⏱️
神经网络是由许多称为神经元的简单计算单元堆叠而成,这些神经元传递数值,在训练过程中调整连接强度,并逐步学习数据中的模式。当我们听到“深度学习”,通常指的是具有多层堆叠结构的神经网络,它可以自动学习特征,而无需手动编写代码。换句话说:许多巧妙排列的微小数学单元,经过数据训练,最终能够发挥作用[1]。
神经网络的优势是什么?✅
-
表示能力:通过适当的架构和规模,网络可以近似表示极其复杂的函数(参见通用逼近定理)[4]。
-
端到端学习:模型无需手动设计特征,即可发现特征[1]。
-
泛化能力:一个经过良好正则化的网络不仅能够记忆,还能处理新的、未见过的数据[1]。
-
可扩展性:更大的数据集和更大的模型通常会不断改进结果……直到达到计算和数据质量等实际限制[1]。
-
可迁移性:在一个任务中学习到的特征可以帮助另一个任务(迁移学习和微调)[1]。
简短的现场笔记(示例场景):一个小型产品分类团队用紧凑型 CNN 替换了手工构建的特征,添加了简单的增强(翻转/裁剪),并观察到验证误差下降——不是因为网络“神奇”,而是因为它直接从像素中学习到了更多有用的特征。
“人工智能中的神经网络是什么?”用通俗易懂的语言解释,并配上一个不太恰当的比喻🍞
想象一下面包店的流水线。原料放入,工人调整配方,试吃员提出意见,团队再次更新配方。在神经网络中,输入流经各个层,损失函数对输出进行评分,梯度则引导权重在下次做得更好。虽然这个比喻并不完美——面包无法进行微分——但它确实贴切[1]。.
神经网络的结构🧩
-
神经元:微型计算器,应用加权求和与激活函数。
-
权重和偏置:用于定义信号如何组合的可调节旋钮。
-
层数:输入层接收数据,隐藏层对其进行转换,输出层进行预测。
-
激活函数:像 ReLU、sigmoid、tanh 和 softmax 这样的非线性扭曲使学习更加灵活。
-
损失函数:衡量预测错误程度的分数(分类采用交叉熵,回归采用均方误差)。
-
优化器:像 SGD 或 Adam 这样的算法使用梯度来更新权重。
-
正则化:采用 dropout 或权重衰减等技术来防止模型过拟合。
如果你想要正式的处理方式(但仍然可读),开放教科书《深度学习》涵盖了整个技术栈:数学基础、优化和泛化[1]。
激活功能,简明扼要但实用⚡
-
ReLU :负数激活值为0,正数激活值为线性。简单、快速、有效。
-
Sigmoid 函数:将值压缩在 0 到 1 之间 - 很有用,但可能会饱和。
-
Tanh 函数:类似于 S 形函数,但关于零点对称。
-
Softmax :将原始分数转换为跨类别的概率。
你不需要记住每条曲线的形状——只需了解权衡取舍和常见的默认值[1, 2]。.
学习的真正原理:反向传播,但并不可怕🔁
-
前向传递:数据逐层流动以生成预测结果。
-
计算损失:将预测结果与真实值进行比较。
-
反向传播:利用链式法则计算损失函数对每个权重的梯度。
-
更新:优化器略微调整了权重。
-
重复:多次迭代。模型逐步学习。
如需通过视觉效果和代码相关的解释获得直观的实践经验,请参阅经典的 CS231n 反向传播和优化笔记 [2]。.
神经网络的主要类型一览🏡
-
前馈网络(多层感知器) :最简单的类型。数据只向前传递。
-
卷积神经网络(CNN) :由于其空间滤波器可以检测边缘、纹理和形状,因此非常适合处理图像[2]。
-
循环神经网络(RNN)及其变体:通过保持秩序感来构建文本或时间序列等序列[1]。
-
Transformer :利用注意力一次性对序列中各个位置之间的关系进行建模;在语言及其他领域占据主导地位[3]。
-
图神经网络(GNN) :对图的节点和边进行操作——对分子、社交网络、推荐系统很有用[1]。
-
自编码器和 VAE :学习压缩表示并生成变体[1]。
-
生成模型:从 GAN 到扩散模型,用于图像、音频,甚至代码[1]。
CS231n 笔记对 CNN 特别友好,而 Transformer 论文是基于注意力模型的首选主要来源 [2, 3]。.
对比表格:常见神经网络类型、适用人群、成本水平及工作原理📊
| 工具/类型 | 观众 | 价格适中 | 为什么有效 |
|---|---|---|---|
| 前馈(多层感知器) | 初学者、分析师 | 低至中等 | 简单、灵活、不错的基准 |
| CNN | 愿景团队 | 中等的 | 本地模式 + 参数共享 |
| 循环神经网络/长短期记忆网络/格鲁棒单元测试单元 | 序列人 | 中等的 | 类似时间记忆的东西……捕捉秩序 |
| 变压器 | 自然语言处理、多模态 | 中高 | 关注点在于相关关系 |
| 全球网络 | 科学家,recsys | 中等的 | 在图上传递消息揭示结构 |
| 自编码器/VAE | 研究人员 | 低至中等 | 学习压缩表示 |
| 生成对抗网络/扩散 | 创新实验室 | 中高 | 对抗式或迭代式去噪魔法 |
注:价格取决于计算量和时间;实际费用可能因情况而异。故意有一两行文字是多余的。.
“人工智能中的神经网络是什么?”与传统机器学习算法的比较⚖️
-
特征工程:传统的机器学习通常依赖于手动特征。神经网络可以自动学习特征——这对于复杂数据来说是一大优势[1]。
-
数据需求:网络通常在数据越多时表现越好;小数据可能更适合简单的模型[1]。
-
计算:网络喜欢 GPU 等加速器 [1]。
-
性能上限:对于非结构化数据(图像、音频、文本),深度网络往往占据主导地位[1, 2]。
真正行之有效的培训流程🛠️
-
定义目标:分类、回归、排序、生成——选择与之匹配的损失函数。
-
数据整理:将数据集拆分为训练集/验证集/测试集。对特征进行归一化。平衡类别。对于图像,考虑使用数据增强技术,例如翻转、裁剪和添加少量噪声。
-
架构选择:从简单的架构开始,仅在需要时才增加容量。
-
训练循环:数据分批处理。前向传播。计算损失。反向传播。更新。记录指标。
-
规范化:辍学、体重下降、提前停止。
-
评估:使用验证集评估超参数。保留一个测试集用于最终检查。
-
谨慎运输:监控漂移,检查偏差,制定回滚计划。
对于具有扎实理论的端到端、面向代码的教程,开放教科书和 CS231n 笔记是可靠的参考资料 [1, 2]。.
过拟合、泛化和其他小问题👀
-
过拟合:模型会记住训练过程中出现的特殊情况。可以通过增加数据量、加强正则化或采用更简单的模型架构来解决。
-
欠拟合:模型过于简单或训练过于保守。增加模型容量或延长训练时间。
-
数据泄露:测试集中的信息被带入了训练集。请仔细检查你的数据划分。
-
校准不良:一个自信但错误的模型是危险的。请考虑重新校准或调整损失权重。
-
分布变化:现实世界的数据在移动。监控并适应。
对于泛化和正则化的理论,请参考标准参考文献[1, 2]。.
安全性、可解释性和负责任的部署🧭
神经网络能够做出高风险决策。仅仅在排行榜上表现出色是不够的。你需要贯穿其整个生命周期的治理、评估和缓解措施。NIST AI风险管理框架概述了治理、评估、管理以帮助团队将风险管理融入到设计和部署中[5]。
几个简单的提示:
-
偏见检查:在适当且合法的情况下,对不同人口群体进行评估。
-
可解释性:使用显著性或特征归因等技术。它们并不完美,但很有用。
-
监控:设置警报,以便在指标突然下降或数据漂移时发出警报。
-
人为监督:在影响重大的决策中,要让相关人员参与其中。无需英雄主义,只需按规章办事。
你内心深处一直想知道的常见问题🙋
神经网络本质上就是大脑吗?
灵感的确来源于大脑——但有所简化。神经网络中的神经元是数学函数;生物神经元是具有复杂动力学的活细胞。概念相似,但物理机制截然不同[1]。.
我需要多少层?
从小处着手。如果模型拟合不足,就增加宽度或深度。如果模型拟合过高,就进行正则化或减少容量。没有神奇的数字;只有验证曲线和耐心[1]。.
我总是需要独立显卡吗?
不总是如此。对于数据量适中的小型模型,可以在 CPU 上进行训练,但对于图像、大型文本模型或大型数据集,加速器可以节省大量时间 [1]。.
为什么人们说注意力具有强大的力量?
因为注意力机制允许模型专注于输入中最相关的部分,而无需严格按照顺序进行。它能够捕捉全局关系,这对于语言和多模态任务来说意义重大[3]。.
“人工智能中的神经网络是什么?”与“深度学习是什么?”有何不同?
深度学习是一种更广泛的方法,它使用深度神经网络。因此,问“人工智能中的神经网络是什么?”就像问主角是谁一样;深度学习就是整部电影[1]。
实用且略带个人见解的建议💡
-
选择简单的基线模型。即使是一个简单的多层感知器也能告诉你数据是否可学习。
-
保持数据管道的可复现性。如果无法重新运行,就无法信任它。
-
学习速度比你想象的更重要。试试制定学习计划。热身运动会有帮助。
-
批次大小存在权衡取舍。较大的批次可以稳定梯度,但其泛化能力可能有所不同。
-
如果感到困惑,可以绘制减肥曲线和体重标准图。你会惊讶地发现,答案往往就藏在这些图表中。
-
记录假设。未来的你会很快忘记事情[1, 2]。.
深度探讨:数据的作用,或者说为什么垃圾进垃圾出 🗑️➡️✨
神经网络并不能神奇地修复有缺陷的数据。标签偏差、标注错误或采样范围狭窄都会对模型产生影响。因此,需要对数据进行整理、审核和扩充。如果您不确定是需要更多数据还是更好的模型,答案往往简单得令人抓狂:两者都需要——但首先要关注数据质量[1]。.
“人工智能中的神经网络是什么?”——简短定义,方便重复使用🧾
-
神经网络是一种分层函数逼近器,它通过使用梯度信号调整权重来学习复杂的模式[1, 2]。.
-
这是一个通过连续的非线性步骤将输入转换为输出的系统,经过训练以最小化损失[1]。.
-
它是一种灵活的、数据密集型的建模方法,擅长处理图像、文本和音频等非结构化输入[1, 2, 3]。.
太长,没看完,以及最后的一些感想🎯
如果有人问你“人工智能中的神经网络是什么?” ,你可以这样解释:神经网络是由一系列简单的单元堆叠而成,它们逐步转换数据,通过最小化损失函数和追踪梯度来学习转换过程。神经网络之所以强大,是因为它们具有可扩展性,能够自动学习特征,并且可以表示非常复杂的函数[1, 4]。但如果忽略数据质量、治理或监控,它们就会带来风险[5]。而且,它们并非魔法,而只是数学、计算和优秀的工程技术——再加上一点技巧。
延伸阅读,精心挑选(非引用类补充材料)
-
斯坦福 CS231n 课程笔记 - 易于理解且实用: https://cs231n.github.io/
-
DeepLearningBook.org - 权威参考: https://www.deeplearningbook.org/
-
NIST人工智能风险管理框架——负责任的人工智能指南: https://www.nist.gov/itl/ai-risk-management-framework
-
“注意力就是你所需要的一切”——Transformer论文: https://arxiv.org/abs/1706.03762
参考
[1] Goodfellow, I., Bengio, Y., & Courville, A.深度学习。麻省理工学院出版社。免费在线版本:阅读更多
[2] 斯坦福大学 CS231n.用于视觉识别的卷积神经网络(课程笔记):阅读更多
[3] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need . NeurIPS. arXiv:阅读更多
[4] Cybenko, G. (1989). sigmoid 函数叠加逼近.控制、信号与系统数学, 2, 303–314. Springer:阅读更多
[5] NIST.人工智能风险管理框架 (AI RMF) :了解更多