人工智能中的神经网络是什么？

神经网络听起来神秘莫测，但其实不然。如果你曾经好奇人工智能中的神经网络究竟是什么，以及它是否只是披着一层华丽外衣的数学，那么这篇文章正是为你准备的。我们将以实用性为主，穿插一些轻松的小知识，当然，还会用到一些表情符号。读完之后，你将了解这些系统是什么，它们为什么有效，它们在哪些方面会失效，以及如何用清晰易懂的方式谈论它们。

您可能还想阅读以下文章：

🔗 什么是人工智能偏见？
了解人工智能系统中的偏见以及确保公平性的策略。.

🔗 什么是预测性人工智能
预测性人工智能如何利用模式预测未来结果。.

🔗 什么是人工智能训练器
探讨人工智能训练专业人员的角色和职责。.

🔗 人工智能中的计算机视觉是什么？
人工智能如何通过计算机视觉解释和分析视觉数据。.

人工智能中的神经网络是什么？10 秒速览 ⏱️

神经网络是由许多称为神经元的简单计算单元堆叠而成，这些神经元传递数值，在训练过程中调整连接强度，并逐步学习数据中的模式。当我们听到“深度学习”，通常指的是具有多层堆叠结构的神经网络，它可以自动学习特征，而无需手动编写代码。换句话说：许多巧妙排列的微小数学单元，经过数据训练，最终能够发挥作用[1]。

神经网络的优势是什么？✅

表示能力：通过适当的架构和规模，网络可以近似表示极其复杂的函数（参见通用逼近定理）[4]。
端到端学习：模型无需手动设计特征，即可发现特征[1]。
泛化能力：一个经过良好正则化的网络不仅能够记忆，还能处理新的、未见过的数据[1]。
可扩展性：更大的数据集和更大的模型通常会不断改进结果……直到达到计算和数据质量等实际限制[1]。
可迁移性：在一个任务中学习到的特征可以帮助另一个任务（迁移学习和微调）[1]。

简短的现场笔记（示例场景）：一个小型产品分类团队用紧凑型 CNN 替换了手工构建的特征，添加了简单的增强（翻转/裁剪），并观察到验证误差下降——不是因为网络“神奇”，而是因为它直接从像素中学习到了更多有用的特征。

“人工智能中的神经网络是什么？”用通俗易懂的语言解释，并配上一个不太恰当的比喻🍞

想象一下面包店的流水线。原料放入，工人调整配方，试吃员提出意见，团队再次更新配方。在神经网络中，输入流经各个层，损失函数对输出进行评分，梯度则引导权重在下次做得更好。虽然这个比喻并不完美——面包无法进行微分——但它确实贴切[1]。.

神经网络的结构🧩

神经元：微型计算器，应用加权求和与激活函数。
权重和偏置：用于定义信号如何组合的可调节旋钮。
层数：输入层接收数据，隐藏层对其进行转换，输出层进行预测。
激活函数：像 ReLU、sigmoid、tanh 和 softmax 这样的非线性扭曲使学习更加灵活。
损失函数：衡量预测错误程度的分数（分类采用交叉熵，回归采用均方误差）。
优化器：像 SGD 或 Adam 这样的算法使用梯度来更新权重。
正则化：采用 dropout 或权重衰减等技术来防止模型过拟合。

如果你想要正式的处理方式（但仍然可读），开放教科书《深度学习》涵盖了整个技术栈：数学基础、优化和泛化[1]。

激活功能，简明扼要但实用⚡

ReLU ：负数激活值为0，正数激活值为线性。简单、快速、有效。
Sigmoid 函数：将值压缩在 0 到 1 之间 - 很有用，但可能会饱和。
Tanh 函数：类似于 S 形函数，但关于零点对称。
Softmax ：将原始分数转换为跨类别的概率。

你不需要记住每条曲线的形状——只需了解权衡取舍和常见的默认值[1, 2]。.

学习的真正原理：反向传播，但并不可怕🔁

前向传递：数据逐层流动以生成预测结果。
计算损失：将预测结果与真实值进行比较。
反向传播：利用链式法则计算损失函数对每个权重的梯度。
更新：优化器略微调整了权重。
重复：多次迭代。模型逐步学习。

如需通过视觉效果和代码相关的解释获得直观的实践经验，请参阅经典的 CS231n 反向传播和优化笔记 [2]。.

神经网络的主要类型一览🏡

前馈网络（多层感知器） ：最简单的类型。数据只向前传递。
卷积神经网络（CNN） ：由于其空间滤波器可以检测边缘、纹理和形状，因此非常适合处理图像[2]。
循环神经网络（RNN）及其变体：通过保持秩序感来构建文本或时间序列等序列[1]。
Transformer ：利用注意力一次性对序列中各个位置之间的关系进行建模；在语言及其他领域占据主导地位[3]。
图神经网络（GNN） ：对图的节点和边进行操作——对分子、社交网络、推荐系统很有用[1]。
自编码器和 VAE ：学习压缩表示并生成变体[1]。
生成模型：从 GAN 到扩散模型，用于图像、音频，甚至代码[1]。

CS231n 笔记对 CNN 特别友好，而 Transformer 论文是基于注意力模型的首选主要来源 [2, 3]。.

对比表格：常见神经网络类型、适用人群、成本水平及工作原理📊

工具/类型	观众	价格适中	为什么有效
前馈（多层感知器）	初学者、分析师	低至中等	简单、灵活、不错的基准
CNN	愿景团队	中等的	本地模式 + 参数共享
循环神经网络/长短期记忆网络/格鲁棒单元测试单元	序列人	中等的	类似时间记忆的东西……捕捉秩序
变压器	自然语言处理、多模态	中高	关注点在于相关关系
全球网络	科学家，recsys	中等的	在图上传递消息揭示结构
自编码器/VAE	研究人员	低至中等	学习压缩表示
生成对抗网络/扩散	创新实验室	中高	对抗式或迭代式去噪魔法

注：价格取决于计算量和时间；实际费用可能因情况而异。故意有一两行文字是多余的。.

“人工智能中的神经网络是什么？”与传统机器学习算法的比较⚖️

特征工程：传统的机器学习通常依赖于手动特征。神经网络可以自动学习特征——这对于复杂数据来说是一大优势[1]。
数据需求：网络通常在数据越多时表现越好；小数据可能更适合简单的模型[1]。
计算：网络喜欢 GPU 等加速器 [1]。
性能上限：对于非结构化数据（图像、音频、文本），深度网络往往占据主导地位[1, 2]。

真正行之有效的培训流程🛠️

定义目标：分类、回归、排序、生成——选择与之匹配的损失函数。
数据整理：将数据集拆分为训练集/验证集/测试集。对特征进行归一化。平衡类别。对于图像，考虑使用数据增强技术，例如翻转、裁剪和添加少量噪声。
架构选择：从简单的架构开始，仅在需要时才增加容量。
训练循环：数据分批处理。前向传播。计算损失。反向传播。更新。记录指标。
规范化：辍学、体重下降、提前停止。
评估：使用验证集评估超参数。保留一个测试集用于最终检查。
谨慎运输：监控漂移，检查偏差，制定回滚计划。

对于具有扎实理论的端到端、面向代码的教程，开放教科书和 CS231n 笔记是可靠的参考资料 [1, 2]。.

过拟合、泛化和其他小问题👀

过拟合：模型会记住训练过程中出现的特殊情况。可以通过增加数据量、加强正则化或采用更简单的模型架构来解决。
欠拟合：模型过于简单或训练过于保守。增加模型容量或延长训练时间。
数据泄露：测试集中的信息被带入了训练集。请仔细检查你的数据划分。
校准不良：一个自信但错误的模型是危险的。请考虑重新校准或调整损失权重。
分布变化：现实世界的数据在移动。监控并适应。

对于泛化和正则化的理论，请参考标准参考文献[1, 2]。.

安全性、可解释性和负责任的部署🧭

神经网络能够做出高风险决策。仅仅在排行榜上表现出色是不够的。你需要贯穿其整个生命周期的治理、评估和缓解措施。NIST AI风险管理框架概述了治理、评估、管理以帮助团队将风险管理融入到设计和部署中[5]。

几个简单的提示：

偏见检查：在适当且合法的情况下，对不同人口群体进行评估。
可解释性：使用显著性或特征归因等技术。它们并不完美，但很有用。
监控：设置警报，以便在指标突然下降或数据漂移时发出警报。
人为监督：在影响重大的决策中，要让相关人员参与其中。无需英雄主义，只需按规章办事。

你内心深处一直想知道的常见问题🙋

神经网络本质上就是大脑吗？

灵感的确来源于大脑——但有所简化。神经网络中的神经元是数学函数；生物神经元是具有复杂动力学的活细胞。概念相似，但物理机制截然不同[1]。.

我需要多少层？

从小处着手。如果模型拟合不足，就增加宽度或深度。如果模型拟合过高，就进行正则化或减少容量。没有神奇的数字；只有验证曲线和耐心[1]。.

我总是需要独立显卡吗？

不总是如此。对于数据量适中的小型模型，可以在 CPU 上进行训练，但对于图像、大型文本模型或大型数据集，加速器可以节省大量时间 [1]。.

为什么人们说注意力具有强大的力量？

因为注意力机制允许模型专注于输入中最相关的部分，而无需严格按照顺序进行。它能够捕捉全局关系，这对于语言和多模态任务来说意义重大[3]。.

“人工智能中的神经网络是什么？”与“深度学习是什么？”有何不同？

深度学习是一种更广泛的方法，它使用深度神经网络。因此，问“人工智能中的神经网络是什么？”就像问主角是谁一样；深度学习就是整部电影[1]。

实用且略带个人见解的建议💡

选择简单的基线模型。即使是一个简单的多层感知器也能告诉你数据是否可学习。
保持数据管道的可复现性。如果无法重新运行，就无法信任它。
学习速度比你想象的更重要。试试制定学习计划。热身运动会有帮助。
批次大小存在权衡取舍。较大的批次可以稳定梯度，但其泛化能力可能有所不同。
如果感到困惑，可以绘制减肥曲线和体重标准图。你会惊讶地发现，答案往往就藏在这些图表中。
记录假设。未来的你会很快忘记事情[1, 2]。.

深度探讨：数据的作用，或者说为什么垃圾进垃圾出 🗑️➡️✨

神经网络并不能神奇地修复有缺陷的数据。标签偏差、标注错误或采样范围狭窄都会对模型产生影响。因此，需要对数据进行整理、审核和扩充。如果您不确定是需要更多数据还是更好的模型，答案往往简单得令人抓狂：两者都需要——但首先要关注数据质量[1]。.

“人工智能中的神经网络是什么？”——简短定义，方便重复使用🧾

神经网络是一种分层函数逼近器，它通过使用梯度信号调整权重来学习复杂的模式[1, 2]。.
这是一个通过连续的非线性步骤将输入转换为输出的系统，经过训练以最小化损失[1]。.
它是一种灵活的、数据密集型的建模方法，擅长处理图像、文本和音频等非结构化输入[1, 2, 3]。.

太长，没看完，以及最后的一些感想🎯

如果有人问你“人工智能中的神经网络是什么？” ，你可以这样解释：神经网络是由一系列简单的单元堆叠而成，它们逐步转换数据，通过最小化损失函数和追踪梯度来学习转换过程。神经网络之所以强大，是因为它们具有可扩展性，能够自动学习特征，并且可以表示非常复杂的函数[1, 4]。但如果忽略数据质量、治理或监控，它们就会带来风险[5]。而且，它们并非魔法，而只是数学、计算和优秀的工程技术——再加上一点技巧。

参考

[1] Goodfellow, I., Bengio, Y., & Courville, A.深度学习。麻省理工学院出版社。免费在线版本：阅读更多

[2] 斯坦福大学 CS231n.用于视觉识别的卷积神经网络（课程笔记）：阅读更多

[3] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need . NeurIPS. arXiv:阅读更多

[4] Cybenko, G. (1989). sigmoid 函数叠加逼近.控制、信号与系统数学, 2, 303–314. Springer:阅读更多

[5] NIST.人工智能风险管理框架 (AI RMF) ：了解更多

在官方人工智能助手商店查找最新人工智能产品

关于我们

返回博客

商品已加入购物车

人工智能中的神经网络是什么？

人工智能中的神经网络是什么？10 秒速览 ⏱️

神经网络的优势是什么？✅

“人工智能中的神经网络是什么？”用通俗易懂的语言解释，并配上一个不太恰当的比喻🍞

神经网络的结构🧩

激活功能，简明扼要但实用⚡

学习的真正原理：反向传播，但并不可怕🔁

神经网络的主要类型一览🏡

对比表格：常见神经网络类型、适用人群、成本水平及工作原理📊

“人工智能中的神经网络是什么？”与传统机器学习算法的比较⚖️

真正行之有效的培训流程🛠️

过拟合、泛化和其他小问题👀

安全性、可解释性和负责任的部署🧭

你内心深处一直想知道的常见问题🙋

神经网络本质上就是大脑吗？

我需要多少层？

我总是需要独立显卡吗？

为什么人们说注意力具有强大的力量？

“人工智能中的神经网络是什么？”与“深度学习是什么？”有何不同？

实用且略带个人见解的建议💡

深度探讨：数据的作用，或者说为什么垃圾进垃圾出 🗑️➡️✨

“人工智能中的神经网络是什么？”——简短定义，方便重复使用🧾

太长，没看完，以及最后的一些感想🎯

延伸阅读，精心挑选（非引用类补充材料）

参考

在官方人工智能助手商店查找最新人工智能产品

关于我们

国家/地区

人工智能中的神经网络是什么？10 秒速览 ⏱️

神经网络的优势是什么？✅

“人工智能中的神经网络是什么？”用通俗易懂的语言解释，并配上一个不太恰当的比喻🍞

神经网络的结构🧩

激活功能，简明扼要但实用⚡

学习的真正原理：反向传播，但并不可怕🔁

神经网络的主要类型一览🏡

对比表格：常见神经网络类型、适用人群、成本水平及工作原理📊

“人工智能中的神经网络是什么？”与传统机器学习算法的比较⚖️

真正行之有效的培训流程🛠️

过拟合、泛化和其他小问题👀

安全性、可解释性和负责任的部署🧭

你内心深处一直想知道的常见问题🙋

神经网络本质上就是大脑吗？

我需要多少层？

我总是需要独立显卡吗？

为什么人们说注意力具有强大的力量？

“人工智能中的神经网络是什么？”与“深度学习是什么？”有何不同？

实用且略带个人见解的建议💡

深度探讨：数据的作用，或者说为什么垃圾进垃圾出 🗑️➡️✨

“人工智能中的神经网络是什么？”——简短定义，方便重复使用🧾

太长，没看完，以及最后的一些感想🎯

延伸阅读，精心挑选（非引用类补充材料）

参考

在官方人工智能助手商店查找最新人工智能产品

关于我们