人工智能中的神经网络是什么?

人工智能中的神经网络是什么?

神经网络听起来神秘莫测,但其实不然。如果你曾经好奇人工智能中的神经网络究竟是什么,以及它是否只是披着一层华丽外衣的数学,那么这篇文章正是为你准备的。我们将以实用性为主,穿插一些轻松的小知识,当然,还会用到一些表情符号。读完之后,你将了解这些系统是什么,它们为什么有效,它们在哪些方面会失效,以及如何用清晰易懂的方式谈论它们。

您可能还想阅读以下文章:

🔗 什么是人工智能偏见?
了解人工智能系统中的偏见以及确保公平性的策略。.

🔗 什么是预测性人工智能
预测性人工智能如何利用模式预测未来结果。.

🔗 什么是人工智能训练器
探讨人工智能训练专业人员的角色和职责。.

🔗 人工智能中的计算机视觉是什么?
人工智能如何通过计算机视觉解释和分析视觉数据。.


人工智能中的神经网络是什么?10 秒速览 ⏱️

神经网络是由许多称为神经元的简单计算单元堆叠而成,这些神经元传递数值,在训练过程中调整连接强度,并逐步学习数据中的模式。当我们听到“深度学习”,通常指的是具有多层堆叠结构的神经网络,它可以自动学习特征,而无需手动编写代码。换句话说:许多巧妙排列的微小数学单元,经过数据训练,最终能够发挥作用[1]。


神经网络的优势是什么?✅

  • 表示能力:通过适当的架构和规模,网络可以近似表示极其复杂的函数(参见通用逼近定理)[4]。

  • 端到端学习:模型无需手动设计特征,即可发现特征[1]。

  • 泛化能力:一个经过良好正则化的网络不仅能够记忆,还能处理新的、未见过的数据[1]。

  • 可扩展性:更大的数据集和更大的模型通常会不断改进结果……直到达到计算和数据质量等实际限制[1]。

  • 可迁移性:在一个任务中学习到的特征可以帮助另一个任务(迁移学习和微调)[1]。

简短的现场笔记(示例场景):一个小型产品分类团队用紧凑型 CNN 替换了手工构建的特征,添加了简单的增强(翻转/裁剪),并观察到验证误差下降——不是因为网络“神奇”,而是因为它直接从像素中学习到了更多有用的特征。


“人工智能中的神经网络是什么?”用通俗易懂的语言解释,并配上一个不太恰当的比喻🍞

想象一下面包店的流水线。原料放入,工人调整配方,试吃员提出意见,团队再次更新配方。在神经网络中,输入流经各个层,损失函数对输出进行评分,梯度则引导权重在下次做得更好。虽然这个比喻并不完美——面包无法进行微分——但它确实贴切[1]。.


神经网络的结构🧩

  • 神经元:微型计算器,应用加权求和与激活函数。

  • 权重和偏置:用于定义信号如何组合的可调节旋钮。

  • 层数:输入层接收数据,隐藏层对其进行转换,输出层进行预测。

  • 激活函数:像 ReLU、sigmoid、tanh 和 softmax 这样的非线性扭曲使学习更加灵活。

  • 损失函数:衡量预测错误程度的分数(分类采用交叉熵,回归采用均方误差)。

  • 优化器:像 SGD 或 Adam 这样的算法使用梯度来更新权重。

  • 正则化:采用 dropout 或权重衰减等技术来防止模型过拟合。

如果你想要正式的处理方式(但仍然可读),开放教科书《深度学习》涵盖了整个技术栈:数学基础、优化和泛化[1]。


激活功能,简明扼要但实用⚡

  • ReLU :负数激活值为0,正数激活值为线性。简单、快速、有效。

  • Sigmoid 函数:将值压缩在 0 到 1 之间 - 很有用,但可能会饱和。

  • Tanh 函数:类似于 S 形函数,但关于零点对称。

  • Softmax :将原始分数转换为跨类别的概率。

你不需要记住每条曲线的形状——只需了解权衡取舍和常见的默认值[1, 2]。.


学习的真正原理:反向传播,但并不可怕🔁

  1. 前向传递:数据逐层流动以生成预测结果。

  2. 计算损失:将预测结果与真实值进行比较。

  3. 反向传播:利用链式法则计算损失函数对每个权重的梯度。

  4. 更新:优化器略微调整了权重。

  5. 重复:多次迭代。模型逐步学习。

如需通过视觉效果和代码相关的解释获得直观的实践经验,请参阅经典的 CS231n 反向传播和优化笔记 [2]。.


神经网络的主要类型一览🏡

  • 前馈网络(多层感知器) :最简单的类型。数据只向前传递。

  • 卷积神经网络(CNN) :由于其空间滤波器可以检测边缘、纹理和形状,因此非常适合处理图像[2]。

  • 循环神经网络(RNN)及其变体:通过保持秩序感来构建文本或时间序列等序列[1]。

  • Transformer :利用注意力一次性对序列中各个位置之间的关系进行建模;在语言及其他领域占据主导地位[3]。

  • 图神经网络(GNN) :对图的节点和边进行操作——对分子、社交网络、推荐系统很有用[1]。

  • 自编码器和 VAE :学习压缩表示并生成变体[1]。

  • 生成模型:从 GAN 到扩散模型,用于图像、音频,甚至代码[1]。

CS231n 笔记对 CNN 特别友好,而 Transformer 论文是基于注意力模型的首选主要来源 [2, 3]。.


对比表格:常见神经网络类型、适用人群、成本水平及工作原理📊

工具/类型 观众 价格适中 为什么有效
前馈(多层感知器) 初学者、分析师 低至中等 简单、灵活、不错的基准
CNN 愿景团队 中等的 本地模式 + 参数共享
循环神经网络/长短期记忆网络/格鲁棒单元测试单元 序列人 中等的 类似时间记忆的东西……捕捉秩序
变压器 自然语言处理、多模态 中高 关注点在于相关关系
全球网络 科学家,recsys 中等的 在图上传递消息揭示结构
自编码器/VAE 研究人员 低至中等 学习压缩表示
生成对抗网络/扩散 创新实验室 中高 对抗式或迭代式去噪魔法

注:价格取决于计算量和时间;实际费用可能因情况而异。故意有一两行文字是多余的。.


“人工智能中的神经网络是什么?”与传统机器学习算法的比较⚖️

  • 特征工程:传统的机器学习通常依赖于手动特征。神经网络可以自动学习特征——这对于复杂数据来说是一大优势[1]。

  • 数据需求:网络通常在数据越多时表现越好;小数据可能更适合简单的模型[1]。

  • 计算:网络喜欢 GPU 等加速器 [1]。

  • 性能上限:对于非结构化数据(图像、音频、文本),深度网络往往占据主导地位[1, 2]。


真正行之有效的培训流程🛠️

  1. 定义目标:分类、回归、排序、生成——选择与之匹配的损失函数。

  2. 数据整理:将数据集拆分为训练集/验证集/测试集。对特征进行归一化。平衡类别。对于图像,考虑使用数据增强技术,例如翻转、裁剪和添加少量噪声。

  3. 架构选择:从简单的架构开始,仅在需要时才增加容量。

  4. 训练循环:数据分批处理。前向传播。计算损失。反向传播。更新。记录指标。

  5. 规范化:辍学、体重下降、提前停止。

  6. 评估:使用验证集评估超参数。保留一个测试集用于最终检查。

  7. 谨慎运输:监控漂移,检查偏差,制定回滚计划。

对于具有扎实理论的端到端、面向代码的教程,开放教科书和 CS231n 笔记是可靠的参考资料 [1, 2]。.


过拟合、泛化和其他小问题👀

  • 过拟合:模型会记住训练过程中出现的特殊情况。可以通过增加数据量、加强正则化或采用更简单的模型架构来解决。

  • 欠拟合:模型过于简单或训练过于保守。增加模型容量或延长训练时间。

  • 数据泄露:测试集中的信息被带入了训练集。请仔细检查你的数据划分。

  • 校准不良:一个自信但错误的模型是危险的。请考虑重新校准或调整损失权重。

  • 分布变化:现实世界的数据在移动。监控并适应。

对于泛化和正则化的理论,请参考标准参考文献[1, 2]。.


安全性、可解释性和负责任的部署🧭

神经网络能够做出高风险决策。仅仅在排行榜上表现出色是不够的。你需要贯穿其整个生命周期的治理、评估和缓解措施。NIST AI风险管理框架概述了治理、评估、管理以帮助团队将风险管理融入到设计和部署中[5]。

几个简单的提示:

  • 偏见检查:在适当且合法的情况下,对不同人口群体进行评估。

  • 可解释性:使用显著性或特征归因等技术。它们并不完美,但很有用。

  • 监控:设置警报,以便在指标突然下降或数据漂移时发出警报。

  • 人为监督:在影响重大的决策中,要让相关人员参与其中。无需英雄主义,只需按规章办事。


你内心深处一直想知道的常见问题🙋

神经网络本质上就是大脑吗?

灵感的确来源于大脑——但有所简化。神经网络中的神经元是数学函数;生物神经元是具有复杂动力学的活细胞。概念相似,但物理机制截然不同[1]。.

我需要多少层?

从小处着手。如果模型拟合不足,就增加宽度或深度。如果模型拟合过高,就进行正则化或减少容量。没有神奇的数字;只有验证曲线和耐心[1]。.

我总是需要独立显卡吗?

不总是如此。对于数据量适中的小型模型,可以在 CPU 上进行训练,但对于图像、大型文本模型或大型数据集,加速器可以节省大量时间 [1]。.

为什么人们说注意力具有强大的力量?

因为注意力机制允许模型专注于输入中最相关的部分,而无需严格按照顺序进行。它能够捕捉全局关系,这对于语言和多模态任务来说意义重大[3]。.

“人工智能中的神经网络是什么?”与“深度学习是什么?”有何不同?

深度学习是一种更广泛的方法,它使用深度神经网络。因此,问“人工智能中的神经网络是什么?”就像问主角是谁一样;深度学习就是整部电影[1]。


实用且略带个人见解的建议💡

  • 选择简单的基线模型。即使是一个简单的多层感知器也能告诉你数据是否可学习。

  • 保持数据管道的可复现性。如果无法重新运行,就无法信任它。

  • 学习速度比你想象的更重要。试试制定学习计划。热身运动会有帮助。

  • 批次大小存在权衡取舍。较大的批次可以稳定梯度,但其泛化能力可能有所不同。

  • 如果感到困惑,可以绘制减肥曲线体重标准图。你会惊讶地发现,答案往往就藏在这些图表中。

  • 记录假设。未来的你会很快忘记事情[1, 2]。.


深度探讨:数据的作用,或者说为什么垃圾进垃圾出 🗑️➡️✨

神经网络并不能神奇地修复有缺陷的数据。标签偏差、标注错误或采样范围狭窄都会对模型产生影响。因此,需要对数据进行整理、审核和扩充。如果您不确定是需要更多数据还是更好的模型,答案往往简单得令人抓狂:两者都需要——但首先要关注数据质量[1]。.


“人工智能中的神经网络是什么?”——简短定义,方便重复使用🧾

  • 神经网络是一种分层函数逼近器,它通过使用梯度信号调整权重来学习复杂的模式[1, 2]。.

  • 这是一个通过连续的非线性步骤将输入转换为输出的系统,经过训练以最小化损失[1]。.

  • 它是一种灵活的、数据密集型的建模方法,擅长处理图像、文本和音频等非结构化输入[1, 2, 3]。.


太长,没看完,以及最后的一些感想🎯

如果有人问你“人工智能中的神经网络是什么?” ,你可以这样解释:神经网络是由一系列简单的单元堆叠而成,它们逐步转换数据,通过最小化损失函数和追踪梯度来学习转换过程。神经网络之所以强大,是因为它们具有可扩展性,能够自动学习特征,并且可以表示非常复杂的函数[1, 4]。但如果忽略数据质量、治理或监控,它们就会带来风险[5]。而且,它们并非魔法,而只是数学、计算和优秀的工程技术——再加上一点技巧。


延伸阅读,精心挑选(非引用类补充材料)


参考

[1] Goodfellow, I., Bengio, Y., & Courville, A.深度学习。麻省理工学院出版社。免费在线版本:阅读更多

[2] 斯坦福大学 CS231n.用于视觉识别的卷积神经网络(课程笔记):阅读更多

[3] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need . NeurIPS. arXiv:阅读更多

[4] Cybenko, G. (1989). sigmoid 函数叠加逼近.控制、信号与系统数学, 2, 303–314. Springer:阅读更多

[5] NIST.人工智能风险管理框架 (AI RMF)了解更多


在官方人工智能助手商店查找最新人工智能产品

关于我们

返回博客