什么是生成式人工智能?

什么是生成式人工智能?

生成式人工智能指的是基于从大型数据集中学习到的模式来创建新内容(文本、图像、音频、视频、代码、数据结构)的模型。这些系统并非简单地对事物进行标记或排序,而是生成与相似但又并非完全相同的新颖输出。例如:撰写一段文字、渲染一个徽标、编写 SQL 语句、谱写一段旋律。这就是其核心思想。[1]

您可能想阅读以下文章:

🔗 什么是智能体人工智能?
探索智能AI如何自主地进行规划、行动和学习。

🔗 如今人工智能可扩展性在实践中究竟是什么?
了解为什么可扩展的人工智能系统对增长和可靠性至关重要。

🔗 什么是人工智能软件框架?
了解可重用的 AI 框架,以加快开发速度并提高一致性。

🔗 机器学习与人工智能:关键区别详解
比较人工智能和机器学习的概念、能力和实际应用。


为什么人们总是问“什么是生成式人工智能?”🙃

因为它感觉就像魔法一样。你输入一个提示,就能得到一些有用的信息——有时精彩绝伦,有时却又莫名其妙。这是软件首次大规模地展现出对话性和创造性。此外,它还与搜索、助手、分析、设计和开发工具有所重叠,这模糊了类别界限,坦白说,也打乱了预算。


生成式人工智能的用途是什么?✅

  • 快速选秀——它能让你以惊人的速度获得不错的首轮传球。

  • 模式综合——将你可能在周一早上根本无法联系起来的各种来源的想法融合在一起。

  • 灵活的界面——聊天、语音、图像、API 调用、插件;选择你的路径。

  • 自定义功能——从轻量级的提示模式到根据您自己的数据进行全面微调。

  • 复合工作流程- 用于多阶段任务的链式步骤,例如研究 → 大纲 → 草稿 → 质量保证。

  • 工具使用——许多模型可以在对话过程中调用外部工具或数据库,所以它们不会只是猜测。

  • 对齐技术——例如 RLHF 等方法,有助于模型在日常使用中表现得更有益、更安全。[2]

说实话,这些都不能说明它是个水晶球。它更像是一个才华横溢的实习生,从不睡觉,偶尔会凭空想象出一份书目。


简而言之,它的工作原理是这样的🧩

大多数流行的文本模型都使用Transformer——一种神经网络架构,它擅长识别序列之间的关系,因此能够以连贯的方式预测下一个词元。对于图像和视频,扩散模型很常见——它们从噪声开始,通过迭代去除噪声,最终呈现出逼真的图像或视频片段。这是一种简化,但很实用。[3][4]

  • Transformer 模型:经过相应训练后,在语言、推理模式和多模态任务方面表现出色。[3]

  • 扩散:擅长生成逼真的图像、保持一致的风格,并通过提示或蒙版进行可控编辑。[4]

还有混合型系统、增强检索功能的系统和专门的架构——各种方案仍在不断演变中。


对比表格:热门生成式人工智能选项🗂️

故意不完美——部分单元格略有不同,旨在反映真实买家的备注。价格会变动,因此请将这些视为定价样式,而非固定数字。

工具 最适合 价格风格 它为何有效(简述)
ChatGPT 一般写作、问答、编程 免费增值 + 订阅 强大的语言能力,广泛的生态系统
克劳德 篇幅较长的文档,需要仔细总结。 免费增值 + 订阅 长篇幅处理,语气温和
双子座 多模态提示 免费增值 + 订阅 图片+文字一体化,集成谷歌服务
困惑 提供研究性答案及资料来源 免费增值 + 订阅 边写边检索——感觉很踏实
GitHub Copilot 代码补全,内联帮助 订阅 IDE原生支持,大大加快了工作流程。
旅途中 风格化图像 订阅 强烈的审美,鲜明的风格
达尔·E 图片构思+编辑 按次付费 不错的剪辑和构图改动
稳定扩散 本地或私有图像工作流程 开源 控制 + 自定义,DIY爱好者的天堂
跑道 视频生成与剪辑 订阅 面向创作者的文本转视频工具
鼠兔/皮卡兔 短视频片段 免费增值 有趣的输出,实验性的但正在改进

温馨提示:不同供应商的安全系统、速率限制和政策各不相同。务必查看他们的文档——尤其是在您需要向客户发货的情况下。


幕后揭秘:一气呵成的变形金刚🌀

Transformer 模型利用注意力机制来衡量每一步输入中哪些部分最为重要。它们不像金鱼拿着手电筒那样从左到右阅读,而是并行地遍历整个序列,学习主题、实体和语法等模式。这种并行性——以及大量的计算资源——有助于模型的扩展。如果你听说过词元和上下文窗口,它们就在这里发挥作用。[3]


幕后揭秘:一气呵成的扩散 🎨

扩散模型学习两种技巧:先在训练图像中添加噪声,然后消除噪声以恢复逼真的图像。在生成图像时,它们从纯噪声开始,利用学习到的去噪过程将其还原成连贯的图像。这有点像从静态图像中雕刻——虽然这个比喻并不完美,但你应该能明白我的意思。[4]


对齐、安全,以及“请勿擅自行动”🛡️

为什么有些聊天模型会拒绝某些请求或提出澄清问题?其中一个重要原因是基于人类反馈的强化学习(RLHF) :人类对样本输出进行评分,奖励模型学习这些偏好,并以此为基础模型做出更有帮助的行为。这并非精神控制,而是在人类判断的参与下进行行为引导。[2]

对于组织风险,诸如NIST AI 风险管理框架及其生成式 AI 概况,为评估安全性、可靠性、治理、来源和监控提供了指导。如果您在工作中推广这些框架,您会发现这些文档是出乎意料的实用清单,而不仅仅是理论。[5]

举个例子:在一次试点研讨会上,一个支持团队采用了“总结→提取关键字段→撰写回复→人工审核”的流程。这个流程并没有取代人工,而是让他们的决策更快,并且在不同班次之间更加一致。


生成式人工智能的优势与不足之处🌤️↔️⛈️

闪耀之处:

  • 内容、文档、电子邮件、规格说明、幻灯片的初稿

  • 长篇内容的摘要,让你不想阅读。

  • 代码协助和样板代码简化

  • 集思广益,提出名称、结构、测试用例和提示信息

  • 图像概念、社交媒体视觉效果、产品模型

  • 轻量级数据整理或 SQL 脚手架

绊倒在:

  • 无需检索或工具即可获得事实精确性

  • 未明确验证的多步计算

  • 法律、医学或金融领域中微妙的领域限制。

  • 特殊情况、讽刺和长尾知识

  • 如果配置不当,私人数据处理将会出现问题。

防护措施固然有用,但正确的做法是系统设计:增加检索、验证、人工审核和审计跟踪。这或许枯燥乏味,但枯燥乏味才是稳定之道。


如今它的实用用途🛠️

  • 写得更好、更快:提纲→扩展→精简→润色。反复修改,直到文章听起来像你自己的风格。

  • 避免陷入无尽的研究陷阱:要求提供结构化的资料概要,然后追踪你真正关心的参考文献。

  • 代码辅助:解释函数,提出测试,制定重构计划;切勿粘贴机密信息。

  • 数据杂务:生成 SQL 框架、正则表达式或列级文档。

  • 设计构思:探索视觉风格,然后交给设计师进行完善。

  • 客户运营:撰写回复草稿、分类意图、总结对话以便交接。

  • 产品:创建用户故事、验收标准和文案变体——然后进行 A/B 测试,以优化语气。

提示:将效果良好的提示信息保存为模板。如果某个提示信息有效,稍作调整后很可能再次有效。


深度解析:真正有效的提示方法🧪

  • 构建框架:角色、目标、限制、风格。模型喜欢清单。

  • 少量示例:包含 2-3 个输入→理想输出的好示例。

  • 分步骤思考:当复杂性增加时,要求提供理由或分阶段的输出结果。

  • 固定声音:粘贴一段你喜欢的语调的简短样本,然后说“模仿这种风格”。

  • 设置评估:要求模型根据标准对自己的答案进行评价,然后进行修改。

  • 使用工具:检索工具、网络搜索工具、计算器或应用程序接口(API)可以大大减少幻觉。[2]

如果只能记住一件事:告诉它忽略什么。限制就是力量。


数据、隐私和治理——那些不那么光鲜亮丽的部分🔒

  • 数据路径:明确记录哪些数据、保留哪些数据或使用哪些数据进行训练。

  • 个人身份信息和机密信息:除非您的设置明确允许并加以保护,否则请勿在提示信息中显示这些信息。

  • 访问控制:将模型视为生产数据库,而不是玩具。

  • 评估:跟踪质量、偏差和漂移;用实际任务衡量,而不是凭感觉。

  • 政策一致性:将功能映射到 NIST AI RMF 类别,以免日后出现意外情况。[5]


我经常收到的常见问题🙋♀️

它算是创意还是简单的混音?
介于两者之间。它以新颖的方式重新组合各种模式——并非人类的创造力,但往往很实用。

我能相信这些事实吗?
信任,但要核实。对于任何高风险情况,都要增加检索或使用工具的方法。[2]

图像模型如何获得风格一致性?这可以
通过提示工程以及图像预处理、LoRa适配器或微调等技术来实现。扩散基础有助于保持一致性,但图像中的文本准确性仍然可能存在波动。[4]

为什么聊天模型会对风险提示“抵制”?这是
因为采用了诸如 RLHF 和策略层之类的对齐技术。虽然并非完美无缺,但系统性地有所帮助。[2]


新兴前沿🔭

  • 多模态一切:文本、图像、音频和视频的更无缝组合。

  • 更小、更快的模型:适用于设备端和边缘情况的高效架构。

  • 更紧密的工具循环:代理调用函数、数据库和应用程序就像什么都没发生一样。

  • 更好的溯源性:水印、内容凭证和可追溯的流程。

  • 内置治理功能:评估套件和控制层,使用起来就像普通的开发工具一样。[5]

  • 领域优化模型:在许多情况下,专门的性能优于通用的卓越性能。

如果感觉软件正在成为你的合作伙伴——那就是关键所在。


太长了,我没看完——什么是生成式人工智能?🧾

它是一系列能够生成新内容而非仅仅评判现有内容的模型。文本系统通常是预测词元的Transformer模型扩散模型,可以将随机噪声转化为连贯的内容。这种模型能够带来速度和创造性,但代价是偶尔会出现一些看似自信实则无意义的结果——不过,你可以通过检索、工具和对齐技术(例如RLHF)NIST AI RMF等实用指南,可以负责任地交付成果,避免项目停滞。[3][4][2][5]


参考

  1. IBM——什么是生成式人工智能?
    阅读更多

  2. OpenAI - 对齐语言模型以遵循指令 (RLHF)
    阅读更多

  3. NVIDIA博客 - 什么是Transformer模型?
    阅读更多

  4. 拥抱脸 - 扩散模型(课程单元 1)
    阅读更多

  5. NIST - 人工智能风险管理框架(及生成式人工智能概况)
    了解更多


在官方 AI 助手商店寻找最新的 AI

关于我们

返回博客