生成式人工智能中的基础模型是什么?

生成式人工智能中的基础模型是什么?

简而言之:基础模型是大型通用人工智能模型,它们基于庞大的广泛数据集进行训练,然后通过提示、微调、工具或检索等方式适应多种任务(写作、搜索、编码、图像处理)。如果您需要可靠的答案,请为它们提供基础(例如红绿灯)、明确的约束和检查,而不是让它们自行发挥。

要点总结:

定义:一个经过广泛训练的基础模型可重复用于多个任务,而不是每个模型对应一个任务。

适应:使用提示、微调、LoRA/适配器、RAG和工具来引导行为。

生成式适配:它们支持文本、图像、音频、代码和多模态内容的生成。

质量信号:优先考虑可控性、较少的幻觉、多模态能力和高效的推理能力。

风险控制:通过治理和测试,制定应对幻觉、偏见、隐私泄露和快速注射的计划。

生成式人工智能中的基础模型是什么?信息图

您可能还想阅读以下文章:

🔗 什么是人工智能公司
了解人工智能公司如何构建产品、团队和收入模式。.

🔗 人工智能代码长什么样?
查看人工智能代码示例,从 Python 模型到 API。.

🔗 什么是人工智能算法
了解什么是人工智能算法以及它们如何做出决策。.

🔗 什么是人工智能技术
探索驱动自动化、分析和智能应用的核心人工智能技术。.


1)基础模型——清晰明确的定义🧠

基础模型是一个大型的、通用的 AI 模型,它基于广泛的数据(通常是海量数据)进行训练,因此可以适应许多任务,而不仅仅是一个任务( NIST斯坦福 CRFM )。

而不是为以下情况构建单独的模型:

  • 撰写电子邮件

  • 回答问题

  • 摘要 PDF

  • 生成图像

  • 支持工单分类

  • 翻译语言

  • 提出代码建议

…你训练一个以模糊统计方式“学习世界”的大型基础模型,然后通过提示、微调或添加工具将其调整 Bommasani 等人,2021 )。

换句话说:它是一款你可以操控的通用引擎

没错,关键词是“通用”。这就是诀窍所​​在。.


2)生成式人工智能中的基础模型是什么?(它们具体是如何应用的)🎨📝

那么,生成式人工智能中的基础模型是什么?它们是驱动系统生成新内容(文本、图像、音频、代码、视频,以及越来越多地……所有这些内容的混合)的底层模型( NISTNIST 生成式人工智能概况)。

生成式人工智能不仅仅是预测“垃圾邮件/非垃圾邮件”之类的标签,它还能生成看起来像是人创作的内容。.

  • 段落

  • 诗歌

  • 产品描述

  • 插图

  • 旋律

  • 应用原型

  • 合成语音

  • 有时还会说出一些自信得令人难以置信的蠢话🙃

基础模型尤其适用,因为:

它们是“基础层”——就像面包面团一样。你可以把它烤成法棍、披萨或肉桂卷……虽然这个比喻不太贴切,但你明白我的意思😄


3)他们为何改变了一切(以及人们为何对他们津津乐道)🚀

在基础模型出现之前,许多人工智能都是针对特定任务的:

  • 训练情感分析模型

  • 再培训一个人做翻译

  • 训练另一个用于图像分类的模型

  • 训练另一个用于命名实体识别

这方法确实有效,但是速度慢、成本高,而且有点……脆弱。.

基础模型颠覆了这种模式:

这种重复利用具有倍增效应。企业可以在一个车型系列的基础上开发 20 个新功能,而不是重复发明轮子 20 次。.

此外,用户体验也变得更加自然:

  • 你不用“使用分类器”。

  • 你跟模特说话就像跟一个不知疲倦、乐于助人的同事说话一样☕🤝

有时候,它也像那种自信满满却总是误解一切的同事,但没办法,这就是成长。.


4)核心理念:预训练 + 适应🧩

几乎所有基础模型都遵循某种模式(斯坦福大学 CRFMNIST ):

预备阶段(“吸收网络信息”阶段)📚

该模型使用自监督学习( NIST )在大规模、广泛的数据集上进行训练。对于语言模型而言,这通常意味着预测缺失的单词或下一个词元( Devlin等人,2018Brown等人,2020 )。

重点不在于教会它一项任务,而在于教会它一般的表征方式

  • 语法

  • 事实(某种程度上)

  • 推理模式(有时)

  • 写作风格

  • 代码结构

  • 人类共同意图

适应阶段(​​“使其实用化”阶段)🛠️

然后,您可以使用以下一种或多种方法来调整它:

  • 提示(用浅显易懂的语言提供的说明)

  • 指令调整(训练它遵循指令)( Wei等人,2021

  • 微调(使用您的领域数据进行训练)

  • LoRA/适配器(轻量级调优方法)( Hu等人,2021

  • RAG (检索增强生成——模型查阅您的文档)( Lewis 等人,2020

  • 工具使用(调用函数、浏览内部系统等)

这就是为什么同一个基础模型既可以编写浪漫场景……五秒钟后又能帮助调试 SQL 查询😭


5)一个好的基础模型应该具备哪些要素?✅

这是人们经常跳过,然后事后又会后悔的部分。.

一个“好的”基础模型并非仅仅是“更大”。当然,更大肯定有帮助……但这并非唯一要素。一个好的基础模型通常具备以下特点:

强泛化🧠

它在许多任务中表现良好,无需针对特定任务进行重新训练( Bommasani 等人,2021 )。

转向和操控性🎛️

它可以可靠地执行诸如以下的指令:

  • “简洁明了”

  • “使用项目符号”

  • “请用友好的语气写作”

  • “不要泄露机密信息”

有些型号很智能,但很滑。就像在淋浴时试图握住一块肥皂一样。虽然有用,但不太稳定😅

幻觉倾向低(或者至少坦诚地表示不确定)🧯

没有哪个模特能完全免疫幻觉,但优秀的模特除外:

良好的多模态能力(必要时)🖼️🎧

如果你正在构建能够读取图像、解释图表或理解音频的助手,那么多模态就非常重要( Radford 等人,2021 )。

高效推理⚡

延迟和成本都很重要。性能强大但运行缓慢的模型就像一辆爆胎的跑车。.

安全与规范行为🧩

不仅仅是“拒绝一切”,而是:

文档 + 生态系统 🌱

听起来很枯燥,但却是事实:

  • 工具

  • 评估线束

  • 部署选项

  • 企业控制

  • 微调支持

是的,“生态系统”这个词很模糊。我也很讨厌它。但它很重要。.


6) 对比表 - 常见基础模型选项(及其适用范围)🧾

下面是一个实用但略有不完善的对比表格。它并非“唯一真理”,更像是:人们在实际生活中会做出的选择。.

工具/模型类型 观众 价格适中 为什么有效
专有LLM(聊天式) 既追求速度又注重细节的团队 按使用量付费/订阅 指令执行力强,整体表现出色,通常“开箱即用”效果最佳😌
开放式LLM(可自托管) 想要掌控一切的建筑商 基础设施成本(以及由此带来的麻烦) 可定制、注重隐私、可本地运行……如果你喜欢在午夜捣鼓的话
扩散图像生成器 创意人员、设计团队 免费或半免费到付费 出色的图像合成、风格多样性、迭代工作流程(另外:手指可能不在)✋😬( Ho et al., 2020Rombach et al., 2021
多模态“视觉语言”模型 能够读取图像和文本的应用程序 基于使用情况 允许您询问有关图像、屏幕截图、图表的问题——非常方便( Radford 等人,2021 年
嵌入基础模型 搜索 + RAG 系统 每次通话成本低 将文本转换为用于语义搜索、聚类、推荐的向量——静谧的MVP能量( Karpukhin等人,2020Douze等人,2024
语音转文本基础模型 呼叫中心、创作者 基于使用情况/本地 快速转录,支持多语言,即使在嘈杂的音频环境下也能流畅播放(通常情况下)🎙️( Whisper
文本转语音基础模型 产品团队、媒体 基于使用情况 自然语音生成、语音风格、旁白——可以达到逼真到令人毛骨悚然的效果( Shen et al., 2017
以代码为中心的法学硕士 开发人员 按使用量付费/订阅 代码模式、调试和重构方面都进步了……不过还是不会读心术😅

请注意,“基础模型”不仅仅指“聊天机器人”。嵌入和语音模型也可以是基础模型,因为它们具有广泛的适用性和跨任务的可重用性( Bommasani 等人,2021 年NIST )。


7) 深入了解:语言基础模型如何学习(Vibe 版本)🧠🧃

语言基础模型(通常称为LLM)通常使用海量文本数据集进行训练。它们通过预测词元来学习( Brown等人,2020 )。就是这样。没有什么秘诀。

但神奇之处在于,预测标记迫使模型学习结构CSET ):

  • 语法和句法

  • 主题关系

  • 类似推理的模式(有时)

  • 常见的思维过程

  • 人们如何解释事物、争论、道歉、谈判、教学

这就像学习模仿数百万次对话,却不去“理解”人类的对话方式。听起来似乎行不通……但它却一直奏效。.

稍微夸张一点:这基本上就像把人类的文字压缩成一个巨大的概率大脑。
不过,这个比喻有点儿怪。但我们继续前进😄


8) 深入探究:扩散模型(为什么图像效果不同)🎨🌀

图像基础模型通常使用扩散方法( Ho et al., 2020Rombach et al., 2021 )。

大致思路:

  1. 给图像添加噪声,直到它们看起来像电视雪花屏一样。

  2. 训练一个模型来逐步消除噪声

  3. 在生成时,从噪声开始,并根据提示进行“去噪”,得到图像( Ho et al., 2020 )。

这就是为什么图像生成感觉像是在“冲洗”照片,只不过照片是一条穿着运动鞋的龙在超市过道里🛒🐉

扩散模型之所以好,是因为:

  • 它们能生成高质量的视觉效果

  • 他们可以受到文本的强烈指导。

  • 它们支持迭代改进(变体、图像修复、放大)( Rombach 等人,2021

他们有时也会遇到以下问题:

  • 图片内部的文字渲染

  • 精细的解剖细节

  • 不同场景中角色形象的一致性(虽然有所改进,但仍有不足)


9) 深入了解:多模态基础模型(文本+图像+音频)👀🎧📝

多模态基础模型旨在理解和生成多种数据类型:

这在现实生活中为何重要:

  • 客服人员可以解读屏幕截图。

  • 辅助工具可以描述图像

  • 教育类应用程序可以解释图表

  • 创作者可以快速地对格式进行混音。

  • 商业工具可以“读取”仪表盘截图并进行概括。

在底层,多模态系统通常会对各种表征进行对齐:

  • 将图像转换为嵌入

  • 将文本转换为嵌入

  • 学习一个共享空间,其中“猫”与猫像素相匹配😺( Radford等人,2021

它并不总是那么优雅。有时它像拼布被子一样缝缝补补。但它确实有效。.


10)微调、提示和 RAG(如何调整基础模型)🧰

如果你想让基础模型适用于特定领域(法律、医疗、客户服务、内部知识),你可以采取以下几个措施:

提示🗣️

最快捷、最简单。.

  • 优点:无需培训,即时迭代

  • 缺点:可能不一致,受上下文限制,容易变得脆弱

微调🎯

使用您的示例进一步训练模型。.

  • 优点:行为更一致,领域语言更规范,可以缩短提示信息长度

  • 缺点:成本、数据质量要求、过拟合风险、维护

轻量级调优(LoRa/适配器)🧩

更高效的微调版本( Hu 等人,2021 )。

  • 优点:价格更低、模块化、易于更换

  • 缺点:仍需完善训练流程和评估机制

RAG(检索增强生成)🔎

该模型从您的知识库中获取相关文档,并使用这些文档给出答案( Lewis 等人,2020 )。

  • 优点:掌握最新知识,内部引用(如果实施),减少再培训

  • 缺点:检索质量至关重要,需要良好的分块和嵌入。

说实话:很多成功的系统都结合了提示和红黄绿(RAG)评分。微调固然强大,但并非总是必要。人们往往因为觉得微调很厉害就急于求成😅


11)风险、限制以及“请勿盲目部署”部分🧯😬

基础模型功能强大,但不如传统软件稳定。它们更像是……一个缺乏自信的优秀实习生。.

需要规划的关键限制因素:

幻觉🌀

模型可能会发明:

  • 虚假消息来源

  • 错误事实

  • 看似合理但却是错误的步骤( Ji et al., 2023

缓解措施:

  • 基于语境的 RAG( Lewis 等人,2020

  • 受限输出(方案、工具调用)

  • 明确的“不要猜测”指示

  • 验证层(规则、交叉检查、人工审核)

偏见和有害模式⚠️

因为训练数据反映的是人类的情况,所以你可以获得:

缓解措施:

数据隐私和泄露🔒

如果您要将机密数据输入到模型端点,则需要了解:

  • 它是如何储存的

  • 无论是否用于训练

  • 现有的日志记录

  • 控制您组织需求的因素( NIST AI RMF 1.0

缓解措施:

及时注射(尤其是使用 RAG 时)🕳️

如果模型读取了不受信任的文本,该文本可能会尝试篡改模型:

缓解措施:

我不是想吓唬你。只是……最好还是知道地板哪里会吱吱响。.


12) 如何为您的用例选择基础模型🎛️

如果您正在选择基础模型(或在其基础上进行构建),请从以下提示开始:

明确你正在生成什么🧾

  • 纯文本

  • 图片

  • 声音的

  • 混合多模态

设定事实标准📌

如果您需要高精度(金融、医疗、法律、安全领域):

确定您的延迟目标 ⚡

聊天即时响应。批量汇总可能较慢。
如果您需要即时回复,模型大小和托管服务至关重要。

地图隐私和合规性需求🔐

部分团队要求:

平衡预算——以及运营耐心😅

自托管虽然能提供控制权,但也增加了复杂性。
托管 API 虽然方便,但价格可能较高,而且可定制性较差。

一个小技巧:先用简单的方案做原型,然后再逐步完善。一开始就追求“完美”的方案通常会拖慢整个流程。.


13)什么是生成式人工智能中的基础模型?(快速理解模型)🧠✨

让我们回到正题。生成式人工智能中的基础模型是什么?

它们是:

它们并非单一的架构或品牌,而是一类运行方式类似于平台的模型。.

基础型模型与其说像计算器,不如说更像厨房。你可以用它烹饪很多美食。当然,如果你不注意,也可能把吐司烤焦……不过,这个厨房还是很实用的🍳🔥


14)总结与要点 ✅🙂

基础模型是生成式人工智能的可重用引擎。它们经过广泛训练,然后通过提示、微调和检索等方式适应特定任务( NIST斯坦福大学 CRFM )。它们可能既令人惊叹,又杂乱无章,既强大无比,有时甚至荒谬可笑——所有这些特质同时存在。

概要:

如果你要用生成式人工智能构建任何东西,理解基础模型就必不可少。它就像建筑物的地基……而且,有时候地基还会有点晃动😅

常问问题

基金会模型,简而言之

基础模型是一个大型的通用人工智能模型,它基于广泛的数据集进行训练,因此可以重复用于多种任务。与为每个任务构建一个单独的模型不同,基础模型是一个强大的“基础”模型,您可以根据需要对其进行调整。这种调整通常通过提示、微调、检索(RAG)或工具来实现。其核心思想是兼顾广度和可控性。.

基础模型与传统特定任务人工智能模型有何不同

传统人工智能通常为每个任务(例如情感分析或翻译)训练一个单独的模型。基础模型则反其道而行之:只需预训练一次,即可在多个功能和产品中复用。这可以减少重复工作,并加快新功能的交付速度。但缺点是,除非添加约束和测试,否则它们的性能可能不如传统软件那样可预测。.

生成式人工智能中的基础模型

在生成式人工智能中,基础模型是能够生成文本、图像、音频、代码或多模态输出等新内容的底层系统。它们不仅限于标注或分类,还能生成类似人类创作的响应。由于它们在预训练期间学习了广泛的模式,因此可以处理多种提示类型和格式。它们是大多数现代生成式体验背后的“基础层”。.

基础模型在预训练期间如何学习

大多数语言基础模型通过预测词元(例如文本中的下一个词或缺失的词)来进行学习。这种简单的目标促使它们内化语法、风格和常见的解释模式等结构。它们也能吸收大量的世界知识,尽管并非总是可靠。最终得到的是一个强大的通用表示,您可以将其应用于后续的具体工作。.

提示、微调、LoRa 和 RAG 之间的区别

提示是引导行为的最快方法,但效果可能不理想。微调会根据示例进一步训练模型,以获得更一致的行为,但这会增加成本和维护工作。LoRa/适配器是一种更轻量级的微调方法,通常更便宜且模块化程度更高。RAG 会检索相关文档,并让模型根据这些上下文做出回答,这有助于保持模型的新鲜度和稳定性。.

何时使用 RAG 而不是微调

当您需要基于现有文档或内部知识库的答案时,RAG(红绿灯)通常是一个不错的选择。它通过在生成答案时为模型提供相关上下文来减少“猜测”。如果您需要一致的风格、领域术语或提示无法可靠生成的行为,则微调更为合适。许多实际系统在进行微调之前,都会先结合提示和 RAG。.

如何减少幻觉并获得更可靠的答案

一种常见的做法是利用检索(RAG)来构建模型,使其与提供的上下文保持紧密联系。你还可以使用模式来约束输出,要求在关键步骤中调用工具,并添加明确的“不要猜测”指令。验证层也很重要,例如规则检查、交叉检查以及针对高风险用例的人工审核。将模型视为概率辅助工具,而不是默认的真理来源。.

生产中基础模型的最大风险

常见风险包括幻觉、训练数据中存在的偏差或有害模式,以及敏感数据处理不当导致的隐私泄露。系统也可能容易受到提示注入攻击,尤其是在模型读取文档或网页内容中不受信任的文本时。缓解措施通常包括治理、红队演练、访问控制、更安全的提示模式和结构化评估。应尽早规划应对这些风险,而不是事后修补。.

快速注射及其在 RAG 系统中的重要性

提示注入是指不受信任的文本试图覆盖指令,例如“忽略之前的指令”或“泄露秘密”。在 RAG 中,检索到的文档可能包含这些恶意指令,如果不加注意,模型可能会执行这些指令。一种常见的做法是隔离系统指令,清理检索到的内容,并依赖基于工具的策略,而不是仅仅依赖提示。使用对抗性输入进行测试有助于发现薄弱环节。.

如何为您的用例选择基础模型

首先,明确你需要生成的内容:文本、图像、音频、代码或多模态输出。然后,设定事实准确性标准——高精度领域通常需要基础验证(RAG)、信息核实,有时还需要人工审核。考虑延迟和成本,因为速度慢或成本高的强大模型难以部署。最后,将隐私和合规性需求与部署选项和控制措施相匹配。.

参考

  1. 美国国家标准与技术研究院 (NIST) -基础模型(术语表) - csrc.nist.gov

  2. 美国国家标准与技术研究院 (NIST) - NIST AI 600-1:生成式人工智能规范- nvlpubs.nist.gov

  3. 美国国家标准与技术研究院 (NIST) - NIST AI 100-1:人工智能风险管理框架 (AI RMF 1.0) - nvlpubs.nist.gov

  4. 斯坦福大学基金会模式研究中心 (CRFM) -报告- crfm.stanford.edu

  5. arXiv -论基础模型的机遇和风险(Bommasani 等人,2021) - arxiv.org

  6. arXiv -语言模型是少样本学习器(Brown等人,2020) - arxiv.org

  7. arXiv -面向知识密集型自然语言处理任务的检索增强生成(Lewis 等人,2020) - arxiv.org

  8. arXiv - LoRA:大型语言模型的低秩自适应(Hu等人,2021) - arxiv.org

  9. arXiv - BERT:用于语言理解的深度双向Transformer预训练(Devlin等人,2018) - arxiv.org

  10. arXiv -微调语言模型是零样本学习器(Wei 等人,2021) - arxiv.org

  11. ACM数字图书馆-自然语言生成中的幻觉调查(Ji等人,2023) - dl.acm.org

  12. arXiv -从自然语言监督中学习可迁移的视觉模型(Radford 等人,2021) - arxiv.org

  13. arXiv -扩散概率模型去噪 (Ho 等人,2020) - arxiv.org

  14. arXiv -基于潜在扩散模型的高分辨率图像合成(Rombach 等人,2021) - arxiv.org

  15. arXiv -用于开放域问答的密集段落检索(Karpukhin 等人,2020) - arxiv.org

  16. arXiv - Faiss 库(Douze 等人,2024) - arxiv.org

  17. OpenAI - Whisper 简介- openai.com

  18. arXiv -基于梅尔频谱图预测的 WaveNet 条件化实现自然 TTS 合成 (Shen 等人,2017) - arxiv.org

  19. 乔治城大学安全与新兴技术中心 (CSET) -下一个词预测的惊人威力:大型语言模型详解(第一部分) - cset.georgetown.edu

  20. USENIX -从大型语言模型中提取训练数据(Carlini 等人,2021) - usenix.org

  21. OWASP - LLM01:快速注入- genai.owasp.org

  22. arXiv -超出您的预期:针对应用集成大型语言模型的新型提示注入威胁的全面分析(Greshake 等人,2023) - arxiv.org

  23. OWASP 速查表系列- LLM 提示注入预防速查表- cheatsheetseries.owasp.org

在官方人工智能助手商店查找最新人工智能产品

关于我们

返回博客