人工智能从哪里获取信息?

人工智能的信息来源是什么?

你有没有试过挠头,心想……这些东西到底是从哪儿来的?我的意思是,人工智能又不是在图书馆里翻书,也不是偷偷摸摸地刷YouTube短视频。然而,它却能像个无底洞一样,对各种问题——从千层面秘诀到黑洞物理学——都给出答案。事实比你想象的更奇特,也可能更有趣。让我们来仔细探究一下(当然,顺便破除一些迷思)。


这是巫术吗?🌐

虽然有时感觉像魔法,但这并非魔法。其底层原理本质上是模式预测。大型语言模型(LLM)存储事实的方式与你的大脑记住奶奶的饼干配方不同;相反,它们通过训练,根据前面的内容来猜测下一个词(词元)[2]。实际上,这意味着它们会抓住词语之间的关系:哪些词经常出现在一起,句子通常如何构成,以及整个概念是如何像脚手架一样构建起来的。这就是为什么输出结果听起来很合理,尽管——坦白地说——它只是统计模拟,而非真正的理解[4]。

那么,究竟是什么让人工智能生成的信息有用呢?主要有以下几点:

  • 数据多样性——从无数个数据源中提取信息,而不是从单一狭窄的数据源中提取信息。

  • 更新——如果没有定期刷新,很快就会过时。

  • 过滤——理想情况下是在杂物渗入之前将其截住(不过,说实话,那张网是有漏洞的)。

  • 交叉核查——依靠权威来源(例如美国国家航空航天局、世界卫生组织、主要大学),这是大多数人工智能治理手册中必不可少的[3]。

然而,有时它也会自信地捏造事实。那些所谓的幻觉?基本上是一本正经地讲出来的精心包装的胡言乱语[2][3]。

您可能还想阅读以下文章:

🔗 人工智能能预测彩票号码吗?
探究人工智能彩票预测的真相与谬误。.

🔗 对人工智能采取整体方法意味着什么?
以平衡的视角,从伦理和影响的角度理解人工智能。.

🔗 圣经对人工智能是怎么说的?
从圣经的角度探讨科技与人类创造的关系。.


快速对比:人工智能的灵感来源📊

并非所有信息来源都同等重要,但每个来源都发挥着作用。以下是概览。.

来源类型 谁在使用它(人工智能) 成本/价值 它为何有效(或无效……)
书籍和文章 大型语言模型 无价之宝(差不多) 内容丰富、结构严谨的知识——只是老化得很快。.
网站和博客 几乎所有人工智能 免费(有噪音) 种类繁多;既有杰作,也有彻头彻尾的垃圾。.
学术论文 研究密集型人工智能 有时需要付费才能访问。 严谨性和可信度,但充斥着晦涩难懂的术语。.
用户数据 个性化人工智能 高度敏感⚠️ 剪裁精良,但隐私问题层出不穷。.
实时网络 搜索相关的AI 免费(如果在线) 能保持信息新鲜;缺点是存在谣言传播的风险。.

训练数据宇宙🌌

这就是“儿童学习”阶段。想象一下,一下子数百万公开数据、授权资源和训练师生成的文本[2]。

在其上叠加:精心挑选的人类示例——好的答案、坏的答案、正确的方向的引导——甚至在强化开始之前[1]。.

透明度注意事项:公司不会披露所有细节。有些限制是保密的(知识产权、安全问题),所以你只能了解实际情况的一部分[2]。.


实时搜索:额外配料🍒

现在有些模型可以跳出训练框架,探索更广阔的信息世界。这就是检索增强生成(RAG)——它本质上是从实时索引或文档库中提取数据块,然后将其融入响应中[5]。这种方法非常适合处理新闻标题或股票价格等快速变化的信息。

问题在于?互联网既是天才的结晶,也是垃圾场。如果过滤或溯源检查机制薄弱,垃圾数据就有可能偷偷溜进来——这正是风险框架所警告的[3]。.

一种常见的解决方法是:公司将模型与内部数据库连接这样答案就会引用最新的人力资源政策或产品文档,而不是随意发挥。想想看:减少“糟糕”的情况,提高回复的可信度。


微调:AI 的润色步骤🧪

未经处理的预训练模型性能不佳,因此需要进行微调

  • 教导他们乐于助人、无害、诚实(通过人类反馈的强化学习,RLHF)[1]。

  • 打磨不安全或有毒的边缘(对齐)[1]。.

  • 根据语气调整语气——无论是友好的、正式的还是戏谑的讽刺。.

与其说是打磨钻石,不如说是引导统计雪崩,使其表现得更像一个对话伙伴。.


坎坷与失败🚧

我们不要假装它完美无瑕:

  • 幻觉——清晰但完全错误的答案[2][3]。

  • 偏见——它反映了数据中固有的模式;如果不加以控制,甚至可以放大这些模式[3][4]。

  • 没有亲身经历——可以谈论汤的食谱,但从未尝过[4]。

  • 过度自信——行文流畅,仿佛胸有成竹,即便并非如此。风险框架强调指出假设[3]。


为什么感觉像是知道了🧠

它没有信仰,没有人类意义上的记忆,当然也没有自我。然而,因为它能流畅地将句子串联起来,你的大脑就会像理解了。这其实就是大规模的下一个词元预测:在瞬间处理数万亿个概率[2]。

“智能”氛围是涌现行为研究者们半开玩笑地称之为“随机鹦鹉”效应[4]。


适合儿童的比喻🎨

想象一下,一只鹦鹉读遍了图书馆里的每一本书。它故事,却能把文字重新组合,说成一些听起来很有智慧的话。有时候它说得一针见血,有时候却胡言乱语——但只要它足够有天赋,你往往就分辨不出真假。


总结:人工智能的信息来源📌

简单来说:

  • 海量训练数据(公共数据 + 授权数据 + 训练员生成数据)[2]。

  • 进行微调,以塑造语气/行为[1]。

  • 检索系统连接到实时数据流时[5]。

人工智能并不“知道”事物——它只是预测文本。这既是它的优势,也是它的致命弱点。结论是什么?始终要将重要信息与可信来源进行交叉核对[3]。


参考

  1. Ouyang, L. 等人 (2022)。训练语言模型以根据人类反馈遵循指令 (InstructGPT ) 。arXiv 。

  2. OpenAI (2023)。GPT -4 技术报告——混合授权数据、公共数据和人工创建的数据;下一个词元预测目标和局限性。arXiv

  3. NIST(2023)。人工智能风险管理框架(AI RMF 1.0) ——溯源、可信度和风险控制。PDF

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021).论随机鹦鹉的危险:语言模型会太大吗? PDF

  5. Lewis, P. 等人 (2020)。面向知识密集型 NLP 的检索增强生成。arXiv


在官方人工智能助手商店查找最新人工智能产品

关于我们

返回博客