如何衡量人工智能的性能？

如果你曾经发布过一款在电脑上表现惊艳，但在实际生产环境中却步履维艰的模型，那么你已经明白其中的奥秘：衡量人工智能性能并非依靠单一的指标，而是一套与实际目标紧密相关的检查体系。准确率固然重要，但可靠性、安全性和商业影响力才是关键。

您可能还想阅读以下文章：

🔗 如何与人工智能对话
如何与人工智能进行有效沟通，从而持续获得更佳结果。

🔗 人工智能提示是什么？
解释提示如何影响人工智能的响应和输出质量。

🔗 什么是人工智能数据标注？
概述如何为训练模型的数据分配准确的标签。

🔗 什么是人工智能伦理？
介绍指导负责任的人工智能开发和部署的伦理原则。

优秀的AI性能取决于哪些因素？✅

简而言之：良好的AI性能意味着您的系统在复杂多变的环境下有用、值得信赖且可重复运行

任务质量——能够以正确的理由获得正确的答案。
校准——置信度评分与实际情况相符，因此您可以采取明智的行动。
鲁棒性——它能经受住漂移、极端情况和对抗性模糊测试。
安全与公平——避免有害、有偏见或不合规的行为。
效率——它速度足够快、价格足够便宜、稳定性足够好，可以大规模运行。
业务影响——它确实能提升你关心的关键绩效指标。

如果您想要一个正式的参考点来统一指标和风险， NIST AI 风险管理框架是进行可信系统评估的可靠指南。[1]

衡量人工智能性能的高级方法🍳

三个层面思考：

任务指标- 任务类型的正确性：分类、回归、排序、生成、控制等。
系统指标- 延迟、吞吐量、每次调用成本、故障率、漂移警报、正常运行时间 SLA。
结果指标——您真正想要的业务和用户结果：转化率、留存率、安全事件、人工审核负荷、工单量。

一个优秀的测量方案会有意地将这三者结合起来。否则，你得到的就只是一枚永远无法离开发射台的火箭。

按问题类型划分的核心指标——以及何时使用哪个指标🎯

1）分类

精确率、召回率、F1——这三个指标是衡量指标的基石。F1 是精确率和召回率的调和平均值；当类别不平衡或成本不对称时，F1 非常有用。[2]
ROC-AUC - 分类器与阈值无关的排序；当阳性病例较少时，也应查看PR-AUC 。[2]
平衡准确率——各类别召回率的平均值；适用于标签存在偏差的情况。[2]

警惕陷阱：仅凭准确率很容易产生误导，尤其是在数据失衡的情况下。如果 99% 的用户都是合法用户，那么一个愚蠢的、总是识别合法用户的模型就能获得 99% 的准确率，让你的反欺诈团队在午饭前就束手无策。

2）回归

MAE用于衡量人眼可辨识的误差； RMSE用于惩罚重大误差； R²用于解释方差。然后检查分布和残差图的合理性。[2]
（使用易于理解的单位，以便利益相关者能够真正感受到误差。）

3）排名、检索、推荐

nDCG——注重位置和分级相关性；是搜索质量的标准。
MRR（ ——关注第一个相关项出现的速度（非常适合“找到一个好的答案”的任务）。
（主流指标库中提供了实现参考和示例。）[2]

4）文本生成和摘要

BLEU和ROUGE - 经典的重叠度指标；可用作基准。
基于嵌入的指标（例如BERTScore ）通常与人类判断的相关性更高；始终与人类对风格、忠实度和安全性的评分相结合。[4]

5）问答

精确匹配和词元级 F1是抽取式 QA 的常见指标；如果答案必须引用来源，还要衡量依据（答案支持检查）。

校准、信心和布里尔镜头🎚️

置信度评分是许多系统默默发挥作用的地方。你需要的是能够反映现实的概率，这样运维人员才能设定阈值、将问题转交给人工处理或评估风险。

校准曲线——可视化预测概率与经验频率的关系。
布里尔分数——一种用于衡量概率准确性的合理评分规则；分数越低越好。当您关注质量而不仅仅是排名时，它尤其有用。[3]

现场笔记： F1 值略有“下降”，但校准效果更好，可以大大改善分诊工作——因为人们终于可以信任分数了。

安全、偏见和公平——衡量真正重要的事🛡️⚖️

一个系统整体上可能很准确，但仍可能对特定群体造成伤害。追踪分组指标和公平性标准：

人口统计平等——各群体阳性率相等。
均等概率/均等机会——各组的错误率或真阳性率相等；利用这些来发现和管理权衡取舍，而不是将其作为一次性的通过/失败标记。[5]

实用技巧：先从按关键属性细分核心指标的仪表盘入手，然后根据策略需要添加具体的公平性指标。这听起来有点繁琐，但比发生事故要划算得多。

LLM 和 RAG——一套真正有效的衡量方法📚🔍

测量生成系统……很棘手。试试这样做：

定义结果：正确性、有用性、无害性、风格一致性、品牌语气、引用依据、拒绝质量。
自动执行基线评估，并使其与您的数据集保持版本同步。
可以添加语义指标（基于嵌入的指标）和重叠指标（BLEU/ROUGE）。[4]
工具基础：检索命中率、上下文精确率/召回率、答案支持重叠。
人工审核并达成一致意见- 衡量评分者一致性（例如，Cohen's κ 或 Fleiss' κ），这样你的标签就不会只是感觉。

额外信息：记录延迟百分位数和每个任务的令牌或计算成本。没人喜欢下周二才收到的那种矫揉造作的答案。

对比表 - 帮助您衡量 AI 性能的工具 🛠️📊

（是的，故意弄得有点乱——真正的笔记本来就是乱的。）

工具	最佳观众	价格	为什么有效——简述
scikit-learn 指标	机器学习从业者	自由的	分类、回归、排序的规范实现；易于集成到测试中。[2]
MLflow 评估 / GenAI	数据科学家，MLOps	免费 + 付费	集中运行、自动化指标、LLM 裁判、自定义评分器；清晰记录数据。
显然	希望快速获得仪表盘的团队	开源软件 + 云	100 多个指标、漂移和质量报告、监控钩子 - 紧急情况下提供漂亮的视觉效果。
权重与偏差	实验性较强的组织	免费套餐	并排比较、评估数据集、裁判；表格和轨迹比较整齐。
朗史密斯	LLM应用程序构建器	有薪酬的	追踪每一步，将人工审核与规则或LLM评估相结合；非常适合RAG（红黄绿）系统。
TruLens	开源LLM评估爱好者	开源软件	反馈功能用于评估毒性、真实性和相关性；可集成到任何地方。
远大前程	数据质量优先的组织	开源软件	明确数据预期——因为糟糕的数据无论如何都会毁掉所有指标。
深度检查	机器学习的测试和持续集成/持续交付	开源软件 + 云	包含电池测试，用于检测数据漂移、模型问题和监控；良好的安全保障。

价格会变动——请查看相关文件。而且，你可以混用这些产品，不用担心被查处。

阈值、成本和决策曲线——秘诀就在于此🧪

一件奇怪但却是事实的事：两个 ROC-AUC 相同的模型，根据你的阈值和成本比率的。

快速创建表格：

设定误报与漏报的成本，以金钱或时间衡量。
扫描阈值并计算每 1000 次决策的预期成本。
选定最低预期成本阈值，然后通过监控将其锁定。

当阳性结果较少时，使用 PR 曲线；当总体形状可用 ROC 曲线表示时，使用校准曲线；当决策依赖于概率时，使用校准曲线。[2][3]

迷你案例：支持工单分类模型，F1 值适中，但校准效果极佳，在运营人员从硬性阈值切换到与校准分数范围挂钩的分级路由（例如，“自动解决”、“人工审核”、“升级”）后，减少了手动重新路由。

在线监控、漂移和警报🚨

离线评估只是开始，而非结束。在生产环境中：

段跟踪输入漂移、输出漂移和性能衰减
设置防护措施检查——最大幻觉率、毒性阈值、公平性偏差。
为 p95 延迟、超时和每次请求成本添加金丝雀仪表板
使用专门构建的库来加快这一过程；它们开箱即用地提供了漂移、质量和监控原语。

一个不太恰当的比喻：把你的模型想象成一个酸面团发酵剂——你不能只烤一次就走开；你需要喂养、观察、嗅闻，有时还要重新开始。

不会崩溃的人工评价🍪

人们在给作品评分时，评分过程比你想象的更重要。

制定严格的评分标准，并举例说明合格、及格、不及格的区别。
尽可能采用随机抽样和盲法抽样。
衡量评分者间的一致性（例如，两位评分者使用 Cohen's κ 系数，多位评分者使用 Fleiss' κ 系数），如果一致性下降，则更新评分标准。

这样可以防止你的人格标签因情绪或咖啡供应而发生变化。

深入探讨：如何衡量RAG 中 LLM 的 AI 性能🧩

检索质量——召回率@k、精确率@k、nDCG；黄金相关事实的覆盖率。[2]
答案真实性——引用和验证检查、依据性评分、对抗性探测。
用户满意度- 点赞数、任务完成度、与建议草稿的编辑距离。
安全性——毒性、PII泄漏、政策合规性。
成本和延迟- 令牌、缓存命中、p95 和 p99 延迟。

将这些与业务行动联系起来：如果基础性低于某个阈值，则自动切换到严格模式或人工审核。

今天就开始你的简单操作指南🪄

明确任务——用一句话概括：人工智能必须做什么以及为谁做。
选择 2-3 个任务指标——加上校准指标和至少一个公平性指标。[2][3][5]
根据成本确定阈值——不要靠猜测。
创建一个小型评估集——100-500 个带标签的示例，反映生产组合。
实现评估自动化- 将评估/监控集成到 CI 中，以便每次更改都运行相同的检查。
生产环境监控- 漂移、延迟、成本、事件标志。
每月进行一次审查——删除无人使用的指标；添加能够回答实际问题的指标。
记录决策——一份你的团队真正会阅读的动态记分卡。

没错，就是这样。而且真的有效。

常见陷阱及规避方法🕳️🐇

过度拟合单一指标——使用与决策背景相匹配的指标组合
忽略校准——没有校准的自信只是虚张声势。[3]
不进行细分——始终按用户组、地理位置、设备和语言进行切片。[5]
未定义成本——如果不对错误进行定价，就会选错阈值。
人为评价偏差——衡量一致性，更新评分标准，重新培训评审员。
没有安全机制——现在就应该加入公平性、毒性和政策检查，而不是以后。[1][5]

你来这里就是想看：如何衡量人工智能性能——太长了，我没看完🧾

首先明确预期结果，然后依次列出任务指标、系统指标和业务指标。[1]
任务选择合适的指标使用F1 和 ROC-AUC；排序任务使用 nDCG/MRR；生成任务（与人工匹配）使用重叠度 + 语义指标。[2][4]
校准概率并评估误差，从而选择合适的阈值。[2][3]
添加公平性检查，并显式地管理权衡取舍。[5]
实现评估和监控自动化，让您可以无所畏惧地迭代改进。

你知道的——衡量真正重要的事，否则你最终只会改进那些无关紧要的事。

参考

[1] NIST. AI风险管理框架 (AI RMF)。 了解更多
[2] scikit-learn.模型评估：量化预测质量（用户指南）。了解更多
[3] scikit-learn.概率校准（校准曲线、Brier评分）。了解更多
[4] Papineni 等人 (2002). BLEU：一种用于机器翻译自动评估的方法。ACL 。了解更多
[5] Hardt、Price 和 Srebro (2016).监督学习中的机会均等。NeurIPS 。了解更多

在官方人工智能助手商店查找最新人工智能产品

关于我们

返回博客

国家/地区