如何衡量人工智能性能

如何衡量人工智能的性能?

如果你曾经发布过一款在电脑上表现惊艳,但在实际生产环境中却步履维艰的模型,那么你已经明白其中的奥秘:衡量人工智能性能并非依靠单一的指标,而是一套与实际目标紧密相关的检查体系。准确率固然重要,但可靠性、安全性和商业影响力才是关键。

您可能还想阅读以下文章:

🔗 如何与人工智能对话
如何与人工智能进行有效沟通,从而持续获得更佳结果。

🔗 人工智能提示是什么?
解释提示如何影响人工智能的响应和输出质量。

🔗 什么是人工智能数据标注?
概述如何为训练模型的数据分配准确的标签。

🔗 什么是人工智能伦理?
介绍指导负责任的人工智能开发和部署的伦理原则。


优秀的AI性能取决于哪些因素?✅

简而言之:良好的AI性能意味着您的系统在复杂多变的环境下有用、值得信赖且可重复运行

  • 任务质量——能够以正确的理由获得正确的答案。

  • 校准——置信度评分与实际情况相符,因此您可以采取明智的行动。

  • 鲁棒性——它能经受住漂移、极端情况和对抗性模糊测试。

  • 安全与公平——避免有害、有偏见或不合规的行为。

  • 效率——它速度足够快、价格足够便宜、稳定性足够好,可以大规模运行。

  • 业务影响——它确实能提升你关心的关键绩效指标。

如果您想要一个正式的参考点来统一指标和风险, NIST AI 风险管理框架是进行可信系统评估的可靠指南。[1]

 

衡量人工智能性能

衡量人工智能性能的高级方法🍳

三个层面思考:

  1. 任务指标- 任务类型的正确性:分类、回归、排序、生成、控制等。

  2. 系统指标- 延迟、吞吐量、每次调用成本、故障率、漂移警报、正常运行时间 SLA。

  3. 结果指标——您真正想要的业务和用户结果:转化率、留存率、安全事件、人工审核负荷、工单量。

一个优秀的测量方案会有意地将这三者结合起来。否则,你得到的就只是一枚永远无法离开发射台的火箭。


按问题类型划分的核心指标——以及何时使用哪个指标🎯

1)分类

  • 精确率、召回率、F1——这三个指标是衡量指标的基石。F1 是精确率和召回率的调和平均值;当类别不平衡或成本不对称时,F1 非常有用。[2]

  • ROC-AUC - 分类器与阈值无关的排序;当阳性病例较少时,也应查看PR-AUC 。[2]

  • 平衡准确率——各类别召回率的平均值;适用于标签存在偏差的情况。[2]

警惕陷阱:仅凭准确率很容易产生误导,尤其是在数据失衡的情况下。如果 99% 的用户都是合法用户,那么一个愚蠢的、总是识别合法用户的模型就能获得 99% 的准确率,让你的反欺诈团队在午饭前就束手无策。

2)回归

  • MAE用于衡量人眼可辨识的误差; RMSE用于惩罚重大误差; 用于解释方差。然后检查分布和残差图的合理性。[2]
    (使用易于理解的单位,以便利益相关者能够真正感受到误差。)

3)排名、检索、推荐

  • nDCG——注重位置和分级相关性;是搜索质量的标准。

  • MRR( ——关注第一个相关项出现的速度(非常适合“找到一个好的答案”的任务)。
    (主流指标库中提供了实现参考和示例。)[2]

4)文本生成和摘要

  • BLEUROUGE - 经典的重叠度指标;可用作基准。

  • 基于嵌入的指标(例如BERTScore )通常与人类判断的相关性更高;始终与人类对风格、忠实度和安全性的评分相结合。[4]

5)问答

  • 精确匹配词元级 F1是抽取式 QA 的常见指标;如果答案必须引用来源,还要衡量依据(答案支持检查)。


校准、信心和布里尔镜头🎚️

置信度评分是许多系统默默发挥作用的地方。你需要的是能够反映现实的概率,这样运维人员才能设定阈值、将问题转交给人工处理或评估风险。

  • 校准曲线——可视化预测概率与经验频率的关系。

  • 布里尔分数——一种用于衡量概率准确性的合理评分规则;分数越低越好。当您关注质量而不仅仅是排名时,它尤其有用。[3]

现场笔记: F1 值略有“下降”,但校准效果更好,可以大大改善分诊工作——因为人们终于可以信任分数了。


安全、偏见和公平——衡量真正重要的事🛡️⚖️

一个系统整体上可能很准确,但仍可能对特定群体造成伤害。追踪分组指标和公平性标准:

  • 人口统计平等——各群体阳性率相等。

  • 均等概率/均等机会——各组的错误率或真阳性率相等;利用这些来发现和管理权衡取舍,而不是将其作为一次性的通过/失败标记。[5]

实用技巧:先从按关键属性细分核心指标的仪表盘入手,然后根据策略需要添加具体的公平性指标。这听起来有点繁琐,但比发生事故要划算得多。


LLM 和 RAG——一套真正有效的衡量方法📚🔍

测量生成系统……很棘手。试试这样做:

  1. 定义结果:正确性、有用性、无害性、风格一致性、品牌语气、引用依据、拒绝质量。

  2. 自动执行基线评估,并使其与您的数据集保持版本同步。

  3. 可以添加语义指标(基于嵌入的指标)和重叠指标(BLEU/ROUGE)。[4]

  4. 工具基础:检索命中率、上下文精确率/召回率、答案支持重叠。

  5. 人工审核并达成一致意见- 衡量评分者一致性(例如,Cohen's κ 或 Fleiss' κ),这样你的标签就不会只是感觉。

额外信息:记录延迟百分位数和每个任务的令牌或计算成本。没人喜欢下周二才收到的那种矫揉造作的答案。


对比表 - 帮助您衡量 AI 性能的工具 🛠️📊

(是的,故意弄得有点乱——真正的笔记本来就是乱的。)

工具 最佳观众 价格 为什么有效——简述
scikit-learn 指标 机器学习从业者 自由的 分类、回归、排序的规范实现;易于集成到测试中。[2]
MLflow 评估 / GenAI 数据科学家,MLOps 免费 + 付费 集中运行、自动化指标、LLM 裁判、自定义评分器;清晰记录数据。
显然 希望快速获得仪表盘的团队 开源软件 + 云 100 多个指标、漂移和质量报告、监控钩子 - 紧急情况下提供漂亮的视觉效果。
权重与偏差 实验性较强的组织 免费套餐 并排比较、评估数据集、裁判;表格和轨迹比较整齐。
朗史密斯 LLM应用程序构建器 有薪酬的 追踪每一步,将人工审核与规则或LLM评估相结合;非常适合RAG(红黄绿)系统。
TruLens 开源LLM评估爱好者 开源软件 反馈功能用于评估毒性、真实性和相关性;可集成到任何地方。
远大前程 数据质量优先的组织 开源软件 明确数据预期——因为糟糕的数据无论如何都会毁掉所有指标。
深度检查 机器学习的测试和持续集成/持续交付 开源软件 + 云 包含电池测试,用于检测数据漂移、模型问题和监控;良好的安全保障。

价格会变动——请查看相关文件。而且,你可以混用这些产品,不用担心被查处。


阈值、成本和决策曲线——秘诀就在于此🧪

一件奇怪但却是事实的事:两个 ROC-AUC 相同的模型,根据你的阈值成本比率的

快速创建表格:

  • 设定误报与漏报的成本,以金钱或时间衡量。

  • 扫描阈值并计算每 1000 次决策的预期成本。

  • 选定最低预期成本阈值,然后通过监控将其锁定。

当阳性结果较少时,使用 PR 曲线;当总体形状可用 ROC 曲线表示时,使用校准曲线;当决策依赖于概率时,使用校准曲线。[2][3]

迷你案例:支持工单分类模型,F1 值适中,但校准效果极佳,在运营人员从硬性阈值切换到与校准分数范围挂钩的分级路由(例如,“自动解决”、“人工审核”、“升级”)后,减少了手动重新路由。


在线监控、漂移和警报🚨

离线评估只是开始,而非结束。在生产环境中:

  • 段跟踪输入漂移输出漂移性能衰减

  • 设置防护措施检查——最大幻觉率、毒性阈值、公平性偏差。

  • 为 p95 延迟、超时和每次请求成本添加金丝雀仪表板

  • 使用专门构建的库来加快这一过程;它们开箱即用地提供了漂移、质量和监控原语。

一个不太恰当的比喻:把你的模型想象成一个酸面团发酵剂——你不能只烤一次就走开;你需要喂养、观察、嗅闻,有时还要重新开始。


不会崩溃的人工评价🍪

人们在给作品评分时,评分过程比你想象的更重要。

  • 制定严格的评分标准,并举例说明合格、及格、不及格的区别。

  • 尽可能采用随机抽样和盲法抽样。

  • 衡量评分者间的一致性(例如,两位评分者使用 Cohen's κ 系数,多位评分者使用 Fleiss' κ 系数),如果一致性下降,则更新评分标准。

这样可以防止你的人格标签因情绪或咖啡供应而发生变化。


深入探讨:如何衡量RAG 中 LLM 的 AI 性能🧩

  • 检索质量——召回率@k、精确率@k、nDCG;黄金相关事实的覆盖率。[2]

  • 答案真实性——引用和验证检查、依据性评分、对抗性探测。

  • 用户满意度- 点赞数、任务完成度、与建议草稿的编辑距离。

  • 安全性——毒性、PII泄漏、政策合规性。

  • 成本和延迟- 令牌、缓存命中、p95 和 p99 延迟。

将这些与业务行动联系起来:如果基础性低于某个阈值,则自动切换到严格模式或人工审核。


今天就开始你的简单操作指南🪄

  1. 明确任务——用一句话概括:人工智能必须做什么以及为谁做。

  2. 选择 2-3 个任务指标——加上校准指标和至少一个公平性指标。[2][3][5]

  3. 根据成本确定阈值——不要靠猜测。

  4. 创建一个小型评估集——100-500 个带标签的示例,反映生产组合。

  5. 实现评估自动化- 将评估/监控集成到 CI 中,以便每次更改都运行相同的检查。

  6. 生产环境监控- 漂移、延迟、成本、事件标志。

  7. 每月进行一次审查——删除无人使用的指标;添加能够回答实际问题的指标。

  8. 记录决策——一份你的团队真正会阅读的动态记分卡。

没错,就是这样。而且真的有效。


常见陷阱及规避方法🕳️🐇

  • 过度拟合单一指标——使用与决策背景相匹配的指标组合

  • 忽略校准——没有校准的自信只是虚张声势。[3]

  • 不进行细分——始终按用户组、地理位置、设备和语言进行切片。[5]

  • 未定义成本——如果不对错误进行定价,就会选错阈值。

  • 人为评价偏差——衡量一致性,更新评分标准,重新培训评审员。

  • 没有安全机制——现在就应该加入公平性、毒性和政策检查,而不是以后。[1][5]


你来这里就是想看:如何衡量人工智能性能——太长了,我没看完🧾

  • 首先明确预期结果,然后依次列出任务指标系统指标业务指标。[1]

  • 任务选择合适的指标使用F1 和 ROC-AUC;排序任务使用 nDCG/MRR;生成任务(与人工匹配)使用重叠度 + 语义指标。[2][4]

  • 校准概率并评估误差,从而选择合适的阈值。[2][3]

  • 添加公平性检查,并显式地管理权衡取舍。[5]

  • 实现评估和监控自动化,让您可以无所畏惧地迭代改进。

你知道的——衡量真正重要的事,否则你最终只会改进那些无关紧要的事。


参考

[1] NIST. AI风险管理框架 (AI RMF)。 了解更多
[2] scikit-learn.模型评估:量化预测质量(用户指南)。 了解更多
[3] scikit-learn.概率校准(校准曲线、Brier评分)。 了解更多
[4] Papineni 等人 (2002). BLEU:一种用于机器翻译自动评估的方法。ACL了解更多
[5] Hardt、Price 和 Srebro (2016).监督学习中的机会均等。NeurIPS了解更多

在官方人工智能助手商店查找最新人工智能产品

关于我们

返回博客