ServiceNow 发布语音智能体评估框架 EVA

深度Hugging Face2026年3月24日4 分钟阅读
ServiceNow 发布语音智能体评估框架 EVA
ServiceNow-AI 团队推出首个端到端语音智能体评估框架 EVA,能同时评估任务准确性和对话体验。他们发现,在 20 个系统的基准测试中,准确性和用户体验之间存在明显的权衡。

语音智能体面临独特的评估挑战:它们必须同时满足两个目标——准确性(正确完成任务)和对话体验(自然、简洁地交流)。这两个目标紧密相连:听错确认码会让完美的 LLM 推理失效,冗长的选项列表会淹没无法快速浏览语音输出的用户,延迟响应即使通过所有准确性检查,在实际中也可能无法使用。现有框架往往将它们分开评估,要么评估任务成功率,要么评估对话动态,而不是两者兼顾。

我们推出了 EVA,一个用于对话语音智能体的端到端评估框架。它使用真实的机器人对机器人架构,评估完整的多轮语音对话。EVA 产生两个高级分数:EVA-A(准确性)和 EVA-X(体验),旨在揭示每个维度的失败情况。EVA 是首个联合评估任务成功率和对话体验的框架。我们随 EVA 发布了一个包含 50 个场景的初始航空数据集,涵盖航班改签、取消处理、代金券等,这是计划中一系列领域的第一个。

intro

我们还提供了 20 个级联系统和音频原生系统(如语音到语音模型和大型音频语言模型)的基准测试结果。我们最大的发现是,准确性和用户体验之间存在一致的权衡;在任务完成方面表现良好的智能体,往往提供更差的用户体验,反之亦然。

  • 🌐 网站 — 探索完整框架、早期结果和演示。
  • 💻 GitHub — 深入研究代码、框架和评判提示。
  • 📂 HF 数据集 - 探索数据集

背景与动机

目前该领域缺乏一个评估语音智能体交互完整质量的框架,因为大多数现有工作孤立地评估各个组件。例如,AudioBench、SD-Eval、VoxEval、Kimi-Audio-Evalkit、VoiceBench 和 VoxDialogue 评估语音到文本的核心语音理解能力——转录、副语言特征、声学线索——但仅限于单轮、非交互式设置。另一方面,EmergentTTS-Eval 和 SHEET 使用主观听力测试(如平均意见得分)评估感知语音质量。除了语音感知,FD-Bench、Talking Turns、Full-Duplex-Bench 提供了对对话动态——打断、反馈、轮流发言——的更深入分析,但这些评估与面向任务的工具调用分离,使得对话质量和智能体能力之间的关系未被检验。更近期的努力,特别是 VoiceAgentBench 和 CAVA,朝着评估商业语音智能体系统的智能体能力(包括工具调用和复杂指令跟随)迈出了一步。然而,这些语音智能体能力并未在语音智能体在实践中必须导航的完整对话工作流中进行评估:从初始用户请求,通过多步骤工具编排,到最终任务解决。

缺乏联合捕捉准确性和体验的框架,突显了对一个将语音智能体质量视为一个整体的框架的需求。这意味着不仅要评估任务是否成功,还要评估智能体在整个过程中是否准确、简洁、自然地沟通,并揭示这些维度在现实部署条件下如何相互权衡。

EVA

框架

端到端评估揭示了在组件层面不明显的交互动态:智能体是否在语音自然停顿期间打断用户,当用户纠正转录错误时是否平滑恢复,或者高延迟是否足以破坏对话流,导致用户重复自己或放弃任务。

architecture

EVA 模拟通过实时音频进行的多轮语音对话,其中智能体必须调用适当的工具,遵守特定于任务的政策,并达到可确定性验证的最终状态。EVA 使用由五个核心组件组成的机器人对机器人音频架构评估语音智能体:

  1. 用户模拟器 — 一个配置了特定目标和角色的对话式 AI,扮演呼叫者的角色。它使用高质量的文本到语音模型在音频中操作,确保评估捕捉自然语音和真实轮流动态中的代表性语音理解挑战。
  2. 语音智能体 — 被评估的语音智能体,使用 Pipecat(一个用于实时语音应用的开源 Python 框架)构建。EVA 支持级联架构(STT → LLM → TTS)和音频原生模型(S2S 或 LALM → TTS)。
  3. 工具执行器 — 通过自定义 Python 函数提供确定性、可重复工具响应的引擎。它动态查询和修改预定义的每个场景数据库。
  4. 验证器 — 一组验证指标,检查对话是否完整,用户是否忠实地再现了预期行为和语音,无需人工标注。任何在此验证步骤失败的对话都会被重新生成,确保只有有效、正确执行的对话进入评估。这与依赖事后人工标注来识别模拟器错误的方法形成对比。
  5. 指标套件 — 一套使用对话录音、转录和工具调用日志评估语音智能体的指标。

数据

我们框架中的每个测试用例(场景)都是一个评估记录,结构化为可重复测试:

  • 用户目标 — 呼叫者试图完成什么。包括一个高度具体的用户目标,带有精确的决策树,指导用户模拟器完成对话,对预期结果没有歧义。
  • 用户角色 — 呼叫者应如何行为——他们的说话风格、耐心水平和个性特征。
  • 场景数据库 — 智能体工具将查询的后端数据。
  • 真实情况 — 成功对话后期望的场景数据库最终状态。

我们随 EVA 发布了一个包含 50 个场景和 15 个工具的合成航空数据集,涵盖航班不正常运行改签、自愿行程变更、取消、当日候补和补偿代金券。场景旨在测试时间推理、政策遵循、约束满足和命名实体处理。

demo

查看完整演示此处

评估方法

EVA 从两个基本维度评估语音智能体:EVA-A 衡量准确性,EVA-X 衡量体验。此外,EVA 还包含一套诊断指标。这些指标不直接用于模型比较或排名,而是提供更细粒度的洞察,帮助理解模型得分背后的原因,识别特定失败模式(例如,ASR、语音合成等)。我们对每个场景进行三次测试(k=3),报告 pass@k(k 次运行中至少一次成功的概率)和 pass^k(k 次运行全部成功的概率),以捕捉峰值表现和行为一致性。

methodology_eva_scores

EVA 使用两种评估方法:确定性代码指标,直接从结构化数据计算分数,速度快;以及 LLM-as-Judge 指标,使用大语言模型(LLM)评估对话的定性方面,或使用大型音频语言模型(LALM)直接评估语音。每个基于法官的指标都使用在特定指标精选评估数据集上表现最佳的模型。

EVA-A:准确性

仅靠任务完成度来衡量准确性是必要但不充分的。一个智能体可能达到正确的最终状态,却在过程中捏造政策细节、读错确认码或虚构航班号。这些失败在二元通过/失败检查中不可见,但会直接损害用户。因此,EVA-A 衡量准确性的三个维度:

  • 任务完成度 [确定性] —— 通过比较场景数据库的预期最终状态与对话后的实际最终状态,衡量智能体是否正确完成任务。
  • 忠实度 [LLM-as-Judge] —— 衡量智能体的回应是否基于其指令、政策、用户输入和工具调用结果,标记捏造、误传、政策违规和模型幻觉(Hallucination)。
  • 语音保真度 [LALM-as-Judge] —— 衡量语音系统是否在音频中忠实再现了预期文本,特别关注语音上下文中必须正确的实体,如确认码、航班号和金额。这是所有端到端语音智能体基准中,唯一在音频层面评估智能体自身语音输出质量的指标。

EVA-X:体验

对话轮次时机很重要,但只讲述了部分故事。一个智能体可能时机完美,却用用户无法浏览的大段语音选项淹没来电者,或重复询问已提供的信息。这些失败会降低体验,而不涉及响应时机错误。因此,EVA-X 衡量体验的三个维度:

  • 简洁性 [LLM-as-Judge] —— 衡量智能体的回应是否适合语音传递,足够简短和聚焦,因为电话用户无法浏览、重读或回滚长回应。
  • 对话推进 [LLM-as-Judge] —— 衡量智能体是否有效推进对话,避免重复、跨轮次保留上下文,并朝着任务完成前进而不停滞。
  • 轮次交替 [LLM-as-Judge] —— 衡量智能体是否在正确的时间说话,既不打断用户,也不在用户说完后引入过多沉默。

发现

我们评估了 20 个系统(专有和开源,级联和音频原生),发现一致的准确性-体验权衡:在任务完成度上表现良好的智能体往往提供更差的用户体验,反之亦然——这种权衡在仅评分任务完成度的基准中是不可见的。没有单一配置在两条轴线上都占优,证实了准确性和体验必须联合测量。

此外,我们识别出命名实体转录是主导的失败模式。单个听错的字符可能级联导致身份验证失败和整个对话崩溃。同时,多步骤工作流以可预测的方式使智能体崩溃。在保留附加服务(座位、行李)的同时重新预订航班,是所有配置中主导的复杂性破坏者。最后,我们观察到实际用例需要额外的校准。在所有配置中,pass@3 和 pass^3 之间的差距很大。即使能完成任务的智能体,也往往无法一致地做到这一点,而这对于实际成功至关重要。

early_results_scatter

查看早期结果请点击这里

局限性

EVA 旨在提供对话语音智能体的严格端到端评估,但有几个局限性需要承认,涵盖框架、数据和指标维度:

  • 指标 —— LLM-as-Judge 模型带有固有偏见,可能独立于质量而偏好某些回应风格,当被评估模型和法官模型共享提供商时,还存在系统性偏见的额外风险。虽然我们根据标注数据集验证法官,并在网站上报告准确性测量,但这些对齐分数并不能完全消除系统性偏见。此外,任务完成度以二元方式测量,不捕捉部分信用,可能低估了优雅失败与灾难性失败系统的相对质量。

  • 模拟 —— 当前版本涵盖单个领域(航空公司)的 50 个英语场景;结果可能无法推广到其他领域、语言或口音。同时,用户模拟器可能无法完美复制真实来电者行为(例如,不流利、犹豫、情绪)或保证完全遵守政策。

  • 框架 —— 用户模拟器依赖单一商业提供商,其语音特征可能系统性偏好某些 ASR 系统,而 bot-to-bot 管道(包括音频格式转换和实时音频接口)可能无法完全代表生产部署。此外,完全复制需要商业 API 访问,延迟测量会因提供商和基础设施而异。

下一步计划

评估方面,我们计划添加韵律质量评估(发音、节奏、表现力)——目前这是一个开放问题,因为我们发现 LALM-as-Judge 与人类判断之间的对齐度很低。我们还计划在嘈杂条件、多样化口音、多语言用户和不同说话者行为下进行鲁棒性测试,以及对智能体如何响应用户困扰进行情感感知评估。在数据方面,我们正在开发额外的领域数据集——每个都有独特的政策结构、命名实体配置文件和对话动态——以及更复杂的场景,涉及复合请求、多步骤跟进和更长的对话记忆。在工具方面,我们将发布一个结果和错误分析应用程序,自动识别每个指标和模型的错误,展示代表性示例供探索,并生成每个模型优势和劣势的结构化摘要。最后,我们打算持续扩展排行榜,以提供对领域内语音智能体能力的最新评估。

查看关于局限性和我们即将推出的路线图的更多细节请点击这里

致谢

核心贡献者包括 Tara Bogavelli、Gabrielle Gauthier Melançon、Katrina Stankiewicz、Oluwanifemi Bamgbose、Hoang Nguyen、Raghav Mehndiratta 和 Hari Subramani。

我们也感谢 Lindsay Brin、Akshay Kalkunte、Joseph Marinier、Jishnu Nair 和 Aman Tiwari 对数据的仔细审查和对框架的深思熟虑贡献,以及 Fanny Riols、Anil Madamala、Sridhar Nemala 和 Srinivas Sunkara 在整个项目中的管理、领导和支持。我们还感谢 PAVA 和 CLAE ServiceNow 团队,他们之前在评估和语音智能体方面的工作为这个项目提供了宝贵的灵感。

引用

code
@misc{eva-2026, 
  title={A New End-to-end Framework for Evaluating Voice Agents (EVA)}, 
  author={Bogavelli, Tara and Gauthier Melançon, Gabrielle and Stankiewicz, Katrina and Bamgbose, Oluwanifemi and Nguyen, Hoang and Mehndiratta, Raghav  and Subramani, Hari}, 
  year={2026}, 
  url={https://github.com/ServiceNow/eva} 
} 
本文编译自 A New Framework for Evaluating Voice Agents (EVA),版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论