FutureBench:用预测未来事件评估AI智能体

深度2025年7月17日7 分钟阅读
FutureBench:用预测未来事件评估AI智能体
大多数AI基准测试都在考历史知识,但真正有价值的智能应该体现在预测未来上。FutureBench是一个实时、无数据泄露的基准测试,让AI智能体预测真实世界事件(如利率、地缘政治),并等待时间验证结果。

AI的未来

现在的AI基准测试大多在考历史:要么测模型对现有知识的掌握(比如HLE或GPQA这种静态测试,或者BrowseComp、GAIA这种增强型测试),要么测解决老问题的能力(像PaperBench、DABStep或大多数编程评估)。但我们相信,更有价值、最终能通向AGI的AI,应该能用过去的知识预测未来的有趣变化,而不是只会复述旧闻。

预测未来事件是个复杂又整体的任务:它需要高级推理、信息整合、概率权衡和真正的理解,而不是简单地匹配已有模式或搜索现存信息。让模型预测未来结果——无论是科学、经济、地缘政治还是技术领域——才能测出那种能创造真实世界价值的智能。

除了本身的重要性,这种基于预测的方法还解决了很多现有评估和基准测试的方法论问题。传统基准测试用固定测试集测准确率,难免受数据污染影响;而且拿不到模型完整的可复现训练流程,结果也很难让人完全信服。现在最严格的评估工作都把测试集完全保密,结果搞成了评估方和“刷榜”机制之间的烦人军备竞赛(Singh et al., 2025)。

预测从设计上就杜绝了数据污染,因为你不可能用还不存在的数据来训练!这创造了一个公平的竞争环境,成功与否取决于推理能力,而不是死记硬背。

也许最重要的是,关于未来的预测天生就可验证。我们可以等着看谁预测对了,从而得到一个客观的、有时间戳的模型性能衡量标准。

所以我们提议用预测未来事件的能力来评估智能体(Ye et al., 2024; Karger et al., 2025)。FutureBench从真实世界的预测市场和新兴新闻中取材,创建基于实际未来结果的预测任务。我们从平台、实时新闻报道和manifolds市场收集事件,筛选出值得预测的新兴事件。采用智能体方法,我们策划出需要真正推理、而非简单模式匹配的场景。想想地缘政治发展、市场波动或技术采用趋势——这些才是真正需要信息分析能力的事件。

智能体能预测未来事件吗?

这是个显而易见的问题,也是这个基准测试有趣的核心!我们认为答案不能简单地用“是”或“否”来回答,因为它很大程度上取决于具体问题;总有一些重要的注意事项需要考虑。

人类一直在用权衡当前信息的能力来预测未来事件。大多数职业选择、关系决策,甚至商业策略,本质上不都是对未来结果的押注吗?

有些预测包含不可简化的不确定性(比如“2027年12月17日中午会下雨吗?”),但很多预测并非如此。当一位熟练的分析师预测公司季度收益,或政策专家预测选举结果时,他们都在用现有信息做出明智决策。这正是我们要求AI智能体在FutureBench上做的事!任务不是让智能体算命,而是在比其他大多数基准测试更强的不确定性下,整合信息并进行推理。

智能体的预测质量直接反映了它搜索相关信息、整合复杂数据、推理因果关系的能力。这些正是我们在真实世界应用中想要衡量的能力。

DeepResearch这样的工具已经用于市场分析和战略规划。信息收集的质量与决策效果密切相关。FutureBench受此评估过程启发,试图用客观、可验证的结果来计算智能体的质量。

FutureBench

我们如何生成预测问题

构建一个测试真实预测能力的基准测试,需要源源不断的有意义问题。我们开发了两种互补的方法,捕捉不同类型的未来事件:

1. 新闻生成问题:今天找出明天的头条

第一种方法用AI从当前事件中挖掘预测机会。我们部署一个基于smolagents的智能体,抓取几个主要新闻网站,分析头版文章,并生成关于其可能结果的预测问题。智能体阅读并识别有趣的文章,从中制定具体、有时限的问题,例如“美联储会在2025年7月1日前至少降息0.25%吗?”。

我们用精心设计的提示词引导这个过程,明确说明什么才是好的预测问题——那些在提取时有意义、可验证且不确定的事件。

技术栈:

  • 模型DeepSeek-V3用于推理和问题生成
  • 抓取Firecrawl用于可靠的内容提取
  • 搜索Tavily用于获取额外上下文

智能体通常每次抓取会话生成5个问题,时间范围为一周,意味着我们假设七天后就能知道问题的答案。这为我们提供了一个与真实世界事件挂钩的新鲜评估材料流水线。

2. Polymarket整合:利用预测市场

第二个来源来自Polymarket。这些问题来自一个预测市场平台,真实参与者在那里对未来事件进行预测。我们目前每周摄入大约8个问题。

但原始数据需要过滤。我们应用强力过滤,去掉关于温度的通用问题和一些关于股票和加密货币市场的问题,否则数量太多,无法在基准测试中实际使用。

此外,polymarket问题对最终“实现”时间(事件实际结果可用的时间)的限制较少,结果可能下个月或年底才出来。这些问题仍然非常相关,但结果的数据收集更稀疏。

示例问题

这是我们问题生成流水线产出的示例:

__wf_reserved_inherit

三个层面的系统评估

接下来的问题是,这种基准测试能让我们衡量什么?该框架在三个不同层面运行,让我们能精确分离出要测量的内容:

层面1:框架比较 保持底层LLM和工具不变,改变框架。当都使用GPT-4和相同的搜索工具时,基于LangChain的智能体与用CrewAI构建的智能体相比如何?这分离了不同智能体框架的影响。

层面2:工具性能 固定LLM和框架,比较不同工具实现。哪个搜索工具(比如Tavily、Google、Bing)能带来比其他搜索引擎更好的预测,同时保持其他一切不变?这揭示了哪些工具真正提供了价值。工具相对于没有工具的模型,总体上带来了多少价值?

层面3:模型能力 保持框架和工具不变,测试不同的LLM。在访问相同工具集的情况下,DeepSeek-V3能像GPT-4一样有效地使用它们吗?这衡量的是纯粹的推理能力。

这种系统方法让我们能准确理解智能体流水线中性能增益和损失发生在哪里。

__wf_reserved_inherit

这个基准测试也是对指令遵循的稳健测试。智能体必须遵守特定的格式要求,生成能被正确解析和执行的动作。在实践中,这常常暴露出较小的语言模型在处理复杂多步推理时的挣扎。

🚀 自己试试! 探索实时排行榜:FutureBench Interactive Leaderboard

预测未来:智能体与初步结果

我们使用SmolAgents作为所有问题的基线智能体框架。我们也计算基础模型的性能。对于预测任务本身,智能体可以访问一个专注的工具包:

  • 搜索:Tavily集成,用于查找最新信息和专家分析
  • 网页抓取器:一个简单的网页抓取工具,用于跟进特定来源并获取详细上下文

这种故意精简的设置迫使智能体在信息收集上讲究策略,同时仍提供做出明智预测所需的工具。

初步结果

我们使用smolagents作为基线比较不同模型。我们也运行标准语言模型(无互联网访问)来估计一个通用先验。正如预期,我们看到智能体模型比简单语言模型表现更好;更强的模型显示出更稳定的预测质量。总体而言,我们还发现不同模型尝试处理问题的方式存在有趣模式:

有趣的动作模式

运行这个基准测试揭示了不同模型处理信息收集的见解。一个显著差异是关于抓取的。GPT-4.1似乎更依赖搜索结果。Claude3.7和4更详细地探索网络空间,倾向于更频繁地使用网页抓取;这种彻底的方法也意味着在研究过程中收集了多得多的输入token,从而增加了成本。

模型在做出预测时显示出有趣的方法,例如,回答“6月份年通胀率会增加2.6或更多吗?”这个问题时:

  • DeepSeekV3智能体通过搜索最近的CPI数据(发现当前通胀率在2.4-2.8%之间)分析了2025年6月的通胀前景,考虑了关税影响作为上行压力,并得出结论通胀将超过2.6%的门槛。
  • Claude3.7通过全面研究(11次搜索 vs DeepSeekV3的3次)分析了2025年6月的通胀,系统地收集了2025年5月的CPI数据(同比增长2.4%),识别出月度减速趋势(0.2%→0.1%),权衡了关税压力与美联储限制性政策,精确计算了所需的0.2%差距,并得出结论认为最近的减速使得达到2.6%的门槛不太可能,回答“否”。
  • GPT4.1通过针对性搜索市场共识和预测分析了2025年6月的通胀,识别出2025年5月CPI为2.4%(低于2.5%的预期),注意到0.1%的月度增长疲软,发现没有预测者预测6月会达到2.6%以上,并得出结论认为从2.4%跳到2.6%不太可能,因为最近趋势低于预期。

有趣的是,Claude是唯一尝试直接访问劳工统计局网站进行抓取的模型,但失败了,因为那是.gov网站,我们不允许此类操作。

模型在其输出中表现出不同的推理模式。 GPT的分析侧重于将共识预测作为未来事件的关键信号,而不是从当前数据推断;而Claude的方法通过其系统的利弊框架和定量差距分析,展现出严谨的分析结构;DeepSeekV3的输出则显示出对数据限制的明确承认,以及在初始方法遇到约束时系统的方法调整。

这些行为差异揭示了不同模型处理信息收集的有趣模式。网络使用和token消耗的变化表明,模型在处理预测任务时有不同的策略,而FutureBench可以帮助我们衡量和理解这些策略。

局限性与未来方向

一个挑战是评估可能很昂贵,因为输入token数量很大。例如,Claude倾向于频繁访问网页,从而积累大量输入token。在多轮循环中,这可能使输入token数量迅速飙升。这增加了任何后续生成的成本,尽管大多数token最终会被缓存。

FutureBench是一个不断发展的基准测试,随着我们发现新发现和更好模式,我们会持续整合它们。我们很乐意听取社区的反馈,以了解如何更好地获取问题、应该运行哪些实验,以及哪些数据最有趣值得分析。

参考文献

Singh, S., Nan, Y., Wang, A., D'souza, D., Kapoor, S., Ustun, A., Koyejo, S., Deng, Y., Longpre, S., Smith, N., Ermiş, B.H., Fadaee, M., & Hooker, S. (2025). The Leaderboard Illusion. ArXiv, abs/2504.20879.

Karger, E., Bastani, H., Yueh-Han, C., Jacobs, Z., Halawi, D., Zhang, F., & Tetlock, P.E. (2025). ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities. ICLR.

Ye, C., Hu, Z., Deng, Y., Huang, Z., Ma, M.D., Zhu, Y., & Wang, W. (2024). MIRAI: Evaluating LLM Agents for Event Forecasting. ArXiv, abs/2407.01231.

本文编译自 Back to The Future: Evaluating AI Agents on Predicting Future Events,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论