DSGym:统一评估与训练数据科学智能体的框架

深度2026年1月26日5 分钟阅读
DSGym:统一评估与训练数据科学智能体的框架
现有数据科学基准测试依赖不兼容的评估接口,许多任务甚至无需访问数据即可解决。DSGym 通过自包含的执行环境,为数据科学智能体提供统一的评估和训练框架。基于该框架训练的 4B 模型在开源模型中达到了领先水平。

数据科学是现代科学发现的计算引擎。然而,评估和训练基于大语言模型的数据科学智能体仍然充满挑战,因为现有基准测试在异构的执行环境中评估孤立技能,导致集成成本高且公平比较困难。

我们引入了 DSGym,一个统一的框架,通过标准化的数据集、智能体和指标抽象,将多样化的数据科学评估套件集成到单一 API 背后。DSGym 统一并改进了现有基准测试,同时通过新颖的科学分析任务(来自学术文献的 90 个生物信息学任务)和具有挑战性的端到端建模竞赛(92 个 Kaggle 竞赛)扩展了范围。除了评估,DSGym 还提供轨迹生成和合成查询管道用于智能体训练——我们通过在 2k 个生成示例上训练一个 4B 模型来证明这一点,该模型在开源模型中达到了领先性能。

(a) 典型的科学发现过程。 DSGym 专注于数据驱动的调查阶段,任务涵盖 10 多个领域和文件类型。(b) DSGym 概述。 该框架通过合成数据生成支持评估(数据分析和预测任务)和训练。

框架与数据集

DSGym 的主要贡献之一是,它将代码执行的复杂性抽象到可在实时分配以安全执行代码的容器背后;这些容器预装了依赖项和可供处理的数据。

DSGym 为所有基准测试提供统一的 JSON 接口,其中每个任务表示为:数据文件、查询提示、评估指标和元数据。我们力求设计模块化和直观。这样,添加新任务、智能体脚手架、工具和评估脚本对用户来说应该更简单。DSGym 中的任务分为两个主要轨道:

  • 数据分析(通过程序化分析进行查询回答)。
  • 数据预测(端到端机器学习管道开发)。

除了集成 MLEBench 和 QRData 等现有基准测试外,DSGym 还引入了原始数据集。具体来说,我们通过创建两个新颖的套件扩展了通用范围:DSBio(来自学术文献的 90 个生物信息学任务,探究领域特定工作流)和 DSPredict(涵盖时间序列、计算机视觉、分子性质预测和单细胞扰动的 92 个 Kaggle 竞赛)。下图总结了这两个套件的创建过程:

DSGym 构建管道。左:通过论文报告和专家衍生查询从生物信息学论文中提取的科学任务(90 个任务)。右:来自存档竞赛的 Kaggle 任务,按难度过滤并分为简单(38)和困难(54)子集。

为了支持任务执行和数据生成,DSGym 提供了一个数据生成管道来执行查询和生成轨迹,将框架转变为可以有效训练模型的数据工厂。

使用此管道,我们生成了 3,700 个合成查询。应用基于大语言模型的质量过滤后,我们获得了 2,000 个高质量的查询-轨迹对 用于监督微调。我们的结果(接下来展示)表明,这些数据可以成为提高模型在数据科学任务上性能的有效方式,即使对于小模型也是如此。

结果

我们在此展示我们的主要发现。更多结果可在论文中找到。

解决记忆差距

第一个重要结果涉及记忆。我们观察到许多现有基准查询提供弱信号:相当一部分即使 没有数据文件访问 仍然可解,这表明大语言模型可能在训练期间学习了这些任务。

我们表明,大多数模型可以在不检查数据的情况下回答数据科学问题,而是依赖训练期间记忆的信息。这是有问题的,因为它意味着模型实际上并没有执行数据分析。

因此,我们确保标记并排除这些可能存在于模型训练集中的示例。DSGym 应用质量过滤和仅提示快捷过滤来移除此类任务,生成精炼的数据集:DAEval-Verified、QRData-Verified、DABStep 和 MLEBench-Lite。

基准性能与失败模式

创建这些新基准测试后,我们在通用数据科学和领域特定科学任务上测试前沿专有和开源大语言模型。

我们训练的 4B 模型(Qwen3-4B-DSGym-SFT-2k)在通用分析基准测试上实现了与更大模型竞争的性能。

77.78 33.07 86.19

有趣的是,大多数模型在这些基准测试上仍远未获得完美分数。为了理解模型在这些任务上失败的原因,我们对每个模型和任务家族的 50 个随机采样失败轨迹进行了手动错误分析。这一分析揭示了一个有趣的模式:虽然通用分析任务显示出多样化的失败模式,其中统计知识差距和规划错误最为常见,但科学分析任务则被单一失败模式主导。

四个大语言模型在 (a) 通用分析任务(QRData 和 DAEval)和 (b) 科学分析任务(DSBio)上的错误类型细分。 对于每个模型和任务家族,我们均匀采样 50 个失败轨迹并手动分配主要错误类别。一个关键转变出现:虽然通用任务的失败主要由统计知识和规划问题主导,但 DSBio 的失败绝大多数由领域对齐错误驱动(跨模型 85–96%)。

数据预测性能

DSPredict 评估智能体构建完整机器学习管道的能力——从原始数据到最终模型——模拟 Kaggle 竞赛的复杂性。

我们在 DSPredict-EasyDSPredict-Hard 分割上评估模型。性能通过以下指标衡量:

  • 有效提交: 成功生成正确格式的输出文件。
  • 中位数/百分位数: 相对于原始竞赛排行榜的性能。
  • 奖牌: 达到相当于铜牌、银牌或金牌的分数阈值。

我们使用类似 CodeAct 的简单脚手架。每个智能体被给予 10 小时的总时间限制和每次代码执行 2 小时的时间限制。

表 2:DSPredict 基准测试上的性能指标。

模型DSPredict-Hard (Private)DSPredict-Easy (Private)
ValidMedal
GPT-5.1 (high)85.74.8
GPT-5.1 (medium)81.04.8
GPT-5.1 (none)69.02.4
Claude Sonnet 4.571.40
Qwen3 235B Instruct64.32.4
Kimi K2 Instruct690

我们对 DSPredict 结果的分析揭示了对大语言模型智能体在端到端机器学习工作流中当前能力和局限性的几个关键见解。

高可靠性,低竞争力: 虽然前沿模型(如 GPT-5.1 和 Claude 4.5)在创建功能管道方面表现出色——达到超过 85% 的有效提交率——但它们难以具有竞争力。很少有模型能 consistently 在“困难”任务上击败人类中位数。

一个主要瓶颈是模型倾向于选择阻力最小的路径。当面临技术摩擦或复杂数据时,智能体通常默认使用简单基线或“安全”启发式方法,而不是追求高性能建模策略。

推理 vs. 规模: 高推理模型(GPT-5.1-high)显示出显著领先,表明数据科学所需的“怀疑”持久性——调整、验证和迭代——目前是比原始参数数量更关键的因素。

结论

DSGym 为评估和训练数据科学智能体提供了一个统一的框架。我们揭示了当前方法中的一个基本挑战:模型在通用任务上严重依赖记忆,而在科学问题上未能将分析基于领域知识。

通过提供涵盖两种任务类型的标准化基准测试,DSGym 使得系统研究如何构建真正推理数据而非回忆模式的智能体成为可能。我们还发布了一个易于开发和部署的 capable 开源数据科学智能体。我们希望这一资源加速朝着更可靠和可泛化的数据科学自动化迈进。

arXiv 论文:https://arxiv.org/abs/2601.16344

GitHub 仓库:https://github.com/fannie1208/DSGym

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论