OpenAI 开源模型 gpt-oss 对决 o4-mini:五轮实测

指南2025年8月11日4 分钟阅读
OpenAI 开源模型 gpt-oss 对决 o4-mini:五轮实测
OpenAI 时隔六年首次开源大语言模型 gpt-oss 系列,Together AI 平台将 120B 参数版本与 o4-mini 进行了五轮实战对比。终端游戏开发、创意 SVG 生成、复杂指令遵循等测试显示,开源模型在多项任务中表现更优。

OpenAI 刚刚创造了历史——时隔六年多,首次开源了自己的大语言模型。gpt-oss 系列包含两个推理模型:一个 200 亿参数(20B)的版本,性能对标 o3-mini;另一个 1200 亿参数(120B)的版本,据称可与 o4-mini 匹敌。作为开源 AI 的坚定支持者,我们迫不及待想看看这些模型在实际应用中的表现。

在 Together AI,我们相信 AI 的未来属于开源。因此,我们第一时间将 gpt-oss 模型加入了我们的平台,并决定让 120B 版本与 o4-mini 在五项实际测试中正面交锋。我们不想只依赖基准测试,而是希望向开发者社区展示这些模型在真实场景下的对比情况。

为什么 gpt-oss 模型符合我们的愿景

这些模型完美体现了我们一直倡导的理念:

  • 完全的模型所有权 - 可以下载、微调、按需部署
  • 无供应商锁定 - Apache 2.0 许可证意味着真正的自由
  • 极高的性价比 - 成本比 Claude Opus 4.1 低 100 倍,性能却很有竞争力
  • 前沿的能力 - 强大的推理、智能体(Agent)能力和结构化输出
  • 开放的创新 - AI 社区可以自由构建、改进和定制

我们的测试方法

我们使用自己的 chat.together.ai 界面运行 gpt-oss-120B,并与运行 o4-mini 的 ChatGPT 进行对比。虽然这不是全面的科学基准测试,但这些实战任务能让开发者感受到真实世界的性能表现——就像我们的客户每天处理的那种任务。

测试一:终端贪吃蛇游戏开发

挑战: 开发一个能在终端中运行的、功能完整的贪吃蛇游戏。

结果:

  • o4-mini:生成的代码可以编译,但功能有缺陷——尽管按了方向键,蛇只能水平移动。
  • Together AI 上的 gpt-oss-120B:创建了一个完全可玩的贪吃蛇游戏,具备正确的控制、碰撞检测和游戏结束机制。

Snake Game Developed using gpt-oss-120B on Together AI

这个测试凸显了我们经常看到的一点:开源模型在实用的代码生成任务上往往表现出色。

胜者: gpt-oss-120B ✓

测试二:创意 SVG 生成

挑战: 生成一只鹈鹕骑自行车的 SVG 图像。

结果:

  • o4-mini:产出了一个干净、结构良好的 SVG,空间关系准确。
  • gpt-oss-120B:创建了功能性的 SVG,但存在物理问题——鹈鹕看起来像是漂浮在自行车上方。

image.png

o4-mini output

image.png

gpt-oss output

创意任务可能具有挑战性,这显示了不同模型在不同领域各有优势。

胜者: o4-mini ✓(gpt-oss 因部分成功得 0.5 分)

测试三:高级指令遵循

挑战: 用赛博朋克风格重写美国《独立宣言》的前两段,同时保留历史参考。

我们希望进行客观评估,因此使用了强大的推理模型(包括同样在 Together AI 上可用的 DeepSeek R1)来评判两个输出。

结果: 两个推理模型一致选择 gpt-oss-120B,原因是:

  • 对复杂要求的平衡更好
  • 历史准确性更高
  • 表述更清晰、更有吸引力
  • 风格融合更有效

image.png

这展示了开源模型在复杂指令遵循方面的成熟能力,使其能够胜任复杂的企业用例。

胜者: gpt-oss-120B ✓

测试四:数学推理

挑战: 经典的鸡兔同笼代数应用题(共 196 条腿,68 个头)。

结果: 两个模型都正确解决了问题,通过清晰的数学推理得出 38 只鸡和 30 头牛。

image.png

胜者: 平局 ✓✓

测试五:网络增强信息综合

挑战: 研究并总结某个 NSA 项目的当前状态,字数限制在 200 字以内。

结果: 两个模型都表现出强大的能力:

  • 有效整合网络搜索
  • 准确综合多个来源的信息
  • 严格遵守字数限制和格式要求

image.png

胜者: 平局 ✓✓

最终结果:开源模型表现亮眼

  • Together AI 上的 gpt-oss-120B:4.5/5
  • o4-mini:3/5

image.png

开源优势的实际体现

这次对比再次印证了我们看好开源 AI 的原因。gpt-oss-120B 在提供有竞争力性能的同时,还具备:

  • 完整的定制权 - 可根据你的具体用例进行微调
  • 成本效益 - 推理成本仅为专有模型的一小部分
  • 部署灵活性 - 可托管在 Together Cloud、你的 VPC 或本地环境
  • 无使用限制 - 构建商业应用无需顾虑

在 Together AI 上体验 gpt-oss

准备好尝试这些突破性的开源模型了吗?我们已为 gpt-oss 在平台上进行了性能优化: ✅ 最快的推理速度 - 我们的推理引擎比标准实现快 4 倍 ✅ 有竞争力的定价 - 相比专有替代方案,成本最多可降低 11 倍 ✅ 轻松集成 - 提供 OpenAI 兼容的 API,迁移无缝 ✅ 多种部署选项 - 无服务器、专用或私有云

立即试用 gpt-oss 模型 →

这对开发者意味着什么

这些结果表明,高质量的 AI 能力正在变得民主化。无论你是正在构建第一个 AI 功能的初创公司,还是正在扩展关键任务应用的企业,像 gpt-oss 这样的开源模型都为专有解决方案提供了一个有吸引力的替代选择。

在 Together AI,我们致力于让每一位开发者都能便捷、快速、经济地使用这些前沿的开源模型。随着生态系统的持续演进,我们将继续为你带来最新、最棒的开源创新。

准备好用开源 AI 构建了吗?创建你的 Together AI 账户,立即开始体验 gpt-oss 模型。

本文编译自 OpenAI's New Open gpt-oss Models vs o4-mini: A Real-World Comparison,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论