OpenAI 开源模型 gpt-oss 对决 o4-mini:五轮实测

OpenAI 刚刚创造了历史——时隔六年多,首次开源了自己的大语言模型。gpt-oss 系列包含两个推理模型:一个 200 亿参数(20B)的版本,性能对标 o3-mini;另一个 1200 亿参数(120B)的版本,据称可与 o4-mini 匹敌。作为开源 AI 的坚定支持者,我们迫不及待想看看这些模型在实际应用中的表现。
在 Together AI,我们相信 AI 的未来属于开源。因此,我们第一时间将 gpt-oss 模型加入了我们的平台,并决定让 120B 版本与 o4-mini 在五项实际测试中正面交锋。我们不想只依赖基准测试,而是希望向开发者社区展示这些模型在真实场景下的对比情况。
为什么 gpt-oss 模型符合我们的愿景
这些模型完美体现了我们一直倡导的理念:
- 完全的模型所有权 - 可以下载、微调、按需部署
- 无供应商锁定 - Apache 2.0 许可证意味着真正的自由
- 极高的性价比 - 成本比 Claude Opus 4.1 低 100 倍,性能却很有竞争力
- 前沿的能力 - 强大的推理、智能体(Agent)能力和结构化输出
- 开放的创新 - AI 社区可以自由构建、改进和定制
我们的测试方法
我们使用自己的 chat.together.ai 界面运行 gpt-oss-120B,并与运行 o4-mini 的 ChatGPT 进行对比。虽然这不是全面的科学基准测试,但这些实战任务能让开发者感受到真实世界的性能表现——就像我们的客户每天处理的那种任务。
测试一:终端贪吃蛇游戏开发
挑战: 开发一个能在终端中运行的、功能完整的贪吃蛇游戏。
结果:
- o4-mini:生成的代码可以编译,但功能有缺陷——尽管按了方向键,蛇只能水平移动。
- Together AI 上的 gpt-oss-120B:创建了一个完全可玩的贪吃蛇游戏,具备正确的控制、碰撞检测和游戏结束机制。

Snake Game Developed using gpt-oss-120B on Together AI
这个测试凸显了我们经常看到的一点:开源模型在实用的代码生成任务上往往表现出色。
胜者: gpt-oss-120B ✓
测试二:创意 SVG 生成
挑战: 生成一只鹈鹕骑自行车的 SVG 图像。
结果:
- o4-mini:产出了一个干净、结构良好的 SVG,空间关系准确。
- gpt-oss-120B:创建了功能性的 SVG,但存在物理问题——鹈鹕看起来像是漂浮在自行车上方。

o4-mini output

gpt-oss output
创意任务可能具有挑战性,这显示了不同模型在不同领域各有优势。
胜者: o4-mini ✓(gpt-oss 因部分成功得 0.5 分)
测试三:高级指令遵循
挑战: 用赛博朋克风格重写美国《独立宣言》的前两段,同时保留历史参考。
我们希望进行客观评估,因此使用了强大的推理模型(包括同样在 Together AI 上可用的 DeepSeek R1)来评判两个输出。
结果: 两个推理模型一致选择 gpt-oss-120B,原因是:
- 对复杂要求的平衡更好
- 历史准确性更高
- 表述更清晰、更有吸引力
- 风格融合更有效

这展示了开源模型在复杂指令遵循方面的成熟能力,使其能够胜任复杂的企业用例。
胜者: gpt-oss-120B ✓
测试四:数学推理
挑战: 经典的鸡兔同笼代数应用题(共 196 条腿,68 个头)。
结果: 两个模型都正确解决了问题,通过清晰的数学推理得出 38 只鸡和 30 头牛。

胜者: 平局 ✓✓
测试五:网络增强信息综合
挑战: 研究并总结某个 NSA 项目的当前状态,字数限制在 200 字以内。
结果: 两个模型都表现出强大的能力:
- 有效整合网络搜索
- 准确综合多个来源的信息
- 严格遵守字数限制和格式要求

胜者: 平局 ✓✓
最终结果:开源模型表现亮眼
- Together AI 上的 gpt-oss-120B:4.5/5
- o4-mini:3/5

开源优势的实际体现
这次对比再次印证了我们看好开源 AI 的原因。gpt-oss-120B 在提供有竞争力性能的同时,还具备:
- 完整的定制权 - 可根据你的具体用例进行微调
- 成本效益 - 推理成本仅为专有模型的一小部分
- 部署灵活性 - 可托管在 Together Cloud、你的 VPC 或本地环境
- 无使用限制 - 构建商业应用无需顾虑
在 Together AI 上体验 gpt-oss
准备好尝试这些突破性的开源模型了吗?我们已为 gpt-oss 在平台上进行了性能优化: ✅ 最快的推理速度 - 我们的推理引擎比标准实现快 4 倍 ✅ 有竞争力的定价 - 相比专有替代方案,成本最多可降低 11 倍 ✅ 轻松集成 - 提供 OpenAI 兼容的 API,迁移无缝 ✅ 多种部署选项 - 无服务器、专用或私有云
这对开发者意味着什么
这些结果表明,高质量的 AI 能力正在变得民主化。无论你是正在构建第一个 AI 功能的初创公司,还是正在扩展关键任务应用的企业,像 gpt-oss 这样的开源模型都为专有解决方案提供了一个有吸引力的替代选择。
在 Together AI,我们致力于让每一位开发者都能便捷、快速、经济地使用这些前沿的开源模型。随着生态系统的持续演进,我们将继续为你带来最新、最棒的开源创新。
准备好用开源 AI 构建了吗?创建你的 Together AI 账户,立即开始体验 gpt-oss 模型。
觉得有用?分享给更多人