乐天用 Codex 修复问题速度快一倍

乐天是一家横跨电子商务、金融科技和移动通信的全球创新公司,为数以亿计的消费者和商家提供服务。在全球拥有 3 万名员工,其工程团队在一个庞大而复杂的产品生态系统中进行开发,速度和可靠性都至关重要。
这正是乐天集团业务人工智能总经理 Yusuke Kaji 过去一年来致力于将智能体工程(Agentic Engineering)工作流深度融入团队规划、构建和验证软件流程的原因。OpenAI 的编程智能体 Codex 已成为乐天工程栈的核心部分,尤其是在公司需要在不牺牲安全性的前提下加速前进的领域。
过去一年,乐天工程师已将 Codex 应用于运维和软件交付的多个环节,以压缩事件响应时间(包括将平均恢复时间 MTTR 减少约 50%)、通过自动化代码审查和漏洞检查来强化 CI/CD,并支持复杂项目上更自主的开发。
“我们不仅关心快速生成代码,”Kaji 说,“我们更关心安全交付。没有安全的速度不是成功。”
三大优先事项:更快、更安全、更智能
在乐天的工程团队内部,他们的人工智能议程清晰且具有明确的运营导向。Kaji 将工作围绕三个优先事项展开:
- 更快构建(“速度!!速度!!速度!!”):团队在运维工作流中使用 Codex,包括基于 KQL 的监控和诊断,以加速根本原因分析和修复,帮助将 MTTR 压缩高达 50%。
- 更安全构建(“把事情搞定”):在 CI/CD 流程中调用 Codex 进行代码审查和漏洞检查,自动应用内部标准,让团队能在安全护栏(Guardrails)下快速交付。
- 更智能运营(“AI 化”):Codex 推动大型、需求模糊的项目从规格说明向可运行实现迈进,减少对完美定义的需求的依赖,实现更自主的执行,并最终将原本需要一季度的努力压缩到数周内。
Codex 作为一个可靠的智能体,直接对应每一项优先事项,在速度、安全和自主性共同创造复合价值的环节发挥作用。
速度:不只是开发速度,更是恢复速度
在乐天,速度不仅指开发速度,也包括恢复时间。
团队使用 KQL(Azure 的日志和遥测查询系统)来监控 API 和分析信号。Codex 与这些工作流协同工作,帮助识别根本原因并建议修复方案,从而缩短从告警到解决的时间。
从站点可靠性工程(SRE)的角度看,这缩短了从检测到修复的路径。工程师无需再手动拼接查询、日志和补丁,而是可以专注于验证和部署修复方案。
乐天估计,这种方法可以在问题发生时将 MTTR 减少约 50%。或者更简单地说:乐天已经用 Codex 在系统出问题时,以快一倍的速度修复问题。
安全:自动化审查,守住标准
随着交付加速,代码审查和部署可能成为瓶颈。乐天通过将 Codex 直接集成到其 CI/CD 管道中来应对这一挑战。
Codex 在变更到达生产环境之前进行代码审查和漏洞检查。乐天将内部的编码原则和标准输入到这些工作流中,确保审查符合公司预期。
“我们将内部的编码原则提供给 Codex,”Kaji 说,“它使用相同的原则来审查代码是否符合我们的标准。”
结果是:安全检查能够持续、自动地进行,使团队能够在保持标准不降低的前提下更快地推进。
智能:从模糊需求到完整实现
乐天的第三个优先事项——“AI 化”——侧重于自主性。Codex 不仅用于审查和维护,还用于端到端地执行大型、需求模糊的项目。Codex 无需完美定义的规格说明,就能从部分需求出发,产出可用的成果。
“最新的 Codex 模型能够领会言外之意,”Kaji 说,“即使需求没有完美定义,它也能理解我们想要构建什么。”
一个例子是:为现有的基于 Web 的 AI 智能体服务构建移动应用版本。Codex 实现了整个规格说明,涉及一个完整的全栈实现,包括 Python/FastAPI 后端和 Swift/SwiftUI iOS 应用,以及所有后端 API,全程无需逐步的人工指令。Codex 将这个项目的开发时间从一个季度缩短到数周。
工程师角色的转变
随着 Codex 承担更多代码生成工作,乐天工程师的角色正在转向编写更清晰的规格说明,并根据可衡量的标准验证输出。
“我们的角色不再是检查每一行代码了,”Kaji 说,“我们的角色是明确定义我们想要什么,并建立如何验证它的方法。”
乐天通过在工程、产品和非技术团队中开展实践研讨会来支持这一转变,这有助于 Codex 在帮助团队更快交付、更安全运营以及在组织内扩展自主开发方面发挥核心作用。
觉得有用?分享给更多人