智能体工程:先跑测试

指南Simon Willison2026年3月16日2 分钟阅读
用 AI 写代码时,自动化测试不再是可选项。智能体几分钟就能搞定测试,还能确保生成代码的实际可用性。

用智能体写代码,自动化测试已经不能省了。

以前不写测试的借口——比如代码库快速迭代时,测试又耗时又得不断重写——现在不成立了。智能体几分钟就能把测试整理好。

测试对确保 AI 生成的代码真能干活也至关重要。代码要是没跑过,部署到生产环境纯靠运气。

测试还是帮智能体快速上手现有代码库的好工具。观察一下,当你问 Claude Code 这类工具关于现有功能时,它们很可能会去找相关的测试来读。

智能体本身就有测试倾向,但现有测试套件的存在几乎肯定会推动它测试自己的新改动。

每次我在现有项目里开新会话用智能体,都会先给个类似这样的提示:

code
First run the tests

对于 Python 项目,我设置了 pyproject.toml,可以这样提示:

code
First run the tests with uv

这个四字提示有几个作用:

  1. 告诉智能体有测试套件,逼它想办法跑测试。这几乎能确保智能体以后会跑测试,检查自己没搞坏东西。
  2. 大多数测试执行框架(Harness)会给智能体一个测试数量的粗略指示。这能作为项目规模和复杂度的参考,也暗示智能体想了解更多就该去搜测试本身。
  3. 让智能体进入测试思维。跑过测试后,它自然会在后面加上自己的测试。

类似 “用红绿 TDD”,“先跑测试”这个四字提示包含了大量已经内化在模型里的软件工程纪律。

本文编译自 First run the tests - Agentic Engineering Patterns,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论