AI 编程周报:开源模型测试与 Claude Code 新功能

这周 AI 编程圈真是热闹,Anthropic 和 OpenAI 在新模型上正面交锋。
除了模型大战,我还重新测试了几个开源模型,顺便收集了不少 Claude Code 用户的使用心得。
开源模型测试:Kimi vs GLM vs Qwen
我通过 OpenRouter 和 Cline 在 VS Code 里给 Kimi K2.5、GLM-4.7 和 Qwen3-Coder 布置了相同的任务。
15 分钟视频里能看到,其中一个模型表现明显更出色。
Claude Code vs Codex:我为什么不换
GPT-5.3-Codex 确实比 GPT-5.2 强多了。但它能完全取代 Claude Code 的 Opus 模型吗?
我试着用 Codex 从头到尾完成一个实际项目,结果……都在 17 分钟视频里了。
Opus 4.6 vs GPT-5.3-Codex 项目实测
我在相同代码库上用两个新模型跑了 4 组不同的提示(Prompt)。
视频展示了具体结果和结论。
Claude Code 五个容易被忽略的新功能
大家通常只关注 Opus 4.6 这种大版本更新,其实 Claude Code 团队每周都在悄悄加料。
我来带你看看这些不太显眼但很实用的新功能。
Codex App:多项目/多提示统一界面
OpenAI 新出的 Codex App,我觉得它展示了未来我们与智能体(Agent)协作的方式。
生产环境实测:GPT-5.3 Codex vs Opus 4.6
Reddit 上有团队用自家 Rails 代码库给两个模型做了基准测试,结果相当直接。
公开基准测试(如 SWE-Bench)没法告诉你编码智能体在你实际项目里的表现。
Claude Code 的 git 命令钩子
PreToolUse/PostToolHooks 钩子能通过 stdin 接收工具调用的 JSON 输入,你可以检查命令是不是 git 操作。
具体例子可以看推文。
Cursor:Composer 1.5 模型上线
Cursor 团队认为这个模型在智能和速度之间取得了不错平衡,但价格有点让人犹豫。
X 上有人吐槽:“这比 GPT 5.3 Codex、GPT 5.2、Gemini 3 Pro、Claude 4.5 Sonnet 都贵,还不给基准测试数据,谁会买账?”
Claude Code Desktop 支持跳过权限提示
--dangerously-skip-permissions 参数能让 Claude 完全自主运行,适合可信环境下的自动化工作流。
没有确认弹窗,工作不被打断。
建议明确指定 Claude Code 子智能体模型
探索智能体(Explore Agent)默认用 Haiku,任务智能体(Task Agent)由父智能体指定。
对于大型复杂仓库,模型选不对可能漏掉关键逻辑。
你可以在下面看到具体模型使用情况。
Claude Opus 4.6 提速 2.5 倍版本
现在通过 Claude Code 和 API 可以提前体验这个实验性版本。
Opus 4.6 新增可调节推理强度
推理强度(Effort Levels)控制着 Opus 4.6 的自适应推理能力,它会根据任务复杂度动态分配算力。
调低强度更快更便宜,调高强度则能应对更复杂的问题。
Anthropic 博客:用智能体团队构建 C 编译器
他们让 Opus 4.6 带着智能体团队去写 C 编译器,然后(基本)就没管了。
两周后,这个编译器居然能在 Linux 内核上跑起来。这件事让我们对自主软件开发有了新认识。
Claude Code v2.1.30 新增 /debug 命令
内置技能(Skill),让 Claude 能读取会话的调试日志并帮你排查问题。
Claude Code 新增 /insights 命令
运行后,Claude Code 会读取你过去一个月的消息记录,总结你的项目情况和使用习惯,并给出工作流优化建议。
Reddit 热议:两类 Claude Code 用户
u/dataoops 在 r/ClaudeAI 发帖讨论,获得了 54 个赞和 11 条评论。
Anthropic 安全研究负责人离职
他说“世界处于危险之中”,然后跑去英国写诗、“消失”了。过去两周还有其他安全研究员和高管离职……可能没什么大事吧。
本周内容就是这些。继续用 AI 搞开发吧!
Povilas Korop
AICodingDaily.com
觉得有用?分享给更多人