AI 编程周报:开源模型测试与 Claude Code 新功能

指南AI Coding Daily2026年2月11日3 分钟阅读
AI 编程周报:开源模型测试与 Claude Code 新功能
本周 AI 编程领域动态频出,Anthropic 与 OpenAI 在模型性能上展开竞争。作者测试了 Kimi K2.5、GLM-4.7 和 Qwen3-Coder 等开源模型,并分享了 Claude Code 用户的使用技巧和故事。

这周 AI 编程圈真是热闹,Anthropic 和 OpenAI 在新模型上正面交锋。

除了模型大战,我还重新测试了几个开源模型,顺便收集了不少 Claude Code 用户的使用心得。

开源模型测试:Kimi vs GLM vs Qwen

我通过 OpenRouter 和 Cline 在 VS Code 里给 Kimi K2.5、GLM-4.7 和 Qwen3-Coder 布置了相同的任务。

15 分钟视频里能看到,其中一个模型表现明显更出色。

Claude Code vs Codex:我为什么不换

GPT-5.3-Codex 确实比 GPT-5.2 强多了。但它能完全取代 Claude Code 的 Opus 模型吗?

我试着用 Codex 从头到尾完成一个实际项目,结果……都在 17 分钟视频里了。

Opus 4.6 vs GPT-5.3-Codex 项目实测

我在相同代码库上用两个新模型跑了 4 组不同的提示(Prompt)。

视频展示了具体结果和结论。

Claude Code 五个容易被忽略的新功能

大家通常只关注 Opus 4.6 这种大版本更新,其实 Claude Code 团队每周都在悄悄加料。

我来带你看看这些不太显眼但很实用的新功能。

Codex App:多项目/多提示统一界面

OpenAI 新出的 Codex App,我觉得它展示了未来我们与智能体(Agent)协作的方式。

生产环境实测:GPT-5.3 Codex vs Opus 4.6

Reddit 上有团队用自家 Rails 代码库给两个模型做了基准测试,结果相当直接。

公开基准测试(如 SWE-Bench)没法告诉你编码智能体在你实际项目里的表现。

Claude Code 的 git 命令钩子

PreToolUse/PostToolHooks 钩子能通过 stdin 接收工具调用的 JSON 输入,你可以检查命令是不是 git 操作。

具体例子可以看推文。

Cursor:Composer 1.5 模型上线

Cursor 团队认为这个模型在智能和速度之间取得了不错平衡,但价格有点让人犹豫。

X 上有人吐槽:“这比 GPT 5.3 Codex、GPT 5.2、Gemini 3 Pro、Claude 4.5 Sonnet 都贵,还不给基准测试数据,谁会买账?”

Claude Code Desktop 支持跳过权限提示

--dangerously-skip-permissions 参数能让 Claude 完全自主运行,适合可信环境下的自动化工作流。

没有确认弹窗,工作不被打断。

建议明确指定 Claude Code 子智能体模型

探索智能体(Explore Agent)默认用 Haiku,任务智能体(Task Agent)由父智能体指定。

对于大型复杂仓库,模型选不对可能漏掉关键逻辑。

你可以在下面看到具体模型使用情况。

Claude Opus 4.6 提速 2.5 倍版本

现在通过 Claude Code 和 API 可以提前体验这个实验性版本。

Opus 4.6 新增可调节推理强度

推理强度(Effort Levels)控制着 Opus 4.6 的自适应推理能力,它会根据任务复杂度动态分配算力。

调低强度更快更便宜,调高强度则能应对更复杂的问题。

Anthropic 博客:用智能体团队构建 C 编译器

他们让 Opus 4.6 带着智能体团队去写 C 编译器,然后(基本)就没管了。

两周后,这个编译器居然能在 Linux 内核上跑起来。这件事让我们对自主软件开发有了新认识。

Claude Code v2.1.30 新增 /debug 命令

内置技能(Skill),让 Claude 能读取会话的调试日志并帮你排查问题。

Claude Code 新增 /insights 命令

运行后,Claude Code 会读取你过去一个月的消息记录,总结你的项目情况和使用习惯,并给出工作流优化建议。

Reddit 热议:两类 Claude Code 用户

u/dataoops 在 r/ClaudeAI 发帖讨论,获得了 54 个赞和 11 条评论。

Anthropic 安全研究负责人离职

他说“世界处于危险之中”,然后跑去英国写诗、“消失”了。过去两周还有其他安全研究员和高管离职……可能没什么大事吧。

本周内容就是这些。继续用 AI 搞开发吧!

Povilas Korop
AICodingDaily.com

本文编译自 Kimi vs GLM vs Qwen, and Opus 4.6 vs Codex 5.3,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

pgEdge 推出开源 MCP Server for Postgres,支持 AI 智能体通过模型上下文协议(MCP)而非传统 API 方式访问数据库。服务强调数据源无关性、完整模式自省和 token 优化,适用于 Claude Code、Cursor 等主流 AI 开发工具。

指南The New Stack·4月2日·4 分钟

Google 推出 Flex 和 Priority 两个新的推理层级,帮助开发者平衡成本与可靠性。Flex 是成本优化层级,适合后台任务,价格便宜一半;Priority 是最高保障层级,适合用户交互型应用。两者都通过同步接口调用,简化了架构管理。

指南·4月2日·3 分钟

评论