S
SkillNav
返回资讯列表

一位 AI Agent 编程怀疑者亲测后:细到离谱的实战记录

资讯2026-02-27T20:43:41+00:003 分钟阅读

2026 年 2 月 27 日 - Link Blog

[一位 AI agent 编程怀疑者尝试 AI agent 编程(细节多到离谱)](https://minimaxir.com/2026/02/ai-agent-coding/)。这是又一篇“OK,编程 agent 在 11 月变强了”的类型文章,作者是 Max Woolf,非常值得一读。他描述了一系列使用编程 agent 的项目,难度一个比一个高——从简单的 YouTube 元数据抓取器起步,最终演进到下面这个级别:

> 想把 Python 的 [scikit-learn](https://scikit-learn.org/stable/)——数据科学和机器学习库的黄金标准——完整移植到 Rust,并覆盖它所代表的全部功能,这想法确实有点自大。 > > 但说真的,这其实是个好主意,所以我还是决定试一试。在 agents 的帮助下,我现在正在开发 rustlearn(一个非常占位符风格的名字),这是一个 Rust crate,不仅实现了诸如[逻辑回归](https://en.wikipedia.org/wiki/Logistic_regression)和[k-means 聚类](https://en.wikipedia.org/wiki/K-means_clustering)这类标准机器学习算法的高性能版本,还包含了上述算法的高性能实现:我前面提到的同一套三步流水线,即使用在更简单的算法上,也依然能跑通,并且能超过 scikit-learn 的实现。

Max 还准确写出了一个常见挫败感:你很难向原本持怀疑态度的人解释,这些模型现在到底有多强:

> Opus 4.6/Codex 5.3 最让人烦的一点在于:你几乎不可能在公开场合说出“Opus 4.5(以及后续模型)比仅仅几个月前发布的编程 LLM 强了一个数量级”这句话,而不被听成是在制造 AI 炒作式标题党。但这恰恰是让我个人很挫败、也很反直觉的事实。我一直在尝试给这个该死的模型塞复杂任务,想把它难住——那些任务即使以我的编程背景,自己做也要花上几个月——可 Opus 和 Codex 却总能把它们正确完成。

文中一句看似随口的评论还启发了我去[让 Claude Code 构建一个 Rust 词云 CLI 工具](https://github.com/simonw/research/tree/main/rust-wordcloud#readme),而它也确实顺利完成了。

原文链接:https://simonwillison.net/2026/Feb/27/ai-agent-coding-in-excessive-detail/#atom-everything

相关文章

资讯
2026-03-03T23:59:04+00:001 分钟
引用 Donald Knuth:Claude Opus 4.6 解出其研究数周的开放问题

Donald Knuth 表示,他最近在研究的一道开放问题,已被 Anthropic 的混合推理模型 Claude Opus 4.6 解出。该模型在三周前发布,这一结果促使 Knuth 重新审视自己对生成式 AI 的看法。他认为,这不仅验证了自己猜想的优美解法,也体现了自动推理与创造性解题能力的显著进展。

资讯
2026-03-03T21:53:54+00:001 分钟
Gemini 3.1 Flash-Lite

原文仅包含标题“Gemini 3.1 Flash-Lite”,未提供正文内容或摘要信息。当前可确认的信息只有该主题名称,无法进一步提炼关键细节。若补充完整文章,我可继续提供完整中文翻译与更准确分类。