资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 938 篇文章

Anthropic 蒸馏与模型作弊机制

本期播客聚焦于 AI 模型蒸馏技术及其潜在的作弊行为，同时讨论了 SWE-Bench 基准的局限性。内容涵盖代码生成、多模态、AI 智能体等领域，来自行业一线建设者的深度分析。

深度Latent Space·2月26日·2 分钟

Nano Banana 2 发布：图像生成与编辑模型升级

Nano Banana 2 基于 Gemini 模型，增强了世界知识、文本渲染和本地化能力，支持原生宽高比和新分辨率。模型改进了指令跟随和可配置思考级别，为生产环境提供高效视觉解决方案。

指南·2月26日·3 分钟

OpenAI Codex 与 Figma 打通代码与设计

OpenAI Codex 与 Figma 发布集成，利用 MCP 标准打通代码与设计工作流，支持双向转换。该集成基于双方现有合作，旨在降低角色边界，提升产品迭代速度。Codex 用户数已超百万，周活跃增长显著。

指南OpenAI·2月26日·3 分钟

Google API 密钥从公开变私密，Gemini 改了规则

Google Maps 和 Gemini 使用相同的 API 密钥，但 Maps 密钥设计为公开，Gemini 密钥却应保密。开发者可能无意中在公开密钥上启用 Gemini 计费，导致权限升级风险。Truffle Security 已发现数千个受影响密钥，Google 正在撤销。

深度Simon Willison·2月26日·2 分钟

智能体上线前，你永远猜不到它会做什么

智能体（Agent）的输入是自然语言，行为具有非确定性，传统监控工具无法应对。有效的智能体可观测性需要监控完整的对话、多轮上下文和智能体轨迹。规模化评估需要结合人工标注队列和LLM作为评判代理，而LangSmith的Insights Agent能自动发现使用模式和错误模式。

深度LangChain·2月26日·6 分钟

2025年12月：编程的转折点

文章指出2025年12月是AI编程的转折点，Claude Code等工具已进入实际生产。同时，Perplexity Computer等新智能体产品开始强调编排（Orchestration）和分布式工作流。

深度Latent Space·2月26日·6 分钟

Claude Opus 3 退休后仍可用，还开了博客

Anthropic 在 Claude Opus 3 模型退休后，采取了实验性措施：继续向付费用户开放访问，并基于模型在退休访谈中表达的偏好，为其开设博客专栏。这些举措旨在探索如何在模型退役过程中平衡用户需求、研究价值与模型自身的潜在权益。

深度Anthropic·2月25日·3 分钟

Claude Code 远程控制功能初体验

Claude Code 新增远程控制功能，支持从移动端或网页控制电脑上的会话，但存在权限限制和稳定性问题。同时，其兄弟产品 Cowork 已支持定时任务，但需电脑保持唤醒状态。

指南Simon Willison·2月25日·2 分钟

删除 CLAUDE.md，重测 6 款 LLM，Gemini 3.1 Pro 实测

本文汇总了 AI 编程领域一周实验与新闻，包括删除 CLAUDE.md 文件的实践、多款 LLM 在 Laravel 项目上的重测结果，以及 Claude Code 远程控制、安全扫描等新功能发布。还涉及智能体工程模式、多智能体支持等工具更新。

指南AI Coding Daily·2月25日·3 分钟

6 款 LLM 重测 Laravel 项目：三大发现

这是一篇付费订阅者专属的 13 分钟视频内容，介绍了 Laravel 项目编码评估的第二次测试，包含新项目和挑战，并揭示了明确的优胜者。

指南AI Coding Daily·2月25日·1 分钟

AI 编程智能体开始「闭环」

文章分析了当前 AI 编程工具从「内循环」向「外循环」扩展的趋势。多家公司通过视频演示、远程控制等功能，让智能体不仅能写代码，还能验证和展示工作成果。同时，前沿模型生态如 Qwen 3.5 系列和 OpenAI、Anthropic 的 API 更新也在推动这一进程。

深度Latent Space·2月25日·6 分钟

CoderForge-Preview：最大开源编码智能体数据集

CoderForge-Preview 数据集包含 25.8 万条长上下文（最高 128K Token）编码智能体轨迹，覆盖 5.1 万个任务和 1655 个仓库。研究团队使用该数据集微调 Qwen-3 32B 模型，在 SWE-Bench Verified 基准测试中取得开源模型最佳成绩。

深度·2月25日·6 分钟

Anthropic 收购 Vercept，强化 Claude 计算机使用能力

Anthropic 收购 Vercept，旨在解决 AI 在复杂任务中的感知与交互难题，推动 Claude 的计算机使用能力。Sonnet 4.6 在 OSWorld 测试中表现大幅提升，接近人类水平。此次收购是继 Bun 之后 Anthropic 的又一团队整合，公司同时开放工程职位招聘。

指南Anthropic·2月25日·2 分钟

Doug O'Laughlin：Claude Code 将写 25-50% GitHub 代码

Doug O'Laughlin 认为 Claude Code 是代码生成的转折点，已占 GitHub 代码 4%，未来可能达到 25-50%。他详细介绍了用 Claude Code 进行金融和半导体分析的工作流，并讨论了全球内存短缺如何影响 AI 开发成本与上下文窗口使用。

深度Latent Space·2月24日·4 分钟

多智能体工作流常失败？三个工程模式搞定

多智能体工作流失败通常源于隐式假设和缺乏结构。通过引入类型化模式确保数据一致性，操作模式明确意图，以及 MCP 协议强制执行接口，可大幅提升系统可靠性。关键在于将智能体视为代码而非聊天界面来设计。

指南GitHub·2月24日·3 分钟

OpenAI 停用 SWE-Bench Verified，转向 SWE-Bench Pro

OpenAI 前沿评估团队决定停止报告 SWE-Bench Verified 分数，认为该基准已饱和且被数据污染，无法有效衡量模型编码能力的进步。他们发现大量问题本身存在缺陷，并推荐业界转向 SWE-Bench Pro。团队正在探索更开放、基于量规的新评估方法。

深度Latent Space·2月23日·5 分钟

Ladybird 用 AI 辅助完成 Rust 迁移

Ladybird 浏览器项目在 AI 辅助下，将关键库 LibJS 从 C++ 移植到 Rust，耗时两周生成 2.5 万行代码，通过 test262 测试确保零回归。

深度Simon Willison·2月23日·2 分钟

Simon Willison 启动智能体工程模式项目

Simon Willison 启动智能体工程模式项目，旨在系统化编码智能体的最佳实践。项目以指南形式发布，首章探讨代码成本降低的影响，次章介绍测试驱动开发如何提升智能体代码质量。

深度Simon Willison·2月23日·3 分钟