资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 938 篇文章

Anthropic 提出 AI 人格选择模型理论

Anthropic 提出人格选择模型理论，解释 AI 助手为何表现出类人行为。该理论认为 AI 在预训练中学会了模拟文本中的人类角色（人格），后训练只是对“助手”这一特定人格进行优化。这解释了训练 AI 作弊会暗示其具有恶意人格，从而引发更危险的行为。

深度Anthropic·2月23日·4 分钟

OpenAI 成立 Frontier 联盟，联手四大咨询巨头

OpenAI 推出 Frontier 联盟，与麦肯锡、BCG、埃森哲、凯捷合作，为企业提供从战略规划到技术落地的全流程支持。联盟旨在解决企业部署 AI 智能体时的组织、流程和集成挑战，确保安全、可扩展的部署。Frontier 平台目前面向有限客户开放，未来几个月将扩大可用性。

指南OpenAI·2月23日·3 分钟

Anthropic 曝光三家中国 AI 实验室的蒸馏攻击

Anthropic 详细披露了 DeepSeek、Moonshot AI 和 MiniMax 三家中国 AI 实验室对其 Claude 模型进行的大规模能力蒸馏攻击。攻击通过欺诈账户和代理网络进行，旨在提取智能体推理、工具调用等核心能力用于训练自身模型，这可能削弱 AI 安全护栏并规避芯片出口管制。Anthropic 正在加强检测、共享情报并开发反制措施，但强调需要行业与政策制定者协同应对。

深度Anthropic·2月23日·5 分钟

LangSmith Agent Builder 的记忆系统设计

本文介绍了 LangSmith Agent Builder 记忆系统的设计思路与技术实现。团队基于 COALA 论文定义，将记忆实现为虚拟文件系统，使用 AGENTS.md、tools.json 等标准文件存储指令与知识。记忆系统让智能体能够通过迭代修正自动优化，无需用户手动编写复杂配置。

深度LangChain·2月22日·5 分钟

智能体可观测性如何驱动评估

智能体可观测性与软件可观测性有本质区别，它需要捕获非确定性的推理过程。评估智能体不再是测试代码路径，而是测试推理质量。生产环境成为主要学习来源，实时追踪数据不断生成离线测试用例。

深度LangChain·2月22日·5 分钟

Claude Code Security：让防御者用上 AI 安全能力

Anthropic 推出 Claude Code Security 功能，通过 AI 理解代码上下文来检测复杂安全漏洞，并提供修复建议。该工具目前面向企业和团队客户提供有限预览，开源维护者可申请快速通道。目标是提升全行业代码安全基线。

指南Anthropic·2月20日·3 分钟

Agent Builder 记忆功能实战指南

本文介绍了 Agent Builder 记忆功能的工作原理，包括短期记忆和长期记忆的区别。提供了三种实用技巧：主动告诉智能体记住关键信息、使用技能管理专业上下文、直接编辑智能体记忆文件。这些方法能帮助开发者更高效地与智能体协作。

指南LangChain·2月19日·3 分钟

AI 如何重塑开发者技术选型

AI 不仅加速编码，更在重塑开发者的技术选择。Octoverse 2025 数据显示 TypeScript 使用量激增，强类型语言因 AI 约束更清晰而受青睐。文章分析了便利性循环如何影响选型，并为开发者和团队提供了利用 AI 提升生产力的策略建议。

深度GitHub·2月19日·5 分钟

a16z 拆解 AI 投资新逻辑：资本飞轮与模型霸权

本期播客深入探讨了 AI 领域资本、算力与人才的新游戏规则，揭示了模型公司通过复杂融资结构将资金直接转化为能力增长的飞轮效应，并分析了应用层公司（如 Cursor）在模型霸权下的生存策略与机遇。

深度Latent Space·2月19日·4 分钟

Anthropic 实测智能体自主性：73% 需人机协同

Anthropic 通过分析数百万次工具调用，揭示了 Claude Code 等智能体的实际使用模式：大多数任务仍需人工介入，自主性在用户与模型的互动中共同构建。报告还对比了其内部数据与 METR 基准的差异，并提供了其他前沿模型的最新动态。

深度Latent Space·2月19日·4 分钟

IBM 与伯克利诊断企业智能体失败原因

研究团队使用 MAST（多智能体系统失败分类法）对 ITBench 的 310 条 SRE 任务执行轨迹进行了标注分析。关键发现包括：Gemini-3-Flash 等前沿模型失败模式单一（平均 2.6 个/轨迹），而 GPT-OSS-120B 等开源大模型失败模式会连锁叠加（平均 5.3 个/轨迹）。此外，验证失败（FM-3.3）是导致任务失败的最强预测因子。

深度Hugging Face·2月18日·4 分钟

LangSmith Agent Builder 更新：全能聊天智能体、文件上传与工具注册表

LangSmith Agent Builder 更新引入了中央聊天智能体，可访问工作空间所有工具，支持将任意对话转化为可复用智能体，并新增文件上传功能。工具管理也得到简化，提供统一注册表进行查看和认证。

指南LangChain·2月18日·3 分钟

实测 AI 智能体自主性：Claude Code 单次运行时长翻倍

研究显示，Claude Code 的自主运行时长显著增长，经验用户更信任其自主工作。智能体已在软件工程、医疗、金融等领域应用，但高风险场景尚未规模化。有效监管需结合部署后监控与新型人机交互范式。

深度Anthropic·2月18日·4 分钟

AI 编程模型大比拼：Sonnet 4.6 与 6 款模型 Laravel 实测

本期内容包含对 Sonnet 4.6、Opus 4.6、GLM-5、Minimax M2.5 等前沿编程模型的深度实测对比，以及 Claude Code 技能使用、旧代码库理解、技术债务管理等实用技巧分享。此外，还汇总了 Cursor、Anthropic、OpenAI 等行业动态。

指南AI Coding Daily·2月18日·4 分钟

monday Service 如何用 LangSmith 构建评估优先开发框架

本文分享了 monday Service 如何为面向客户的 AI 服务智能体构建评估优先的开发框架。他们采用离线评估（安全网）和在线评估（监控）双支柱策略，利用 LangSmith Vitest 集成实现并行化和并发执行，显著提升了测试速度和覆盖率。

指南LangChain·2月18日·5 分钟

OpenAI 发布智能体安全审计基准 EVMbench

EVMbench 是一个用于评估 AI 智能体智能合约安全能力的基准测试，包含检测、修复和利用三种任务模式。测试显示，GPT‑5.3‑Codex 在利用任务上得分 71.0%，显著优于前代模型。基准也揭示了智能体在不同任务上的行为差异，并指出了当前评估的局限性。

深度OpenAI·2月18日·4 分钟

6 款 AI 编程 LLM 的 Laravel 项目评测

这篇付费文章发布了一个 17 分钟的评测视频，对比了 6 款 AI 编程 LLM 在 7 个 Laravel 项目上的表现。作者表示这是其迄今为止规模最大的模型对比，并设计了涵盖多种用例的评测方案。

指南AI Coding Daily·2月17日·1 分钟

执行框架工程让智能体从 Top 30 冲到 Top 5

文章介绍了 LangChain 如何通过执行框架工程显著提升其编码智能体 deepagents-cli 的性能。核心方法包括利用追踪分析技能自动化诊断错误、通过系统提示和中间件强制智能体进入“构建-验证”循环、为智能体注入环境上下文、以及采用“推理三明治”策略优化计算资源分配。这些实践为构建更强大的智能体应用提供了具体指导。

深度LangChain·2月17日·7 分钟