资讯
AI Agent Skills 生态的最新动态、教程和深度分析
找到 170 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
找到 170 篇文章
本文探讨了如何让 AI 编程助手进行手动测试,包括使用 python -c、curl 等命令行工具,以及通过 Playwright、Rodney 等工具自动化测试 Web UI。作者还介绍了 Showboat 工具,用于记录测试过程并生成文档。
Cursor 通过收购 Autotab 等技术,推出了具备完整计算机使用能力的云智能体。其三大支柱是:智能体自主测试代码、生成变更演示视频、以及提供对虚拟机的完全远程控制。这代表了从‘代码补全’到‘智能体驱动’工作流的根本性转变。
文章剖析了传统智能体记忆系统的问题,介绍了 CrewAI 新推出的认知记忆系统。该系统将记忆视为主动的认知过程,包含编码、巩固、回忆、提取、遗忘五大操作,并详细解释了其背后的编码流和回忆流两个智能体系统的工作原理。最后展示了该系统如何解锁人机协同学习、研究系统积累、多智能体团队共享理解等新能力。
本文探讨了使用 AI 编码智能体(如 Claude Code)进行‘净室实现’式代码重写的法律与伦理问题,以 chardet 库的许可证争议为例。维护者通过 AI 工具重写代码并更换许可证,但原作者认为这侵犯了 LGPL 协议。文章分析了双方论点,并指出这将是开源和商业领域面临的普遍挑战。
Box CEO Aaron Levie 在访谈中指出,智能体将比人类数量多一个数量级,企业必须构建基础设施来管理其数据访问、权限和安全。未来的工作模式将围绕如何让智能体高效运行而改变,而非相反。
LangChain 二月更新涵盖 LangSmith 平台功能增强、开源项目 deepagents 沙箱支持,以及智能体生产监控的深度指南。团队还预告了五月 Interrupt 2026 大会,并列出全球多场社区活动。
文章记录了作者从 AI 智能体编程怀疑者到实践者的转变,通过一系列渐进项目展示了智能体在复杂编码任务中的能力。他最终尝试用智能体将 Python 的 scikit-learn 库移植到 Rust,并指出最新模型相比几个月前的版本有质的飞跃。
状态运行时环境解决了智能体在生产环境中运行多步骤工作流的挑战,如状态管理、工具调用和错误处理。它运行在 AWS 环境中,提供持久编排和内存,支持客户支持、销售运营等复杂解决方案。运行时即将在 Amazon Bedrock 上线,可通过 OpenAI 团队联系获取更多信息。
GitHub Copilot 智能编码助手新增模型选择器,可按任务需求选用不同模型;引入自检功能,在提交 PR 前自动优化代码;内置安全扫描,实时检测漏洞和敏感信息;支持创建自定义智能体,固化团队工作流程;新增 CLI 切换,云端和本地工作无缝衔接。
智能体(Agent)的输入是自然语言,行为具有非确定性,传统监控工具无法应对。有效的智能体可观测性需要监控完整的对话、多轮上下文和智能体轨迹。规模化评估需要结合人工标注队列和LLM作为评判代理,而LangSmith的Insights Agent能自动发现使用模式和错误模式。
CoderForge-Preview 数据集包含 25.8 万条长上下文(最高 128K Token)编码智能体轨迹,覆盖 5.1 万个任务和 1655 个仓库。研究团队使用该数据集微调 Qwen-3 32B 模型,在 SWE-Bench Verified 基准测试中取得开源模型最佳成绩。
多智能体工作流失败通常源于隐式假设和缺乏结构。通过引入类型化模式确保数据一致性,操作模式明确意图,以及 MCP 协议强制执行接口,可大幅提升系统可靠性。关键在于将智能体视为代码而非聊天界面来设计。
Simon Willison 启动智能体工程模式项目,旨在系统化编码智能体的最佳实践。项目以指南形式发布,首章探讨代码成本降低的影响,次章介绍测试驱动开发如何提升智能体代码质量。
本文介绍了 LangSmith Agent Builder 记忆系统的设计思路与技术实现。团队基于 COALA 论文定义,将记忆实现为虚拟文件系统,使用 AGENTS.md、tools.json 等标准文件存储指令与知识。记忆系统让智能体能够通过迭代修正自动优化,无需用户手动编写复杂配置。
智能体可观测性与软件可观测性有本质区别,它需要捕获非确定性的推理过程。评估智能体不再是测试代码路径,而是测试推理质量。生产环境成为主要学习来源,实时追踪数据不断生成离线测试用例。
本文介绍了 Agent Builder 记忆功能的工作原理,包括短期记忆和长期记忆的区别。提供了三种实用技巧:主动告诉智能体记住关键信息、使用技能管理专业上下文、直接编辑智能体记忆文件。这些方法能帮助开发者更高效地与智能体协作。
Anthropic 通过分析数百万次工具调用,揭示了 Claude Code 等智能体的实际使用模式:大多数任务仍需人工介入,自主性在用户与模型的互动中共同构建。报告还对比了其内部数据与 METR 基准的差异,并提供了其他前沿模型的最新动态。
研究团队使用 MAST(多智能体系统失败分类法)对 ITBench 的 310 条 SRE 任务执行轨迹进行了标注分析。关键发现包括:Gemini-3-Flash 等前沿模型失败模式单一(平均 2.6 个/轨迹),而 GPT-OSS-120B 等开源大模型失败模式会连锁叠加(平均 5.3 个/轨迹)。此外,验证失败(FM-3.3)是导致任务失败的最强预测因子。