资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 941 篇文章

GPT-5.4 设计技能、Claude Code 新功能与 Cursor Composer 2

本周 AI 编程新闻涵盖 Claude Code 的多项更新，包括计算机任务自动化、云端定时任务和频道集成。同时，GPT-5.4 在视觉设计方面表现提升，Cursor Composer 2 发布速度更快。社区还分享了安全审计提示和减少幻觉的文档指令。

指南AI Coding Daily·3月25日·3 分钟

AI 应用商店战争与智能体工程进展

AI 原生应用兴起挑战传统应用商店审核模式，引发‘反低质应用战争’。智能体工程（Agentic Engineering）进展集中在执行框架（Harness）、工具调用（Tool Use）集成和供应链安全。开源智能体平台和推理优化技术也在快速成熟。

深度Latent Space·3月25日·5 分钟

OpenAI 推出安全漏洞赏金计划

OpenAI 启动安全漏洞赏金计划，聚焦 AI 滥用和安全风险，涵盖智能体风险、专有信息泄露和平台完整性漏洞。计划通过 Bugcrowd 平台接受提交，与安全漏洞赏金计划互补。

指南OpenAI·3月25日·3 分钟

Claude Code 自动模式：AI 驱动的权限管理

Claude Code 新增自动模式，通过 Claude Sonnet 4.6 模型实时审查操作，提供默认安全规则和自定义选项。作者认为 AI 防护不可靠，更信任确定性沙箱。

指南Simon Willison·3月24日·3 分钟

Moda 用 Deep Agents 打造生产级 AI 设计智能体

Moda 平台通过多智能体架构（设计、研究、品牌工具包智能体）处理复杂的视觉设计任务。团队利用 Deep Agents 和 LangSmith 解决了视觉布局表示、动态上下文加载和成本控制等挑战，实现了类似 Cursor 的实时协作设计体验。

深度LangChain·3月24日·6 分钟

Ai2 开源视觉网页智能体 MolmoWeb

Ai2 推出开源视觉网页智能体 MolmoWeb，通过截图操作浏览器，在多项基准测试中超越部分开源模型。团队公开了完整的训练堆栈，包括 3 万条人类任务轨迹和合成数据，旨在为研究人员提供可复现的基础。

指南The New Stack·3月24日·3 分钟

WebAssembly 能解决 AI 智能体最危险的安全漏洞

WebAssembly 为 AI 智能体生成的代码提供卓越的隔离和沙箱环境，解决了容器和微虚拟机在安全性和效率上的不足。开源工具 Boxer 允许开发者将 Dockerfile 转换为 Wasm 分发，降低采用门槛。未来沙箱技术将扩展到同构计算，实现代码在浏览器、手机和云端的无缝运行。

深度The New Stack·3月24日·3 分钟

用 Copilot SDK 构建 GitHub Issue 智能分类工具

本文分享了如何将 GitHub Copilot SDK 集成到 React Native 应用中，构建一个名为 IssueCrush 的 Issue 智能分类工具。核心方案是服务端集成模式，解决了 SDK 依赖 Node.js 环境的问题，并详细介绍了生命周期管理、提示工程、响应处理和优雅降级等关键实现模式。

教程GitHub·3月24日·8 分钟

IBM 等向 CNCF 捐赠 Kubernetes LLM 推理框架

llm-d 是一个开源的 Kubernetes 原生框架，可将 LLM 推理作为分布式生产级工作负载运行。它通过解耦推理阶段、智能路由和缓存感知调度，提升了推理性能和可扩展性。该项目已捐赠给 CNCF，旨在标准化分布式推理的部署和管理。

深度The New Stack·3月24日·4 分钟

LiteLLM 1.82.8 包藏恶意凭证窃取器

LiteLLM v1.82.8 包在 PyPI 上被供应链攻击植入恶意代码，能窃取 SSH、AWS、Docker 等多种凭证。攻击源于 Trivy 安全扫描工具被黑，PyPI 已隔离该包。

深度Simon Willison·3月24日·2 分钟

Claude 在网络安全竞赛中接近人类水平

Claude 在多项网络安全竞赛中表现不俗，常位列前 25%，在简单任务上速度甚至超越人类。但它在 PlaidCTF 等高难度竞赛中未能解出任何题目，显示其能力边界。研究揭示了 AI 可能降低攻击门槛，需加强 AI 驱动的网络防御研究。

深度Anthropic·3月24日·5 分钟

LLM 配网络攻击工具包，可攻破企业级网络

研究表明，LLM 结合专用工具包能显著降低复杂网络攻击的门槛，同时也能自动化防御工作流。实验模拟了 Equifax 数据泄露等高保真场景，多数模型在工具辅助下取得进展。这凸显了加强 LLM 攻防能力研究的紧迫性。

深度Anthropic·3月24日·4 分钟

PwC 用 AI 智能体直接对接客户

PwC 推出 AI 智能体平台 PwC One，客户可自助提交问题，智能体自主执行任务，咨询师在后台审核输出。平台采用多 LLM 架构，内置合规框架，目前处于测试阶段，已用于财务分析、税务合规等场景。公司表示定价将反映洞察速度与结果质量，责任由专业团队承担。

深度The New Stack·3月24日·3 分钟

Cloudflare 发布 AI 智能体沙盒，启动快 100 倍

Cloudflare 的 Dynamic Workers 利用 V8 隔离机制，为 AI 智能体提供快速、安全的代码执行沙盒。它支持 TypeScript API 定义，比 OpenAPI 更简洁，并具备无限制的扩展能力和零延迟优势。

指南·3月24日·8 分钟

Claude Code 安全审计提示对比实测

作者在 Claude Code 中测试了五种不同的安全审计提示词（Skills/Prompts），对比了它们在发现 SQL 注入、XSS 等漏洞上的效果。实测发现，不同提示词在准确性、覆盖面和误报率上表现不一，选择合适的提示词对安全审计至关重要。

指南AI Coding Daily·3月24日·3 分钟

ServiceNow 发布语音智能体评估框架 EVA

EVA 框架通过模拟真实的多轮语音对话，首次联合评估语音智能体的任务准确性（EVA-A）和对话体验（EVA-E）。团队发布了包含 50 个航空场景的初始数据集，并发现系统在准确性和体验上普遍存在权衡。

深度Hugging Face·3月24日·4 分钟

四个开发者必知的提示工程模式

本文通过‘画一只猫’的比喻，阐述了提示工程的核心在于减少输出方差。介绍了系统指令的权重层级，并详细解析了少样本提示、思维链提示、角色提示和工具增强提示四大模式。最后强调评估和验证的重要性。

指南The New Stack·3月23日·4 分钟

LangSmith Fleet 的两种智能体授权模式

LangSmith Fleet 引入 Assistants 和 Claws 两种智能体授权类型，分别对应“代表用户”和“固定凭证”模式。文章通过入职代理、邮件代理等实例说明应用场景，并展望了未来更细粒度的内存权限管理。

指南LangChain·3月23日·3 分钟