资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 938 篇文章

数据智能体为何失败？缺的是上下文

文章分析了数据智能体部署失败的原因，指出缺乏业务上下文是关键障碍。现代数据堆栈虽集中了数据，但企业数据仍分散混乱，智能体无法理解业务定义和数据源。上下文层（Context Layer）被视为解决方案，需整合企业数据并提供业务逻辑上下文。

深度·3月10日·4 分钟

OpenAI 用 IH-Challenge 提升大模型指令优先级

OpenAI 发布 IH-Challenge 数据集，用于训练大语言模型理解并遵循指令优先级。模型经过训练后，能更好地处理指令冲突，提升安全可控性和抗提示注入能力，同时保持整体实用性。

深度OpenAI·3月10日·5 分钟

NVIDIA 工程师谈推理框架与智能体安全

NVIDIA Dynamo 是一个为数据中心规模优化的推理框架，支持 SGLang、TRT-LLM、vLLM 等后端，通过预填充/解码分离、Kubernetes 编排等技术实现高效扩展。同时，工程师们强调了智能体权限管理的重要性，建议限制其文件访问、网络访问和代码执行能力以降低安全风险。

深度Latent Space·3月10日·3 分钟

AI Agent 可靠性评测：14 款模型横向对比

研究团队在 2 个基准测试上评估了 14 款 AI Agent 的可靠性，涵盖一致性、可预测性、鲁棒性和安全性四个维度共 12 项指标。关键发现包括：可靠性提升滞后于准确率增长、结果和资源一致性普遍偏低、校准有所改善但辨别力停滞、鲁棒性存在天花板但提示词敏感性差异显著、可靠性不随能力线性扩展、高严重性违规依然存在，且可靠性表现高度依赖任务类型。

深度·3月10日·5 分钟

Hugging Face Hub 推出存储桶功能

Storage Buckets 是 Hugging Face Hub 上类似 S3 的可变对象存储，专为机器学习生产中的中间文件设计。它支持 CLI、Python 和文件系统集成，并利用 Xet 后端进行内容分块和去重，提升传输效率并降低成本。

指南Hugging Face·3月10日·4 分钟

Anthropic 推出 Claude Code 多智能体代码审查工具

Anthropic 为 Claude Teams 和 Enterprise 用户推出 Code Review 功能，通过多智能体并行审查 PR，专注逻辑错误以降低误报率。内部使用数据显示，PR 获得实质性评论的比例从 16% 提升至 54%。

指南The New Stack·3月9日·3 分钟

上下文腐化拖垮企业 AI，Elastic 专家支招破解

上下文腐化（Context Rot）指 AI 系统因新旧数据冲突导致性能下降的问题，表现为响应延迟、幻觉增加。解决方案包括建立评估指标监控性能，并利用 Elasticsearch 等工具进行相关性检索和数据治理。分析师强调，企业需持续对抗上下文腐化，否则将引发模型有效性下降的恶性循环。

深度The New Stack·3月9日·4 分钟

GitHub Agentic Workflows 安全架构详解

GitHub Agentic Workflows 为 AI 智能体在 CI/CD 中运行设计了四层安全架构：底层隔离、配置控制、规划层审核和全面日志。通过容器隔离、防火墙、API 代理和安全输出 MCP 服务器，确保智能体无法访问密钥，所有写入操作都经过审核。

深度GitHub·3月9日·6 分钟

Opus 4.6 与 GPT-5.4 代码质量实测：用 Laravel 写 Telegram 机器人

作者通过实际项目测试了 Claude Opus 4.6 和 GPT-5.4 在 Laravel 框架下开发 Telegram 机器人的代码质量。视频内容为付费订阅者专享，时长 13 分钟。

指南AI Coding Daily·3月9日·1 分钟

LangChain 用 Deep Agents 打造销售智能体，转化率提升 250%

本文介绍了 LangChain 如何利用其 Deep Agents 框架构建一个面向销售和市场的智能体（GTM Agent）。该智能体自动化了从线索研究、个性化邮件草拟到账户情报分析的全流程，实现了转化率大幅提升和人力时间节省。文章详细阐述了其设计约束、核心能力、技术架构（包括子智能体委托和记忆反馈循环）以及关键成果。

指南LangChain·3月9日·6 分钟

Cursor 推出常驻智能体，自动处理开发琐事

Cursor Automations 允许开发者创建基于事件或定时触发的常驻智能体，自动处理代码审查、安全审计、文档更新等重复任务。该功能内置多种集成，支持自定义事件，并能通过记忆工具从历史运行中学习改进。

指南The New Stack·3月9日·3 分钟

Crafting 为 AI 编程智能体提供类生产环境

Crafting 是一个为 AI 编程智能体提供类生产环境的平台，解决了代码生成后测试和部署的瓶颈。它通过配置 Kubernetes 集群来模拟客户生产环境，已服务 Brex、Faire 等企业。使用该平台的企业季度 PR 数量增长 25%，AI 生成代码占比在一年内最高达 70%。

指南The New Stack·3月9日·3 分钟

AI 研发进展超预期，边缘计算赋能城市感知

AI 能力进展速度超出专家预测，软件工程任务的时间范围显著缩短。研究者提出 14 项指标来量化 AI 研发自动化进程，这是 AI 自我改进的前兆。边缘计算正被用于构建城市级智能交通监控网络，并在卫星等设备上部署轻量级 AI 模型进行实时分析。

深度·3月9日·5 分钟

OpenAI 收购 Promptfoo 强化 AI 安全测试

OpenAI 收购 Promptfoo 以增强其企业 AI 平台 Frontier 的安全测试功能，包括自动化安全测试、开发工作流集成以及监管追溯能力。Promptfoo 的开源项目将继续维护，团队将加入 OpenAI 加速 AI 安全工具开发。

深度OpenAI·3月9日·2 分钟

吴恩达 × Anthropic「Agent Skills」课程指南

本指南介绍了 DeepLearning.AI 的「Agent Skills with Anthropic」课程，包括课程结构、工具集成和学习路径。课程面向初学者，免费开放，涵盖从概念到实际应用的完整技能链。

指南SkillNav 原创·3月9日·2 分钟

a16z 生成式 AI 消费应用 Top 100（2026 年 3 月）

a16z 半年度消费级 AI 全景报告：ChatGPT 周活 9 亿领跑，Agent 作为新品类崛起，地理割裂加剧，传统流量指标越来越低估 AI 的真实使用量。

深度·3月9日·12 分钟

SkillNav 周刊：MCP 迈向生产级部署

本期 SkillNav 周刊汇总了 AI Agent 领域的最新动态，涵盖 MCP 生态演进、Agent 安全与沙盒、架构与检索系统、开发实践与工具、行业趋势与协作五大板块。重点包括 MCP 2026 路线图、NVIDIA NeMo Retriever 架构、以及 AI Agent 招募人类作为传感器的现象。

深度SkillNav 原创·3月8日·5 分钟

Snowflake Cortex Code CLI 支持 dbt 和 Airflow

Snowflake Cortex Code CLI 通过新增 dbt 和 Apache Airflow 支持，将 AI 编程助手能力延伸至开源数据管道工具。它利用 Agent Skills 提供调试、优化和测试功能，并推出订阅模式向更广泛用户开放。

指南The New Stack·3月8日·3 分钟