资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 938 篇文章

上下文窗口停滞两年，AI 内存短缺成瓶颈

文章分析了 AI 领域上下文窗口增长停滞的现象，指出硬件内存短缺是核心瓶颈。同时梳理了近期智能体基础设施、持久化内存、推理优化和模型后训练等方面的技术动态。

深度Latent Space·3月14日·5 分钟

给系统工程师的 LLM 推理基础设施指南

文章深入探讨了 LLM 推理基础设施的核心概念和性能优化技术，包括如何扩展服务、降低延迟以及提升硬件利用率。它不追求数学上的严谨，而是侧重于建立广泛的直觉理解。

指南·3月13日·2 分钟

NVIDIA NeMo Retriever 登顶 ViDoRe 榜单

NVIDIA 团队通过智能体检索流水线，结合 ReACT 架构和进程内单例检索器，实现了跨领域的高性能检索。该方案在 ViDoRe v3 和 BRIGHT 榜单表现优异，但存在延迟和成本较高的问题，未来将探索蒸馏到更小模型以降低成本。

深度Hugging Face·3月13日·5 分钟

NanoClaw 联手 Docker 沙箱隔离 AI 智能体

NanoClaw 作为 OpenClaw 的安全替代品，现与 Docker Sandboxes 集成，利用 MicroVM 提供强隔离环境。这种架构假设智能体可能恶意行为，通过容器和 MicroVM 双重边界限制损害范围，适合企业安全审查。

深度The New Stack·3月13日·3 分钟

智能体记忆架构：文件接口与数据库存储解耦

本文剖析了智能体记忆架构的实际演进：文件系统接口因其通用性和 token 效率受到青睐，尤其适合编码智能体；但底层存储普遍采用数据库以满足事务、扩展和治理需求。开发者应根据智能体类型和场景，独立选择接口与存储方案。

深度The New Stack·3月13日·6 分钟

SPEX 算法：在大模型中定位关键交互

SPEX和ProxySPEX算法通过稀疏恢复和层次性假设，高效识别大模型中的关键交互作用。该方法可应用于特征归因、数据归因和模型组件归因，在保持高保真度的同时，将所需消融实验数量减少一个数量级。

深度·3月13日·5 分钟

AI 智能体栈成熟，执行框架成关键

智能体基础设施正从模型竞赛转向执行框架（Harness）和工具栈的成熟。编码智能体评估进入多维度测量阶段，强调正确性、效率和真实任务适配。开源平台 Hermes Agent 和 MCP 协议正被整合进生产流程。

深度Latent Space·3月13日·5 分钟

NVIDIA 数据智能体登顶 DABStep 榜单

NVIDIA KGMON 团队介绍了其 Data Explorer 智能体架构，专为数据集探索和分析设计。该智能体在 DABStep 基准测试中排名第一，性能提升 30 倍。文章详细阐述了其支持开放式探索性数据分析和多步规则表格数据问答的双重应用，以及实现 SOTA 的三阶段方法。

深度Hugging Face·3月13日·5 分钟

Turbopuffer 创始人谈 RAG 后时代搜索

Turbopuffer 起源于帮助 Readwise 解决昂贵的向量搜索成本问题。创始人 Simon 认为，大模型需要连接外部系统来获取完整知识，而智能体工作流将导致搜索查询量激增。他分享了服务 Cursor、Notion 等客户的经验，并阐述了其“P99 工程师”的招聘哲学。

深度Latent Space·3月12日·3 分钟

企业部署 AI 智能体前，先建好沙盒

本文分析了企业部署 AI 智能体（Agent）时面临的风险，如失控、安全漏洞和不可逆操作。开源 API 公司 Naftiko 的联合创始人 Kin Lane 提出，应通过系统思维、契约测试和沙盒环境来管理和验证智能体行为。文中还介绍了开源工具 Microcks 如何帮助企业构建共享的模拟环境，加速开发并降低风险。

深度The New Stack·3月12日·6 分钟

SurePath AI 推出 MCP 策略控制，为 AI 工具调用上锁

SurePath AI 推出 MCP 策略控制服务，通过实时拦截违规工具、维护已知服务器目录、发现供应链威胁，解决 MCP 滥用带来的安全风险。该服务支持工具发现、黑白名单、只读控制等功能，旨在为 AI 工具调用提供企业级治理。

指南The New Stack·3月12日·3 分钟

Perplexity 发布 Agent API 等三款新 API

Perplexity 扩展其 API 平台，新增 Embeddings API、Agent API 和 Sandbox API，暴露 Perplexity Computer 的编排层。Agent API 作为智能体工作流的托管运行时，统一了检索、工具执行、推理和多模型回退。新 API 帮助开发者聚焦智能体能力，而非底层集成。

指南The New Stack·3月12日·3 分钟

Claude 新增交互式图表生成功能

Claude 现在可以按需生成交互式图表和可视化内容，作为对话的一部分。该功能处于 Beta 阶段，向所有用户开放，但生成时间可能长达半分钟，且模型在复杂主题上可能出现错误。Anthropic 此举与 OpenAI 和 Google 的类似功能形成竞争。

指南The New Stack·3月12日·3 分钟

Runpod 报告：Qwen 超越 Llama 成最常用自托管 LLM

Runpod 通过分析其平台上的匿名服务器部署日志，揭示 Qwen 超越 Llama 成为最常用的自托管 LLM。报告指出，AI 优化任务比内容生成更消耗 GPU 资源，ComfyUI 在图像生成领域占据主导地位。

深度The New Stack·3月12日·4 分钟

Replit Agent 4：知识工作智能体登场

Replit Agent 4 的发布揭示了 AI 开发平台向集成化知识工作套件演进的趋势。同期，英伟达 Nemotron 3 Super 模型凭借高效架构引发关注，而智能体编排层（Orchestration）和持久化运行时（Persistent Runtimes）正成为新的技术焦点。

深度Latent Space·3月12日·8 分钟

Anthropic 投 1 亿美元启动 Claude 合作伙伴网络

Anthropic 推出 Claude Partner Network，旨在通过合作伙伴网络帮助企业采用 Claude。该计划包含 1 亿美元投资，用于培训、技术支持和市场开发，并推出了首个 Claude 技术认证和代码现代化入门套件。

指南Anthropic·3月12日·3 分钟

Together AI 发布实时语音智能体统一方案

Together AI 发布了构建实时语音智能体的统一平台，通过同地部署 STT、LLM、TTS 基础设施，将端到端延迟降至 700 毫秒以下。平台原生支持 Deepgram 的 STT 和 Cartesia 的 TTS 模型，并提供单一 API、统一计费与部署界面，满足企业级安全合规要求。

指南·3月12日·3 分钟

OpenAI 发布智能体编排器 Symphony

Symphony 是 OpenAI 推出的智能体编排（Orchestration）框架，能自动监控任务队列并生成智能体完成开发工作，提供 CI 状态、PR 反馈等证明。它基于执行框架（Harness）工程理念，提供了两种部署方式。

指南·3月11日·2 分钟