资讯

AI Agent Skills 生态的最新动态、教程和深度分析

找到 17 篇文章

GitHub Copilot 如何优化上下文与模型路由

GitHub Copilot 通过提示缓存和工具搜索减少重复上下文，Auto 功能基于任务意图和模型健康状态动态选择最佳模型。HyDRA 路由器在质量和成本间取得平衡，支持多语言，且跨会话保持缓存连续性。

指南GitHub·6月17日·9 分钟

AWS Context：为AI代理构建“细节数据湖”

AWS Context 自动构建企业知识图谱，为 AI 代理提供运行时上下文。它基于 Amazon Quick 技术，支持身份感知访问和连续学习，帮助代理做出更准确的决策。

深度The New Stack·6月17日·8 分钟

OpenAI WebRTC 音频对话工具升级，支持文档上下文

Simon Willison 升级了他的 OpenAI WebRTC 音频会话工具，支持最新的 GPT-Realtime-2 模型和文档上下文功能。用户可以在浏览器中粘贴文本，让语音对话围绕指定内容进行。

指南Simon Willison·6月12日·2 分钟

Jedify 获 2400 万美元，为 AI 智能体构建业务上下文

Jedify 通过 API 连接数据库、SaaS 工具、非结构化数据等，构建多维上下文图，供 AI 智能体使用。本轮融资由 Norwest 领投，Snowflake 作为战略投资者参与。公司已有 10-20 家早期客户，包括 Kiteworks 和 The Weather Company。

深度·6月10日·4 分钟

IBM 发布 Granite Embedding R2：97M 模型多语言检索刷新纪录

Granite Embedding Multilingual R2 系列采用 ModernBERT 架构，支持 32K 上下文和 200+ 语言，其中 97M 模型以 60.3 分成为多语言检索最优的小参数模型，311M 模型得分 65.2，均较前代大幅提升。模型兼容主流框架，提供 ONNX/OpenVINO 部署选项。

深度Hugging Face·5月14日·8 分钟

DeepSeek-V4 百万 token 上下文：推理系统如何应对

DeepSeek-V4 通过压缩稀疏注意力（CSA）、重度压缩注意力（HCA）和滑动窗口注意力（SWA）三种缓存布局，将百万 token 上下文的 KV 缓存压力降低了数个量级。但实际收益取决于推理引擎如何管理混合缓存、制定前缀缓存策略，以及针对长上下文和短上下文工作负载选择不同的端点配置。

深度·5月8日·12 分钟

Airbyte 发布 Context Store，解决 AI 代理数据混乱问题

Airbyte 发布 Airbyte Agents，核心是 Context Store，预索引企业数据供 AI 代理查询，减少 API 调用次数和 Token 消耗。支持通过 MCP 服务器或 Agent SDK 访问，提供 50 个初始连接器。同时推出 Automations 可视化工作流构建器（研究预览版）。

深度The New Stack·5月5日·5 分钟

NVIDIA Nemotron 3 Nano Omni：多模态长上下文模型，文、音、视全能

Nemotron 3 Nano Omni 是 NVIDIA 最新的全模态模型，采用混合 Mamba-Transformer MoE 架构，支持动态分辨率图像处理和 Conv3D 视频压缩，在文档、音频、视频等基准测试中取得领先成绩。

深度Hugging Face·4月28日·6 分钟

DeepSeek-V4 百万 token 上下文，专为 Agent 打造

DeepSeek-V4 发布了两款 MoE 模型，拥有百万 token 上下文窗口，通过 CSA/HCA 混合注意力机制大幅降低长序列推理成本和内存占用。论文还介绍了针对 Agent 的思考保留机制、专用工具调用格式以及 RL 训练沙箱 DSec，使 Agent 基准测试成绩达到前沿闭源模型水平。

深度Hugging Face·4月24日·9 分钟

AWS Bedrock 如何塑造 Model Context Protocol

AWS Bedrock 团队的 Luca Chang 在 MCP 峰会上讨论了 MCP 的发展。MCP 已成为连接 AI 模型与工具数据的行业标准。亚马逊的贡献源于将云产品映射到协议时发现的不足，从而回馈社区。

深度The New Stack·4月22日·2 分钟

Llama-3-70B 分治策略击败 GPT-4o 长文本处理

ICLR 2026 论文提出分治框架，通过拆分长文档、并行处理来应对模型噪声（Model Noise）、任务噪声（Task Noise）和聚合噪声（Aggregator Noise）。实验显示，小模型在该框架下性能稳定，成本更低、速度更快，但高跨块依赖任务仍需要单次处理。

深度·3月26日·4 分钟

上下文窗口停滞两年，AI 内存短缺成瓶颈

文章分析了 AI 领域上下文窗口增长停滞的现象，指出硬件内存短缺是核心瓶颈。同时梳理了近期智能体基础设施、持久化内存、推理优化和模型后训练等方面的技术动态。

深度Latent Space·3月14日·5 分钟

Deep Agents 新增自主上下文压缩工具

LangChain 为 Deep Agents 添加了自主上下文压缩功能，模型可自行判断何时压缩历史对话。该工具通过中间件实现，已在 CLI 中默认启用，SDK 中需手动配置。测试显示模型使用保守，但能有效提升长对话效率。

指南LangChain·3月11日·4 分钟

数据智能体为何失败？缺的是上下文

文章分析了数据智能体部署失败的原因，指出缺乏业务上下文是关键障碍。现代数据堆栈虽集中了数据，但企业数据仍分散混乱，智能体无法理解业务定义和数据源。上下文层（Context Layer）被视为解决方案，需整合企业数据并提供业务逻辑上下文。

深度·3月10日·4 分钟

上下文腐化拖垮企业 AI，Elastic 专家支招破解

上下文腐化（Context Rot）指 AI 系统因新旧数据冲突导致性能下降的问题，表现为响应延迟、幻觉增加。解决方案包括建立评估指标监控性能，并利用 Elasticsearch 等工具进行相关性检索和数据治理。分析师强调，企业需持续对抗上下文腐化，否则将引发模型有效性下降的恶性循环。

深度The New Stack·3月9日·4 分钟

Together AI 推出 CPD 架构，长上下文推理提速 40%

Together AI 的 CPD 架构通过引入缓存感知路由和共享 KV 缓存层级，将冷请求（全新上下文）和热请求（可复用上下文）的预填充计算分离。这种设计防止了计算密集的冷请求阻塞共享资源，使得热请求能快速复用缓存，从而在混合负载下将可持续 QPS 提升 35-40%，并保持更优的尾部延迟。

深度·3月4日·6 分钟

Dylan Patel 谈 2000 亿 AI 资本支出与芯片战争

AI 基础设施资本支出正以每年近 2000 亿美元的规模爆炸式增长，这可能侵蚀科技巨头的利润。编码智能体（如 Claude Code）的采用率正在急剧上升，预示着巨大的生产力变革。地缘政治、芯片供应链瓶颈和能源限制是 AI 发展的关键制约因素。

深度Latent Space·2月28日·4 分钟