资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
本文是智能体评估实操指南的第一部分,重点讲解评估前的准备工作、如何选择合适的评估层级(单步、完整轮次、多轮次),以及构建高质量评估数据集的具体方法。强调从手动分析真实失败案例入手,确保评估能准确反映智能体能力。
GitHub 更新了其数据使用政策,允许使用个人用户的 Copilot 交互数据训练 AI 模型,并可能与微软等关联公司共享。用户需手动选择退出,而企业用户数据默认被排除在外。此举在开发者社区引发了关于隐私和公平性的讨论。
pgvector 基准测试常因数据规模和维度不匹配而误导。成功团队会在实际工作负载上测试,精心选择并调优索引,并利用 SQL 过滤实现混合检索。将 pgvector 视为严肃的 Postgres 工作负载来管理,才能发挥其最大价值。
Stripe 推出 Projects.dev CLI,可一键配置 PostHog 等服务。Ramp、Sendblue 等多家公司同日也发布了 CLI。文章指出,CLI 正成为智能体基础设施的重要交互方式,并回顾了 Google、Mistral AI 等公司近期的模型发布。
Callum McMahon 在发现 LiteLLM 恶意软件攻击后,使用 Claude 帮助确认漏洞并制定应对策略。他通过对话记录展示了攻击细节和报告过程,并使用了 Simon Willison 的工具来发布这些记录。
Kensho 利用 LangGraph 构建了 Grounding 多智能体框架,统一访问标普全球的金融数据。框架通过路由器将查询分发至专业数据检索智能体,确保高信任度和合规性。关键经验包括可观测性、多阶段评估和协议优化。
Gemini 3.1 Flash Live 是 Google 最新的音频模型,提升了精度和降低延迟,使语音交互更流畅自然。它在多个基准测试中领先,支持开发者构建能处理复杂任务的语音智能体,并为全球用户提供更快的多语言响应。所有生成音频均带有水印以帮助防止虚假信息传播。
文章介绍了 LangChain 团队如何通过数据收集、指标定义和实验运行来构建 Deep Agents 的评估体系。核心观点是评估应聚焦于生产环境中的关键行为,并通过分类、追踪和效率指标来持续改进智能体。
本文介绍了智能体执行框架的核心循环,并重点阐述了如何通过 Agent Middleware 对其进行定制。中间件提供了六个关键钩子,支持 PII 检测、动态工具选择、上下文摘要等常见需求。Deep Agent 案例展示了中间件在生产环境中的实际应用,作者认为中间件是解耦业务逻辑与核心代码的优雅抽象。
这项研究展示了大语言模型(LLM)在去匿名化攻击中的强大能力。通过提取身份特征、语义嵌入搜索和候选推理验证的三步流水线,LLM 能高效匹配跨平台匿名用户。实验结果证明,依赖‘实际隐匿性’的在线隐私威胁模型已不再安全。
Claude Cowork Dispatch 的计算机使用功能正式推出,成为 Claude 历史上反响最热烈的一次发布。数据显示其热度远超以往,这得益于对 Vercept 的收购整合。
ICLR 2026 论文提出分治框架,通过拆分长文档、并行处理来应对模型噪声(Model Noise)、任务噪声(Task Noise)和聚合噪声(Aggregator Noise)。实验显示,小模型在该框架下性能稳定,成本更低、速度更快,但高跨块依赖任务仍需要单次处理。
datasette-llm 0.1a1 是 Datasette 的 LLM 集成插件,为其他插件提供模型调用能力。它允许配置不同用途的模型,例如数据增强用 GPT-5.4-nano,SQL 查询辅助用 Sonnet 4.6。新功能支持插件注册用途,便于统一管理和分配模型。
GitHub 更新 Copilot 数据使用政策,将利用用户交互数据提升模型性能,用户可随时在设置中退出。此举借鉴了微软内部数据的成功经验,旨在为开发者提供更智能的代码助手。
LiteLLM 两个版本(1.82.7 和 1.82.8)在 PyPI 上被植入恶意代码,46 分钟内被下载近 4.7 万次。依赖分析显示,绝大多数相关包未锁定版本,暴露了供应链安全风险。
LangSmith Fleet 新增共享 Skills 功能,帮助智能体获取公司专业知识。Skills 包含特定任务的指令和领域知识,可通过多种方式创建并在团队中共享,还能通过 CLI 下载到本地开发环境。
Lyria 3 系列模型提供专业级音乐生成能力,支持歌词时间轴和图像转音乐。开发者可通过 Gemini API 集成,或在 AI Studio 的文本/作曲模式下快速实验。所有生成音频均包含 SynthID 数字水印。
HPE 推出企业级多域智能体运维系统,通过基于技能的 AI 智能体(Agent)辅助而非取代人工操作员,将根因分析时间缩短至少 50%。该系统强调人机协同(Human-in-the-Loop)、可审计性和透明推理,旨在应对运维团队面临的告警疲劳、人员短缺和系统复杂性挑战。