资讯

AI Agent Skills 生态的最新动态、教程和深度分析

找到 405 篇文章

DeepMath：轻量级数学推理智能体

DeepMath 是一个轻量级数学推理智能体，结合了小型 Python 执行器与经过 GRPO 微调的 LLM。它旨在将确定性计算卸载到安全执行器中，并训练模型偏好简洁、面向计算的推理轨迹。评估表明，该智能体在减少输出长度的同时，通常能提高准确性。

深度Hugging Face·12月4日·5 分钟

SIMA 2：能推理、自学习的3D游戏智能体

SIMA 2 是 DeepMind 研发的下一代多世界智能体，核心整合了 Gemini 模型，具备复杂推理、多语言理解和自我改进能力。它在《ASKA》、《MineDojo》等未训练游戏中表现出色，并能适应由 Genie 3 生成的全新虚拟世界。

深度·11月13日·5 分钟

Together AI 推出最快实时语音 AI 栈

Together AI 推出了一套完整的语音 AI 栈，涵盖流式语音转文本、无服务器文本转语音和高质量转录模型。该架构针对生产级语音代理优化，实现了亚秒级延迟、高精度转录和可扩展性能，开发者可通过 API 快速集成。

指南·11月4日·4 分钟

MiniMax M2：智能体泛化，不只是工具扩展

MiniMax M2 智能体在复杂任务中表现出色，其成功源于对泛化问题的重新思考。团队强调，智能体需要具备交错思考能力，以应对长时任务和外部扰动；真正的泛化是关于整个操作空间的扰动适应，而不仅仅是工具扩展。

深度Hugging Face·10月30日·4 分钟

Collinear TraitMix + Together Evals：动态测试 AI 智能体

Collinear TraitMix 与 Together Evals 集成，通过模拟不同人格特征（如不耐烦、困惑）的多轮对话，自动评估智能体在真实场景下的表现，生成可用于再训练的高保真数据。

指南·10月28日·3 分钟

Gemini Robotics 1.5：让AI智能体走进物理世界

Gemini Robotics 1.5包含一个负责高级规划和推理的模型（Gemini Robotics-ER 1.5）和一个负责执行具体动作的模型（Gemini Robotics 1.5），两者协同工作以完成复杂的多步骤物理任务。新模型在多项基准测试中达到SOTA水平，并内置了安全考量。

指南·10月23日·5 分钟

CodeMender：用 AI 修复代码漏洞

CodeMender 结合 Gemini Deep Think 模型，通过高级程序分析和多智能体系统，自动生成高质量安全补丁。它不仅能修复漏洞，还能主动重写代码使用更安全的数据结构和 API。

指南·10月23日·4 分钟

Meta 与 Hugging Face 联手推出 OpenEnv Hub

OpenEnv Hub 旨在为智能体开发提供标准化环境，支持训练和部署。社区可通过 Hub 构建、分享和探索环境，并遵循 OpenEnv 0.1 规范。项目已集成 TRL、TorchForge 等工具，未来计划扩展兼容性。

指南Hugging Face·10月23日·3 分钟

CrewAI AMP：首个智能体管理平台

CrewAI AMP 定位为智能体操作系统，提供快速构建、安全控制和跨组织扩展能力。平台支持代码或无代码构建，集成内存、安全护栏（Guardrails）和流程管理，已在金融、消费品和科技行业验证规模化应用。

指南CrewAI·10月2日·3 分钟

用深度剪枝草稿模型在 Intel® Core™ Ultra 加速 Qwen3-8B 智能体

文章展示了如何利用推测解码和深度剪枝技术，加速 Qwen3-8B 模型在 Intel® Core™ Ultra 平台上的推理性能。优化后的模型已集成到 🤗smolagents 库中，可用于构建高效的本地 AI 智能体。

指南Hugging Face·9月29日·4 分钟

Smol2Operator：训练 GUI 智能体操作电脑

本文介绍了 Smol2Operator 项目，通过两阶段训练将 SmolVLM2-2.2B-Instruct 模型从零基础培养成具备 GUI 感知和认知能力的智能体。第一阶段统一了异构数据集的动作空间，第二阶段则增强模型的推理能力。

教程Hugging Face·9月23日·6 分钟

Gaia2 与 ARE：开源智能体研究新框架

Gaia2 是 GAIA 基准的升级版，专注于交互行为和复杂性管理，在模拟智能手机环境中评估智能体。配套的 ARE 框架提供结构化追踪和调试功能，支持自定义扩展。团队已用多个主流模型完成评测，结果显示时间敏感任务仍是当前最大挑战。

深度Hugging Face·9月22日·5 分钟

Jupyter Agent：训练小模型做数据分析

本文介绍了 Hugging Face 开发的 Jupyter Agent，这是一个能让 LLM 在 Jupyter Notebook 环境中执行代码的智能体。团队通过简化执行框架（Harness）和构建高质量训练数据管道，成功将 Qwen3-4B 模型在 DABStep 基准测试简单任务上的准确率从 44.4% 提升到 59.7%。

深度Hugging Face·9月10日·5 分钟

Together AI 用 AI 智能体自动化复杂工程任务

文章探讨了如何构建 AI 智能体来自动化复杂的工程工作流，如 LLM 推理优化。作者基于内部实践，总结了基础设施和行为两方面的六种关键模式，包括工具设计、文档编写、安全执行、并行会话管理、等待时间管理和进度监控。

深度·8月21日·6 分钟

PwC 用 CrewAI 构建全球智能体操作系统

PwC 选择 CrewAI 作为其 Agent OS 的基础层，以支持企业级智能体转型。CrewAI 提供简单入门、可靠结果和可扩展架构，现已集成到 PwC 的全球平台中，用于客户和内部工作流。

指南CrewAI·7月30日·3 分钟

Qwen3-Coder：Together AI 上最强的智能体编程模型

Qwen3-Coder 是目前最强大的智能体编程模型，在 Together AI 上提供零配置即时部署。它在 SWE-bench 等基准测试中达到前沿水平，擅长处理遗留系统现代化、跨系统功能开发和复杂调试等真实工程任务。

指南·7月25日·3 分钟

FutureBench：用预测未来事件评估AI智能体

FutureBench通过新闻挖掘和预测市场整合生成预测问题，从框架、工具、模型三个层面系统评估智能体。初步结果显示，不同模型在信息收集和推理模式上存在显著差异，Claude 3.7倾向于详细爬取网页，而GPT-4.1更依赖搜索共识。

深度·7月17日·7 分钟

DeepSWE：纯强化学习训练开源代码智能体

DeepSWE-Preview 是首个完全通过强化学习训练的开源代码智能体，基于 Qwen3-32B 模型，在 SWE-Bench-Verified 基准测试中表现优异。团队开源了完整数据集、代码和训练日志，推动智能体强化学习研究。

深度·7月2日·5 分钟