资讯
AI Agent Skills 生态的最新动态、教程和深度分析
找到 405 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
找到 405 篇文章
DeepMath 是一个轻量级数学推理智能体,结合了小型 Python 执行器与经过 GRPO 微调的 LLM。它旨在将确定性计算卸载到安全执行器中,并训练模型偏好简洁、面向计算的推理轨迹。评估表明,该智能体在减少输出长度的同时,通常能提高准确性。
SIMA 2 是 DeepMind 研发的下一代多世界智能体,核心整合了 Gemini 模型,具备复杂推理、多语言理解和自我改进能力。它在《ASKA》、《MineDojo》等未训练游戏中表现出色,并能适应由 Genie 3 生成的全新虚拟世界。
Together AI 推出了一套完整的语音 AI 栈,涵盖流式语音转文本、无服务器文本转语音和高质量转录模型。该架构针对生产级语音代理优化,实现了亚秒级延迟、高精度转录和可扩展性能,开发者可通过 API 快速集成。
MiniMax M2 智能体在复杂任务中表现出色,其成功源于对泛化问题的重新思考。团队强调,智能体需要具备交错思考能力,以应对长时任务和外部扰动;真正的泛化是关于整个操作空间的扰动适应,而不仅仅是工具扩展。
Collinear TraitMix 与 Together Evals 集成,通过模拟不同人格特征(如不耐烦、困惑)的多轮对话,自动评估智能体在真实场景下的表现,生成可用于再训练的高保真数据。
Gemini Robotics 1.5包含一个负责高级规划和推理的模型(Gemini Robotics-ER 1.5)和一个负责执行具体动作的模型(Gemini Robotics 1.5),两者协同工作以完成复杂的多步骤物理任务。新模型在多项基准测试中达到SOTA水平,并内置了安全考量。
CodeMender 结合 Gemini Deep Think 模型,通过高级程序分析和多智能体系统,自动生成高质量安全补丁。它不仅能修复漏洞,还能主动重写代码使用更安全的数据结构和 API。
OpenEnv Hub 旨在为智能体开发提供标准化环境,支持训练和部署。社区可通过 Hub 构建、分享和探索环境,并遵循 OpenEnv 0.1 规范。项目已集成 TRL、TorchForge 等工具,未来计划扩展兼容性。
CrewAI AMP 定位为智能体操作系统,提供快速构建、安全控制和跨组织扩展能力。平台支持代码或无代码构建,集成内存、安全护栏(Guardrails)和流程管理,已在金融、消费品和科技行业验证规模化应用。
文章展示了如何利用推测解码和深度剪枝技术,加速 Qwen3-8B 模型在 Intel® Core™ Ultra 平台上的推理性能。优化后的模型已集成到 🤗smolagents 库中,可用于构建高效的本地 AI 智能体。
本文介绍了 Smol2Operator 项目,通过两阶段训练将 SmolVLM2-2.2B-Instruct 模型从零基础培养成具备 GUI 感知和认知能力的智能体。第一阶段统一了异构数据集的动作空间,第二阶段则增强模型的推理能力。
Gaia2 是 GAIA 基准的升级版,专注于交互行为和复杂性管理,在模拟智能手机环境中评估智能体。配套的 ARE 框架提供结构化追踪和调试功能,支持自定义扩展。团队已用多个主流模型完成评测,结果显示时间敏感任务仍是当前最大挑战。
本文介绍了 Hugging Face 开发的 Jupyter Agent,这是一个能让 LLM 在 Jupyter Notebook 环境中执行代码的智能体。团队通过简化执行框架(Harness)和构建高质量训练数据管道,成功将 Qwen3-4B 模型在 DABStep 基准测试简单任务上的准确率从 44.4% 提升到 59.7%。
文章探讨了如何构建 AI 智能体来自动化复杂的工程工作流,如 LLM 推理优化。作者基于内部实践,总结了基础设施和行为两方面的六种关键模式,包括工具设计、文档编写、安全执行、并行会话管理、等待时间管理和进度监控。
PwC 选择 CrewAI 作为其 Agent OS 的基础层,以支持企业级智能体转型。CrewAI 提供简单入门、可靠结果和可扩展架构,现已集成到 PwC 的全球平台中,用于客户和内部工作流。
Qwen3-Coder 是目前最强大的智能体编程模型,在 Together AI 上提供零配置即时部署。它在 SWE-bench 等基准测试中达到前沿水平,擅长处理遗留系统现代化、跨系统功能开发和复杂调试等真实工程任务。
FutureBench通过新闻挖掘和预测市场整合生成预测问题,从框架、工具、模型三个层面系统评估智能体。初步结果显示,不同模型在信息收集和推理模式上存在显著差异,Claude 3.7倾向于详细爬取网页,而GPT-4.1更依赖搜索共识。
DeepSWE-Preview 是首个完全通过强化学习训练的开源代码智能体,基于 Qwen3-32B 模型,在 SWE-Bench-Verified 基准测试中表现优异。团队开源了完整数据集、代码和训练日志,推动智能体强化学习研究。