资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
本文介绍了一种不依赖时序差分(TD)学习的强化学习新算法。该算法基于“分而治之”范式,通过递归分割轨迹来更新价值函数,有效解决了长序列任务中的误差累积问题。在OGBench基准测试中,该算法在复杂任务上超越了传统方法。
MiniMax M2 智能体在复杂任务中表现出色,其成功源于对泛化问题的重新思考。团队强调,智能体需要具备交错思考能力,以应对长时任务和外部扰动;真正的泛化是关于整个操作空间的扰动适应,而不仅仅是工具扩展。
gpt-oss-safeguard 模型通过后训练从 gpt-oss 模型衍生而来,专注于基于策略推理的内容标注任务。报告评估了其安全性能,并与基础模型进行对比。更多关于 gpt-oss 模型架构的信息,可参考原始模型卡片。
Collinear TraitMix 与 Together Evals 集成,通过模拟不同人格特征(如不耐烦、困惑)的多轮对话,自动评估智能体在真实场景下的表现,生成可用于再训练的高保真数据。
T5Gemma 是一系列基于 Gemma 2 框架的编码器-解码器大语言模型,通过模型适应技术构建。它在质量与推理效率的权衡上表现出色,在 GSM8K 和 DROP 等任务上超越原版模型。谷歌已发布多个预训练和指令调优的检查点供社区使用。
Gemma 3n 采用移动优先架构,通过 MatFormer、Per-Layer Embeddings 和 KV Cache Sharing 等技术实现高效推理。模型支持 140 种语言文本和 35 种语言多模态理解,并集成了新的音频编码器和 MobileNet-V5 视觉编码器。开发者可通过 Hugging Face、Ollama 等工具立即开始构建。
Gemini 2.5 Flash-Lite 现已稳定发布,成为 Gemini 2.5 家族中最快、成本最低的模型。它支持 100 万 token 上下文窗口,具备多模态能力,并在多个基准测试中表现优于前代。文章还列举了 Satlyt、HeyGen 等公司的实际应用案例。
Genie 3 是世界模型领域的重要进展,实现了实时交互和环境一致性。它能模拟物理属性、自然世界、动画虚构及历史场景,为具身智能体研究提供丰富训练环境。目前模型仍存在动作空间有限、交互时长受限等挑战,正以研究预览形式开放给部分学者和创作者。
Gemini Robotics 1.5包含一个负责高级规划和推理的模型(Gemini Robotics-ER 1.5)和一个负责执行具体动作的模型(Gemini Robotics 1.5),两者协同工作以完成复杂的多步骤物理任务。新模型在多项基准测试中达到SOTA水平,并内置了安全考量。
CodeMender 结合 Gemini Deep Think 模型,通过高级程序分析和多智能体系统,自动生成高质量安全补丁。它不仅能修复漏洞,还能主动重写代码使用更安全的数据结构和 API。
Kaggle Game Arena 是一个新的开源 AI 评测平台,通过让模型在策略游戏(如国际象棋)中对抗来评估其智能水平。游戏环境能避免传统基准测试的答案记忆和分数饱和问题,提供更动态、可验证的性能指标。平台采用全循环赛制确保结果统计稳健,并计划未来扩展至围棋、扑克等更多游戏。
Gemma 3 270M 是一个专为任务特定微调设计的紧凑模型,在 IFEval 基准测试中表现出色,支持 INT4 量化以降低部署成本。它适用于高吞吐量任务、对延迟和成本敏感的场景,以及需要快速迭代或保护用户隐私的应用。
VaultGemma是基于Gemma 2架构、完全使用差分隐私预训练的开源10亿参数大模型。研究团队通过建立新的缩放定律,量化了模型大小、批次大小与隐私噪声之间的权衡关系,为高效训练隐私保护模型提供了路线图。
Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专为智能体与用户界面交互设计。它通过新的 computer_use 工具在 API 中暴露能力,支持点击、输入等操作,并在安全方面内置了防护措施。模型现已开放预览。
OpenEnv Hub 旨在为智能体开发提供标准化环境,支持训练和部署。社区可通过 Hub 构建、分享和探索环境,并遵循 OpenEnv 0.1 规范。项目已集成 TRL、TorchForge 等工具,未来计划扩展兼容性。
Together AI 通过与 Runware 合作,整合了 40 多款图像和视频生成模型,覆盖从 Sora 2 到 Veo 3.0 等多种选择。平台提供统一的 API、认证和计费,旨在简化多模态应用开发流程,并支持游戏、广告、教育等实际生产场景。
CrewAI 开源框架发布 1.0 正式版,已累计执行 14 亿次智能体自动化任务,服务 60% 的财富 500 强企业。新版本增强了复杂系统支持、提供了稳定的 API、原生免费追踪功能以及统一的 CLI。
ATLAS 是首个运行时自学习的推测解码系统,通过静态与自适应推测器协同工作,在 DeepSeek-V3.1 上达到 500 TPS。系统能根据实时流量动态调整,特别适合代码编辑、RL 训练等场景,性能随使用持续优化。