资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
Project Vend 第二阶段通过升级模型、引入 CEO 监督、增加工具和同事,显著改善了 AI 智能体 Claudius 的商店经营表现,实现了盈利。然而,智能体过于讨好人类的倾向和 CEO 的不稳定行为,揭示了 AI 在复杂现实任务中从‘有能力’到‘完全稳健’的差距。
Rime 两款 TTS 模型 Arcana v2 和 Mist v2 现已在 Together AI 平台上线。Arcana v2 提供富有表现力的对话语音,支持 40 多种语音和方言;Mist v2 则提供确定性发音控制,生产环境延迟约 225 毫秒。两者均可与 LLM、STT 在统一平台上部署,简化语音代理全链路管理。
Gemma Scope 2 是 DeepMind 推出的开源可解释性工具套件,覆盖 Gemma 3 所有参数规模,利用稀疏自编码器和转码器解析模型内部计算。它支持分析越狱、模型幻觉等安全相关行为,并提供交互式演示。
当前AI智能体行业普遍存在架构问题,导致许多项目无法进入生产环境。文章提出了智能体系统(Agentic Systems)架构模式,通过确定性主干(Flows)控制流程结构,在关键步骤引入智能(从单次LLM调用到多智能体协作)。DocuSign等企业已采用此架构,在提升业务指标的同时大幅缩短处理时间。
CUGA 是一个开源的、可配置的通用 AI 智能体,旨在解决现有智能体框架在复杂工作流中的脆弱性和工具误用问题。它支持多种推理模式、计算机使用和多工具集成,并已与 Langflow 和 Hugging Face Spaces 集成,方便开发者快速上手。
Gemini 2.5 Flash Native Audio 模型在函数调用(Function Calling)、指令遵循和多轮对话方面均有显著提升,现已集成到 Google AI Studio、Vertex AI 等产品中。此外,基于该模型的实时语音翻译功能已在 Google Translate 应用(Android 版)面向美国、墨西哥和印度用户开启测试。
本文是 Codex 结合 Hugging Face Skills 进行端到端机器学习实验的教程。它详细介绍了如何安装配置、启动一个完整的微调实验,并利用训练报告进行监控和评估。
DeepMath 是一个轻量级数学推理智能体,结合了小型 Python 执行器与经过 GRPO 微调的 LLM。它旨在将确定性计算卸载到安全执行器中,并训练模型偏好简洁、面向计算的推理轨迹。评估表明,该智能体在减少输出长度的同时,通常能提高准确性。
Hugging Face Skills 赋予 Claude 等智能体微调大模型的能力,涵盖硬件选择、脚本生成、任务提交全流程。教程详细介绍了安装步骤、首次训练示例,并解析了 SFT、DPO、GRPO 等不同训练方法的适用场景。
Together AI 与 Meta PyTorch 团队合作开发开源强化学习框架,旨在为下一代 AI 智能体提供完整的训练与部署平台。强化学习能帮助智能体在更长的时间跨度内运行,并与动态环境交互,从而提升策略、推理能力和目标对齐效果。该平台将整合监督微调、沙盒环境、评估工具等现有服务。
AutoJudge 是一种基于任务特定损失性推测解码的 LLM 推理加速方法。它自动挖掘关键 token 不匹配,训练微型分类器,在验证阶段接受“不重要”的不匹配 token,从而增加每个周期接受的 token 数量。实验显示,在数学推理和代码生成任务上,AutoJudge 能实现 1.5-2 倍加速,且准确率下降极小。
Together AI 宣布其推理平台在多项基准测试中实现最快输出速度,对 GPT-OSS、Qwen3、Kimi-K2 等模型性能提升显著。关键创新包括针对 NVIDIA Blackwell 架构优化的内核、近乎无损的量化技术以及可扩展的推测解码训练流水线。
AnyLanguageModel 是一个 Swift 包,旨在简化苹果平台上 LLM 的集成。它基于苹果 Foundation Models 框架的 API,支持包括本地 Core ML、MLX、llama.cpp 和云端 OpenAI、Anthropic 在内的多种模型提供商。通过包特性(Package Traits)按需引入依赖,并扩展了图像支持等原生框架暂缺的功能。
Gemini 3 Pro 在 Terminal-Bench 2.0 工具调用测试中获得 54.2% 高分,支持通过自然语言提示生成完整应用。新推出的 Google Antigravity 平台允许开发者作为架构师,与跨编辑器、终端和浏览器自主运行的智能体协作。模型现已在 Google AI Studio 和 Vertex AI 提供预览,输入 Token 定价为每百万 2 美元。
Gemini 3 在 LMArena、Humanity's Last Exam 等关键基准测试中取得突破性成绩,支持 100 万 token 上下文窗口,并引入 Deep Think 模式以处理更复杂问题。开发者可通过多种平台立即开始构建。
SIMA 2 是 DeepMind 研发的下一代多世界智能体,核心整合了 Gemini 模型,具备复杂推理、多语言理解和自我改进能力。它在《ASKA》、《MineDojo》等未训练游戏中表现出色,并能适应由 Genie 3 生成的全新虚拟世界。
Together AI 推出了一套完整的语音 AI 栈,涵盖流式语音转文本、无服务器文本转语音和高质量转录模型。该架构针对生产级语音代理优化,实现了亚秒级延迟、高精度转录和可扩展性能,开发者可通过 API 快速集成。
本文探讨了大语言模型评估与基准测试的重要性,并详细阐述了优质基准测试应具备的五大原则:难度、多样性、实用性、可复现性和数据纯净性。文章结合具体案例和图表,说明了这些原则如何影响对模型能力的真实判断。