资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 581 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 581 篇文章
Qwen3-Coder 是目前最强大的智能体编程模型,在 Together AI 上提供零配置即时部署。它在 SWE-bench 等基准测试中达到前沿水平,擅长处理遗留系统现代化、跨系统功能开发和复杂调试等真实工程任务。
FutureBench通过新闻挖掘和预测市场整合生成预测问题,从框架、工具、模型三个层面系统评估智能体。初步结果显示,不同模型在信息收集和推理模式上存在显著差异,Claude 3.7倾向于详细爬取网页,而GPT-4.1更依赖搜索共识。
Together AI 宣布其推理服务在 NVIDIA Blackwell HGX B200 GPU 上实现了行业领先的性能,为 DeepSeek-R1-0528 模型提供了目前最快的无服务器推理速度。其优化堆栈包括定制的推理引擎、GPU 内核、Turbo 推测器和无损量化技术。
Together AI 平台现已提供月之暗面 Kimi K2 模型,这是一个拥有 1 万亿参数的开源前沿模型,在情感表达、创意写作、自主编码和工具调用方面表现优异。平台提供高可靠性、即时扩展和成本优化的部署方案。
DeepSWE-Preview 是首个完全通过强化学习训练的开源代码智能体,基于 Qwen3-32B 模型,在 SWE-Bench-Verified 基准测试中表现优异。团队开源了完整数据集、代码和训练日志,推动智能体强化学习研究。
文章阐述了构建可靠智能体系统的关键:从提示工程转向生产架构思维,强调可观测性、编排和渐进式扩展。CrewAI 的设计理念是让智能体拥有决策能力,同时用流程提供结构,确保系统稳定运行。
Gemini Robotics On-Device 是专为机器人设备本地运行优化的 VLA 模型,支持低延迟推理和快速任务适应。模型在多项测试中表现出色,并可通过 SDK 进行微调和跨机器人平台适配。谷歌采用负责任开发方法,并通过可信测试计划逐步开放访问。
谷歌宣布 Gemini 2.5 Flash 和 Pro 模型正式发布,可供生产环境使用。同时推出预览版 Gemini 2.5 Flash-Lite,在编码、数学、科学等基准测试上全面优于 2.0 Flash-Lite,且延迟更低。新模型已在 Google AI Studio 和 Vertex AI 上线。
Gemini 2.5 Pro 和 Flash 现已稳定可用,新增 Flash-Lite 预览版提供更低成本选项。Flash 模型价格调整,输入 token 涨价、输出 token 降价,并取消思考与非思考价格差异。Pro 模型需求增长最快,被 Cursor、GitHub 等顶级开发者工具采用。
本文介绍了如何使用 Together 的开源模型和代码解释器,从零构建一个数据科学家智能体。智能体遵循 ReAct 和 CodeAct 模式,通过安全沙箱执行 Python 代码,实现端到端的数据分析任务自动化。
Together AI 批量 API 针对大规模非实时 LLM 任务设计,成本降低 50%,支持 DeepSeek、Llama 等 15 款模型。开发者通过 JSONL 文件提交请求,24 小时内获取结果,不影响实时 API 额度。
Gemini 2.5 原生支持音频模态,实现低延迟、高表现力的实时对话,并可通过自然语言提示精确控制文本转语音的风格、情感和多语言输出。所有音频输出均嵌入 SynthID 水印以确保透明度。
Mixture-of-Agents Alignment(MoAA)是一种利用开源大语言模型集体智慧的后训练方法。它通过智能体混合生成高质量合成数据用于监督微调,并作为奖励模型进行直接偏好优化,让小模型达到接近大模型 10 倍的性能。
CrewAI 通过持续增加原生工具、扩展框架互操作性、支持平台集成、跟进最新模型以及加速发布节奏,旨在为智能体 AI 生态构建一个协作中心。文章详细介绍了其最新进展,包括新增的 Stagehand 浏览器自动化工具、对 LlamaIndex 和 LangChain 工具的支持,以及与 Comet Optik 等平台的集成。
CrewAI 企业版通过智能体仓库、CrewAI Studio v2 可视化工具和企业连接器,支持零代码构建智能体工作流。该平台还集成 CopilotKit,可一键生成交互式 Web 界面,帮助组织规模化部署智能体应用。
CrewAI 在发布周第二天展示了其向企业级智能体平台的演进。平台新增了 MCP 双向支持、私有工具仓库、可编程安全护栏、事件总线与 Webhook,以及面向检索增强生成(RAG)的智能体化功能。这些升级旨在让企业能规模化部署和管理复杂的智能体工作流。
Gemini 2.5 通过模型硬化增强内在安全性,降低间接提示注入攻击成功率。团队强调防御需多层结合,包括模型硬化、输入输出检查和系统护栏。安全是持续过程,需不断评估和改进。
Gemini 2.5 Pro 在 WebDev Arena 和 LMArena 等排行榜上取得领先,并新增实验性 Deep Think 模式以提升复杂数学和编码任务的推理能力。2.5 Flash 在多个基准测试中表现提升,同时 token 使用量减少 20-30%。模型家族新增了原生音频输出、计算机使用能力和更强的安全防护。开发者体验方面,引入了思维摘要、扩展了思考预算至 2.5 Pro,并在 Gemini API 和 SDK 中增加了对 MCP 工具的原生支持。