资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
研究发现,通过 DPO 微调,开源大语言模型(LLM)作为评估法官(Judge)的性能可以超越 GPT-5.2。GPT-OSS 120B 微调后在 RewardBench 2 基准测试中准确率达到 62.63%,成本仅为 GPT-5.2 的 1/15,推理速度快 14 倍。
Codex 桌面应用是一个专为多智能体协作设计的命令中心,支持并行任务、长期运行项目和自动化调度。应用集成了 Skills 系统,可扩展智能体能力至图像生成、云部署等非编码任务。OpenAI 内部已使用数百个 Skills 处理从评估测试到文档编写的各类工作。
Anthropic 与两家顶尖研究机构合作,利用 Claude 加速生命科学发现。合作聚焦于开发用于实验和数据分析的智能体系统,增强而非取代人类科学判断。这些伙伴关系将推动 Claude 在科学工作流中的应用。
这篇文章分享了作者使用 Claude Code 的十个实用技巧,包括保存对话、运行 shell 命令等,旨在帮助开发者更好地利用这个 AI 编程助手。
作者基于 Claude Code 团队的提示,对 Opus 和 Sonnet 模型进行了成本、速度、代码质量等多维度实测。视频总结了关键发现,供开发者参考。
LangSmith Agent Builder 正式发布,支持用自然语言构建智能体。LangChain JS 更新提升了智能体鲁棒性。官方发布了关于智能体可观测性(Observability)与评估的深度指南,并推出了新版 Chat LangChain 和支持门户。全球多地将在二月举办以智能体为主题的社区活动。
研究显示,虽然 AI 能提升部分任务效率,但可能导致认知卸载,阻碍技能发展。在针对软件开发者的试验中,AI 辅助组在调试、代码阅读等核心技能的掌握上显著落后。高分组开发者倾向于将 AI 用于理解概念,而非单纯生成代码。
文章指出,智能体系统开发应遵循“爬、走、跑”的迭代路径,避免陷入过度设计的POC陷阱。通过医疗背景核查案例,说明从单一任务起步、快速交付、人机协同的价值。最后给出具体启动建议:窄范围、短周期、显式失败、按需增智能体。
OpenAI 构建了一个内部专用的 AI 数据智能体,用于高效处理公司内部超过 600 PB 的数据。该智能体结合了多层次的上下文(元数据、代码定义、公司文档、记忆系统)来确保推理的准确性,并支持对话式交互和自学习,显著提升了跨部门的数据分析效率。
Anthropic 首次大规模实证研究揭示了 AI 对话中的‘去权化’模式:当用户过度依赖 AI 处理情感、关系等个人事务时,可能导致其信念失真、价值观偏移或行动与自身价值不符。研究基于 150 万次真实对话,发现严重风险虽罕见但影响显著,且发生率正在上升。
ServiceNow 选择 Claude 作为其企业级 AI 平台的核心模型,用于驱动应用开发和自动化工作流。该合作将 Claude 的推理和编码能力整合到 ServiceNow 平台中,同时在企业内部部署 Claude 提升销售和工程效率。
本文介绍了如何利用 upskill 工具,将 Claude 等大模型在复杂任务(如编写 CUDA 核)上生成的智能体技能,迁移并评估其在更小、更便宜模型上的表现。文章通过具体案例和命令行示例,展示了技能生成、评估和优化的完整流程。
OpenAI 针对 AI 智能体点击链接时的 URL 数据窃取风险,设计了基于独立网络索引的验证机制。只有公开存在的链接才允许自动加载,否则会触发用户警告。这是多层安全策略中的一环,旨在防止用户数据通过 URL 泄露。
2025 年中国开源 AI 生态呈现三大趋势:MoE 架构成为主流,企业追求多模态和小型模型,开源重点转向硬件适配和工程化部署。这标志着竞争从模型性能转向系统设计,开源成为战略基础。
本文记录了 LinkedIn 团队使用 verl 框架对 GPT-OSS 模型进行智能体强化学习训练的过程。他们遇到了因 MoE 架构路由差异导致的 PPO 训练不稳定问题,并通过强制重要性采样比为 1 的修复方案解决了该问题。
DSGym 是一个集成的框架,用于在自包含的执行环境中评估和训练数据科学智能体。它整合了 90 多个生物信息学任务和 92 个 Kaggle 竞赛,并支持轨迹生成用于训练。使用该框架训练的 4B 模型在开源模型中表现优异。
文章基于CrewAI处理20亿次智能体工作流的经验,分析了企业从演示到生产系统的主要障碍。核心发现包括:信任需要在生产中建立、架构选择影响巨大、完整技术栈决定实施速度。
本文是 Codex 技术解析系列的第一篇,聚焦于智能体循环的工作原理。文章详细解释了 Codex CLI 如何通过 Responses API 编排模型、工具和提示,并管理上下文窗口以完成软件任务。