资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
GPT-5.4 mini 在 SWE-bench Pro 基准测试中仅落后旗舰版 3 个百分点,运行速度却快两倍以上,API 成本也更低。nano 是 OpenAI 目前最便宜的模型,适用于高吞吐量工作。两者都旨在作为子智能体(Subagent)在智能体工作流中处理特定任务,而非单独使用。
WebMCP 通过 Chrome 扩展将网页转化为 MCP 服务器,让 AI 智能体直接与网页交互。文章介绍了其背景、人机协同场景,并提供了详细的 Chrome 预览版安装和测试步骤,包括启用实验性功能、安装调试工具和实际演示。
哈佛商学院研究发现,GitHub Copilot 显著改变了开发者的工作结构,编码时间增加,项目管理时间减少,但同行协作大幅下降。研究指出,AI 虽能提升效率,但也可能削弱开源社区赖以生存的人际协作网络,并建议企业不应因 AI 而减少初级开发者招聘。
文章介绍了 Virtue AI 新推出的 Agent ForgingGround 平台,用于在企业部署 AI 智能体前进行红队安全测试。该平台模拟真实企业环境,通过动态生成测试场景来发现提示注入、工具注入等漏洞。CEO 和工程师解释了平台如何集成到 CI/CD 流程,并支持主流智能体框架。
DeepMind 基于心理学、神经科学和认知科学的研究,提出了一个包含 10 项关键认知能力的分类法,用于评估 AI 系统的通用智能水平。为将理论付诸实践,他们启动了 Kaggle 黑客松,鼓励社区为其中五项能力设计评估任务,并提供 20 万美元奖金池。
LangSmith Sandboxes 提供安全、可扩展的隔离环境,解决智能体运行不可信代码的风险。支持自定义 Docker 镜像、持久会话和微虚拟机隔离,集成 LangSmith 平台和 Deep Agents 框架。
Open SWE 是一个开源框架,旨在帮助企业构建内部编程智能体。它总结了 Stripe、Ramp 和 Coinbase 等公司的生产部署经验,提供了隔离沙箱、精选工具集、子智能体编排等核心组件。框架基于 Deep Agents 构建,支持通过 Slack、Linear 和 GitHub 集成到现有工作流中。
本文是 Mistral AI 工程深度系列首篇,记录了团队排查 vLLM 内存泄漏的过程。泄漏仅出现在特定配置下,涉及预填充/解码分离架构和 NIXL 传输。初步使用 Python 内存分析工具无果,转而借助 Heaptrack 和 pmap 追踪系统级分配。
Featherless 推出托管版 OpenClaw,为开源 AI 智能体提供安全的沙箱运行时环境,并将 AI 模型成本打包进月费。报告显示,智能体工作流每次交互消耗的 Token 是标准聊天的 20-30 倍,托管服务旨在消除这种不可预测的财务风险。
Holotron-12B 采用混合 SSM 架构,显著提升了推理吞吐量和内存效率,在单 H100 GPU 上实现高达 8.9k tokens/s 的吞吐。模型在 WebVoyager 等智能体基准测试中表现优异,性能从 35.1% 提升至 80.5%。
子智能体通过分配新上下文窗口来执行特定任务,避免消耗主智能体的宝贵上下文容量。Claude Code 使用 Explore 子智能体探索代码库,并行子智能体可加速文件编辑,专家子智能体则专注于代码审查、测试或调试。
GPT-5.4 mini 在编码、推理和多模态任务上显著超越 GPT-5 mini,速度提升两倍以上,成本更低。nano 适用于分类、数据提取等简单任务。两款模型现已通过 API、Codex 和 ChatGPT 提供。
Codex 子智能体正式发布,支持默认子智能体和自定义智能体,可通过 TOML 文件配置。该模式已在多个编码智能体平台中广泛支持。
LangChain宣布与NVIDIA合作推出企业级智能体AI平台,整合双方技术栈。平台提供构建、加速、部署、监控、评估全流程工具,支持生产级AI智能体规模化部署。LangChain同时加入NVIDIA Nemotron联盟,共同推进前沿开放模型发展。
这篇讲义来自 NICAR 2026 研讨会,展示了如何用 Claude Code 和 OpenAI Codex 进行数据探索、清洗和可视化。工作坊使用 GitHub Codespaces 和 Python/SQLite,重点演示了让 Claude Code 直接编写交互式可视化代码的流程。
NemoClaw 本质上是企业级 OpenClaw 发行版,通过单命令安装提供安全版本。它整合了英伟达的 Nemotron 模型、Dynamo 推理引擎和新的开源安全运行时 OpenShell,为智能体添加策略执行层。
Cursor 安全团队基于 Cursor Automations 平台构建了四款安全智能体,用于代码审查、漏洞扫描、依赖更新和合规监控。这些智能体已处理数千次 PR,并开源了模板供其他团队自定义使用。
LangGraph CLI 新增 deploy 命令集,简化智能体部署流程。核心命令 langgraph deploy 支持一键部署到 LangSmith Deployment,并自动配置 Postgres、Redis 等基础设施。同时提供列表、日志、删除等管理功能。