资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
OpenAI 新增 100 美元/月 Pro 计划,为 Codex 编码工具提供比 20 美元 Plus 计划高 5 倍的容量。公司明确表示此举意在挑战 Anthropic 的 Claude 定价,并透露 Codex 周活用户已达 300 万,过去三个月增长 5 倍。
OpenAI 发布 100 美元/月的 ChatGPT Pro 套餐,为 Codex 用户提供 5 倍于 Plus 的用量,并开放 Pro 模型和深度研究功能。此举旨在吸引因 Claude Code 用量限制而受限的开发者,OpenAI 声称 Codex 在单位美元内提供更多编码容量。
Claude Cowork 正式版发布,新增企业级功能如基于角色的访问控制和 MCP 工具权限管理。该工具旨在为非开发人员提供任务自动化能力,目前主要用户来自工程团队之外的运营、市场、财务和法律部门。
AWS Agent Registry 是一个模型和框架无关的智能体注册服务,支持自动收集元数据并提供治理功能。它面临来自微软、谷歌及开源项目的竞争,但强调跨平台覆盖以应对智能体泛滥问题。
Deep Agents Deploy 是一个开源、模型无关的智能体部署工具,通过 `deepagents deploy` 命令一键部署生产级智能体。它基于开放标准构建,支持多种模型和沙箱,并与 Claude Managed Agents 形成对比,强调内存所有权和避免供应商锁定。
本文探讨了在 AI 智能体开发中融入人机协同(Human-in-the-Loop)的关键方法。通过一个交易员 Copilot 的实例,文章分析了工作流设计、工具设计和上下文工程如何受益于领域专家的输入,并介绍了基于自动化评估的快速迭代改进循环。
开源社区正因 AI 生成的 PR 泛滥而承受巨大压力,导致维护者不堪重负。企业团队同样面临代码生成与验证速度不匹配的结构性问题,需将验证环节前置到开发流程中,避免陷入危机。
本文介绍了如何使用 Sentence Transformers 库的多模态新功能,包括加载模型、编码图像、计算跨模态相似度、使用重排模型进行混合模态文档排序,以及实现检索-重排工作流。
Poke 是一款通过短信、iMessage 等平台访问的 AI 智能体,可处理日程、健康跟踪、智能家居控制等日常任务。它无需安装应用,使用灵活定价,并支持用户创建和分享自动化“配方”。
Better-Harness 将评估数据视为智能体的训练数据,通过诊断、实验、验证和人工审核的闭环,自动优化执行框架。系统使用优化集和保留集防止过拟合,并利用生产轨迹生成评估案例,形成持续改进的飞轮。
Claude Managed Agents 允许企业通过自然语言或 YAML 文件定义智能体,在 Anthropic 平台上运行,无需自行构建沙箱执行、检查点、凭证管理等基础设施。服务提供安全护栏(Guardrails)、治理工具和 MCP 连接器,按会话小时和 token 使用量计费,部分高级功能如多智能体编排仍处于研究预览阶段。
ALTK-Evolve 解决了 AI 智能体只会重读历史记录而无法真正学习的问题,它将原始交互轨迹转化为可移植的策略指南。系统通过观察、提取、提炼和检索的循环,帮助智能体在复杂任务中表现更可靠、更一致。
OpenAI 总结企业 AI 进入新阶段,核心是部署全公司范围的智能体(Agent)系统,通过 Frontier 平台和统一 AI 超级应用提升效率。企业需求从实验转向实际工作流整合,合作伙伴生态加速部署。
文章介绍了一家 BPO 公司如何利用 CrewAI 的多智能体平台,自动化诊断并修复 AWS CloudFront 的头部转发和 CSRF 令牌错误。通过五个专长智能体的协同工作,实现了从几天手动排错到 15 分钟自动修复的转变,提升了部署效率和系统可靠性。
Anthropic 限制其最新模型 Claude Mythos 的访问,仅提供给 Project Glasswing 的合作伙伴,理由是其在网络安全漏洞发现方面能力过强。该模型已发现数千个高危漏洞,包括各大操作系统和浏览器中的问题。多位安全专家证实,AI 在漏洞研究方面已取得质的飞跃,引发行业关注。
Claude Mythos Preview 展现出卓越的网络安全能力,能自主发现并利用零日漏洞,包括复杂的内存安全漏洞和跨多个漏洞的利用链。其漏洞利用成功率相比前代模型 Opus 4.6 有显著提升,从近 0% 提升到数百次成功。团队认为这是网络安全领域的转折点,并启动了 Project Glasswing 来帮助防御者提前加固关键系统。
Claude Mythos 预览版作为通用前沿模型,目前仅通过 Project Glasswing 提供给约 50 家组织用于防御性安全工作。Anthropic 已用其发现数千个零日漏洞,包括一个存在 27 年的 OpenBSD 漏洞。公司计划未来向用户发布 Mythos 级模型,并为参与者提供 1 亿美元使用额度。
OpenAI Frontier 团队通过执行框架(Harness)工程,在五个月内构建了超过 100 万行代码的内部产品,全程无人工编写代码。团队将工作重心从直接编码转向构建系统、可观测性和上下文,让智能体自主审查、修复和合并代码。实验表明,当人类成为瓶颈时,通过优化工作流和工具,智能体可以成为高效、自主的“工程队友”。