资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
LangSmith 作为智能体工程平台,提供可观测性、评估、部署和智能体构建等功能,现深度集成 Google Cloud 服务。通过 Google Cloud Marketplace 采购可简化企业账单和采购流程。
本文介绍了基于 Gemini Deep Think 模式构建的数学研究智能体 Aletheia,它通过生成、验证、修订的迭代流程,在纯数学前沿研究中取得了多项进展。文章还提出了对 AI 辅助数学研究成果的分类标准,并分享了相关论文和代码。
一项 Google 研究揭示了 LLM 通过模拟多智能体“思维社会”来增强推理能力。另一方面,ChipBench 基准测试表明,现有 AI 模型在芯片设计、调试和参考模型生成等实际工业任务中,性能仍有很大提升空间。
作者对比了 GPT-5.3-Codex 与 Claude Code,发现 Codex 在项目理解、代码一致性和工具调用方面仍有不足。尽管 Codex 性能提升显著,但 Claude Code 在端到端开发工作流中更可靠。
研究通过近乎无约束的生成实验,揭示了不同 LLM 家族在无指令时的默认输出偏好。这些偏好稳定且可解释,为模型审计、行为监控和安全风险评估提供了新视角。
GPT-5 与自动化云实验室结合,通过闭环实验优化无细胞蛋白合成,将生产成本降低 40%。该系统在六轮实验中测试了 36,000 多种反应组合,发现了人类未测试过的低成本配方。研究展示了 AI 在湿实验室中加速科学迭代的潜力,但推广到其他蛋白质和系统仍需验证。
OpenAI 推出 Trusted Access for Cyber 试点项目,通过身份验证和信任框架,优先让防御者使用其最先进的 GPT-5.3-Codex 模型进行网络安全工作。同时,公司设立 1000 万美元的网络安全资助计划,支持漏洞发现和修复。
OpenAI Frontier 平台帮助企业构建、部署和管理 AI 智能体,解决智能体部署中的上下文隔离和治理难题。平台提供共享业务上下文、智能体执行环境、性能评估优化及企业级安全治理,支持与现有系统集成,无需重新平台化。
Claude Opus 4.6 在编码规划、长任务执行、代码审查和调试方面显著提升,支持 100 万 token 上下文窗口(测试版)。模型在 Terminal-Bench 2.0、Humanity's Last Exam 等多项评测中表现领先,安全性与行业前沿模型相当或更优。同时发布了智能体团队、上下文压缩、自适应思考等 API 功能,以及 Claude in PowerPoint 研究预览版。
GPT-5.3-Codex 是当前最强大的智能体编程模型,融合了编程性能与通用推理能力。它在生物学领域被评估为高能力,并首次在网络安全领域启动高能力防护框架,部署了多层安全护栏。
GPT-5.3-Codex 结合了 GPT-5.2-Codex 的顶尖编码能力和 GPT-5.2 的推理与专业知识,成为首个在软件开发、终端操作、计算机使用和专业知识任务上均表现卓越的通用智能体。它甚至被用于加速自身的训练和部署过程。模型在网络安全方面被分类为“高能力”,并配备了全面的安全护栏。
本文介绍了 Codex App Server 的演进历程、核心架构和 JSON-RPC 协议设计。它详细解释了执行框架(Harness)如何通过 App Server 暴露给客户端,并阐述了对话原语(Item、Turn、Thread)如何构建稳定的智能体交互流。
文章汇总了 2026 年 2 月 4 日的 AI 编程新闻,包括 Claude Code 的 10 个技巧、Opus 与 Sonnet 模型对比、Codex 应用发布,以及多项功能更新如多仓库支持、自定义快捷键等。
Anthropic 解释为何 Claude 不引入广告:广告会干扰用户信任,尤其在敏感对话和深度思考场景中不合适。公司选择通过企业订阅和付费模式盈利,同时推进教育合作和低价访问计划。
中国开源AI生态正从孤立模型突破转向可实际运行的系统链,模型成为可复用、可组合的工程组件。以“东数西算”为代表的算力布局和“AI+”行动计划,为大规模部署和深度集成提供了硬件基础和政策方向。
Xcode 26.3 将 Claude Agent SDK 原生集成到 IDE 中,让 Claude 能自主处理长期运行的复杂编码任务,如通过预览进行视觉验证、跨项目推理和基于目标的任务分解。该版本现已作为发布候选版向 Apple 开发者计划成员开放。
Snowflake 与 OpenAI 达成 2 亿美元合作协议,将 OpenAI 模型深度集成到 Snowflake 数据平台。企业客户可在 Snowflake 内使用 OpenAI 构建 AI 智能体和应用,通过自然语言查询分析数据,无需编写代码。合作旨在为企业提供安全、可治理的 AI 部署方案,加速 AI 创新。
Together Evaluations 新增了对 OpenAI、Anthropic、Google 等商业 API 模型的支持,实现了开源、微调与闭源模型的横向评测。平台提供了结构化评估框架,帮助团队通过数据选择最佳模型,并附带了微调开源评测模型超越 GPT-5.2 性能的实战案例。