资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 583 篇文章

LangSmith 登陆 Google Cloud Marketplace

LangSmith 作为智能体工程平台，提供可观测性、评估、部署和智能体构建等功能，现深度集成 Google Cloud 服务。通过 Google Cloud Marketplace 采购可简化企业账单和采购流程。

指南LangChain·2月10日·4 分钟

Gemini Deep Think 如何加速数学与科学发现

本文介绍了基于 Gemini Deep Think 模式构建的数学研究智能体 Aletheia，它通过生成、验证、修订的迭代流程，在纯数学前沿研究中取得了多项进展。文章还提出了对 AI 辅助数学研究成果的分类标准，并分享了相关论文和代码。

深度·2月9日·5 分钟

LLM 模拟多智能体社会，芯片设计 AI 表现不佳

一项 Google 研究揭示了 LLM 通过模拟多智能体“思维社会”来增强推理能力。另一方面，ChipBench 基准测试表明，现有 AI 模型在芯片设计、调试和参考模型生成等实际工业任务中，性能仍有很大提升空间。

深度·2月9日·5 分钟

Codex 虽强，我仍坚守 Claude Code 的三大理由

作者对比了 GPT-5.3-Codex 与 Claude Code，发现 Codex 在项目理解、代码一致性和工具调用方面仍有不足。尽管 Codex 性能提升显著，但 Claude Code 在端到端开发工作流中更可靠。

深度AI Coding Daily·2月8日·2 分钟

LLM 的默认偏好：GPT 爱写代码，Llama 爱讲故事

研究通过近乎无约束的生成实验，揭示了不同 LLM 家族在无指令时的默认输出偏好。这些偏好稳定且可解释，为模型审计、行为监控和安全风险评估提供了新视角。

深度·2月6日·5 分钟

GPT-5 将无细胞蛋白合成成本降低 40%

GPT-5 与自动化云实验室结合，通过闭环实验优化无细胞蛋白合成，将生产成本降低 40%。该系统在六轮实验中测试了 36,000 多种反应组合，发现了人类未测试过的低成本配方。研究展示了 AI 在湿实验室中加速科学迭代的潜力，但推广到其他蛋白质和系统仍需验证。

深度OpenAI·2月5日·5 分钟

OpenAI 推出网络安全可信访问框架

OpenAI 推出 Trusted Access for Cyber 试点项目，通过身份验证和信任框架，优先让防御者使用其最先进的 GPT-5.3-Codex 模型进行网络安全工作。同时，公司设立 1000 万美元的网络安全资助计划，支持漏洞发现和修复。

指南OpenAI·2月5日·3 分钟

OpenAI Frontier：企业级智能体平台

OpenAI Frontier 平台帮助企业构建、部署和管理 AI 智能体，解决智能体部署中的上下文隔离和治理难题。平台提供共享业务上下文、智能体执行环境、性能评估优化及企业级安全治理，支持与现有系统集成，无需重新平台化。

指南OpenAI·2月5日·4 分钟

Claude Opus 4.6 发布：智能体编程与工作流全面升级

Claude Opus 4.6 在编码规划、长任务执行、代码审查和调试方面显著提升，支持 100 万 token 上下文窗口（测试版）。模型在 Terminal-Bench 2.0、Humanity's Last Exam 等多项评测中表现领先，安全性与行业前沿模型相当或更优。同时发布了智能体团队、上下文压缩、自适应思考等 API 功能，以及 Claude in PowerPoint 研究预览版。

指南Anthropic·2月5日·3 分钟

GPT-5.3-Codex：迄今最强的智能体编程模型

GPT-5.3-Codex 是当前最强大的智能体编程模型，融合了编程性能与通用推理能力。它在生物学领域被评估为高能力，并首次在网络安全领域启动高能力防护框架，部署了多层安全护栏。

指南OpenAI·2月5日·2 分钟

GPT-5.3-Codex：首个能自我开发的编码智能体

GPT-5.3-Codex 结合了 GPT-5.2-Codex 的顶尖编码能力和 GPT-5.2 的推理与专业知识，成为首个在软件开发、终端操作、计算机使用和专业知识任务上均表现卓越的通用智能体。它甚至被用于加速自身的训练和部署过程。模型在网络安全方面被分类为“高能力”，并配备了全面的安全护栏。

指南OpenAI·2月5日·6 分钟

Codex App Server 架构与协议设计

本文介绍了 Codex App Server 的演进历程、核心架构和 JSON-RPC 协议设计。它详细解释了执行框架（Harness）如何通过 App Server 暴露给客户端，并阐述了对话原语（Item、Turn、Thread）如何构建稳定的智能体交互流。

指南OpenAI·2月4日·6 分钟

Claude Code 技巧与 Codex 应用发布

文章汇总了 2026 年 2 月 4 日的 AI 编程新闻，包括 Claude Code 的 10 个技巧、Opus 与 Sonnet 模型对比、Codex 应用发布，以及多项功能更新如多仓库支持、自定义快捷键等。

指南AI Coding Daily·2月4日·3 分钟

Claude 坚持无广告：AI 助手为何拒绝商业化

Anthropic 解释为何 Claude 不引入广告：广告会干扰用户信任，尤其在敏感对话和深度思考场景中不合适。公司选择通过企业订阅和付费模式盈利，同时推进教育合作和低价访问计划。

深度Anthropic·2月4日·4 分钟

DeepSeek 之后，中国开源AI生态走向AI+

中国开源AI生态正从孤立模型突破转向可实际运行的系统链，模型成为可复用、可组合的工程组件。以“东数西算”为代表的算力布局和“AI+”行动计划，为大规模部署和深度集成提供了硬件基础和政策方向。

深度Hugging Face·2月3日·5 分钟

Xcode 26.3 原生集成 Claude Agent SDK

Xcode 26.3 将 Claude Agent SDK 原生集成到 IDE 中，让 Claude 能自主处理长期运行的复杂编码任务，如通过预览进行视觉验证、跨项目推理和基于目标的任务分解。该版本现已作为发布候选版向 Apple 开发者计划成员开放。

指南Anthropic·2月3日·3 分钟

Snowflake 与 OpenAI 合作，将前沿 AI 引入企业数据

Snowflake 与 OpenAI 达成 2 亿美元合作协议，将 OpenAI 模型深度集成到 Snowflake 数据平台。企业客户可在 Snowflake 内使用 OpenAI 构建 AI 智能体和应用，通过自然语言查询分析数据，无需编写代码。合作旨在为企业提供安全、可治理的 AI 部署方案，加速 AI 创新。

指南OpenAI·2月2日·3 分钟

Together Evaluations 支持主流商业 API 模型评测

Together Evaluations 新增了对 OpenAI、Anthropic、Google 等商业 API 模型的支持，实现了开源、微调与闭源模型的横向评测。平台提供了结构化评估框架，帮助团队通过数据选择最佳模型，并附带了微调开源评测模型超越 GPT-5.2 性能的实战案例。

指南·2月2日·4 分钟