资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 583 篇文章

AI 编程模型大比拼：Sonnet 4.6 与 6 款模型 Laravel 实测

本期内容包含对 Sonnet 4.6、Opus 4.6、GLM-5、Minimax M2.5 等前沿编程模型的深度实测对比，以及 Claude Code 技能使用、旧代码库理解、技术债务管理等实用技巧分享。此外，还汇总了 Cursor、Anthropic、OpenAI 等行业动态。

指南AI Coding Daily·2月18日·4 分钟

monday Service 如何用 LangSmith 构建评估优先开发框架

本文分享了 monday Service 如何为面向客户的 AI 服务智能体构建评估优先的开发框架。他们采用离线评估（安全网）和在线评估（监控）双支柱策略，利用 LangSmith Vitest 集成实现并行化和并发执行，显著提升了测试速度和覆盖率。

指南LangChain·2月18日·5 分钟

OpenAI 发布智能体安全审计基准 EVMbench

EVMbench 是一个用于评估 AI 智能体智能合约安全能力的基准测试，包含检测、修复和利用三种任务模式。测试显示，GPT‑5.3‑Codex 在利用任务上得分 71.0%，显著优于前代模型。基准也揭示了智能体在不同任务上的行为差异，并指出了当前评估的局限性。

深度OpenAI·2月18日·4 分钟

6 款 AI 编程 LLM 的 Laravel 项目评测

这篇付费文章发布了一个 17 分钟的评测视频，对比了 6 款 AI 编程 LLM 在 7 个 Laravel 项目上的表现。作者表示这是其迄今为止规模最大的模型对比，并设计了涵盖多种用例的评测方案。

指南AI Coding Daily·2月17日·1 分钟

执行框架工程让智能体从 Top 30 冲到 Top 5

文章介绍了 LangChain 如何通过执行框架工程显著提升其编码智能体 deepagents-cli 的性能。核心方法包括利用追踪分析技能自动化诊断错误、通过系统提示和中间件强制智能体进入“构建-验证”循环、为智能体注入环境上下文、以及采用“推理三明治”策略优化计算资源分配。这些实践为构建更强大的智能体应用提供了具体指导。

深度LangChain·2月17日·7 分钟

Claude Sonnet 4.6：全面升级的智能体模型

Claude Sonnet 4.6 是迄今为止能力最强的 Sonnet 模型，在编程和计算机使用方面进步显著。该模型在 OSWorld 基准测试中持续提升，能像人类一样操作软件界面，同时安全评估显示其风险可控。

指南Anthropic·2月17日·3 分钟

Anthropic 联手印孚瑟斯，为电信等受监管行业打造 AI 智能体

Anthropic 与印孚瑟斯合作，旨在利用 Claude 和 Infosys Topaz 平台加速企业软件开发生命周期，并为电信、金融等高度监管行业构建定制化 AI 智能体。合作将聚焦于网络运营现代化、风险合规自动化、产品设计加速等具体场景。印度是 Claude.ai 第二大市场，此次合作也是 Anthropic 扩大印度市场布局的一部分。

指南Anthropic·2月17日·3 分钟

ChatGPT 新增锁定模式与高风险标签

OpenAI 引入锁定模式和高风险标签以应对提示注入攻击。锁定模式为企业用户提供高级安全设置，限制网络请求和工具使用；高风险标签在 ChatGPT、ChatGPT Atlas 和 Codex 中标注风险功能，帮助用户识别潜在威胁。

指南OpenAI·2月13日·3 分钟

OpenAI 如何用实时访问系统平滑 Codex 和 Sora 的用量限制

OpenAI 设计了一个混合访问系统，将速率限制与按需付费的信用额度结合，确保用户在达到限制后仍能无缝继续使用 Codex 和 Sora。系统通过决策瀑布模型实时处理请求，并采用分布式架构保证计费准确性和可审计性。

深度OpenAI·2月13日·5 分钟

智能体框架的进化与可观测性

文章探讨了智能体框架从 LangChain 到 LangGraph 再到 DeepAgents 的三代演变，强调框架的价值在于加速开发、编码最佳实践。同时，LangSmith 作为独立的可观测性平台，支持多种框架甚至无框架的智能体，是生产部署的关键。

深度LangChain·2月13日·4 分钟

Codex 与 Claude 定制 CUDA 核：技能驱动开发

Hugging Face 发布了一个 CUDA 核开发技能，将 GPU 架构优化、库集成模式等专业知识打包，让 AI 编码智能体能够自动生成优化的 CUDA 核。该技能已在 LTX-Video 和 Qwen3-8B 模型上验证，RMSNorm 核性能提升最高达 2.47 倍。生成的核项目可直接发布到 Kernel Hub，实现一键分发。

教程Hugging Face·2月13日·8 分钟

Gemini 3 Deep Think 升级：专攻科学推理

Gemini 3 Deep Think 推理模式迎来重大升级，专注于解决科学、研究和工程难题。更新版已在 Gemini 应用中向 Google AI Ultra 订阅用户开放，并首次通过 API 提供早期访问。早期测试案例显示，它在数学论文审阅、材料科学优化和物理组件设计等实际应用中表现出色。

指南·2月12日·3 分钟

GPT-5.3-Codex-Spark 发布：实时编码模型

GPT-5.3-Codex-Spark 是 OpenAI 与 Cerebras 合作的首个成果，针对低延迟硬件优化，支持实时协作和快速迭代。模型在 SWE-Bench Pro 和 Terminal-Bench 2.0 上表现强劲，同时大幅缩短任务完成时间。

指南OpenAI·2月12日·4 分钟

OpenEnv 实战：用日历环境评估工具调用智能体

OpenEnv 是一个用于评估 AI 智能体在真实系统而非模拟环境中表现的框架。Turing 基于此构建了 Calendar Gym，一个模拟真实日历管理复杂性的测试环境。评估发现，智能体在多步推理、处理模糊性以及正确调用工具参数方面存在显著瓶颈。

深度Hugging Face·2月12日·5 分钟

AI 编程周报：开源模型测试与 Claude Code 新功能

文章汇总了 AI 编程领域的最新动态，包括开源模型性能测试、Claude Code 与 Codex 的对比，以及 Claude Code 的新功能更新。内容涵盖视频评测、用户经验分享和工具更新，为开发者提供实用参考。

指南AI Coding Daily·2月11日·3 分钟

零手写代码，五个月交付百万行产品

团队通过 Codex 智能体在零手写代码约束下，五个月交付了百万行代码的产品，工程效率提升十倍。核心经验包括：将知识库结构化而非堆砌指令、推动更多上下文入仓以提升智能体可读性、通过强制约束而非微观管理来保持代码库一致性。

深度OpenAI·2月11日·6 分钟

Kimi K2.5 vs GLM-4.7 vs Qwen3-Coder 编码任务实测

这是一段 15 分钟的视频内容，面向付费订阅者。作者在 VS Code 环境中使用 OpenRouter 和 Cline，对 Kimi K2.5、GLM-4.7 和 Qwen3-Coder 进行了编码任务对比测试，并指出了胜出者。

指南AI Coding Daily·2月11日·1 分钟

智能体连接沙箱的两种架构模式

本文分析了智能体与沙箱集成的两种架构模式：智能体在沙箱内运行（模式1）和沙箱作为工具被远程调用（模式2）。模式1更贴近本地开发，但通信复杂、密钥在沙箱内；模式2迭代快、密钥安全，但有网络延迟。deepagents 框架支持两种模式。

深度LangChain·2月10日·5 分钟