资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
本期内容包含对 Sonnet 4.6、Opus 4.6、GLM-5、Minimax M2.5 等前沿编程模型的深度实测对比,以及 Claude Code 技能使用、旧代码库理解、技术债务管理等实用技巧分享。此外,还汇总了 Cursor、Anthropic、OpenAI 等行业动态。
本文分享了 monday Service 如何为面向客户的 AI 服务智能体构建评估优先的开发框架。他们采用离线评估(安全网)和在线评估(监控)双支柱策略,利用 LangSmith Vitest 集成实现并行化和并发执行,显著提升了测试速度和覆盖率。
EVMbench 是一个用于评估 AI 智能体智能合约安全能力的基准测试,包含检测、修复和利用三种任务模式。测试显示,GPT‑5.3‑Codex 在利用任务上得分 71.0%,显著优于前代模型。基准也揭示了智能体在不同任务上的行为差异,并指出了当前评估的局限性。
这篇付费文章发布了一个 17 分钟的评测视频,对比了 6 款 AI 编程 LLM 在 7 个 Laravel 项目上的表现。作者表示这是其迄今为止规模最大的模型对比,并设计了涵盖多种用例的评测方案。
文章介绍了 LangChain 如何通过执行框架工程显著提升其编码智能体 deepagents-cli 的性能。核心方法包括利用追踪分析技能自动化诊断错误、通过系统提示和中间件强制智能体进入“构建-验证”循环、为智能体注入环境上下文、以及采用“推理三明治”策略优化计算资源分配。这些实践为构建更强大的智能体应用提供了具体指导。
Claude Sonnet 4.6 是迄今为止能力最强的 Sonnet 模型,在编程和计算机使用方面进步显著。该模型在 OSWorld 基准测试中持续提升,能像人类一样操作软件界面,同时安全评估显示其风险可控。
Anthropic 与印孚瑟斯合作,旨在利用 Claude 和 Infosys Topaz 平台加速企业软件开发生命周期,并为电信、金融等高度监管行业构建定制化 AI 智能体。合作将聚焦于网络运营现代化、风险合规自动化、产品设计加速等具体场景。印度是 Claude.ai 第二大市场,此次合作也是 Anthropic 扩大印度市场布局的一部分。
OpenAI 引入锁定模式和高风险标签以应对提示注入攻击。锁定模式为企业用户提供高级安全设置,限制网络请求和工具使用;高风险标签在 ChatGPT、ChatGPT Atlas 和 Codex 中标注风险功能,帮助用户识别潜在威胁。
OpenAI 设计了一个混合访问系统,将速率限制与按需付费的信用额度结合,确保用户在达到限制后仍能无缝继续使用 Codex 和 Sora。系统通过决策瀑布模型实时处理请求,并采用分布式架构保证计费准确性和可审计性。
文章探讨了智能体框架从 LangChain 到 LangGraph 再到 DeepAgents 的三代演变,强调框架的价值在于加速开发、编码最佳实践。同时,LangSmith 作为独立的可观测性平台,支持多种框架甚至无框架的智能体,是生产部署的关键。
Hugging Face 发布了一个 CUDA 核开发技能,将 GPU 架构优化、库集成模式等专业知识打包,让 AI 编码智能体能够自动生成优化的 CUDA 核。该技能已在 LTX-Video 和 Qwen3-8B 模型上验证,RMSNorm 核性能提升最高达 2.47 倍。生成的核项目可直接发布到 Kernel Hub,实现一键分发。
Gemini 3 Deep Think 推理模式迎来重大升级,专注于解决科学、研究和工程难题。更新版已在 Gemini 应用中向 Google AI Ultra 订阅用户开放,并首次通过 API 提供早期访问。早期测试案例显示,它在数学论文审阅、材料科学优化和物理组件设计等实际应用中表现出色。
GPT-5.3-Codex-Spark 是 OpenAI 与 Cerebras 合作的首个成果,针对低延迟硬件优化,支持实时协作和快速迭代。模型在 SWE-Bench Pro 和 Terminal-Bench 2.0 上表现强劲,同时大幅缩短任务完成时间。
OpenEnv 是一个用于评估 AI 智能体在真实系统而非模拟环境中表现的框架。Turing 基于此构建了 Calendar Gym,一个模拟真实日历管理复杂性的测试环境。评估发现,智能体在多步推理、处理模糊性以及正确调用工具参数方面存在显著瓶颈。
文章汇总了 AI 编程领域的最新动态,包括开源模型性能测试、Claude Code 与 Codex 的对比,以及 Claude Code 的新功能更新。内容涵盖视频评测、用户经验分享和工具更新,为开发者提供实用参考。
团队通过 Codex 智能体在零手写代码约束下,五个月交付了百万行代码的产品,工程效率提升十倍。核心经验包括:将知识库结构化而非堆砌指令、推动更多上下文入仓以提升智能体可读性、通过强制约束而非微观管理来保持代码库一致性。
这是一段 15 分钟的视频内容,面向付费订阅者。作者在 VS Code 环境中使用 OpenRouter 和 Cline,对 Kimi K2.5、GLM-4.7 和 Qwen3-Coder 进行了编码任务对比测试,并指出了胜出者。
本文分析了智能体与沙箱集成的两种架构模式:智能体在沙箱内运行(模式1)和沙箱作为工具被远程调用(模式2)。模式1更贴近本地开发,但通信复杂、密钥在沙箱内;模式2迭代快、密钥安全,但有网络延迟。deepagents 框架支持两种模式。