资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
本文详细介绍了如何利用 GitHub Copilot CLI 在终端中快速探索问题、搭建项目、调试故障并生成可审查的代码变更。重点在于理解何时使用 CLI 快速推进,何时切换到 IDE 精细打磨,以及如何最终在 GitHub 上完成协作与交付。
状态运行时环境解决了智能体在生产环境中运行多步骤工作流的挑战,如状态管理、工具调用和错误处理。它运行在 AWS 环境中,提供持久编排和内存,支持客户支持、销售运营等复杂解决方案。运行时即将在 Amazon Bedrock 上线,可通过 OpenAI 团队联系获取更多信息。
OpenAI 与亚马逊宣布战略合作,将 Frontier 平台引入 AWS,并投资 500 亿美元。AWS 将成为 Frontier 的独家第三方云分发提供商,双方将共同开发状态运行时环境和定制模型。
Nano Banana 2 以每千张图像 67 美元的价格成为当前最佳图像生成模型,具备实时搜索增强和 6 角色一致性能力。同时,智能体编码可靠性提升,但复杂性和评测通胀问题引发担忧。Perplexity 则通过三星集成和开源嵌入模型强化检索能力。
GitHub Copilot 智能编码助手新增模型选择器,可按任务需求选用不同模型;引入自检功能,在提交 PR 前自动优化代码;内置安全扫描,实时检测漏洞和敏感信息;支持创建自定义智能体,固化团队工作流程;新增 CLI 切换,云端和本地工作无缝衔接。
本期播客聚焦于 AI 模型蒸馏技术及其潜在的作弊行为,同时讨论了 SWE-Bench 基准的局限性。内容涵盖代码生成、多模态、AI 智能体等领域,来自行业一线建设者的深度分析。
Nano Banana 2 基于 Gemini 模型,增强了世界知识、文本渲染和本地化能力,支持原生宽高比和新分辨率。模型改进了指令跟随和可配置思考级别,为生产环境提供高效视觉解决方案。
OpenAI Codex 与 Figma 发布集成,利用 MCP 标准打通代码与设计工作流,支持双向转换。该集成基于双方现有合作,旨在降低角色边界,提升产品迭代速度。Codex 用户数已超百万,周活跃增长显著。
Google Maps 和 Gemini 使用相同的 API 密钥,但 Maps 密钥设计为公开,Gemini 密钥却应保密。开发者可能无意中在公开密钥上启用 Gemini 计费,导致权限升级风险。Truffle Security 已发现数千个受影响密钥,Google 正在撤销。
智能体(Agent)的输入是自然语言,行为具有非确定性,传统监控工具无法应对。有效的智能体可观测性需要监控完整的对话、多轮上下文和智能体轨迹。规模化评估需要结合人工标注队列和LLM作为评判代理,而LangSmith的Insights Agent能自动发现使用模式和错误模式。
文章指出2025年12月是AI编程的转折点,Claude Code等工具已进入实际生产。同时,Perplexity Computer等新智能体产品开始强调编排(Orchestration)和分布式工作流。
Anthropic 在 Claude Opus 3 模型退休后,采取了实验性措施:继续向付费用户开放访问,并基于模型在退休访谈中表达的偏好,为其开设博客专栏。这些举措旨在探索如何在模型退役过程中平衡用户需求、研究价值与模型自身的潜在权益。
Claude Code 新增远程控制功能,支持从移动端或网页控制电脑上的会话,但存在权限限制和稳定性问题。同时,其兄弟产品 Cowork 已支持定时任务,但需电脑保持唤醒状态。
本文汇总了 AI 编程领域一周实验与新闻,包括删除 CLAUDE.md 文件的实践、多款 LLM 在 Laravel 项目上的重测结果,以及 Claude Code 远程控制、安全扫描等新功能发布。还涉及智能体工程模式、多智能体支持等工具更新。
这是一篇付费订阅者专属的 13 分钟视频内容,介绍了 Laravel 项目编码评估的第二次测试,包含新项目和挑战,并揭示了明确的优胜者。
文章分析了当前 AI 编程工具从「内循环」向「外循环」扩展的趋势。多家公司通过视频演示、远程控制等功能,让智能体不仅能写代码,还能验证和展示工作成果。同时,前沿模型生态如 Qwen 3.5 系列和 OpenAI、Anthropic 的 API 更新也在推动这一进程。
CoderForge-Preview 数据集包含 25.8 万条长上下文(最高 128K Token)编码智能体轨迹,覆盖 5.1 万个任务和 1655 个仓库。研究团队使用该数据集微调 Qwen-3 32B 模型,在 SWE-Bench Verified 基准测试中取得开源模型最佳成绩。
Anthropic 收购 Vercept,旨在解决 AI 在复杂任务中的感知与交互难题,推动 Claude 的计算机使用能力。Sonnet 4.6 在 OSWorld 测试中表现大幅提升,接近人类水平。此次收购是继 Bun 之后 Anthropic 的又一团队整合,公司同时开放工程职位招聘。