资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 1192 篇文章

Google Remy 泄露，企业架构师重思 AI 栈

Google Remy 代理泄露引发企业 AI 架构重构讨论。专家指出，长期运行的自主代理需要工作流运行时支持状态协调、重试和策略执行，并带来分布式系统的经典难题。同时，代理安全控制需从统计性转向确定性，企业需投资运行时隔离和策略引擎。

深度The New Stack·5月18日·6 分钟

AI筛选数千论文，找到20个逆转衰老新靶点

Abudayyeh 和 Gootenberg 两位生物学家利用 Co-Scientist 从海量文献中筛选出20多个可能逆转细胞衰老的新靶点，并通过实验验证了其中几个。Co-Scientist 还将数据分析时间从半年缩短到几天。

深度·5月18日·2 分钟

GitHub Copilot 远程控制全面上线，随时随地接管 Agent 会话

GitHub Copilot 远程控制功能现已全面可用，开发者可在 VS Code、CLI 中启动会话后，通过 github.com 或 GitHub Mobile 实时监控 Agent 进度、发送额外指令、审批权限请求，并完成从计划到合并 PR 的完整工作流，支持多设备无缝切换。

指南GitHub·5月18日·4 分钟

IBM 发布开放智能体排行榜，衡量通用 Agent 真实表现

IBM Research 发布开放智能体排行榜，评测完整 Agent 系统而非单一模型，覆盖六个跨领域基准测试，同时报告成功率和成本。初步发现：通用 Agent 已能与专用系统匹敌，相同模型搭配不同 Agent 设计结果差异显著，工具排序机制能普遍提升性能。

深度Hugging Face·5月18日·8 分钟

OpenAI 与 Dell 合作，将 Codex 引入混合云和本地部署环境

OpenAI 与 Dell 合作，将 Codex 部署到 Dell AI 数据平台和 AI Factory 上，支持混合云和本地环境。企业可在安全合规的前提下，让 Codex 访问内部代码库、文档和业务系统，扩展 AI 智能体在软件开发与知识工作中的应用。

指南OpenAI·5月18日·4 分钟

Project Glasswing实测：Mythos的安全能力与局限

Cloudflare 分享了参与 Project Glasswing 测试 Mythos Preview 的观察：模型在漏洞利用链构造和 PoC 生成上能力跃升，但也面临拒绝响应不一致、假阳性率高、单智能体覆盖不足等问题。他们总结出构建执行框架（Harness）的四个要点，以支撑规模化安全审计。

深度·5月18日·12 分钟

Genie 接入街景，用真实地点生成虚拟世界

Project Genie 新增街景图接地能力，用户可选择美国真实地点并搭配不同风格生成虚拟世界。该功能基于 Maps Imagery Grounding 技术，现已向 Google AI Ultra 订户开放。

指南·5月17日·3 分钟

ArXiv 出新规：AI 代写论文将封禁一年

ArXiv 新规规定，若论文中出现 LLM 生成的幻觉参考文献或提示词残留，作者将被封禁一年，且后续投稿需先被同行评审期刊接收。该规则不禁止使用 LLM，但要求作者对内容负全责。

深度·5月16日·2 分钟

GitHub 发布 Copilot 桌面应用，正面迎战 Claude Code 和 Codex

GitHub 发布 Copilot 桌面应用技术预览版，集成编码代理、Issue、PR 和开发会话管理。该应用基于 Copilot CLI 构建，提供统一的图形界面，支持多代理并行运行，并利用 GitHub 现有基础设施优势与 Claude Code 等工具竞争。

指南The New Stack·5月16日·4 分钟

剑桥教授用AI寻找跨物种感染分子开关

Clare Bryant 使用 Co-Scientist 工具分析禽流感等病原体跨物种感染的分子机制，AI 从数百个候选蛋白中优先排序出关键蛋白，并进一步缩小到特定氨基酸位点。原本需要数年实验才能锁定的目标，现在六个月即可完成验证。

深度·5月16日·3 分钟

AI 发现肝病药物新组合，验证 NLRP3 假说

Filippo Menolascina 使用 Co-Scientist 在肝病研究中识别新型药物组合，并验证了关于 resmetirom 疗效窄的 NLRP3 炎症小体假说，为双重靶向治疗铺平道路。

深度·5月16日·2 分钟

GitHub 无障碍代理：3,535 个 PR 审查，68% 修复率

GitHub 开发了一个通用无障碍代理，通过子代理架构自动审查 PR 并修复无障碍问题。文章分享了经验教训，包括使用结构化问题库、子代理分工、Token 消耗优化等，强调代理不能替代人工投入，而是辅助工具。

深度GitHub·5月15日·6 分钟

Anthropic 开源法律工作流插件套件

Anthropic 开源了 claude-for-legal 插件套件，覆盖商业、隐私、产品、公司、雇佣、诉讼、监管、AI 治理、知识产权及法律教育等 10 多个实践领域，提供 60+ 预设智能体（如 Vendor Agreement Reviewer、DSAR Responder）和对应的 Claude Code/Cowork 命令。所有输出均为草稿，需律师审查。

指南·5月15日·5 分钟

数分钟配置，限制 Datasette 中 LLM 用量

datasette-llm-limits 是一个 Datasette 插件，允许管理员配置 LLM 使用量的周期限制（如每日预算），支持按用户或全局设置，配置简单。

指南Simon Willison·5月15日·1 分钟

DS4 诞生记：本地 AI 终于够用了

antirez 分享了他开发 DS4 的经历，认为 DeepSeek v4 Flash 和 2/8 比特量化让本地推理变得实用，这是他首次将本地模型用于严肃任务。他计划继续完善 DS4，包括添加编码智能体、分布式推理等功能。

深度·5月15日·3 分钟

数据科学团队如何用 Codex 产出分析资产

文章介绍了数据科学团队使用 Codex 的五种典型场景：KPI 根因分析、业务影响评估、分析请求处理、高管 KPI 评审和仪表盘构建。每个场景都提供了具体的提示词模板和推荐插件，帮助团队将散乱输入快速转化为可交付的分析资产。

指南OpenAI·5月15日·4 分钟

Codex 登陆手机，远程管理开发工作流

OpenAI 宣布 Codex 已集成到 ChatGPT 手机应用，用户可通过移动设备远程管理开发工作流，包括查看实时环境、审核输出、批准命令等。该功能目前处于预览阶段，支持 iOS 和 Android，所有用户均可使用。

指南·5月14日·2 分钟

Codex 登陆 ChatGPT 手机 App

OpenAI 宣布 Codex 从桌面端扩展到 ChatGPT 移动端，实现桌面环境同步和远程 SSH 接入，同时增加程序化访问令牌和 HIPAA 合规支持。移动端将集成到 ChatGPT 应用而非独立 App。

深度The New Stack·5月14日·3 分钟