资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 924 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 924 篇文章
Simon Willison 在 PyCon US 2026 闪电演讲中总结了 LLM 领域过去六个月的关键变化:最佳模型多次易主,编码 Agent 在 2025 年 11 月后从“偶尔能用”跨入“日常可用”,开源本地模型(如 Gemma 4、Qwen3.6-35B-A3B)表现惊喜,OpenClaw 等个人 AI 助手成为新焦点。
Together AI 针对编码智能体工作负载(长输入、高并发)进行了推理基准测试,结果优于 TensorRT-LLM 和 SGLang。其引擎在 2.5M TPM 负载下 TPS 高 31%,TTFT 仅 0.71 秒(TensorRT-LLM 为 1.1 秒)。搭配 Kimi K2.6 模型,单次请求成本仅 $0.108,比 Claude Opus 4.6 便宜 76%,且编码基准测试性能持平或更优。
Anthropic 收购了 SDK 自动化初创公司 Stainless,交易金额超3亿美元。Stainless 的自动化工具广泛用于 OpenAI、Google 等AI实验室,收购后这些工具将仅限 Anthropic 内部使用。Stainless 此前已为 Anthropic 生成所有官方 SDK。
Google Remy 代理泄露引发企业 AI 架构重构讨论。专家指出,长期运行的自主代理需要工作流运行时支持状态协调、重试和策略执行,并带来分布式系统的经典难题。同时,代理安全控制需从统计性转向确定性,企业需投资运行时隔离和策略引擎。
Abudayyeh 和 Gootenberg 两位生物学家利用 Co-Scientist 从海量文献中筛选出20多个可能逆转细胞衰老的新靶点,并通过实验验证了其中几个。Co-Scientist 还将数据分析时间从半年缩短到几天。
GitHub Copilot 远程控制功能现已全面可用,开发者可在 VS Code、CLI 中启动会话后,通过 github.com 或 GitHub Mobile 实时监控 Agent 进度、发送额外指令、审批权限请求,并完成从计划到合并 PR 的完整工作流,支持多设备无缝切换。
IBM Research 发布开放智能体排行榜,评测完整 Agent 系统而非单一模型,覆盖六个跨领域基准测试,同时报告成功率和成本。初步发现:通用 Agent 已能与专用系统匹敌,相同模型搭配不同 Agent 设计结果差异显著,工具排序机制能普遍提升性能。
Cloudflare 分享了参与 Project Glasswing 测试 Mythos Preview 的观察:模型在漏洞利用链构造和 PoC 生成上能力跃升,但也面临拒绝响应不一致、假阳性率高、单智能体覆盖不足等问题。他们总结出构建执行框架(Harness)的四个要点,以支撑规模化安全审计。
Project Genie 新增街景图接地能力,用户可选择美国真实地点并搭配不同风格生成虚拟世界。该功能基于 Maps Imagery Grounding 技术,现已向 Google AI Ultra 订户开放。
ArXiv 新规规定,若论文中出现 LLM 生成的幻觉参考文献或提示词残留,作者将被封禁一年,且后续投稿需先被同行评审期刊接收。该规则不禁止使用 LLM,但要求作者对内容负全责。
GitHub 发布 Copilot 桌面应用技术预览版,集成编码代理、Issue、PR 和开发会话管理。该应用基于 Copilot CLI 构建,提供统一的图形界面,支持多代理并行运行,并利用 GitHub 现有基础设施优势与 Claude Code 等工具竞争。
Clare Bryant 使用 Co-Scientist 工具分析禽流感等病原体跨物种感染的分子机制,AI 从数百个候选蛋白中优先排序出关键蛋白,并进一步缩小到特定氨基酸位点。原本需要数年实验才能锁定的目标,现在六个月即可完成验证。
Filippo Menolascina 使用 Co-Scientist 在肝病研究中识别新型药物组合,并验证了关于 resmetirom 疗效窄的 NLRP3 炎症小体假说,为双重靶向治疗铺平道路。
GitHub 开发了一个通用无障碍代理,通过子代理架构自动审查 PR 并修复无障碍问题。文章分享了经验教训,包括使用结构化问题库、子代理分工、Token 消耗优化等,强调代理不能替代人工投入,而是辅助工具。
Anthropic 开源了 claude-for-legal 插件套件,覆盖商业、隐私、产品、公司、雇佣、诉讼、监管、AI 治理、知识产权及法律教育等 10 多个实践领域,提供 60+ 预设智能体(如 Vendor Agreement Reviewer、DSAR Responder)和对应的 Claude Code/Cowork 命令。所有输出均为草稿,需律师审查。
datasette-llm-limits 是一个 Datasette 插件,允许管理员配置 LLM 使用量的周期限制(如每日预算),支持按用户或全局设置,配置简单。
antirez 分享了他开发 DS4 的经历,认为 DeepSeek v4 Flash 和 2/8 比特量化让本地推理变得实用,这是他首次将本地模型用于严肃任务。他计划继续完善 DS4,包括添加编码智能体、分布式推理等功能。
文章介绍了数据科学团队使用 Codex 的五种典型场景:KPI 根因分析、业务影响评估、分析请求处理、高管 KPI 评审和仪表盘构建。每个场景都提供了具体的提示词模板和推荐插件,帮助团队将散乱输入快速转化为可交付的分析资产。