资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 924 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 924 篇文章
Asana 收购 StackAI 加速 AI 转型,整合其无代码 Agent 构建能力,巩固企业工作流自动化优势。收购金额 7500 万美元,StackAI 此前融资近 2000 万美元。
Anthropic 以 9650 亿美元估值完成 650 亿美元 H 轮融资,多家顶级机构参投。资金将用于安全研究、算力扩展和产品开发。公司年化收入超 470 亿美元,预计将首次实现盈利。
本期播客讨论了异步智能体的兴起、2025 年 12 月的模型拐点使规范到 PR 工作流成为现实、Devin 在企业中的实际使用经验、背景智能体的架构选择(执行框架在盒内 vs 盒外)、以及智能体记忆、多智能体编排、SRE 自动分诊等话题。
AWS 重构了 Amazon OpenSearch Serverless,分离存储与计算,使其能缩至零并支持突发工作负载,成本降低 60%。同时规划了长期记忆、日志分析等面向智能体的新功能。
Opus 4.8 新增努力控制、动态工作流和更便宜的快速模式(3 倍降价)。模型在亲社会特质上有所提升,欺骗率降低,诚实度提高(代码缺陷遗漏概率降低 4 倍)。基准测试显示 agentic 编码得分 69.2%,超过 GPT-5.5 和 Gemini 3.1 Pro,但 agentic 终端编码仍落后 3.6%。传闻后续将发布 Mythos 1 和 Sonnet 4.8。
Anthropic 发布 Opus 4.8,新增动态工作流工具,可协调数百个子智能体处理复杂任务。新模型更善于标记不确定信息,在代码库规模迁移等场景表现突出。
前部署工程师(FDE)在客户现场工作,负责 AI 系统的集成、部署和持续优化。该模式起源于 Palantir,现在被 OpenAI、Anthropic 等 AI 公司采用,相关职位需求一年内增长超 800%。FDE 解决了 AI 系统概率性失效、部署后维护难的问题,将模型从实验室带进生产环境。
Sesame推出iOS应用,提供四种不同个性和记忆的AI代理(Maya、Miles、Simone、Charlie),支持语音/文字模式、搜索卡片和隐身对话。未来计划推出智能眼镜,并让代理具备自主行动能力。
Visa投资Replit(金额未披露),双方将合作探索智能体支付。超过1000名Visa员工在使用Replit。Replit同时推出自助企业服务,合同金额最高20万美元无需销售介入。
EnterpriseClaw 结合了 Nvidia OpenShell 的自主能力和集中治理,解决了企业环境中自主智能体可能带来的安全与管控问题。通过与 Okta 合作,推动智能体身份标准化,并支持在本地、私有云等混合环境中运行。
Cloudflare 自建了统一数据平台 Town Lake 和 AI 数据智能体 Skipper,以解决数据分散、采样、外部依赖和难查找等问题。Town Lake 基于 Trino、Iceberg 等组件,内建安全与治理;Skipper 则提供自然语言查询接口。
随着AI代理从简单聊天机器人演变为能自主调用API、读写文件、发送邮件的自主执行者,传统安全模型面临挑战。文章提出了将代理视为一级身份、使用短令牌和基于关系的访问控制等解决方案。
Endava 通过 Codex 实现智能体组织转型,将高级工程师经验编码到智能体中,大幅提升交付效率。需求分析从数周缩短至数小时,设计、开发和运维一体化,同时改变了团队协作与人才培养模式。
SQLite 的 AGENTS.md 文件表明不接受人工智能生成的代码,只接受含可复现测试用例的 bug 报告。论坛被 AI 生成的 bug 报告淹没,现已拆分出专门的 Bug 论坛,D. Richard Hipp 正在快速处理这些报告。
MotherDuck 与 DuckDB Labs 保持紧密合作,通过 DuckDB 的扩展机制实现定制功能,避免分叉。公司运营着全球最大的 DuckDB 集群,其反馈对核心项目的演进至关重要。
ADHD是一个基于Claude Agent SDK的技能,通过并行发散思维和认知框架分支来提升代码智能体的推理规划能力。尽管在GitHub上获得快速关注,但专家指出其模式并非全新,且2倍改进的基准测试规模过小、存在同栈偏见,需要更严格的评估。
AI编码代理自主安装包和依赖,企业缺乏可见性和责任制,安全漏洞频发。Aikido Security 推出 Endpoint 工具,在安装前检测并阻止恶意包,并支持实时监控和政策执行。
ITBench-AA 评估模型在 Kubernetes 故障排查中的能力,结果揭晓:Claude Opus 4.7 以 47% 排名第一,GPT-5.5 和 Qwen3.7 Max 紧随其后。更长的推理轨迹并不等于更高准确率,开源模型在性价比上表现出色。