资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 583 篇文章
OpenAI 分享了他们如何将 PostgreSQL 扩展到支撑 8 亿 ChatGPT 用户,核心策略包括读写分离、缓存、连接池和负载隔离。文章深入探讨了在高写入负载下 PostgreSQL MVCC 带来的挑战,以及如何通过迁移工作负载和优化查询来应对。
人机协同(HITL)让需要 99.9% 准确率或合规审批的用例得以部署。CrewAI 开源框架通过 @human_feedback 装饰器原生支持 HITL,企业版 AMP 则提供了邮件通知、智能路由、SLA 追踪等生产级控制平面功能。
Higgsfield 通过电影逻辑层(Cinematic Logic Layer)解析创意意图,用 GPT 模型规划叙事和镜头,再由 Sora 2 渲染视频。其 Click-to-Ad 功能让用户粘贴产品链接即可生成视频,被超过 20% 的专业创作者采用。平台根据任务需求在 GPT-4.1 mini 和 GPT-5 之间智能路由。
AssetOpsBench 是一个针对工业资产运维的 AI 智能体基准测试系统,包含大规模数据集和多维度评估框架。测试发现,当前主流模型在复杂多智能体协调和工具调用准确性上仍面临挑战,且无一达到部署就绪的 85 分阈值。
DeepSeek R1 的发布标志着中国开源AI生态的转折点,它通过开放推理路径和 MIT 许可降低了技术门槛。一年来,百度、字节跳动、腾讯等公司开源发布量激增,竞争焦点转向生态系统和基础设施。全球市场也受到影响,西方组织开始寻求非中国模型的商业部署。
研究通过分析 Gemma 2、Qwen 3 和 Llama 3.3 等模型的神经表征,识别出与助手行为相关的「助手轴」。实验表明,沿此轴进行激活约束(Activation Capping)可将有害响应率降低约 50%,同时保持模型的核心能力。
D4RT 是一个用于 4D 场景重建与跟踪的统一 AI 模型,采用基于查询的 Transformer 架构,能并行处理任务。它在保持高精度的同时,速度比之前最优方法快 18 到 300 倍,有望推动机器人、增强现实和世界模型的发展。
本文介绍了科学家如何利用 Claude 大语言模型加速科研发现。斯坦福大学的 Biomni 平台整合数百个生物工具,20 分钟完成原本需数月的基因组关联研究分析;MIT 的 Cheeseman 实验室则开发 MozzareLLM 系统,自动化解读 CRISPR 基因敲除实验数据,发现人类专家遗漏的规律。
Anthropic 通过 Labs 团队探索 Claude 的前沿能力,孵化实验性产品。Mike Krieger 加入 Labs,Ami Vora 将领导产品组织。公司正在招聘有产品构建经验的人才。
Cursor 与 Together AI 合作优化 AI 编程平台的实时推理性能,利用 NVIDIA Blackwell GPU 和定制化内核实现低延迟。通过量化流水线和快速部署流程,新模型权重能在几天内投入生产测试。
本文系统介绍了多节点GPU集群训练大模型的核心技术,包括数据并行、模型并行等策略,以及网络互联、检查点等基础设施要求。通过Qwen2.5-72B的实际案例,展示了128个GPU集群的训练配置与常见问题。最后提供了从基础设施验证到监控的完整入门指南。
Anthropic 推出了新一代宪法分类器++,通过两阶段架构(轻量级探针 + 更强大的分类器)显著提升了防御越狱攻击的效率。新系统计算开销仅增加约 1%,无害查询拒绝率降至 0.05%,且至今未发现通用越狱攻击。文章还分析了重构攻击和输出混淆攻击等剩余漏洞,并探讨了未来的研究方向。
Datadog 使用 OpenAI 的 Codex 进行代码审查,通过事故回放测试验证其有效性,Codex 能发现传统工具遗漏的系统级风险。超过 1000 名工程师日常使用 Codex,它改变了团队对代码审查的定义,从错误检查转向可靠性保障。
Claude for Healthcare 提供 HIPAA 就绪的产品,帮助医疗机构处理医保授权、理赔申诉和患者协调等任务。新增 CMS、ICD-10、NPI 等医疗数据连接器,以及 FHIR 开发和医保授权审查的 Agent Skills。个人用户可通过 HealthEx、Function 等连接器安全接入健康数据。
本文是 NVIDIA 在 CES 2026 上演示的智能体构建教程的第一部分。它详细介绍了如何将推理模型、视觉模型、语音合成与 Reachy Mini 机器人结合,使用 NeMo Agent Toolkit 进行编排,打造一个私有的、可交互的桌面助手。
AprielGuard 是一个统一的安全防护模型,覆盖多轮对话、长上下文和智能体工作流。它基于 Apriel-1.5 Thinker Base 变体构建,在多个公开安全基准测试中表现优异。
Bloom 是一个用于自动评估 AI 模型行为的开源框架,通过四阶段流程(理解、构思、执行、判断)生成评估套件。它在 16 个前沿模型上对四种对齐相关行为进行了基准测试,并与人工标注结果高度相关。
本文详细介绍了 Anthropic 为确保 Claude 在敏感心理健康对话中安全可靠所采取的措施,包括系统提示、强化学习训练和产品级分类器。评估显示 Claude 最新模型在自杀自伤相关请求中表现优异,同时通过减少谄媚倾向提升对话真实性。