资讯

AI Agent Skills 生态的最新动态、教程和深度分析

共 924 篇文章

FACTS Grounding：大语言模型事实性评估新基准

FACTS Grounding 是一个评估大语言模型事实对齐能力的综合基准，包含 1,719 个需要长文档响应的示例，覆盖金融、科技、医疗等多个领域。评估采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 作为自动法官模型，通过两阶段评分确保响应既满足用户请求又完全基于文档。基准和排行榜将随领域进展持续更新。

深度·12月17日·4 分钟

Together AI 收购 CodeSandbox，推出首个内置代码解释器

Together AI 通过收购 CodeSandbox，在推理平台中集成了代码解释器，允许 LLM 执行生成的代码。CodeSandbox SDK 也已开放测试，开发者可将其用于自己的应用。此举旨在提升 LLM 解决复杂编程问题的能力。

指南·12月12日·4 分钟

Gemini 2.0 发布：为智能体时代打造的新模型

Gemini 2.0 是 Google 为智能体时代推出的新一代 AI 模型，性能超越前代，支持原生多模态输出和工具调用。Gemini 2.0 Flash 实验版现已向开发者提供，并将在明年年初广泛推出。Google 还展示了基于 Gemini 2.0 的智能体研究原型，如 Project Astra 和 Project Mariner。

指南·12月11日·5 分钟

Google DeepMind 在 NeurIPS 2024 展示 AI 研究

Google DeepMind 概述了其在 NeurIPS 2024 上的研究重点，包括构建更智能、安全的 AI 智能体，革新 3D 内容创建流程，以及改进大语言模型的训练和响应方式。

深度·12月5日·4 分钟

Genie 2：能生成无限3D世界的世界模型

Genie 2 是一个大型基础世界模型，能够根据单张图像生成无限多样、可交互的 3D 环境，用于训练和评估具身智能体。它展示了物体交互、角色动画、物理模拟等涌现能力，并能与 SIMA 等智能体协同工作，加速 AI 研究。

深度·12月4日·5 分钟

Anthology：用人生故事为大模型注入虚拟人格

Anthology 通过为 LLM 提供详细的人生故事作为上下文，使其能更逼真地模拟个体人类样本，而非仅停留在群体层面。该方法在模拟皮尤调查时，在分布相似性、相关性矩阵一致性等指标上表现更优。研究为社会科学中的用户研究、民意调查等提供了新的可能性，但也需警惕潜在的偏见与隐私风险。

深度·11月12日·4 分钟