资讯
AI Agent Skills 生态的最新动态、教程和深度分析
共 924 篇文章
AI Agent Skills 生态的最新动态、教程和深度分析
共 924 篇文章
FACTS Grounding 是一个评估大语言模型事实对齐能力的综合基准,包含 1,719 个需要长文档响应的示例,覆盖金融、科技、医疗等多个领域。评估采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 作为自动法官模型,通过两阶段评分确保响应既满足用户请求又完全基于文档。基准和排行榜将随领域进展持续更新。
Together AI 通过收购 CodeSandbox,在推理平台中集成了代码解释器,允许 LLM 执行生成的代码。CodeSandbox SDK 也已开放测试,开发者可将其用于自己的应用。此举旨在提升 LLM 解决复杂编程问题的能力。
Gemini 2.0 是 Google 为智能体时代推出的新一代 AI 模型,性能超越前代,支持原生多模态输出和工具调用。Gemini 2.0 Flash 实验版现已向开发者提供,并将在明年年初广泛推出。Google 还展示了基于 Gemini 2.0 的智能体研究原型,如 Project Astra 和 Project Mariner。
Google DeepMind 概述了其在 NeurIPS 2024 上的研究重点,包括构建更智能、安全的 AI 智能体,革新 3D 内容创建流程,以及改进大语言模型的训练和响应方式。
Genie 2 是一个大型基础世界模型,能够根据单张图像生成无限多样、可交互的 3D 环境,用于训练和评估具身智能体。它展示了物体交互、角色动画、物理模拟等涌现能力,并能与 SIMA 等智能体协同工作,加速 AI 研究。
Anthology 通过为 LLM 提供详细的人生故事作为上下文,使其能更逼真地模拟个体人类样本,而非仅停留在群体层面。该方法在模拟皮尤调查时,在分布相似性、相关性矩阵一致性等指标上表现更优。研究为社会科学中的用户研究、民意调查等提供了新的可能性,但也需警惕潜在的偏见与隐私风险。