FACTS Grounding：大语言模型事实性评估新基准

深度2024年12月17日4 分钟阅读

Google DeepMind 发布 FACTS Grounding 基准，用 1,719 个长文档示例评估 LLM 的响应是否基于给定材料且无幻觉。同时上线 Kaggle 排行榜，已测试主流模型并公布初始分数。

觉得有用？分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察，每周更新。

概念速查

大语言模型

大语言模型是通过海量文本训练出的 AI 模型，能理解和生成人类语言——Agent、RAG、MCP 的底层引擎。

事实对齐

事实对齐是让 AI 输出基于真实数据而非内部「记忆」的技术——幻觉的解药。

Black Forest Labs 推出 FLUX 3，统一多模态模型，视频生成超越多个竞品，并开源 FLUX-mimic 用于机器人控制。同时，The Stack v3 数据集发布，蒸馏政策争议持续。

深度Latent Space·7月24日·8 分钟

本文采访了多位进攻型网络安全研究员，探讨AI公司的安全护栏如何影响他们发现漏洞和开发利用工具的工作。研究员们普遍认为护栏过于严格且不一致，迫使部分人转向国产开源模型。

深度·7月24日·6 分钟