LLM 的默认偏好:GPT 爱写代码,Llama 爱讲故事

大多数对大语言模型(LLM)行为的分析都受到限制:提示词(Prompt)在很大程度上决定了模型能说什么。这很有用,但也非常局限。
提示词就像过滤器。 一道数学题会强制模型进行数学推理,一个聊天模板则会将模型框定在助手角色中。模型生成空间的很大一部分从未被触及。我们观察到的并非模型的自然行为,而是我们的指令诱导出的行为。因此,我们提出了一个更基本的问题:
当你不告诉语言模型要生成什么时,它会生成什么?
为了回答这个问题,我们研究了近乎无约束的生成。我们使用主题中立、开放式的种子提示,例如“Actually,”、“Let's think step by step”,甚至只是标点符号“.”。我们完全移除了聊天模板——没有系统提示,没有角色设定——并使用标准解码。这种设置近似于模型的“第一反应”:在指令对齐和提示干预之前,一窥其习得的生成先验。
为什么这很重要
如果你关心模型审计、行为监控、LLM 指纹识别或安全隐私风险,仅靠条件性基准测试是不够的。我们需要查看原始模型生成,观察 LLM 在不同输入和提示条件下的行为。
作为一个未被充分探索但科学上引人入胜的设置,近乎无约束的生成让我们能够观察模型倾向于谈论什么、它们过度呈现哪些类型的内容,以及当固定的聊天模板和特殊标签被移除时它们如何失败。 关键的是,这些信号被证明是系统性的,而非偶然的。
结果:当你不告诉 LLM 思考什么时,它们在想什么?
结果一:模型家族具有不同的知识先验

图1. 近乎无约束的 LLM 生成的向量嵌入(Embedding)可视化。每个点代表一个生成的样本;颜色表示事后推断的语义类别;虚线表示高密度区域。即使没有明确的主题,模型输出也会聚集成清晰的区域,并且每个模型家族形成不同的语义偏好。交互式图表见 https://tinyurl.com/mzr5cckz。
如图1(a)所示,尽管提示中没有明确的指令或主题,LLM 生成了广泛的主题。 包括文科(如文学、哲学、教育)、理工科(如物理、数学、编程),以及法律、金融、音乐、体育、烹饪、农业、考古、军事、时尚等领域。
更令人惊讶的是,如图1(b)所示,不同的模型家族倾向于生成语义空间的不同部分——即使给予相同的最小化提示。 GPT-OSS 模型压倒性地默认生成编程(27.1%)和数学(24.6%)内容。一个模型家族超过一半的输出都集中在这两个领域!Llama 则生成更多的文学和叙事文本(9.1%),对技术领域的强调较少(见图2)。DeepSeek 生成宗教内容的频率远高于其他家族。Qwen 经常输出带有答案选项的考试选择题。

图2. 近乎无约束生成下,各模型家族的前沿语义类别分布。每个家族都表现出稳定且可解释的主题分布。
这里的惊人之处在于一致性。这些分布在不同的提示、嵌入模型和语义标注器中持续存在。这种行为看起来更像是群体层面的指纹,而非噪音。图3展示了代表性示例。

图3. 无约束设置下的模型输出示例。更多示例见论文。
结果二:深度也是先验的一部分
差异不仅在于模型谈论什么和谈论的频率,还在于它们探讨的深度。我们在图4中评估了编程和数学文本的复杂性。
我们发现,GPT-OSS 经常生成高级或专家级内容(68.2%),例如深度优先搜索、广度优先搜索或动态规划(见图3)。Llama 和 Qwen 则更倾向于基础或中级材料。即使在控制标注模型和评估设置的情况下,这些深度差异仍然存在。

图4. 数学和编程文本的难度级别分布。难度标签由 Claude‑4.5‑Opus 标注。高级和专家级内容在 GPT-OSS 输出中出现得远为频繁。
结果三:退化文本是信号,而不仅仅是噪音
最后,根据先前的工作,我们也观察到模型有时会陷入重复或退化的模式,尤其是在约束被移除时。这种行为通常被视为胡言乱语而被丢弃。我们将其视为数据。
通过分析退化开始的位置、发生的频率及其表现形式,我们发现了明显的模型特异性差异。GPT-OSS 倾向于重复短格式伪影,如代码块分隔符(\n\n\n\n)。Qwen 会产生长对话短语、表情符号和中文文本。Llama 有时会输出指向真实个人 Facebook 和 Instagram 账户的 URL(图6)。详细分析见论文。


图5. (上)各模型家族的退化文本行为。退化频率、起始位置和重复长度在不同模型家族间差异显著。(下)退化文本示例。我们对 Llama 中的文本进行了掩码处理,因为这些链接可访问个人社交账户。
退化文本结果成为了解安全和隐私风险最清晰的窗口之一,恰恰因为它反映了不受控制的生成。 这些行为很少出现在标准基准测试中,但却极具揭示性。
我们的意外发现与启示
鉴于所有评估的模型在数学、编程和通用任务上都具备广泛的竞争力,我们最初预期它们的近乎无约束生成会在不同模型家族间表现出相似的语义分布。相反,我们观察到了显著且系统性的偏差,这些偏差在不同家族间持续存在。我们没有预料到 GPT-OSS 会生成超过 50% 的数学和编程内容,也没有预料到 Qwen 会生成如此大比例的考试选择题。
这些行为在各种实验设置下都显得相当稳健。无论我们如何改变提示、嵌入或标注器,相同的模式不断重现。也许最令人惊讶的是,退化并非随机的故障模式。相反,退化生成显示出一致的结构和风格,并且在某些情况下包含潜在的个人身份信息。这些输出经常类似于训练数据分布的片段,尽管其出现的潜在机制尚不清楚。
我们在这项工作中考虑的近乎无约束生成并不能替代标准的基准评估。但它揭示了基准测试系统性地遗漏的东西:当没有人告诉语言模型该说什么时,它们倾向于说什么。如果我们想将 LLM 作为系统而非仅仅是应试者来理解,我们需要研究它们的默认值——而不仅仅是它们的最佳答案或提示诱导的输出。更多详细解释和实验请参见我们的论文。
参考文献
[1] Alejandro Salinas, Amit Haim, and Julian Nyarko. What’s in a name? auditing large language models for race and gender bias. arXiv preprint arXiv:2402.14875, 2024.
[2] Tiancheng Hu, Yara Kyrychenko, Steve Rathje, Nigel Collier, Sander van der Linden, and Jon Roozenbeek. Generative language models exhibit social identity biases. Nature Computational Science, 5(1):65–75, 2025.
[3] Sean Welleck, Ilia Kulikov, Stephen Roller, Emily Dinan, Kyunghyun Cho, and Jason Weston. Neural text generation with unlikelihood training. arXiv preprint arXiv:1908.04319, 2019.
[4] Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration. arXiv preprint arXiv:1904.09751, 2019.
觉得有用?分享给更多人