大型基因组模型 Evo 2 开源：在万亿级碱基上训练的 AI

生物训练

系统可以识别基因、调控序列、剪接位点等更多特征。

在 2025 年底，我们报道过一个名为 Evo 的 AI 系统，它在海量细菌基因组上完成训练。数据量之大，使得它在输入一组相关基因簇序列后，能够正确预测下一个基因，甚至给出全新的蛋白质候选。

该系统之所以有效，是因为细菌通常会把功能相关的基因聚在一起——而在具有复杂细胞结构的生物中，这一规律并不成立，它们的基因组结构同样更复杂。正因如此，我们当时在报道中提到：“这种方法是否适用于更复杂的基因组，还不清楚。”

显然，Evo 团队把这当成了一个挑战。今天他们发布了 Evo 2：一个开源 AI，训练数据覆盖生命三大域（细菌、古菌和真核生物）的基因组。在对万亿级 DNA 碱基对进行训练后，Evo 2 在内部形成了对复杂基因组关键特征的表征能力，包括调控 DNA、剪接位点等这些人类也不易直接识别的信号。

基因组特征

细菌基因组的组织原则相对直接。编码蛋白质或 RNA 的基因通常是连续的，编码序列中没有中断。执行相关功能的基因（比如代谢某种糖或合成某种氨基酸）往往会成簇分布，从而可由一个紧凑的调控系统统一控制。整体上简单而高效。

真核生物则并非如此。基因的编码区会被不编码任何产物的内含子打断；其调控信息可能分散在几十万碱基对范围内。定义内含子边界或调控蛋白结合位点的序列通常都不是“强定义”——虽然有少数碱基是硬性必需的，但还有大量位点只是“某个碱基出现概率略高于平均值”（例如“45% 的情况下是 T”）。此外，大多数真核基因组还包含大量所谓“垃圾 DNA”：失活病毒、终末损伤基因等。

这种复杂性让真核基因组更难解释。尽管已有许多专用工具用于识别剪接位点等特征，但它们都存在一定错误率；在分析长达 30 亿碱基的人类规模基因组时，这会成为实质问题。我们可以通过进化比较、寻找保守序列来获得更多信息，但这种方法也有边界，而且研究中我们常常同样关心物种间差异。

而这类统计概率问题，恰好适合神经网络：它们擅长识别肉眼难以捕捉的微弱模式。不过，要处理并提取这些细微特征，需要极其庞大的数据和算力。

现在我们已经有了所需的原始基因组数据；难点在于如何把这些数据组织成高效的 AI 训练流程。Evo 团队正是攻克了这一点。

训练大型基因组模型

Evo 2 的基础是一个卷积神经网络，名为 StripedHyena 2。训练分两个阶段：第一阶段输入约 8,000 碱基长度、富含关键特征的序列片段，重点让系统学习识别重要基因组特征；第二阶段一次输入 100 万碱基，使系统有机会学习大尺度基因组结构特征。

研究者使用名为 OpenGenome2 的数据集训练了两个版本。该数据集包含来自生命三大域及噬菌体病毒的 8.8 万亿碱基。出于担心模型被滥用于制造对人类有害威胁的考虑，团队未纳入感染真核生物的病毒。两版模型分别为：70 亿参数版本（用 2.4 万亿碱基训练）和完整的 400 亿参数版本（使用完整开放基因组数据集训练）。

训练逻辑相当直观：如果某些特征在进化中足够重要并在多物种中被保留，它们就会在多种上下文中反复出现，模型在训练中也会反复看到。研究团队写道：“通过学习跨广泛进化数据集的序列概率，生物序列模型能够捕捉通常反映功能重要性的保守序列模式。这样的约束使模型无需特定任务微调或监督，就能进行零样本预测。”

最后这一点很关键。比如，我们可以先告诉模型已知剪接位点长什么样，这也许有助于它找出更多位点；但这也可能让它更难识别尚未被发现的非常规剪接位点。跳过微调还可能帮助模型发现我们目前完全未知的基因组特征，而这些特征也许会在未来研究中逐步显现。

这些内容现已全部向公众开放。论文写道：“我们已将 Evo 2 完整开源，包括模型参数、训练代码、推理代码以及 OpenGenome2 数据集。”

研究人员还借助一种可识别神经网络内部特征的系统，对 Evo 2“开箱检查”，分析它学会了识别什么。他们训练了另一个神经网络来识别 Evo 2 的激活模式并提取高层特征。结果显示，它清晰识别了蛋白编码区及其两侧内含子边界；还能识别编码区内部分蛋白结构特征（α 螺旋与 β 折叠）以及会破坏编码序列的突变。甚至连可移动遗传元件（可理解为 DNA 层面的“寄生体”）在 Evo 2 内部也对应到可辨识特征。

这有什么用？

为测试系统，研究人员构造了单碱基突变并输入 Evo 2，观察其响应。Evo 2 能检测到突变对 DNA 转录起始位点、以及 RNA 翻译起始位点造成的问题。它也能区分突变严重程度：会中断蛋白翻译的突变（如引入终止信号）会被判定为比不影响翻译连续性的突变更重要。

它还能够识别“根本不被翻译”的序列。许多关键细胞功能由 RNA 直接完成，Evo 2 同样能识别破坏这类功能的突变。

更令人印象深刻的是，Evo 2 在获得真核基因组识别能力的同时，并未丢失对细菌和古菌的识别能力。实际上，系统似乎还能推断当前处理的是哪个物种。一些进化类群使用不同的蛋白翻译终止信号编码；Evo 2 能识别自己面对的是这类物种序列，并采用对应的遗传密码。

它在识别高变异容忍特征方面也表现出色，例如 RNA 剪接信号位点（用于从蛋白编码序列中去除内含子）。按部分指标，它优于该任务的专用软件。在 BRCA2 基因突变评估上也是如此——该基因很多突变与癌症相关。在已知 BRCA2 突变数据上进一步训练后，模型表现又有提升。

总体看，Evo 2 很适合用于基因组评估和关键特征识别。开发者认为，它可作为基因组初步注释的自动化工具。

不过，Evo 早期版本最引人注目的地方是：给它一段含已知细菌基因的序列后，它有时会生成功能相关但全新的蛋白质。如今 Evo 2 已在更复杂的真核基因上训练，它能否复现这种能力？

目前还不能完全确定。如果输入一批来自酵母（真核生物）的 DNA，它会输出包含功能 RNA、带调控信息与剪接位点的类基因序列。但研究人员并未验证这些蛋白是否具有特定功能，而且这类验证本身也很难设计。细菌基因里，AI 生成基因通常可合理假设与邻近基因相关；而在真核生物中，这一假设一般不成立，因此甚至难以确定该测试哪些功能。

在一个信息量稍高的实验中，研究者让 Evo 2 设计可在一种细胞类型中活跃、而在另一种中不活跃的调控 DNA，前提是先提供两种细胞中活跃序列的信息。生成序列被导入细胞后测试，结果较弱：只有 17% 的序列在两种细胞间活性差异达到或超过 2 倍。这依然是重大进展，但与“设计全新蛋白质”尚不在同一量级。

下一步是什么？

总体而言，距离初代 Evo 论文发布不到四个月就推出 Evo 2，因此在“用于设计生物学相关 DNA 序列”上的实验验证不够充分并不意外。生物实验困难且耗时，也很难提前判断哪些实验最具信息价值。所以我们可能还要等上数月到数年，才能看到社区是否用 Evo 2 做出有意思的工作，以及它是否能真正解决实用蛋白设计问题。

另一个问题是：通过进一步训练和专项化，是否可以衍生出在特定任务上更强的 Evo 2“家族模型”，例如专门评估癌细胞基因组，或注释新测序基因组。从某种程度上看，研究团队确实希望尽快开放工具，让更多人参与探索其应用场景；这与其全面开源软件的做法一致。

最大的开放问题在于：这个系统是否已经识别出我们还不知道该如何验证的特征。像内含子/外显子边界、调控 DNA 这些对象已被研究数十年，我们知道如何寻找，也能判断 Evo 2 是否找对了。但在过去几十年里，我们持续发现新的基因组特征——CRISPR 重复序列、microRNA 等等。技术上仍然存在这种可能：基因组里还有我们尚未认识的特征，而 Evo 2 已经把它们捕捉到了。

可以设想，利用文中描述的工具去“盘问”Evo 2，从而提取新的基因组特征。因此，我很期待这类工作最终会产出什么。

Nature，2026。DOI：10.1038/s41586-026-10176-5（About DOIs）。

大型基因组模型 Evo 2 开源：在万亿级碱基上训练的 AI

基因组特征

训练大型基因组模型

这有什么用？

下一步是什么？

相关文章