S
SkillNav

大型基因组模型 Evo 2 开源:在万亿级碱基上训练的 AI

资讯2026-03-04T22:14:54+00:0010 分钟阅读
大型基因组模型 Evo 2 开源:在万亿级碱基上训练的 AI

生物训练

系统可以识别基因、调控序列、剪接位点等更多特征。

在 2025 年底,我们报道过一个名为 Evo 的 AI 系统,它在海量细菌基因组上完成训练。数据量之大,使得它在输入一组相关基因簇序列后,能够正确预测下一个基因,甚至给出全新的蛋白质候选。

该系统之所以有效,是因为细菌通常会把功能相关的基因聚在一起——而在具有复杂细胞结构的生物中,这一规律并不成立,它们的基因组结构同样更复杂。正因如此,我们当时在报道中提到:“这种方法是否适用于更复杂的基因组,还不清楚。”

显然,Evo 团队把这当成了一个挑战。今天他们发布了 Evo 2:一个开源 AI,训练数据覆盖生命三大域(细菌、古菌和真核生物)的基因组。在对万亿级 DNA 碱基对进行训练后,Evo 2 在内部形成了对复杂基因组关键特征的表征能力,包括调控 DNA、剪接位点等这些人类也不易直接识别的信号。

基因组特征

细菌基因组的组织原则相对直接。编码蛋白质或 RNA 的基因通常是连续的,编码序列中没有中断。执行相关功能的基因(比如代谢某种糖或合成某种氨基酸)往往会成簇分布,从而可由一个紧凑的调控系统统一控制。整体上简单而高效。

真核生物则并非如此。基因的编码区会被不编码任何产物的内含子打断;其调控信息可能分散在几十万碱基对范围内。定义内含子边界或调控蛋白结合位点的序列通常都不是“强定义”——虽然有少数碱基是硬性必需的,但还有大量位点只是“某个碱基出现概率略高于平均值”(例如“45% 的情况下是 T”)。此外,大多数真核基因组还包含大量所谓“垃圾 DNA”:失活病毒、终末损伤基因等。

这种复杂性让真核基因组更难解释。尽管已有许多专用工具用于识别剪接位点等特征,但它们都存在一定错误率;在分析长达 30 亿碱基的人类规模基因组时,这会成为实质问题。我们可以通过进化比较、寻找保守序列来获得更多信息,但这种方法也有边界,而且研究中我们常常同样关心物种间差异。

而这类统计概率问题,恰好适合神经网络:它们擅长识别肉眼难以捕捉的微弱模式。不过,要处理并提取这些细微特征,需要极其庞大的数据和算力。

现在我们已经有了所需的原始基因组数据;难点在于如何把这些数据组织成高效的 AI 训练流程。Evo 团队正是攻克了这一点。

训练大型基因组模型

Evo 2 的基础是一个卷积神经网络,名为 StripedHyena 2。训练分两个阶段:第一阶段输入约 8,000 碱基长度、富含关键特征的序列片段,重点让系统学习识别重要基因组特征;第二阶段一次输入 100 万碱基,使系统有机会学习大尺度基因组结构特征。

研究者使用名为 OpenGenome2 的数据集训练了两个版本。该数据集包含来自生命三大域及噬菌体病毒的 8.8 万亿碱基。出于担心模型被滥用于制造对人类有害威胁的考虑,团队未纳入感染真核生物的病毒。两版模型分别为:70 亿参数版本(用 2.4 万亿碱基训练)和完整的 400 亿参数版本(使用完整开放基因组数据集训练)。

训练逻辑相当直观:如果某些特征在进化中足够重要并在多物种中被保留,它们就会在多种上下文中反复出现,模型在训练中也会反复看到。研究团队写道:“通过学习跨广泛进化数据集的序列概率,生物序列模型能够捕捉通常反映功能重要性的保守序列模式。这样的约束使模型无需特定任务微调或监督,就能进行零样本预测。”

最后这一点很关键。比如,我们可以先告诉模型已知剪接位点长什么样,这也许有助于它找出更多位点;但这也可能让它更难识别尚未被发现的非常规剪接位点。跳过微调还可能帮助模型发现我们目前完全未知的基因组特征,而这些特征也许会在未来研究中逐步显现。

这些内容现已全部向公众开放。论文写道:“我们已将 Evo 2 完整开源,包括模型参数、训练代码、推理代码以及 OpenGenome2 数据集。”

研究人员还借助一种可识别神经网络内部特征的系统,对 Evo 2“开箱检查”,分析它学会了识别什么。他们训练了另一个神经网络来识别 Evo 2 的激活模式并提取高层特征。结果显示,它清晰识别了蛋白编码区及其两侧内含子边界;还能识别编码区内部分蛋白结构特征(α 螺旋与 β 折叠)以及会破坏编码序列的突变。甚至连可移动遗传元件(可理解为 DNA 层面的“寄生体”)在 Evo 2 内部也对应到可辨识特征。

这有什么用?

为测试系统,研究人员构造了单碱基突变并输入 Evo 2,观察其响应。Evo 2 能检测到突变对 DNA 转录起始位点、以及 RNA 翻译起始位点造成的问题。它也能区分突变严重程度:会中断蛋白翻译的突变(如引入终止信号)会被判定为比不影响翻译连续性的突变更重要。

它还能够识别“根本不被翻译”的序列。许多关键细胞功能由 RNA 直接完成,Evo 2 同样能识别破坏这类功能的突变。

更令人印象深刻的是,Evo 2 在获得真核基因组识别能力的同时,并未丢失对细菌和古菌的识别能力。实际上,系统似乎还能推断当前处理的是哪个物种。一些进化类群使用不同的蛋白翻译终止信号编码;Evo 2 能识别自己面对的是这类物种序列,并采用对应的遗传密码。

它在识别高变异容忍特征方面也表现出色,例如 RNA 剪接信号位点(用于从蛋白编码序列中去除内含子)。按部分指标,它优于该任务的专用软件。在 BRCA2 基因突变评估上也是如此——该基因很多突变与癌症相关。在已知 BRCA2 突变数据上进一步训练后,模型表现又有提升。

总体看,Evo 2 很适合用于基因组评估和关键特征识别。开发者认为,它可作为基因组初步注释的自动化工具。

不过,Evo 早期版本最引人注目的地方是:给它一段含已知细菌基因的序列后,它有时会生成功能相关但全新的蛋白质。如今 Evo 2 已在更复杂的真核基因上训练,它能否复现这种能力?

目前还不能完全确定。如果输入一批来自酵母(真核生物)的 DNA,它会输出包含功能 RNA、带调控信息与剪接位点的类基因序列。但研究人员并未验证这些蛋白是否具有特定功能,而且这类验证本身也很难设计。细菌基因里,AI 生成基因通常可合理假设与邻近基因相关;而在真核生物中,这一假设一般不成立,因此甚至难以确定该测试哪些功能。

在一个信息量稍高的实验中,研究者让 Evo 2 设计可在一种细胞类型中活跃、而在另一种中不活跃的调控 DNA,前提是先提供两种细胞中活跃序列的信息。生成序列被导入细胞后测试,结果较弱:只有 17% 的序列在两种细胞间活性差异达到或超过 2 倍。这依然是重大进展,但与“设计全新蛋白质”尚不在同一量级。

下一步是什么?

总体而言,距离初代 Evo 论文发布不到四个月就推出 Evo 2,因此在“用于设计生物学相关 DNA 序列”上的实验验证不够充分并不意外。生物实验困难且耗时,也很难提前判断哪些实验最具信息价值。所以我们可能还要等上数月到数年,才能看到社区是否用 Evo 2 做出有意思的工作,以及它是否能真正解决实用蛋白设计问题。

另一个问题是:通过进一步训练和专项化,是否可以衍生出在特定任务上更强的 Evo 2“家族模型”,例如专门评估癌细胞基因组,或注释新测序基因组。从某种程度上看,研究团队确实希望尽快开放工具,让更多人参与探索其应用场景;这与其全面开源软件的做法一致。

最大的开放问题在于:这个系统是否已经识别出我们还不知道该如何验证的特征。像内含子/外显子边界、调控 DNA 这些对象已被研究数十年,我们知道如何寻找,也能判断 Evo 2 是否找对了。但在过去几十年里,我们持续发现新的基因组特征——CRISPR 重复序列、microRNA 等等。技术上仍然存在这种可能:基因组里还有我们尚未认识的特征,而 Evo 2 已经把它们捕捉到了。

可以设想,利用文中描述的工具去“盘问”Evo 2,从而提取新的基因组特征。因此,我很期待这类工作最终会产出什么。

Nature,2026。DOI:10.1038/s41586-026-10176-5About DOIs)。

原文链接:https://arstechnica.com/science/2026/03/large-genome-model-open-source-ai-trained-on-trillions-of-bases/

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟