科学家用 Claude 加速科研:20 分钟完成 GWAS 分析

深度Anthropic2026年1月15日4 分钟阅读
科学家用 Claude 加速科研:20 分钟完成 GWAS 分析
Anthropic 去年推出 Claude for Life Sciences 套件后,持续投入让 Claude 成为最强大的科研模型。通过与全球研究人员的合作,他们发现 Claude 正重塑科研流程——从实验设计到数据分析,将数月工作压缩至数小时。

去年十月,我们推出了 Claude for Life Sciences——一套让 Claude 成为更优秀科学协作者的连接器和技能(Skills)组合。此后,我们持续投入让 Claude 成为科研领域最强大的模型,Opus 4.5 在图表解读、计算生物学和蛋白质理解基准测试中均有显著提升。这些进步源于我们与学术界和工业界研究人员的合作,也反映了我们理解科学家如何用 AI 加速科研进程的承诺。

我们还通过 AI for Science 项目与科学家紧密合作,为全球从事高影响力科研项目的顶尖研究者提供免费 API 额度。

这些研究人员开发的定制系统,让 Claude 的应用远超文献综述或代码辅助等任务。在我们交流的实验室里,Claude 已成为贯穿整个科研流程的协作者:它让确定实验方向变得更简单、成本更低;用多种工具将原本耗时数月的项目压缩至数小时;在人类可能忽略的海量数据中发现规律。在许多情况下,它消除了需要深厚知识且难以规模化任务的瓶颈;在某些场景中,它甚至让研究人员能够采用与传统完全不同的研究方法。

换句话说,Claude 正开始重塑这些科学家的工作方式,并指引他们走向新的科学洞见与发现。

Biomni:集成数百工具的生物医学智能体

生物学研究的一个瓶颈在于工具碎片化:数百个数据库、软件包和协议分散各处,研究人员需要花费大量时间选择和掌握不同平台。在理想情况下,这些时间本应用于运行实验、解读数据或开展新项目。

斯坦福大学的智能体 AI 平台 Biomni,通过一个由 Claude 驱动的智能体(Agent),将数百种工具、软件包和数据集整合到单一系统中。研究人员用简单英语提出请求,Biomni 会自动选择合适的资源。它能在超过 25 个生物学子领域中形成假设、设计实验方案并执行分析。

以全基因组关联研究(GWAS)为例,这是寻找与某种性状或疾病相关的遗传变异的方法。比如,绝对音感有很强的遗传基础。研究人员会选取一大群人——部分能无参考音高唱出音符,部分则“永远别邀请去卡拉OK”——然后扫描他们的基因组,寻找在一组中出现频率更高的遗传变异。

基因组扫描相对简单。耗时的是数据分析和解读过程:基因组数据格式混乱,需要大量清洗;研究人员必须控制混杂因素,处理缺失数据;一旦发现“命中”位点,他们需要弄清楚其实际意义——附近是什么基因(因为 GWAS 只指向基因组中的位置)、在哪些细胞类型中表达、可能影响什么生物通路等等。每一步都可能涉及不同工具、不同文件格式和大量人工决策。这是个繁琐的过程。一次 GWAS 分析可能耗时数月。但在 Biomni 的早期试验中,只用了 20 分钟。

这听起来好得令人难以置信——我们能确信这类 AI 分析的准确性吗?Biomni 团队已通过多个不同领域的案例研究验证了该系统。

  • 在一个案例中,Biomni 设计了分子克隆实验;在盲评中,其方案和设计与拥有五年以上经验的博士后相当。
  • 在另一个案例中,Biomni 仅用 35 分钟就分析了来自 30 人、超过 450 份可穿戴设备数据文件(包括连续血糖监测、体温和身体活动数据)——这项任务估计需要人类专家三周时间。
  • 在第三个案例中,Biomni 分析了来自人类胚胎组织、超过 33.6 万个单细胞的基因活性数据。系统确认了科学家已知的调控关系,但也识别出新的转录因子(控制基因开关的蛋白质),这些因子此前未被发现与人类胚胎发育相关。

Biomni 并非完美系统,因此它包含了安全护栏(Guardrails)来检测 Claude 是否偏离正轨。它也无法开箱即用地完成所有事情。不过,在它能力不足的领域,专家可以将他们的方法编码为技能(Skill)——教会智能体专家如何解决问题,而不是让它即兴发挥。

例如,在与未确诊疾病网络合作进行罕见病诊断时,团队发现 Claude 的默认方法与临床医生的做法大相径庭。于是他们采访了一位专家,逐步记录其诊断流程,并将其教给 Claude。掌握了这些先前隐性的知识后,智能体表现良好。

Biomni 代表了一种方法:一个集成数百工具的通才系统。但其他实验室正在构建更专业的系统——针对他们自身研究工作流中的特定瓶颈。

Cheeseman 实验室:自动化解读大规模基因敲除实验

当科学家想了解某个基因的功能时,一种方法是将其从相关细胞或生物体中移除,观察哪些功能受损。2012 年左右出现的基因编辑工具 CRISPR,使得大规模精准执行这种操作变得容易。但 CRISPR 的效用仍然有限:实验室能产生的数据量远超他们的分析能力。

这正是 MIT 怀特黑德研究所和生物系 Iain Cheeseman 实验室面临的挑战。他们使用 CRISPR 在数千万人类细胞中敲除数千个不同基因,然后拍摄每个细胞观察变化。这些图像中的模式揭示,功能相似的基因在被移除时往往会产生外观相似的损伤。软件可以检测这些模式并自动将基因分组——Cheeseman 实验室构建了一个名为 Brieflow 的流程来做这件事(没错,就是布里奶酪那个 brie)。

但解读这些基因分组的含义——基因为何聚集在一起、它们可能有什么共同点、这是已知的生物关系还是新发现——仍然需要人类专家逐基因梳理科学文献。这很慢。一次筛选可能产生数百个集群,而大多数从未被研究,仅仅因为实验室没有时间、精力或深入了解细胞执行的各种功能。

多年来,Cheeseman 亲自完成所有解读工作。他估计自己能记住大约 5000 个基因的功能,但要有效分析这些数据仍需数百小时。为了加速这一过程,博士生 Matteo Di Bernardo 试图构建一个系统来自动化 Cheeseman 的方法。通过与 Cheeseman 紧密合作,准确理解他如何进行解读——他咨询哪些数据源、寻找什么模式、什么发现算是有趣——他们构建了一个名为 MozzareLLM 的 Claude 驱动系统(你可能注意到这里有个命名主题)。

该系统接收一个基因集群,并执行像 Cheeseman 这样的专家会做的事情:识别它们可能共享的生物过程,标记哪些基因已被充分研究、哪些研究不足,并突出哪些值得跟进。这不仅大幅加速了他们的工作,还帮助他们做出重要的额外生物学发现。Cheeseman 发现 Claude 总能抓住他遗漏的东西。“每次我检查时都会想,我没注意到那个!而在每个案例中,这些都是我们可以理解和验证的发现,”他说。

让 MozzareLLM 如此有用的原因是它并非一招鲜:它能整合多样化信息并像科学家一样推理。最值得注意的是,它为其发现提供置信度水平,Cheeseman 强调这一点至关重要。这帮助他决定是否投入更多资源跟进其结论。

在构建 MozzareLLM 时,Di Bernardo 测试了多个 AI 模型。Claude 的表现优于其他模型——在一个案例中,它正确识别了一个 RNA 修饰通路,而其他模型将其视为随机噪声。

Cheeseman 和 Di Bernardo 设想将这些经 Claude 标注的数据集公开——让其他领域的专家跟进他的实验室没时间研究的集群。例如,线粒体生物学家可以深入探究 Cheeseman 团队标记但从未研究过的线粒体集群。随着其他实验室将 MozzareLLM 用于他们自己的 CRISPR 实验,它可以加速对那些功能多年来未被表征的基因的解读和验证。

Lundberg 实验室:用 AI 生成假设,决定研究哪些基因

Cheeseman 实验室用的是光学池筛选技术,能在单次实验中敲除数千个基因,瓶颈在于结果解读。但并非所有细胞类型都适合池筛选。像斯坦福的 Lundberg 实验室 这类团队,做的是规模更小、目标更集中的筛选,他们的瓶颈出现得更早:一开始要决定靶向哪些基因。

一次聚焦筛选成本可能超过 2 万美元,而且规模越大费用越高。实验室通常只能选几百个他们认为最可能与特定疾病相关的基因。传统做法是让一群研究生和博士后围着一个 Google 表格,逐个添加候选基因,附上一句理由或一篇论文链接。这本质上是一种基于文献回顾、专业知识和直觉的“有根据的猜测”,但受限于人力。而且这种方法容易出错,因为它依赖的是其他科学家已经发现并记录的内容,以及在场人员恰好能回想起来的信息。

Lundberg 实验室正在用 Claude 颠覆这种做法。他们的系统不再问“基于已有研究我们能猜什么?”,而是问“基于分子特性,哪些基因应该被研究?”

团队构建了一张细胞中所有已知分子(蛋白质、RNA、DNA)及其相互关系的图谱。他们标注了哪些蛋白质会结合、哪些基因编码哪些产物、哪些分子结构相似。然后,他们可以给 Claude 一个目标——比如找出可能调控特定细胞结构或过程的基因——Claude 就能在这张图谱中导航,根据生物特性和关系识别候选基因。

Lundberg 实验室目前正在运行一项实验,验证这种方法的效果。为此,他们需要找一个研究极少的领域(如果选一个已有大量研究的主题,Claude 可能已经知道既定结论)。他们选择了初级纤毛:细胞上类似天线的突起结构,我们对它知之甚少,但它与多种发育和神经系统疾病有关。接下来,他们将进行全基因组筛选,看看哪些基因真正影响纤毛形成,从而建立“真实情况”。

测试的核心是比较人类专家和 Claude。人类专家会用传统的表格法做出猜测,Claude 则利用分子关系图谱生成自己的候选列表。如果(假设)Claude 从 200 个基因中找出了 150 个,而人类只找出 80 个,那就证明这种方法更有效。即使两者发现的基因数量相当,Claude 的速度也快得多,能让整个研究流程更高效。

如果这种方法可行,团队希望它能成为聚焦扰动筛选的标准第一步。实验室不必再凭直觉“赌博”,也不必依赖当代研究中已很普遍的“蛮力”方法,而是可以对靶向哪些基因做出有依据的判断——无需全基因组筛选的基础设施,就能获得更好的结果。

展望未来

这些系统都不完美。但它们展示了短短几年内,科学家们如何开始将 AI 视为研究伙伴,其能力远超基础任务——事实上,AI 正越来越能加速,甚至在某些情况下取代研究过程中的许多不同环节。

与这些实验室交流时,一个共同的主题浮现出来:他们构建的工具的实用性,正随着 AI 能力的提升而持续增长。每次模型更新都带来明显改进。就在两年前,早期模型还只能写代码或总结论文,如今更强大的智能体(Agent)已经开始——尽管缓慢地——复现那些论文所描述的研究工作本身。

随着工具进步和 AI 模型持续变得更智能,我们将继续观察并学习科学发现如何与之共同演进。

关于 Claude 生命科学扩展能力的更多细节,请参阅此处,以及我们的教程。我们仍在接受申请加入我们的 AI for Science 项目,申请将由我们的团队(包括相关领域的主题专家)审核。

相关内容

Anthropic 向 Claude Partner Network 投资 1 亿美元

我们正在启动 Claude Partner Network,这是一个帮助企业在内部采用 Claude 的合作伙伴组织计划。

阅读更多

介绍 Anthropic Institute

我们正在启动 Anthropic Institute,这是一个旨在应对强大 AI 将给社会带来的最重大挑战的新项目。

阅读更多

悉尼将成为 Anthropic 在亚太地区的第四个办公室

阅读更多

本文编译自 How scientists are using Claude to accelerate research and discovery,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论