Nature | 王者换代?AI设计的OpenCRISPR-1正式挑战Cas9霸主地位,开启基因编辑新范式

   日期:2025-08-11    作者:j3opa 移动:http://xz3.paiqr.cn/mobile/quote/137.html

引言

基因编辑技术,尤其是CRISPR-Cas系统,无疑是近年来最耀眼的明星。它如同一把“分子手术刀”,赋予了我们前所未有的能力,去精确地修改生命的蓝图——DNA。这项革命性的技术不仅横扫了基础研究的各个角落,更在农业改良、生物技术乃至人类疾病治疗领域展现出巨大的潜力。然而,正如每一枚硬币都有两面,这把强大的“手术刀”也并非完美无瑕。

我们目前广泛使用的CRISPR工具,大多源自于微生物在亿万年演化长河中形成的古老防御系统。当我们将这些天然工具“移植”到人类细胞等非原生环境中时,常常会遭遇水土不服的窘境:脱靶效应(off-target)的风险、对特定DNA序列(PAM序列)的依赖、以及在复杂应用场景下的功能权衡,都限制了它们的应用边界。面对这些挑战,研究人员一直在探索如何超越自然的造物,打造出更理想的基因编辑工具。

7月30日,Nature上的一项重磅研究“Design of highly functional genome editors by modelling CRISPR–Cas sequences”,为我们揭示了一条全新的路径。研究团队另辟蹊径,他们没有像以往那样在自然界中苦苦寻觅,或是对现有工具进行小修小补,而是借助人工智能(AI)的力量,从零开始“创造”了一个全新的、高性能的基因编辑器。该研究不仅宣告了一个名为  的AI设计基因编辑器的诞生,更标志着一个由数据驱动、AI赋能的蛋白质设计新范式的开启。这究竟是一场怎样的颠覆性创新?AI是如何学会并超越自然界的“设计语言”的?

图片

在开启“创造”之旅前,我们必须先回答一个根本问题:我们的起点在哪里?任何伟大的创造都离不开对现有知识的深度学习。对于AI而言,数据就是它的“教科书”。如果想让AI设计出功能强大的CRISPR系统,首先就需要为它提供一个规模空前、多样性丰富的“CRISPR知识库”。

自然界是生命分子最伟大的图书馆,蕴藏着数不尽的CRISPR-Cas系统。然而,我们目前所使用的工具,仅仅是这座图书馆中被翻阅过的寥寥数页。大量的、未知的CRISPR系统仍静静地沉睡在庞大的基因组和宏基因组数据海洋中,等待被唤醒。传统的数据库,如UniProt,虽然收录了海量蛋白质信息,但在CRISPR系统的多样性和完整性上仍有欠缺。

为了构建一个真正全面的知识库,研究人员发起了一项雄心勃勃的数据挖掘计划。他们动用强大的计算资源,对总计高达 26.2太字节(terabases) 的已组装微生物基因组和宏基因组数据进行了地毯式搜索。这个数据量是什么概念?它相当于数万个人类基因组的总和。通过一个定制化的、高度复杂的生物信息学分析流程,他们成功地鉴定和注释了超过124万个CRISPR操纵子(operons)

这个被他们命名为  的庞大资源库,其规模和多样性远超以往。数据显示,在所有的Cas蛋白家族中, 包含的蛋白质簇(protein clusters,在70%序列相似度下聚类)数量平均是UniProt数据库的 2.7倍。而对于我们最熟悉、应用最广泛的Cas9家族,这一数字更是达到了惊人的 4.1倍。这意味着研究人员发现了一个比以往任何时候都更加广阔、更加多样的Cas9蛋白“新大陆”。

这个宝库的建成,不仅仅是数量上的堆砌。它系统性地整理了Cas蛋白、CRISPR重复序列、以及至关重要的、指导Cas蛋白功能的 (反式激活CRISPR RNA)等关键组件。这好比不仅找到了无数把锁(Cas蛋白),还同时找到了与之匹配的钥匙(guide RNA),为后续AI的学习和设计提供了结构完整、功能关联的宝贵素材。可以说, 如同一部前所未有的CRISPR百科全书,为AI的“学习”提供了最坚实的基础,也为我们揭示了生命演化在基因编辑领域中令人震撼的创造力。

拥有了这座宝库,下一步就是如何让AI读懂并运用其中的知识。研究人员采用的AI模型,是一种大型语言模型(Large Language Model, LLM),与我们熟知的ChatGPT等模型师出同门。但它学习的不是人类的语言,而是生命的语言——蛋白质序列。

想象一下,蛋白质就是由20种氨基酸“字母”组成的复杂“文章”。这些文章的写法(序列)决定了它的三维结构和生物学功能(意义)。蛋白质语言模型的核心思想,就是通过学习海量的天然蛋白质序列,掌握这门语言的“语法规则”和“内在逻辑”。它要理解哪些氨基酸组合是合理的,哪些序列片段倾向于共同出现(共演化),以及这些规律如何最终导向一个稳定且具备特定功能的蛋白质。

研究人员的策略分为两步,体现了一种从“通才”到“专才”的巧妙培养过程:首先是通用预训练 (Universal Pretraining),在一个包含5亿个不同蛋白质序列的巨大数据集上对模型进行“通识教育”,让其掌握普适性规则。随后是专业化微调 (Fine-tuning),将AI的注意力引向刚刚构建的 ,使其迅速成长为CRISPR领域的“专家”。

学有所成之后,AI便从一个“学习者”转变为一个“创造者”。研究人员让这个经过微调的模型开始“写作”——生成全新的、自然界中不存在的CRISPR-Cas蛋白质序列。结果令人震惊:模型总共生成了400万条全新的蛋白质序列。经过严格的筛选和去重,这些AI生成的序列极大地扩展了我们已知的CRISPR蛋白多样性,整体上实现了 4.8倍 的增长。对于某些天然样本较少的家族,如,多样性增长更是分别达到了 6.2倍 和 8.4倍

这些新序列并非对天然蛋白的简单模仿。数据显示,AI生成的序列与中亲缘关系最近的天然蛋白质,其序列一致性(sequence identity)通常只有 40%到60%。这意味着它们在序列空间上与已知蛋白相距甚远。然而,当研究人员使用AlphaFold2来预测这些全新序列的结构时,发现高达81.65%的序列都能被高置信度地预测为稳定的三维结构(pLDDT > 80)。这表明,AI不仅学会了“遣词造句”,更深刻理解了蛋白质序列背后关乎折叠和功能的“语法逻辑”,能够创造出既新颖又合理的蛋白质“文章”。这为后续筛选出真正具备功能的基因编辑器奠定了坚实的基础。

在AI生成的数百万个候选序列中,研究团队面临着一个幸福的烦恼:如何找到那个万里挑一的“天选之子”?他们的目标非常明确:创造一个性能比肩甚至超越当前“黄金标准”(来自化脓性链球菌的Cas9蛋白)的全新编辑器。

为了缩小范围,他们采用了一种“引导式”生成策略。他们以的序列片段(如N端或C端的PID结构域)作为“引子”或“提示”(prompt),引导AI模型生成与之功能兼容但序列新颖的Cas9样蛋白。经过一系列计算筛选,包括评估其与的PAM和兼容性等,他们最终挑选出209个候选蛋白,进入了严苛的“实战考核”——在人类细胞(HEK293T细胞)中进行基因编辑实验。

在这209位“选手中”,一个名为  的蛋白脱颖而出,展现出卓越的性能。由于其出色的表现和开放共享的初衷,研究人员将其命名为 。它的惊艳之处,主要体现在两个核心指标上:高活性(on-target activity)高精度(specificity)

首先,看活性。 在多个预设的人类基因组靶点上,展现了与旗鼓相当甚至更胜一筹的编辑效率。在一项涵盖48个经过充分验证的生成蛋白的测试中,在靶向位点引发的插入和缺失(indel)突变的中位效率达到了 56.4%,而为 47.1%。这说明,作为一个完全由AI设计的“人造物”,它的“刀”足够锋利,工作效率毫不逊色于身经百战的天然冠军。

其次,也是更关键的,是精度。 基因编辑的“脱靶效应”是其临床应用道路上最大的拦路虎之一。一把理想的“分子手术刀”,不仅要切得准,更要保证只切在该切的地方。在这方面,的表现堪称典范。研究数据显示,在已知的脱靶位点上,的编辑活性实现了高达95%的降低(中位脱靶率从的6.1%降至0.32%)。

为了更全面地评估其全基因组范围内的特异性,研究人员使用了名为的 unbiased(无偏)检测技术。结果再次证实了的超高保真度。在所有测试条件下,的在靶切割事件占总切割事件的比例都远高于。更重要的是,的脱靶位点是脱靶位点的一个子集。这意味着它不会引入新的、不可预测的脱靶风险,只是在原有的“火力范围”内进行了更精准的“定点清除”。

的成功,最令人赞叹的是其序列的极端新颖性。它与之间存在着 403个 氨基酸的差异,与其在自然界中最接近的“亲戚”(来自的Cas9)也有 182个 氨基酸不同。如此巨大的序列差异,却能实现如此高效且精准的功能,这有力地证明了AI语言模型已经掌握了超越简单序列模仿的、深层次的设计原理。它不是对自然的修补,而是一次真正意义上的“再创造”。

一个顶级的基因编辑器,除了要快、要准,还应该具备“多才多艺”的潜力,以适应日益复杂的应用需求。研究团队对的探索并未止步于简单的基因敲除,他们进一步验证了它作为平台工具的通用性。

PAM识别的灵活性与严谨性(protospacer-adjacent motif)是CRISPR系统识别靶点的“路标”,大多数Cas9蛋白都严格依赖特定的PAM序列(通常识别NGG)。研究人员测试了在不同PAM序列下的表现,结果揭示了一种巧妙的平衡:在标准的NGG靶点上,它的活性与相当。然而,当PAM序列存在错配时(如NGC, NGT等),的活性出现了数倍的显著下降(P值 = 0.0005)。这说明对PAM的识别更为“严谨”,在保持高效活性的同时,减少了对错误“路标”的响应,进一步增强了其安全性。

与碱基编辑(Base Editing)的无缝兼容。碱基编辑是一种更为精细的基因编辑技术。研究人员将改造为切口酶形式(D10A突变),并与一个高效的腺嘌呤脱氨酶(ABE8.20)融合。在人类细胞中的测试表明,这个基于的碱基编辑器表现出色,在多个靶点上实现了 35%至60% 的A到G转换效率,与基于的系统不相上下。这证明拥有出色的平台兼容性,可以作为“底盘”搭载不同的功能模块。

潜在的低免疫原性。对于将基因编辑技术用于人体治疗而言,免疫原性是另一个必须翻越的大山。研究人员通过(间接酶联免疫吸附试验)检测了与40位健康人血清中抗体的结合能力。结果令人鼓舞:与相比,这些AI设计的蛋白所结合的人类抗体量都显著更低。同时,生物信息学分析也显示,序列中缺少了数个已知的免疫显性T细胞表位。这些初步证据共同指向一个令人兴奋的可能性:通过AI设计,我们或许能够创造出免疫原性更低、更适合临床应用的“隐形”基因编辑器。

的成功无疑是一个里程碑,但它究竟是偶然的幸运,还是代表着一种全新的、可复制的“范式革命”?为了回答这个问题,研究人员进行了一场“华山论剑”,将他们的语言模型方法与其他主流的蛋白质设计策略进行了正面比较。

自然挖掘 (Natural Mining):从数据库中找到的与序列相似度在57%-71%之间的天然蛋白。

进化方法 (Evolutionary Methods):包括基于多序列比对的共有序列设计(Consensus Design)、祖先序列重建(Ancestral Reconstruction)、隐马尔可夫模型(HMM)等。

结构方法 (Structure-based Methods):为代表,该方法依赖于已知的蛋白质三维结构来设计新的序列。

实验结果清晰地展示了不同策略的优劣。自然挖掘的蛋白活性参差不齐。基于进化信息的方法能够产生一些有活性的蛋白,但成功率不高。而基于结构的方法设计的序列则几乎完全没有活性。与之形成鲜明对比的是,基于大型语言模型的方法,诞生了像这样众多高活性的候选者

这场对比说明了大型语言模型方法的独特优势。为什么会这样?对于像Cas9这样功能极其复杂的蛋白质,其行使功能不仅需要一个精确的三维结构,还需要在动态过程中与其他分子进行复杂的相互作用。大型语言模型通过学习海量序列,隐式地捕捉了蛋白质序列中蕴含的“共演化蓝图”和“功能约束”。它学的不是一个静态的形状,而是一整套决定其如何折叠、运动和“对话”的深层规则。这使其在设计复杂功能蛋白方面展现出无与伦比的潜力。

这项工作不仅仅是创造了一个新的工具,更是建立了一套全新的“设计哲学”。它证明了,通过将海量自然数据与强大的AI模型相结合,我们有能力系统性地探索和优化生命分子,其深度和广度是传统方法难以企及的。的建立,意味着我们现在拥有一个前所未有的“设计素材库”。今天,研究人员用它生成了;明天,他们或许就可以用它来训练能够“定制”出满足各种严苛需求的、真正“量体裁衣”的基因编辑器。

的诞生,是AI赋能生命科学研究的一个缩影。这不再是一个只能在自然界“寻宝”的时代,而是一个我们可以手握“创世蓝图”,与AI一同设计和创造生命分子的新纪元。这趟旅程才刚刚开始,前方的风景,必将更加波澜壮阔。




参考文献


Ruffolo JA, Nayfach S, Gallagher J, Bhatnagar A, Beazer J, Hussain R, Russ J, Yip J, Hill E, Pacesa M, Meeske AJ, Cameron P, Madani A. Design of highly functional genome editors by modelling CRISPR-Cas sequences. Nature. 2025 Jul 30. doi: 10.1038/s41586-025-09298-z. Epub ahead of print. PMID: 40739342.


声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号