分享好友 最新动态首页 最新动态分类 切换频道
Nature | 王者换代?AI设计的OpenCRISPR-1正式挑战Cas9霸主地位,开启基因编辑新范式
2025-08-11 18:15

引言

基因编辑技术,尤其是CRISPR-Cas系统,无疑是近年来最耀眼的明星。它如同一把“分子手术刀”,赋予了我们前所未有的能力,去精确地修改生命的蓝图——DNA。这项革命性的技术不仅横扫了基础研究的各个角落,更在农业改良、生物技术乃至人类疾病治疗领域展现出巨大的潜力。然而,正如每一枚硬币都有两面,这把强大的“手术刀”也并非完美无瑕。

我们目前广泛使用的CRISPR工具,大多源自于微生物在亿万年演化长河中形成的古老防御系统。当我们将这些天然工具“移植”到人类细胞等非原生环境中时,常常会遭遇水土不服的窘境:脱靶效应(off-target)的风险、对特定DNA序列(PAM序列)的依赖、以及在复杂应用场景下的功能权衡,都限制了它们的应用边界。面对这些挑战,研究人员一直在探索如何超越自然的造物,打造出更理想的基因编辑工具。

7月30日,Nature上的一项重磅研究“Design of highly functional genome editors by modelling CRISPR–Cas sequences”,为我们揭示了一条全新的路径。研究团队另辟蹊径,他们没有像以往那样在自然界中苦苦寻觅,或是对现有工具进行小修小补,而是借助人工智能(AI)的力量,从零开始“创造”了一个全新的、高性能的基因编辑器。该研究不仅宣告了一个名为  的AI设计基因编辑器的诞生,更标志着一个由数据驱动、AI赋能的蛋白质设计新范式的开启。这究竟是一场怎样的颠覆性创新?AI是如何学会并超越自然界的“设计语言”的?

图片

在开启“创造”之旅前,我们必须先回答一个根本问题:我们的起点在哪里?任何伟大的创造都离不开对现有知识的深度学习。对于AI而言,数据就是它的“教科书”。如果想让AI设计出功能强大的CRISPR系统,首先就需要为它提供一个规模空前、多样性丰富的“CRISPR知识库”。

自然界是生命分子最伟大的图书馆,蕴藏着数不尽的CRISPR-Cas系统。然而,我们目前所使用的工具,仅仅是这座图书馆中被翻阅过的寥寥数页。大量的、未知的CRISPR系统仍静静地沉睡在庞大的基因组和宏基因组数据海洋中,等待被唤醒。传统的数据库,如UniProt,虽然收录了海量蛋白质信息,但在CRISPR系统的多样性和完整性上仍有欠缺。

为了构建一个真正全面的知识库,研究人员发起了一项雄心勃勃的数据挖掘计划。他们动用强大的计算资源,对总计高达 26.2太字节(terabases) 的已组装微生物基因组和宏基因组数据进行了地毯式搜索。这个数据量是什么概念?它相当于数万个人类基因组的总和。通过一个定制化的、高度复杂的生物信息学分析流程,他们成功地鉴定和注释了超过124万个CRISPR操纵子(operons)

这个被他们命名为  的庞大资源库,其规模和多样性远超以往。数据显示,在所有的Cas蛋白家族中, 包含的蛋白质簇(protein clusters,在70%序列相似度下聚类)数量平均是UniProt数据库的 2.7倍。而对于我们最熟悉、应用最广泛的Cas9家族,这一数字更是达到了惊人的 4.1倍。这意味着研究人员发现了一个比以往任何时候都更加广阔、更加多样的Cas9蛋白“新大陆”。

这个宝库的建成,不仅仅是数量上的堆砌。它系统性地整理了Cas蛋白、CRISPR重复序列、以及至关重要的、指导Cas蛋白功能的 (反式激活CRISPR RNA)等关键组件。这好比不仅找到了无数把锁(Cas蛋白),还同时找到了与之匹配的钥匙(guide RNA),为后续AI的学习和设计提供了结构完整、功能关联的宝贵素材。可以说, 如同一部前所未有的CRISPR百科全书,为AI的“学习”提供了最坚实的基础,也为我们揭示了生命演化在基因编辑领域中令人震撼的创造力。

拥有了这座宝库,下一步就是如何让AI读懂并运用其中的知识。研究人员采用的AI模型,是一种大型语言模型(Large Language Model, LLM),与我们熟知的ChatGPT等模型师出同门。但它学习的不是人类的语言,而是生命的语言——蛋白质序列。

想象一下,蛋白质就是由20种氨基酸“字母”组成的复杂“文章”。这些文章的写法(序列)决定了它的三维结构和生物学功能(意义)。蛋白质语言模型的核心思想,就是通过学习海量的天然蛋白质序列,掌握这门语言的“语法规则”和“内在逻辑”。它要理解哪些氨基酸组合是合理的,哪些序列片段倾向于共同出现(共演化),以及这些规律如何最终导向一个稳定且具备特定功能的蛋白质。

研究人员的策略分为两步,体现了一种从“通才”到“专才”的巧妙培养过程:首先是通用预训练 (Universal Pretraining),在一个包含5亿个不同蛋白质序列的巨大数据集上对模型进行“通识教育”,让其掌握普适性规则。随后是专业化微调 (Fine-tuning),将AI的注意力引向刚刚构建的 ,使其迅速成长为CRISPR领域的“专家”。

学有所成之后,AI便从一个“学习者”转变为一个“创造者”。研究人员让这个经过微调的模型开始“写作”——生成全新的、自然界中不存在的CRISPR-Cas蛋白质序列。结果令人震惊:模型总共生成了400万条全新的蛋白质序列。经过严格的筛选和去重,这些AI生成的序列极大地扩展了我们已知的CRISPR蛋白多样性,整体上实现了 4.8倍 的增长。对于某些天然样本较少的家族,如,多样性增长更是分别达到了 6.2倍 和 8.4倍

这些新序列并非对天然蛋白的简单模仿。数据显示,AI生成的序列与中亲缘关系最近的天然蛋白质,其序列一致性(sequence identity)通常只有 40%到60%。这意味着它们在序列空间上与已知蛋白相距甚远。然而,当研究人员使用AlphaFold2来预测这些全新序列的结构时,发现高达81.65%的序列都能被高置信度地预测为稳定的三维结构(pLDDT > 80)。这表明,AI不仅学会了“遣词造句”,更深刻理解了蛋白质序列背后关乎折叠和功能的“语法逻辑”,能够创造出既新颖又合理的蛋白质“文章”。这为后续筛选出真正具备功能的基因编辑器奠定了坚实的基础。

在AI生成的数百万个候选序列中,研究团队面临着一个幸福的烦恼:如何找到那个万里挑一的“天选之子”?他们的目标非常明确:创造一个性能比肩甚至超越当前“黄金标准”(来自化脓性链球菌的Cas9蛋白)的全新编辑器。

为了缩小范围,他们采用了一种“引导式”生成策略。他们以的序列片段(如N端或C端的PID结构域)作为“引子”或“提示”(prompt),引导AI模型生成与之功能兼容但序列新颖的Cas9样蛋白。经过一系列计算筛选,包括评估其与的PAM和兼容性等,他们最终挑选出209个候选蛋白,进入了严苛的“实战考核”——在人类细胞(HEK293T细胞)中进行基因编辑实验。

在这209位“选手中”,一个名为  的蛋白脱颖而出,展现出卓越的性能。由于其出色的表现和开放共享的初衷,研究人员将其命名为 。它的惊艳之处,主要体现在两个核心指标上:高活性(on-target activity)高精度(specificity)

首先,看活性。 在多个预设的人类基因组靶点上,展现了与旗鼓相当甚至更胜一筹的编辑效率。在一项涵盖48个经过充分验证的生成蛋白的测试中,在靶向位点引发的插入和缺失(indel)突变的中位效率达到了 56.4%,而为 47.1%。这说明,作为一个完全由AI设计的“人造物”,它的“刀”足够锋利,工作效率毫不逊色于身经百战的天然冠军。

其次,也是更关键的,是精度。 基因编辑的“脱靶效应”是其临床应用道路上最大的拦路虎之一。一把理想的“分子手术刀”,不仅要切得准,更要保证只切在该切的地方。在这方面,的表现堪称典范。研究数据显示,在已知的脱靶位点上,的编辑活性实现了高达95%的降低(中位脱靶率从的6.1%降至0.32%)。

为了更全面地评估其全基因组范围内的特异性,研究人员使用了名为的 unbiased(无偏)检测技术。结果再次证实了的超高保真度。在所有测试条件下,的在靶切割事件占总切割事件的比例都远高于。更重要的是,的脱靶位点是脱靶位点的一个子集。这意味着它不会引入新的、不可预测的脱靶风险,只是在原有的“火力范围”内进行了更精准的“定点清除”。

的成功,最令人赞叹的是其序列的极端新颖性。它与之间存在着 403个 氨基酸的差异,与其在自然界中最接近的“亲戚”(来自的Cas9)也有 182个 氨基酸不同。如此巨大的序列差异,却能实现如此高效且精准的功能,这有力地证明了AI语言模型已经掌握了超越简单序列模仿的、深层次的设计原理。它不是对自然的修补,而是一次真正意义上的“再创造”。

一个顶级的基因编辑器,除了要快、要准,还应该具备“多才多艺”的潜力,以适应日益复杂的应用需求。研究团队对的探索并未止步于简单的基因敲除,他们进一步验证了它作为平台工具的通用性。

PAM识别的灵活性与严谨性(protospacer-adjacent motif)是CRISPR系统识别靶点的“路标”,大多数Cas9蛋白都严格依赖特定的PAM序列(通常识别NGG)。研究人员测试了在不同PAM序列下的表现,结果揭示了一种巧妙的平衡:在标准的NGG靶点上,它的活性与相当。然而,当PAM序列存在错配时(如NGC, NGT等),的活性出现了数倍的显著下降(P值 = 0.0005)。这说明对PAM的识别更为“严谨”,在保持高效活性的同时,减少了对错误“路标”的响应,进一步增强了其安全性。

与碱基编辑(Base Editing)的无缝兼容。碱基编辑是一种更为精细的基因编辑技术。研究人员将改造为切口酶形式(D10A突变),并与一个高效的腺嘌呤脱氨酶(ABE8.20)融合。在人类细胞中的测试表明,这个基于的碱基编辑器表现出色,在多个靶点上实现了 35%至60% 的A到G转换效率,与基于的系统不相上下。这证明拥有出色的平台兼容性,可以作为“底盘”搭载不同的功能模块。

潜在的低免疫原性。对于将基因编辑技术用于人体治疗而言,免疫原性是另一个必须翻越的大山。研究人员通过(间接酶联免疫吸附试验)检测了与40位健康人血清中抗体的结合能力。结果令人鼓舞:与相比,这些AI设计的蛋白所结合的人类抗体量都显著更低。同时,生物信息学分析也显示,序列中缺少了数个已知的免疫显性T细胞表位。这些初步证据共同指向一个令人兴奋的可能性:通过AI设计,我们或许能够创造出免疫原性更低、更适合临床应用的“隐形”基因编辑器。

的成功无疑是一个里程碑,但它究竟是偶然的幸运,还是代表着一种全新的、可复制的“范式革命”?为了回答这个问题,研究人员进行了一场“华山论剑”,将他们的语言模型方法与其他主流的蛋白质设计策略进行了正面比较。

自然挖掘 (Natural Mining):从数据库中找到的与序列相似度在57%-71%之间的天然蛋白。

进化方法 (Evolutionary Methods):包括基于多序列比对的共有序列设计(Consensus Design)、祖先序列重建(Ancestral Reconstruction)、隐马尔可夫模型(HMM)等。

结构方法 (Structure-based Methods):为代表,该方法依赖于已知的蛋白质三维结构来设计新的序列。

实验结果清晰地展示了不同策略的优劣。自然挖掘的蛋白活性参差不齐。基于进化信息的方法能够产生一些有活性的蛋白,但成功率不高。而基于结构的方法设计的序列则几乎完全没有活性。与之形成鲜明对比的是,基于大型语言模型的方法,诞生了像这样众多高活性的候选者

这场对比说明了大型语言模型方法的独特优势。为什么会这样?对于像Cas9这样功能极其复杂的蛋白质,其行使功能不仅需要一个精确的三维结构,还需要在动态过程中与其他分子进行复杂的相互作用。大型语言模型通过学习海量序列,隐式地捕捉了蛋白质序列中蕴含的“共演化蓝图”和“功能约束”。它学的不是一个静态的形状,而是一整套决定其如何折叠、运动和“对话”的深层规则。这使其在设计复杂功能蛋白方面展现出无与伦比的潜力。

这项工作不仅仅是创造了一个新的工具,更是建立了一套全新的“设计哲学”。它证明了,通过将海量自然数据与强大的AI模型相结合,我们有能力系统性地探索和优化生命分子,其深度和广度是传统方法难以企及的。的建立,意味着我们现在拥有一个前所未有的“设计素材库”。今天,研究人员用它生成了;明天,他们或许就可以用它来训练能够“定制”出满足各种严苛需求的、真正“量体裁衣”的基因编辑器。

的诞生,是AI赋能生命科学研究的一个缩影。这不再是一个只能在自然界“寻宝”的时代,而是一个我们可以手握“创世蓝图”,与AI一同设计和创造生命分子的新纪元。这趟旅程才刚刚开始,前方的风景,必将更加波澜壮阔。




参考文献


Ruffolo JA, Nayfach S, Gallagher J, Bhatnagar A, Beazer J, Hussain R, Russ J, Yip J, Hill E, Pacesa M, Meeske AJ, Cameron P, Madani A. Design of highly functional genome editors by modelling CRISPR-Cas sequences. Nature. 2025 Jul 30. doi: 10.1038/s41586-025-09298-z. Epub ahead of print. PMID: 40739342.


声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!
最新文章
《繁花》老歌连连看,你知道多少?电视剧原声音乐大碟上线
潮新闻客户端 记者 陈新怡电视剧《繁花》以独有的叙事美学和电影质感,为观众呈现时代巨轮下的沪上繁花,跃然于荧屏前的鲜活人物,以独有之姿见证时代,似画笔似文字更似歌曲,以经典旋律烘托浓郁氛围,更以歌声抚慰角色人生。今年6月,收
二季度全球手机出货数据出炉:三星夺冠 小米第三
  【CNMO科技消息】8月1日,Canalys最新研究显示,2025年第二季度全球手机出货量小幅下降至2.889亿部。其中,三星排第一,小米居第三。三星手机  具体来看,三星是本季度出货量最大的厂商,出货5750万部,同比增长7%,这主要得益于面向
扬帆起航新时代,砥砺奋进新征程:山西体彩2021亮点纷呈
2021年是中国共产党成立一百周年,“十四五”开局之年,山西省体育彩票管理中心不忘初心,牢记使命,以年销售36.545亿元,筹集公益金8.87亿元的成绩为2021年交上了一份令人振奋的答卷。2021年,山西省体育彩票管理中心党支部坚持以习近平新
伊春市友好区哪里有鹅苗厂家 鹅苗批发
后备种鹅的饲养管理须知  早期(30~45日龄):对刚选留的种鹅要进行调教,使之合群,以舍饲为主并结合放牧饲养,根据放牧场草质和鹅群的膘情,每天补料50~100克,公鹅补料量应多些。料以配合料为主,青料作补充。中期(60~90日龄):以放
突然宣布:腾讯翻译君即将停止运营!很多人还在用
又一个被AI改变的产品!近日腾讯翻译君官网及小程序页面显示为了给用户一致的体验计划将翻译服务迁移至腾讯元宝基于此调整腾讯翻译君-在线翻译翻译君App和翻译君小程序将于2025年3月13日11:00正式停止运营腾讯翻译君还表示,产品下线后,原
五行属火可以戴红玛瑙吗,探讨五行属火者是否适合佩戴红玛瑙?
五行属火的人可以戴红玛瑙因为红玛瑙是火属性石头对属火的人对于有很好的补充作用。以下是关于五行属火可戴红玛瑙的理由。红玛瑙是火属性石头在五行理论中与火属性相对应。按照五行理论五行之间相生相克关系密切。属火的人要是可以配戴火属
去年新茶饮行业耗茶量约30万吨,新品牌如何突围?
据《2024年中国茶叶产销形势分析及2025年趋势展望》,去年新茶饮行业耗茶量约30万吨。在昨天开幕的第三十二届上海国际酒店及餐饮业博览会上,《咖啡茶饮的100种可能》主题论坛举办,多家茶咖企业“掌门人”畅所欲言。论坛上,北京中轴线基
版权之争落幕:一首凉凉送给QQ音乐
这一纸通知,宣告音乐版权之争将要落幕了。2月9日,国家版权局宣布,腾讯音乐与网易云音乐就网络音乐版权合作事宜达成一致,相互授权音乐作品,达到各自独家音乐作品数量的99%以上。这意味着音乐版权割据的乱象终于要结束了。截至发稿前,
非凡十年·民生篇|足不出户,企业社会保险登记可以网上办理了
企业自助参保登记功能上线,我市全面实现了参保单位日常社保业务网上办理的全覆盖。8月2日,记者从市社会保险中心了解到,单位社保参保登记是企业开办的一个重要环节。今年以来,该中心紧紧围绕优化营商环境,优化企业开办流程,积极在减时
深圳体彩迎来幸运儿,小额投注博得千万大奖
2025年新年伊始,深圳体彩迎来了一位幸运的中奖者,王先生以一张18元的大乐透套餐票中得千万大奖,开启了新年的幸运序幕。2024年12月28日,超级大乐透第24151期开奖。前区开出号码05、12、17、19、35;后区开出号码10、11。全国共开出5注一
相关文章
推荐文章
发表评论
0评