切换到宽版
  • 30阅读
  • 2回复

[智能应用]人工智能揭秘DNA中的“暗物质” [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
144148
金币
263466
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 16765(小时)
注册时间: 2012-06-21
最后登录: 2025-07-11
2003年,科学家首次对人类基因组进行测序,揭示了构成我们生命“蓝图”的全部DNA序列。尽管98%的基因组不直接编码蛋白质,它们仍深刻影响着基因的调控和细胞功能。这些非编码区域曾被视为“垃圾DNA”,但如今被认为可能蕴藏着重要的生物学秘密,就像是基因界的“暗物质”。
今年6月25日,“深度思维”公司宣布,他们开发出一款名为AlphaGenome(阿尔法基因组)的人工智能(AI)模型,有望在破译这一“暗物质”上取得突破。《自然》杂志报道称,这一“从序列到功能”的模型能预测DNA中微小变化会对一系列分子过程产生的影响,为解码人类基因调控机制提供了新路径。
解释DNA序列的“一体化”工具
深度思维公司在2020年推出的“阿尔法折叠2”(AlphaFold 2),成功破解了一个困扰科学界数十年的难题:如何根据蛋白质的氨基酸序列,准确预测其三维结构。这一突破不仅改变了结构生物学研究方式,也推动了新药研发的进程。
相比之下,要理解DNA序列的功能则更加复杂,因为它不像蛋白质那样拥有一个确定的“正确答案”。这些功能主要体现在DNA对基因表达的调控上,比如决定基因什么时候开启或关闭,在哪些细胞中发挥作用,以及以何种强度表达。
如果说蛋白质结构预测是在拼出“零件”的立体模型,那么DNA功能预测就是要理解说明书中每一个符号、注释、开关命令甚至“暗物质”区域的真正含义。其中涉及的信息层级更复杂、关联更广泛,且同一个DNA片段可能在不同时间、不同细胞类型中扮演不同角色,因此建模难度远高于蛋白质。
几十年来,生物学家尝试用各种计算工具来揭示DNA复杂而隐秘的调控机制,但这些模型往往聚焦于单一功能。科学家们渴望一种用于解释DNA序列的“一体化”工具,于是,“阿尔法基因组”应运而生。
据美国趣味工程网站报道称,与以往需在“序列长度”与“预测精度”之间取舍的模型不同,“阿尔法基因组”实现了二者兼得。它既能捕捉长程基因组上下文信息,又能提供碱基层面的精准预测,拓展了疾病生物学、罕见变异研究、合成DNA设计等领域的研究视野。
一次可处理百万个碱基对
据深度思维官网介绍,该模型一次可处理多达100万个碱基对,并预测数千种分子属性,包括基因表达、剪接模式、蛋白质结合位点和染色质可及性,覆盖多种不同类型的细胞。这是首次有AI系统能联合建模如此广泛的调控特征。
“阿尔法基因组”训练所用的数据集来自多个公开的超大规模数据资源。令人惊讶的是,训练一个完整模型仅需4小时,且所需计算资源仅为前代模型的一半。在26项基准测试中,其有24项表现优于或持平于专用模型。
新模型的一大亮点是其变异评分系统,能高效对比突变前后的DNA序列,并跨多种生物通路评估其影响。
“阿尔法基因组”还具备剪接位点建模功能,这是首次有模型能够预测与囊性纤维化、脊髓性肌萎缩等疾病相关的RNA剪接异常。
在合成生物学领域,“阿尔法基因组”可用于设计特定的调控序列,例如仅在神经细胞中激活某些基因,而在肌肉细胞中保持沉默。同时,它也有望用于研究生物效应强烈的罕见遗传变异,如导致孟德尔遗传病的突变。
在一项验证中,研究人员将“阿尔法基因组”应用于先前研究中识别出的某种白血病相关突变。结果,该模型准确预测出,某些非编码区变异会间接激活附近的TAL1致癌基因,这一机制正是T细胞急性淋巴细胞白血病中已知的致病过程。
模型尚不适用于个体诊断
尽管“阿尔法基因组”的表现令人瞩目,但深度思维团队表示,该系统目前仍存在很多限制。它并未设计用于个体基因组解读,也无法像23andMe或临床基因检测那样预测疾病风险或祖源信息。也就是说,该模型不适用于个体诊断或医疗决策。
“阿尔法基因组”目前的训练数据仅限于人类和小鼠,尚未覆盖其他物种,其跨物种适应性尚待验证。同时,它在识别调控元件与远距离靶基因(距离超过10万个碱基)之间关系方面的能力仍较弱,也无法完全建模细胞在不同状态、不同组织中的动态调控机制。
美国冷泉港实验室计算生物学家彼得·库指出:“这些模型往往是在一个固定条件下训练的,但现实中的细胞是动态的,蛋白质水平、DNA化学修饰、转录状态等都会随时间和环境变化,这些变化会显著影响同一段DNA序列的行为。”因此,未来模型需要引入更多“多模态”“多时间尺度”因素,才能更真实地模拟生物过程。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
144148
金币
263466
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 16765(小时)
注册时间: 2012-06-21
最后登录: 2025-07-11
只看该作者 沙发  发表于: 07-01
人工智能揭秘DNA中的“暗物质”
背景
2003年,科学家首次对人类基因组进行测序,揭示了构成我们生命蓝图的全部DNA序列。尽管98%的基因组不直接编码蛋白质,但这些非编码区域深刻影响着基因的调控和细胞功能。这些非编码区域曾被视为垃圾DNA,但现在被认为可能蕴藏着重要的生物学秘密,就像基因界的暗物质。

AlphaGenome模型的推出
今年6月25日,深度思维公司宣布他们开发出一款名为AlphaGenome(阿尔法基因组)的人工智能(AI)模型,有望在破译这一暗物质上取得突破。《自然》杂志报道称,这一从序列到功能的模型能预测DNA中微小变化会对一系列分子过程产生的影响,为解码人类基因调控机制提供了新路径。

AlphaGenome的功能与特点
复杂性:理解DNA序列的功能比预测蛋白质结构更加复杂,因为它不像蛋白质那样拥有一个确定的正确答案。这些功能主要体现在DNA对基因表达的调控上,比如决定基因什么时候开启或关闭,在哪些细胞中发挥作用,以及以何种强度表达。
一体化工具:几十年来,生物学家尝试用各种计算工具来揭示DNA复杂而隐秘的调控机制,但这些模型往往聚焦于单一功能。科学家们渴望一种用于解释DNA序列的一体化工具,于是,AlphaGenome应运而生。
性能:据美国趣味工程网站报道称,与以往需在序列长度与预测精度之间取舍的模型不同,AlphaGenome实现了二者兼得。它既能捕捉长程基因组上下文信息,又能提供碱基层面的精准预测,拓展了疾病生物学、罕见变异研究、合成DNA设计等领域的研究视野。
AlphaGenome的应用
疾病研究:新模型的一大亮点是其变异评分系统,能高效对比突变前后的DNA序列,并跨多种生物通路评估其影响。AlphaGenome还具备剪接位点建模功能,这是首次有模型能够预测与囊性纤维化、脊髓性肌萎缩等疾病相关的RNA剪接异常。
合成生物学:在合成生物学领域,AlphaGenome可用于设计特定的调控序列,例如仅在神经细胞中激活某些基因,而在肌肉细胞中保持沉默。同时,它也有望用于研究生物效应强烈的罕见遗传变异,如导致孟德尔遗传病的突变。
局限性
尽管AlphaGenome的表现令人瞩目,但深度思维团队表示,该系统目前仍存在很多限制。它并未设计用于个体基因组解读,也无法像23andMe或临床基因检测那样预测疾病风险或祖源信息。AlphaGenome目前的训练数据仅限于人类和小鼠,尚未覆盖其他物种,其跨物种适应性尚待验证。

结论
人工智能正在逐步揭开DNA中“暗物质”的神秘面纱,AlphaGenome模型的推出标志着我们在理解基因调控机制方面迈出了重要一步。然而,正如冷泉港实验室计算生物学家彼得·库所指出的,现实中的细胞是动态的,蛋白质水平、DNA化学修饰、转录状态等都会随时间和环境变化,这些变化会显著影响同一段DNA序列的行为1。因此,未来的研究需要进一步探索这些动态变化对基因调控的影响。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
167692
金币
273052
道行
2004
原创
2404
奖券
2775
斑龄
35
道券
1005
获奖
0
座驾
设备
摄影级
在线时间: 38148(小时)
注册时间: 2008-10-01
最后登录: 2025-07-11
只看该作者 板凳  发表于: 07-01
AlphaGenome(阿尔法基因组)是由“深度思维”公司开发的人工智能(AI)模型,它在破译人类基因组中的非编码区域,也就是所谓的“暗物质”方面取得了重大进展。以下是关于AlphaGenome的一些关键信息:

1. 功能预测:AlphaGenome能够预测DNA序列中微小变化对一系列分子过程的影响,为解码人类基因调控机制提供了新路径。

2. 一体化工具:与以往聚焦单一功能的模型不同,AlphaGenome是一个“一体化”工具,能够同时处理长程基因组上下文信息和碱基层面的精准预测。

3. 处理能力:该模型一次可以处理多达100万个碱基对,并预测数千种分子属性,如基因表达、剪接模式、蛋白质结合位点和染色质可及性。

4. 训练效率:AlphaGenome训练所用的数据集来自多个公开的超大规模数据资源,训练一个完整模型仅需4小时,且所需计算资源仅为前代模型的一半。

5. 变异评分系统:新模型的一大亮点是其变异评分系统,能高效对比突变前后的DNA序列,并跨多种生物通路评估其影响。

6. 剪接位点建模功能:AlphaGenome具备剪接位点建模功能,能够预测与囊性纤维化、脊髓性肌萎缩等疾病相关的RNA剪接异常。

7. 合成生物学应用:在合成生物学领域,AlphaGenome可用于设计特定的调控序列,例如仅在神经细胞中激活某些基因,而在肌肉细胞中保持沉默。

8. 限制:尽管表现令人瞩目,但AlphaGenome目前存在限制,它并未设计用于个体基因组解读,也无法预测疾病风险或祖源信息。此外,其训练数据仅限于人类和小鼠,尚未覆盖其他物种。

9. 未来改进方向:未来模型需要引入更多“多模态”“多时间尺度”因素,以更真实地模拟生物过程。

AlphaGenome的开发是AI在生物医学领域应用的一个重大突破,它为理解复杂的基因调控机制提供了新的工具和方法。尽管存在限制,但其潜力巨大,有望在未来的生物医学研究中发挥重要作用。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个