蛋白质很大,高度复杂,并且在所有活生物体中都可以发现天然存在的分子。这些独特的物质由氨基酸组成,这些氨基酸通过肽键连接在一起形成长链,可以具有多种功能和特性。
排列不同氨基酸形成给定蛋白质的特定顺序最终决定了蛋白质的3D结构,理化性质和分子功能。尽管科学家们已经研究蛋白质数十年,但迄今为止,设计引发特定化学反应的蛋白质已被证明具有很高的挑战性。
立陶宛维尔纽斯大学和瑞典查尔默斯理工大学Biomatter Designs的研究人员最近开发了ProteinGAN,这是一种生成性对抗网络(GAN),可以处理和“学习”不同的天然蛋白质序列。这个独特的网络在《自然机器智能》上发表的一篇论文中提出,随后利用其获取的信息来生成新的功能蛋白序列。
负责这项研究的查尔默斯理工大学副教授Aleksej Zelezniak告诉Phys.org:“蛋白质是使所有生命系统中发生过程的一系列氨基酸序列,诱导人类。” “蛋白质在我们的日常生活中是常用的,从洗衣粉到抗癌和的治疗方法中,无数种产品都包含这种蛋白质。它们由20种氨基酸组成,这些氨基酸以不同的顺序排列,其顺序决定了蛋白质的功能。”
创建功能性蛋白质序列是一项非常具有挑战性的任务,因为即使是给定序列的轻微改变也会使蛋白质失去功能。非功能蛋白可能具有有害和不良影响,例如导致人类或动物患上癌症或其他疾病。
泽勒兹尼亚克说:“如果要使蛋白质与人的需要相一致,他/她就需要正确地理解氨基酸的顺序以及制造这些蛋白质的给定的天文数字,这并不是一件容易的事。” “受AI最新发展的启发,特别是逼真的照片和视频生成,我们很想知道当前的AI技术是否准备好生产人类已知的最复杂的分子-蛋白。”
Zelezniak及其同事开发的ProteinGAN模型基于一种称为对抗学习的著名机器学习方法。对抗学习可以看作是由两个或多个人工神经网络“玩”的游戏。这些网络中的第一个被称为“生成器”,它生成特定类型的数据(例如,图像,文本,或者在ProteinGAN的情况下为蛋白质序列)。第二个网络称为“判别器”,它试图区分由“生成器”创建的人工数据(例如蛋白质序列)与真实数据还是真实数据。
随后,生成器使用鉴别器提供的反馈(即,允许其区分生成数据和真实数据的特性)生成新数据。生成器从不处理或分析实际数据及其生成的数据。因此,其学习仅依赖于鉴别者进行的分析结果。
Zelezniak说:“通过反复地重复这一过程,两个网络在做事上都变得更好,直到无法将生成的序列与真实的序列区分开。” “使用我们开发的AI工具,我们能够生成活跃但不存在或尚未发现的功能蛋白。”
在研究人员进行的初步试验中,ProteinGAN产生了新的高度多样化的蛋白质序列,其物理性质类似于天然蛋白质序列。Zelezniak和他的同事使用苹果酸脱氢酶(MDH)作为模板酶,表明ProteinGAN产生的许多序列都是可溶的,并表现出MDH催化活性,这意味着它们在医学和研究环境中可能具有有趣的应用。将来,ProteinGAN可以用于发现具有不同特性的新蛋白质序列,这可能对多种技术和科学应用都具有重要价值。
Zelezniak说:“我们的研究实验室专注于基于人工合成生物应用的AI技术。” “我们目前正在努力解决诸如塑料污染等新出现的问题,我相信人工智能将有助于建立更好的有机体,以适应这一特殊问题。”
标签: ProteinGAN
免责声明:本文由用户上传,如有侵权请联系删除!