基于网络的蛋白质功能预测方法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:28666 论文编号:sb2022021714472443622 日期:2022-02-18 来源:硕博论文网
本文是一篇计算机论文,本文设计的算法虽然在蛋白质功能预测方面有一定成效,但是由于初期知识的有限性,所以本文的算法研究仍然有很多可以完善和改进之处: (1)通过实验技术测量的 PPI 网络数据不完整且有噪声,这将降低基于网络的预测必需基因或蛋白质的方法的准确性。因此,进一步研究的最大挑战是如何提出有效的预处理方法来处理 PPI 网络数据并为每种生物开发合适的预处理技术。在应用合适技术的基础上,为基于网络的功能预测方法提供更准确、完整的网络数据。

第一章  绪论

1.1  研究背景及意义
蛋白质对人类生物学和健康起着核心作用,随着未知功能表征的蛋白质序列数量指数增长,预测蛋白质在细胞中的作用及其确切作用已成为分子生物学要解决的中心问题[1]。最初,这个问题仅在实验室对一小部分靶基因或蛋白质进行研究。检测蛋白质在细胞中作用的实验室方法包括基因敲除,靶向突变,基因表达抑制,质谱和 RNAi[2]。基因敲除,靶向突变和基因表达抑制的方法需要相当大的成本和时间,并且一次只能处理一个蛋白质产物或基因[3]。同时欧洲功能分析网络[4]等实验室高通量注释计划也被证明无法跟上整个基因组测序的步伐。而且与低通量方法相比,那些使用质谱或 RNAi 的实验室方法产生的蛋白质功能信息是有偏见且不具体的[5]。生物治疗的人类专家也需要经常仔细阅读已发表的湿实验室研究,才能了解有关蛋白质的功能信息[6]。例如,流行的UniProtKB 数据库是收集蛋白质序列及功能的信息中心,它由两部分组成:(1)SWISS-PROT[50],其中包含人工注释和经过审查的注释(UniProt 中只有低于 1%的蛋白质在SWISS-PROT 中进行了注释);(2)TrEMBL[7],其中包含尚未由专家验证的注释。在这些注释中,大约有 30-40%的功能注释包含错误。蛋白质序列数据越来越多,而对蛋白质的功能注释难以跟上现有数量的增长。基于计算注释蛋白的方法为实验方法提供指导,并有望能缩小这一差距。这些基于计算预测蛋白质功能的方法是各种各样的,特别是在预测某些蛋白质功能特定方面时,每种方法所采用的数据和蛋白质功能分类标准都有区别。本文的重点是提供预测蛋白质相关的 GO 注释的方法。这些方法可以根据 GO 注释划分的不同类别来预测未注释蛋白质的 GO 功能的类别。
蛋白质功能的准确注释是生物学领域最重要、最具挑战性的问题之一。注释蛋白质功能,又称蛋白质功能预测,目的是将未知蛋白质分配到注释数据库中正确的功能类别。自动的功能预测方法使我们能够最大限度地利用大规模基因组学实验产生的功能注释,了解蛋白质的功能也有助于了解生物系统的行为。随着高通量实验的发展,可以得到蛋白质间的几种关系网络,如蛋白质相互作用[8],基因共同表达[9]等。简单地说,每种类型的网络代表一种蛋白质之间的联系。从这些网络的拓扑结构中提取生物学信息对于理解细胞及其构建蛋白的功能至关重要。
.............................

1.2  国内外研究现状
1.2.1 蛋白质功能预测研究现状
随着高通量实验方法的出现,产生了大量高通量实验数据。这些数据为推断蛋白质或蛋白质的功能注释提供了丰富的信息来源。在过去的十几年里,基于高通量实验数据提出了许多用于蛋白质功能预测的方法。例如,Clark 等人[16]提出的基于氨基酸序列的方法、Huttenhower 等人[17]基于基因表达的方法,Pal 等人[18]的基于蛋白质结构的方法等等。已有实验显示,不同数据源存在互补性,使用多个数据源的技术被证明比单一数据源的技术更精确。Cozzetto 等人[19]整合了多种生物数据来预测蛋白质功能,这些数据包括序列、基因表达和蛋白质-蛋白质相互作用数据。他们的方法根据基因本体论的层次结构,提出了一个新的评分函数(称为组合图信息内容相似度 COGIC)评分,用于预测蛋白质的功能类别。为了有效的结合网络信息如蛋白质-蛋白质相互作用网络信息来改进蛋白质功能预测,Renzhi Cao 等人[20]开发了三种不同的概率分数(MIS、SEQ 和 NET 分数)来结合蛋白质序列、功能关联、蛋白质-蛋白质相互作用和空间蛋白质-蛋白质相互作用网络来预测功能。
根据网络的拓扑结构,核函数也被用于将功能关联网络转换为蛋白质或基因之间的功能相似性评分。更具体地说,这些相似性分数代表蛋白质载体在某些特征空间中的内部产物,而空间中两个蛋白质的距离表示两者在功能关联网络中的相似度。通过核函数映射,使得各种统计学习方法可以在网络数据上运行。如 Lanckri 等人[53]提出了一种基于多数据内核的方法,利用内核函数将多种类型的数据表示为内核相似度值的矩阵,然后通过最大化具有特定功能的蛋白质之间的余量来建立预测器。但是很多特定功能并不是大多数蛋白质拥有,使用同一内核的不同网络数据无法实现每种数据源的最佳效果。Lee 等人[54]开发了一种新颖的基于蛋白相互作用网络核扩散的核逻辑回归(KLR)方法。这种方法预测变量不是从核相似性矩阵中得出的,而是从 KLR 的相似性内核中得出的。它使用了扩散核将所有蛋白质邻居网络化,以进行基因功能预测。之后,李等人[55]提出了一种基于上下文图内核(CGK)的方法。
...........................

第二章  相关基础知识

2.1  蛋白质相关数据库介绍
随着生物信息学的发展,各种类型的生物数据库逐渐形成,研究者可以更容易从这些数据库中获取可靠的生物数据。本文主要使用蛋白质相关的网络数据,基因本体注释数据和相关蛋白质属性信息(氨基酸序列,结构域信息,亚细胞位置),这节主要说明这些数据库,来让研究人员更好了解相关蛋白质的信息。
2.1.1 STRING Database
STRING Database 是一个存储蛋白质交互作用的数据库,这些交互作用包括蛋白质与蛋白质之间的直接作用和间接作用[8]。它们源自于其它数据库的相互作用数据、已知的生物之间的知识以及计算预测结果。STRING 中的关联主要来自以下五个方面:基因组背景预测、高通量实验室实验、(保守)共表达、自动文本挖掘、数据库的先验知识[8]。目前,STRING 数据库包含了来自 5,090 个生物体的 24,584,628 个蛋白质。它涉及到 5,090 种生物(包括 4445 种细菌,477 种真核生物、168 种古细菌)。该数据库的访问网站为 https://www.string-db.org/,目前的版本为 STRING11.0,主页如图 2-1 所示。
计算机论文怎么写
计算机论文怎么写
..........................

2.2  蛋白质网络构建策略
本文提出的算法模型都是建立在蛋白质组学和基因组学的网络数据上。在现实世界中,多个数据库的异构数据可以转化为网络结构,这些网络结构数据可以用作下一步的数据集成。基于网络的功能预测方法主要根据蛋白质相关网络进行功能预测,它主要是挖掘网络结构信息与蛋白质功能表达的关联。基于现有的高通量数据,蛋白质网络可以通过如下两种方式构建:(1)蛋白质相互作用模式构建。例如在生物学上蛋白质与蛋白质之间的物理相互作用和遗传相互作用;(2)蛋白质相关特征构建。例如通过蛋白质的表型数据构建的网络、蛋白质序列相似性构建的网络和基因表达构建的网络等。
蛋白质相互作用网络是通过相互作用模式构建的,本文所使用的相互作用网络下载自 STRING 数据库。该数据库基于各种数据源,包括高通量相互作用分析,权威的 PPI数据库和保守的共表达数据。在一个生物体内,生物功能往往需要多个蛋白质共同完成,在功能执行过程中蛋白质间的关系可以构成网络拓扑表示。本文第 3 章使用的酵母和人类的蛋白质相互作用网络也来自于 STRING 数据库。在实验过程中,本文排除了由学术文献的文本挖掘构建的网络,以防止基于功能相似性的链接造成的混淆。而本文第 4 章所使用的蛋白质相互作用网络数据不是原始数据,它是通过使用 STRING 提供的“组合分数”作为置信度分数筛选之后得到的。实验中仅使用“组合分数”大于 300 的交互作用来构建邻接矩阵作为网络。对于低置信度的相互作用和 STRING 中没有提到的相互作用的蛋白质对,我们将邻接矩阵中的相应元素分配为 0。
.........................

第三章  基于标签嵌入的蛋白质功能预测 ............................. 17
3.1  引言 .............................................. 17
3.2  基于标签嵌入的蛋白质功能预测 ......................................... 18
第四章  基于属性网络嵌入的蛋白质功能预测 .............................. 28
4.1  引言 ...................................... 28
4.2  基于属性图嵌入的蛋白质功能预测模型 ...................... 28
第五章  总结与展望 ............................... 39
5.1  本文总结 .......................................... 39
5.2  未来展望 ................................. 40

第四章  基于属性网络嵌入的蛋白质功能预测

4.1  引言
鉴于单一信息源的预测能力有限,已经提出了许多方法利用机器学习技术来组合多种信息。现有的方法大多仅考虑多个 PPI 网络的拓扑信息,这些网络图都是无属性图忽略了蛋白质本身的属性信息(如蛋白质序列或蛋白质结构域信息)。随着图神经网络的发展,图的结构和多种类型的节点属性信息可以在机器学习模型中进行分析。这些机器学习中的网络表示学习方法可以利用邻域结构和节点属性来生成具有更多信息的节点嵌入。本章提出的 GAE-GO 模型就是通过统一的方式利用多种数据源来预测蛋白质功能。与之前提到的其它方法不同,GAE-GO 模型可以对属性网络进行分析,使用属性网络表示学习方法(VGAE)来获取每个图中每个节点的信息嵌入。实验中采用了蛋白质-蛋白质相互作用网络和序列相似性网络,并使用了蛋白质亚细胞位置,蛋白质结构域,蛋白质序列信息等生物信息作为两个图中的节点属性。通过 GAE-GO 模型,可以实现对节点属性和网络结构进行全面建模来学习节点表示。
GAE-GO 模型由两部分组成:第一部分是基于图的无监督表示模型(如图 4-1),该模型同时利用网络信息(PPI 网络,SSN 序列相似性网络)和节点属性(蛋白质序列,亚细胞位置和蛋白质结构域)为每种蛋白质生成唯一的嵌入表示;  第二部分是完全连接的深度神经网络(DNN)分类器(如图 4-2),该分类器使用属性图嵌入作为特征输入,并使用基因本体(GO)作为功能标签进行训练。
计算机论文参考
计算机论文参考
........................

第五章  总结与展望

5.1  本文总结
高通量实验方法的普及产生了大量的大规模分子和功能相互作用网络,这些网络为推断蛋白质的功能提供了丰富的信息。组合这些异构网络可以进行更好的功能预测。近来,多网络融合在蛋白质功能预测中取得了重大进展。这些方法基于网络嵌入方法,以捕获多个异构网络的非线性,低维特征表示。但是,大多数现有方法仅从多个网络中提取低维特征,而没有考虑每个网络特征向量与标签之间的相关性。随着大量的可用序列和其它蛋白质属性信息(如蛋白质域信息,亚细胞位置信息)的产生,大量蛋白质属性信息和网络可以用于功能预测。但是传统的方法只能在无属性网络上进行分析,无法拓展到属性网络中。基于现有算法的限制和生物数据的发展,本文提出两种基于网络的蛋白质功能预测方法。
基于多数据源的多网络构建,并采用网络嵌入方法融合节点在各个网络中的拓扑特征。通过收集多个生物信息数据库数据,对来自不同数据库信息的数据进行整合来构建我们需要的网络数据。同时应用网络嵌入的方法来捕获节点的网络拓扑特征。在得到单个网络特征的基础上应用基于标签嵌入的深度学习模型进行特征集成和功能预测。通过集成多个输入网络特征为每个蛋白质生成一个公共的用于功能预测的深度潜在空间,在集成的过程中考虑不同网络之间的相关性并减少信息丢失。提出了一个名为 MCAE 的深度神经网络(DNN)模型,该模型使用典型相关自编码器(C2AE)学习得到一个深潜空间以实现联合特征和标签嵌入,并将生成的潜在空间用于蛋白质功能预测。我们的方法所生成的多网络特征和标签的潜在空间综合考虑了每个网络特征和功能标签的相关性。此外,我们的方法一起训练多网络集成和功能分类,而不是像大多数方法一样先通过多网络融合获得集成特征,然后训练分类器预测蛋白质功能。多个网络集成和功能分类的整体培训可以更好地利用多个网络的功能。我们的模型是通过集成自动编码器的DNN 体系结构实现的,该体系结构允许端到端的学习和预测。我们在人类和酵母数据集上测试我们的模型,并将其与最新方法进行比较,MCAE 方法的预测结果比其它两种基准方法都要好。
参考文献(略)

QQ 1429724474 电话 18964107217