Signalling entropy: A novel network-theoretical fram

2018-09-03 1210

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 摘要系统生物学的一个关键挑战是阐明决定细胞表型的基本原理或基本定律。了解如何在癌症等疾病中改变这些基本原则对于将基础科学知识转化为临床进展非常重要。虽然正在取得重大进展，但通过系统生物学方法确定了新的药物靶点和治疗方法，我们仍然缺乏基本系统对某些治疗成功和其他治疗失败的理解。

摘要

系统生物学的一个关键挑战是阐明决定细胞表型的基本原理或基本定律。了解如何在癌症等疾病中改变这些基本原则对于将基础科学知识转化为临床进展非常重要。虽然正在取得重大进展，但通过系统生物学方法确定了新的药物靶点和治疗方法，我们仍然缺乏基本系统对某些治疗成功和其他治疗失败的理解。我们在此提倡一种新的方法框架，用于系统分析和解释分子基因数据，这是基于统计力学原理。具体而言，我们提出了细胞信号熵（或不确定性）的概念，作为一种新的手段
分析和解释基因数据，更重要的是，作为阐明基础生物学和疾病基础的系统级原则的一种手段。我们描述了信号熵根据分化潜能和癌症状态区分细胞的能力。我们进一步论证了经验细胞熵 - 鲁棒性相关定理的情况，并证明了它在癌细胞系药物敏感性数据中的存在。具体而言，我们发现高信号熵与耐药性相关
并进一步描述了如何使用熵来识别癌细胞的跟腱。总之，信号熵是一个深刻而有力的概念，基于严格的统计机械原理，通过提高数据质量和覆盖范围，可以更深入地理解正常和疾病生理学背后的系统生物学原理。

简介

生物技术的最新进展使我们能够衡量细胞特性前所未有的细节[1]。对于例如，现在可以常规测量各种分子实体（例如DNA甲基化，mRNA和蛋白质表达，SNP）全基因组数百甚至数千个细胞规格。此外，其他分子数据详述了蛋白质之间或者与转录因子或调节性DNA的相互作用正在快速增长。所有这些类型的数据现在被统称为“omic”数据。该这种数据具有复杂性和高维的性质，这对那些希望分析和解释的研究者来说是一项艰巨的挑战数据。当omic数据与细胞生物学过程结合起来时，分析的难度更大。细胞是有组织的复杂系统的主要例子，能够高度稳定和可预测的行为，但对...的理解这种确定性行为是如何从高度出现的动态相互作用的复杂和概率模式是 - 在许多细胞内和细胞外组分之间仍然存在我们[1]。因此，阐明系统生物学中的决定细胞表型的法则或原则也是改进分析和解释数据的关键。此外，重要的生物学细胞分化等现象通常存在在癌症等疾病。因此，试图理解细胞特性如何从系统层面出现在个体基因水平上看到的联系不仅是一项关键的努力对于系统生物学界，也为那些想要的人将基本见解转化为有效的医学进步。现在已经广泛接受，从根本上讲，大多数生物学 - 系统最好根据空间相互作用建模特定实体之间（例如大脑中的神经元），可能会或可能不会在时间上动态变化。
它因此，似乎也很自然地使用数学和物理网络框架，以帮助我们分析和解释omic数据。实际上，细胞表型在很大程度上取决于分子间的精确模式。在细胞中发生的作用，即分子相互作用网络。虽然这个网络具有空间和动态导致目前仍未进行大量未探索由于技术限制，但是已经有一些基于网络的分析策略涌现。例如，更深入的了解为什么用EGFR抑制剂持续治疗可以导致癌细胞系对细胞毒性剂的显着致敏，这可能归功于系统方法。另一项研究使用逆向工程网络方法来识别和验证多形性胶质母细胞瘤的药物靶点，并进一步经过临床试验检验。在这里要理解的关键是，尽管有杂音和不完整的数据，这些成功例子已经表明我们已经利用当前的技术和数据来探索和研究细胞生物学通过深入的系统生物学原理。因此，与未来数据质量和覆盖范围的改进相比，基于网络的分析框架将在其中发挥越来越重要的作用。因此，开发新颖的用于系统分析数据的更强大的网络理论方法很有必要。
采用网络的视角进行分析和交互原始数据的存在，原则上有两种不同可以采取的方法（并不互斥）。一种可能性是从全基因组推断（即逆向工程）网络数据。大多数这些应用程序都是在上下文中完成的基因表达数据，最早的方法使用聚类或共表达。部分相关和图形高斯模型已被证明是有用的，通过推断更可能的直接交互而过滤掉那些更可能是间接的连接。这些方法仍然很受欢迎，并将继续进行研究改进。其他方法已经取得了进展，来自信息理论的概念，例如ARACNe（“重建精确细胞网络的算法”）被证明在推断B细胞调控网络方面是成功。
与逆向工程方法形成鲜明对比的是另一类使用了结构生物网络的算法。首先，使用这些作为支架与omic数据整合。具体而言，通过使用结构网络，可以使相关性稀疏化，从逆向工程方法推断出的网络，从而提供了另一种过滤掉更多间接相关性的方法。此外，与结构网络的结合自动提供了具有生物学解释的结构。结构网络本身就是通常源自大型数据库，其详细说明文献策划的实验验证的相互作用，包括相互作用衍生自酵母杂交筛选（Y2H）。主要的例子是蛋白质蛋白质相互作用（PPI）图谱，PPI是使用许多不同的互补实验和硅胶方法生成，并将来自这些不同来源的这些图合并在一起，且已被证明是一种有效的方法对于产生更全面的高可信度互动网络。 PPI网络主要用作整合和分析基因表达数据）。最近，这种方法也取得了成功应用于DNA甲基化背景，例如它已经表明与年龄相关的表观遗传变化往往是特定的基因模块和信号通路。
另一类使用结构网络的方法，特别是PPI已将它们与基因表达数据整合在一起，从而允许更深入的探索网络拓扑与基因表达之间的相互作用。一般地，这些研究使用了随机游走的概念，权重由不同统计信息构成，目标是识别网络中的（基因）对病理状态的重要性。例如，
在这些随机游走方法中，NetRank，是对Google PageRank算法的修改，能够识别新颖的，鲁棒的，基于网络的生物标志物（用于各种癌症的存活时间）。其他基于随机游走的方法，旨在识别特定表型的因果驱动因素，模拟了基因之间的信号转导的因果基因，但也识别关键通路。随机游走理论也一直用于开发差异网络。一个例子是NetWalk ，它类似于NetRank，但允许推断差分信号通量。这个方法成功识别和验证葡萄糖代谢途径是拉帕替尼耐药的关键决定因素在ERBB2阳性乳腺癌患者中。
最近出现的另一个重要概念是网络重新布线。这指的是伴随着细胞表型变化的互动的变化模式。网络重新布线体现了它的变化相互作用模式，而不仅仅是绝对基因的变化表达或蛋白质活性，而这才是细胞表型的主要的决定因素。网络重新布线可能是关键理解细胞表型是最令人信服的证明在酵母中进行的差异上位性作图研究中进行了研究细胞暴露于DNA损伤剂。具体来说，这个研究证明重新布线是对扰动或细胞的反应压力
蛋白质复合物和功能模块。因此，这个概念-网络重新布线的可能同样适用于遗传变异或者疾病的细胞压力比如癌症这样的病症。

在本文中，基于统计力学原理，我们提倡网络理论框架，更具体地说，关于信号熵的概念。这个理论框架整合基因表达（但原则上也可以是其他数据）以及PPI网络，合并现有的概念，如信令动态（即随机漫步），网络重新布线以及信号熵。在以前的工作中，我们展示了信号熵如何（i）提供了Waddington的表观遗传与细胞的分化潜能相关（ii）如何用它来识别在分化和癌症中重要的途径和节点和（iii）它如何预测两个癌症系统标志物：（a）癌症有着是信号熵增加的特点（b）局部信号熵变化与差异基因表达相斥。在这里，我们介绍和统一先前和进一步使用的不同信号熵措施，探索信号熵在理解中的新应用
癌细胞系中的药物敏感性谱。具体来说，我们首先使用模拟数据证明存在熵 - 鲁棒定理，并随后提供经验证据这个定理通过证明局部信号熵的增加与耐药性（稳健性）相关。我们进一步显示在指示信号方面的重要性 - 信号熵改变了药物反应的基础。另外，我们提供实现熵计算的R函数，根据差异熵对基因进行排序sourceforge.net/projects/signalentropy/files/。

文章标签：

算法

Signalling entropy: A novel network-theoretical fram

摘要

简介

热门文章

最新文章

相关电子书