cr.gene Ontology (基因本体论)
cr.Gene Ontology-基因产物功能数据库
cr.ontology-documentation
cr.基于多层网络模块性的复杂疾病相关模式研究_姚顺宇
本体论:最原始的本体论概念是从哲学领域引申而来的,哲学理论中,本体是研究关于“什么是”“为什么”以及“是什么”的理论。将本体的概念应用到各个不同的领域,则引申为定义该领域内的所有专业词汇及词汇之间关系的“词汇表”。本体定义了各个专业术
语之间的上下位置关系,就如同使用英文词典查询某个陌生单词一样。通常我们遇到陌生单词,会按照单词中的英文字母的顺序依次查询。如想要查询“ontology”,首先会找到“o”单词所在的位置,然后找到“on”单词所在的位置,以此类推。之所以会按照这样的规则进行查询是因为词典已经按照默认的规则排好了单词所在的位置。本体相关的数据库同理,本体数据库会根据某种规则对术语进行排序,当进行查询时,可以先找到术语所处的大类位置,然后逐步细化,直到找到想要查询的术语位置。
生物学相关的本体论:生物医学领域常使用本体相关的概念定义该领域所涉及到的生物术语,如Gene Ontology 的目的是建立所有与基因描述相关术语的词汇表,Disease Ontology 的目的是建立所有与疾病描述相关术语的词汇表。通过使用术语对基因或者疾病进行描述,使我们可以对基因相关的功能或者疾病相关的表型有更直观的认识与理解。
来源:为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找无章可循。Gene Ontology就是为了解决这种问题而发起的一个项目。
本体是给定领域内的知识体系的形式表示。 本体通常由一组类(或术语或概念)组成,并且它们之间存在关系。
基因本体
基因本体,即 Gene Ontology,是对所有基因的功能进行描述的本体数据库。该数据库将收录的基因本体按照术语描述的内容不同,将所有基因本体分为三大类,分别是描述分子功能的本体,描述细胞组分的本体以及描述生物过程的本体。
- 分子功能(Molecular Function):描述发生在分子水平上的活性,这种活性一般都是由单个基因产物进行的活性,比如“催化活性”、“结合活性”、“转运蛋白活性”等。当然,还有小部分活性是通过基因产物的复合物进行的活性,比如“腺苷酸环化酶活性”、“Toll 受体结合”等。
- 细胞组分(Cellular Component):描述某些大分子在执行某项分子功能时占据细胞的结构和位置。细胞的位置描述如“质膜的细胞质侧”,细胞的结构描述如“线粒体”,“核糖体”等。
- 生物过程(Biological Process):描述了由一个或多个有组织的分子功能集合共同完成的一系列事件。广泛的生物过程术语如“细胞生理过程”、“信号传导”等。具体的生物过程术语如“嘧啶代谢过程”、“α-葡萄糖苷转运”等。
以上三类术语按照对基因注释的关注点不同所产生的描述会有所区别,但都是对同一基因或者基因产物进行描述。例如,基因产物“细胞色素 c”可以通过分子功能术语描述为“氧化还原酶活性”,生物过程术语描述为“氧化磷酸化”和细胞组分术语描述为“线粒体基质”和“线粒体内膜”。
每个GO术语都与物种无关,适用于原核生物和真核生物以及单细胞和多细胞生物的术语。
GO类由定义,标签,唯一标识符和其他几个元素组成。
GO之间的关系不是一个树状结构,首先BP,CC, MF 这3个节点是独立的,没有公共父节点的;其次,GO没有树状结构中严格的层级关系。所有也有父节点,子节点的概念,但是层级关系不明显,一个GO可以有多个父节点。
每个GO term用一个唯一的GO编号表示,前缀为GO, 后面是6位数字,如上所示,由于GO是基于已有的生物学知识构建的,而这些认知是不断修正和完善的,所有会存在有的GO term被删除了,或者是和其他GO Term合并的情况。
不同GO term之间的关系是多种多样的,比如说:
-
is a
-
part of
-
has part
-
regulation
我们利用数据库中的信息来联系每个蛋白质与它已知的生物学功能。简单的说,GO就是一个标准的词汇集合,专门用来描述基因和基因产物的生物学属性。每一个特定的生物学属性都有一个唯一的号,而数据库则维护了每一个蛋白质与这些号之间的联系,也就是标识了这个蛋白质具有哪些生物学功能。