The Gene Ontology project is a major bioinformatics initiative with the aim of standardizing the representation of gene and gene product attributes across species and databases. The project provides a controlled vocabulary of terms for describing gene product characteristics and gene product annotation data from GO Consortium members, as well as tools to access and process this data. Read more about the Gene Ontology…
为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找无章可循。Gene Ontology (GO) 就是为了解决这种问题而发起的一个项目。
Gene Ontology 中最基本的概念是 term 。GO 里面的每一个 entry 都有一个唯一的数字标记,形如 GO:nnnnnnn,还有一个 term 名,比如 "cell", "fibroblast growth factor receptor binding",或者 "signal transduction"。每个 term 都属于一个 ontology,总共有三个ontology,它们分别是 molecular function, cellular component 和 biological process。
一个基因 product 可能会出现在不止一个 cellular component 里面,也可能会在很多 biological process 里面起作用,并且在其中发挥不同的 molecular function。比如,基因 product "cytochrome c" 用 molecular function term 描述是 "oxidoreductase activity",而用 biological process term 描述就是 "oxidative phosphorylation" 和 "induction of cell death",最后,它的 celluar component term 是 "mitochondrial matrix" 和 "mitochondrial inner membrane"。
Gene Ontology 中的 term 有两种相互关系,它们分别是 is_a 关系和 part_of 关系。is_a 关系是一种简单的包含关系,比如 A is_a B 表示 A 是 B 的一个子集。比如 nuclear chromosome is_a chromosome。part_of 关系要稍微复杂一点,C part_of_D 意味着如果 C 出现,那么它就肯定是 D 的一部分,但 C 不一定总会出现。比如 nucleus part_of cell,核肯定是细胞的一部分,但有的细胞没有核。
Gene Ontology 的结构是一个有向无环图,有点类似于分类树,不同点在于 Gene Ontology 的结构中一个 term 可以有不止一个 parent。比如 biological process term "hexose biosynthesis" 有两个 parents,它们分别是 "hexose metabolism" 和 "monosaccharide biosynthesis",这是因为生物合成是代谢的一种,而己糖又是单糖的一种。
Gene Ontology 使用 Oxford Dictionary of Molecular Biology (1997) 中的定义,在分选时还要参考 SWISS-PROT, PIR, NCBI CGAP, EC…中的注释。建立起来的标准不是唯一的标准(这是 GOC 所一直强调的),自然也不规定每个研究者必须遵循这套控制字集系统。所采用的动态结构 (dynamic structure) 使用 DAGs(Directed Acyclic Graphs) 方式的 network,将每一个 ontology 串连起来,形成树状结构(hierarchical tree),也就是由前面所说的“is a”和“part of”两种关系。
由于 GO 是一种整合性的分类系统,其下的 3 类主 ontology 我们前面说是独立的,但是无论是 GOC 原初的设计还是我们的使用中其实都还是存在一定的流程关系。一个基因/蛋白质或者一个 ontology 在注解的过程中,首先是考虑涉及在构成细胞内的组分和元件 (cellular component),其次就是此组分/元件在分子水平上所行使的功能 (molecular function),最后能够呈现出该分子功能所直接参与的生物过程 (biological process)。由于这是一种存在反馈机制的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。
TAMBIS 计划是目前唯一实现了在概念和联系层次上集成信息源的系统。但是还有其他一些相关计划正在研究之中。
比如 BioKleisli (宾夕法尼亚大学计算机系),采用 Mediator(调节器)技术实现了若干数据源的集成,其后的 K2/Kleisli 系统还利用数据仓库实现了 OLAP(联机分析处理)。
DiscoveryLink (IBM 研究院),基于 Wrapper/ Mediator(包装器/调节器)实现了信息源集成,提出了查询的分解和基于代价的优化策略。
TAMBIS (曼彻斯特大学计算机系)基于 Wrapper/ Mediator 实现了信息源集成,借助 BioKleisli 中的 CPL 语言作为查询语言并给出了查询优化的方法。通过 TaO(TAMBIS Ontology)本体定义为用户浏览和查询处理提供领域知识。
TINet (GSK 公司和 IBM 研究院),基于多数据库中间件 OPM(Object-Protocol Model,对象协议模型)定义数据源的对象视图,其 CORBA(Common Object Request Broker Architecture,公共对象请求代理体系结构)服务器使各数据源 Wrapper(包装器) 更易于扩充。
但是他们都存在一定的缺陷。BioKleisli 系统查询能力相对较弱,而且并未给出查询优化策略;TAMBIS 系统和 DiscoveryLink 系统集成的数据源数量相对还很少,后者在查询处理中并未运用领域知识,因而查询分解也未从语义角度考虑;TINet 系统中的查询处理能力不强。
现在面临的突出问题是在数据库查询中尤其是当多个数据库存在信息重叠时,缺乏从中选择最佳检索成员,动态生成优化检索方案的能力。而且现有的工作主要面向数据集成,而对服务集成考虑不多。支持数据与服务综合性集成的体系仍欠完备。因此这也将是 GO 未来发展和提升的一个重要方向。
本文引用网址:http://home.bbioo.com/space-110070-do-blog-id-5182.html
分享到:
相关推荐
**基因本体(Gene Ontology, GO)** 基因本体(Gene Ontology)是一个标准化的词汇表,用于描述生物体中基因和基因产物的功能、生物学过程以及细胞组件。这个项目始于1998年,目的是提供一个通用的语言来标准化基因...
### 基因本体(Gene Ontology, GO)数据库与信息资源 #### 概述 基因本体(Gene Ontology, GO)项目提供了一系列结构化的、受控的词汇表和分类体系,覆盖了分子生物学和细胞生物学的多个领域,并且免费供社区使用...
综上所述,Gene Ontology (GO) 作为生物信息学领域的一项重要成果,不仅解决了跨数据库查询的一致性问题,还为生物学家提供了一个标准化的语言体系来描述基因产物的功能属性,极大地促进了生物信息学数据的共享与...
Go Browser 允许您在本地机器上查看基因本体。 您可以在层次结构中上下移动并检查术语。 这是熟悉自己并在 GO 系统中定位自己的好方法。 它是使用 Baby X 工具包构建的,因此除了 xlib 之外没有任何依赖项。 Baby X ...
本文介绍了一种基于基因本体论(Gene Ontology, GO)的路径一致性算法(Path Consistency Algorithm, PC),用于识别共调节基因网络的新方法——PC-GO。该方法旨在通过大量的生物数据来寻找基因之间的关联信息和网络...
随着基因本体论(Gene Ontology,简称GO)的出现,可以从GO中提取关于基因产品的额外知识,有助于解决基因功能预测问题。 GO是一个国际标准化的、针对基因和基因产品的功能描述的数据库,它包含了大量关于基因和...
Go语言,通常被称为Golang,是由Google开发的一种静态类型、编译型语言,它适用于多线程、并行计算以及网络服务。Go语言设计简洁,语法轻量,易于学习。 2. GO的原理:GO可能指的是Go语言或基因本体论(Gene ...
This thesis proposes an approach based on Gene Ontology (GO) semantic similarity to evaluate the similarity between proteins in the interaction network. By leveraging the structural and functional ...
研究者进一步通过建立四个分子网络的GO(Gene Ontology)数据库,比较了非肿瘤肝炎及肝硬化组织与肝癌组织中各激活组和抑制组分子网络的GO生物过程差异。GO数据库是一种用于描述基因产物功能的标准化词汇体系,它...
基因本体(Gene Ontology, GO)是用于描述基因产物功能和属性的标准化、动态更新的分类系统。研究者建立了四个分子网络的GO数据库,并对比了非肿瘤肝炎及肝硬化组织与肝癌组织的激活组和抑制组分子网络中GO生物过程...
"R语言绘制SCI科研GO圈图源代码.zip"这个压缩包就是针对这样的需求而设计的,它提供了一种快速绘制科学出版物级别的Gene Ontology (GO)图的方法。GO图是一种常见的生物信息学图形,用于展示基因或蛋白质的功能分类和...
4. 功能注释:获取已知蛋白质的功能注释,如GO(Gene Ontology)注释,作为训练或验证的标签。 5. 模型建立:运用机器学习算法(如支持向量机、随机森林、深度学习等)建立模型,将拓扑特征作为输入,功能注释作为...
3. 功能与通路富集分析:研究中提到了使用GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)途径富集分析。GO分析用于描述基因产物的属性,包括生物过程、细胞成分和分子功能。KEGG途径分析则...
在本资源中,"GO圈图_R语言绘制SCI图的输入文件及代码.rar" 提供了使用R语言绘制科学出版物(SCI)级别的图形,特别是基因本体(Gene Ontology, GO)圈图的方法。GO圈图是一种常用于生物信息学分析的可视化工具,它...
在生物信息学中,基因本体(Gene Ontology, GO)是一种标准化的词汇表,用于描述基因和蛋白质的功能、分子作用、细胞定位等信息。R语言作为一种强大的统计和图形编程语言,广泛应用于生物信息学研究,包括差异表达...
詹金斯的工作每天晚上发布SNAPSHOT- //build.geneontology.org/job/geneontology/job/pipeline/job/snapshot/ 从OBO库PURL( )重定向到映射到go-data-product-snapshot / ontology /的S3存储桶 ) 詹金斯...
【生物功能与信号通路富集】通过GO(Gene Ontology)功能分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)信号通路富集,研究者发现了补肾活血汤可能涉及的生物学功能和信号通路,包括炎症免疫调节、血管新生...
8. **基因功能注释**:鉴定出的基因集通常需要进行功能注释,以了解它们在细胞内的功能和参与的通路,这可以通过GO(Gene Ontology)注释、KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析等途径实现。...