勇敢心资源网

当前位置:首页 > 百科 / 正文

KEGG

(2020-01-26 00:14:02) 百科
KEGG

KEGG

KEGG 是了解高级功能和生物系统(如细胞、 生物和生态系统),从分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程式资料库资源,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际最常用的生物信息资料库之一,以“理解生物系统的高级功能和实用程式资源库”着称。

基本介绍

  • 中文名:京都基因与基因组百科全书
  • 外文名:Kyoto Encyclopedia of Genes and Genomes
  • 简称:KEGG
  • 性质:基因组破译方面的资料库

简介

KEGG(京都基因与基因组百科全书)是基因组破译方面的资料库。在后基因时代一个重大挑战是如何使细胞和有机体在计算机上完整的表达和演绎,让计算机利用基因信息对更高层次和更複杂细胞活动和生物体行为作出计算推测。为达到此目的,人们建立了一个在相关知识基础上的网路推测计算工具。在给出染色体中一套完整的基因的情况下,它可以对蛋白质互动(互动)网路在各种细胞活动起的作用作出预测。 KEGG 的PATHWAY 资料库整合当前在分子互动网路(比如通道,联合体)的知识,KEGG 的GENES/SSDB/KO 资料库提供关于在基因组计画中发现的基因和蛋白质的相关知识,KEGG 的COMPOUND/GLYCAN/REACTION资料库提供生化複合物及反应方面的知识。

产生的背景

如何藉助计算机全面地展示细胞和生物所包含的生物学信息是后基因组时代的重大挑战之一。科学家期望能够根据基因组中的信息,用计算机计算或者预测出比较複杂的细胞中的通路或者生物的複杂行为。出于这个目的,日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了生物信息学资料库KEGG。

特点

·KEGG是一个整合了基因组、化学和系统功能信息的资料库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG资料库的特色之一。··人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。··与其他资料库相比,KEGG 的一个显着特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关係,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。

用途

各个资料库中包含了大量的有用信息。基因组信息存储在GENES资料库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY资料库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个资料库LIGAND,包含关于化学物质、酶分子、酶反应等信息。
通过与世界上其它一些大型生物信息学资料库的连线,KEGG可以为研究者提供更为丰富的生物学信息(LinkDB)。
KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。

影响及发展

KEGG建立了KEGG直系同源系统(theKEGG Orthology (KO)system),这个系统通过把分子网路的相关信息连线到基因组中,从而发展和促进了跨物种注释流程。·结果表明,KEGG被当做一个参考知识库,被广泛的用于基因组测序和其他高通量实验技术得到的大规模数据集的整合和解释中。除了保持对基础研究的支持,随着KEGG分子网路的一些小变化,KEGG正在朝着更加偏向于实际套用的方向发展,这些套用主要集中在整合人类疾病、药物和其他与健康相关的物质。

KEGG资料库

KEGG是一个综合资料库,它们大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为16个主要的资料库。可以通过不同的颜色编码来区分。
分类
资料库
目录
颜色
系统信息
KEGG PATHWAY
KEGG通路图
KEGG BRITE
BRITE功能层次
KEGG MODULE
KEGG功能单元的模组
KEGG DISEASE
人类疾病
KEGG DRUG
药物
KEGG ENVIRON
天然药物和与健康相关的物质
基因组信息
KEGG ORTHOLOGY
KEGG直系同源(KO)组
KEGG GENOME
KEGG中带有完整基因组的物种
KEGG GENES
在完整基因组中的基因目录
KEGG SSDB
与基因有关的序列相似性资料库
化学信息
KEGG COMPOUND
代谢物及其他小分子化合物
KEGG GLYCAN
多糖
KEGG REACTION
生化反应
KEGG RPAIR
化学反应中的反应物对
KEGG RCLASS
RPAIR定义的反应级别
KEGG ENZYME
酶命名法

KEGG对象标识符

资料库中包含各种各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。因此,各个资料库中的数据记录都被称为KEGG对象。这些对象可以通过KEGG对象标识符来识别,标识符由一个与资料库相关的前缀加五个数字构成。
Database
Object
Prefix
Example
KEGG PATHWAY
Pathway map
map, ko, ec, rn, (org)
hsa04930
KEGG BRITE
Functional hierarchy
br, jp, ko, (org)
ko01003
KEGG MODULE
KEGG module
M, (org)_M
M00010
KEGG DISEASE
Human disease
H
H00004
KEGG DRUG
Drug
D
D01441
KEGG ENVIRON
Crude drug, etc.
E
E00048
KEGG ORTHOLOGY
KO group
K
K04527
KEGG GENOME
KEGG organism
T
T01001 (hsa)
KEGG GENES
Gene / protein
hsa:3643
KEGG COMPOUND
Small molecule
C
C00031
KEGG GLYCAN
Glycan
G
G00109
KEGG REACTION
Reaction
R
R00259
KEGG RPAIR
Reactant pair
RP
RP04458
KEGG RCLASS
Reaction class
RC
RC00046
KEGG ENZYME
Enzyme
ec:2.7.10.1

当前资料库中的记录

KEGG Database as of 2013/6/5
KEGG PATHWAY
Pathway maps, reference (total)
457(287,038)
KEGG BRITE
Functional hierarchies, reference (total)
146 (100,112)
KEGG MODULE
KEGG modules, reference (total)
592 (219,684)
KEGG DISEASE
Human diseases
1,359
KEGG DRUG
Drugs
10,084
KEGG ENVIRON
Crude drugs and health-related substances
849
KEGG ORTHOLOGY
KEGG Orthology (KO) groups
17,661
KEGG GENOME
KEGG Organisms
2,998
KEGG GENES
Genes in high-quality genomes(190 eukaryotes, 2336 bacteria, 153 archaea)
12,462,216
KEGG SSDB
Best hit relations within GENESBi-directional best hit relations within GENES
181,088,147,7583,841,515,171
KEGG DGENES
Genes in draft genomes (20 eukaryotes)
514,175
KEGG EGENES
Genes as EST contigs (99 eukaryotes)
3,792,883
KEGG MGENES
Genes in metagenomes (716 samples)
90,754,418
KEGG COMPOUND
Metabolites and other small molecules
17,187
KEGG GLYCAN
Glycans
10,985
KEGG REACTION
Biochemical reactions
9,545
KEGG RPAIR
Reactant pair chemical transformations
14,500
KEGG RCLASS
Reaction class
2,879
KEGG ENZYME
Enzyme nomenclature
6,214

KEGG PATHWAY Database

KEGG PATHWAY 资料库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网路:
1.新陈代谢
2.遗传信息加工
3.环境信息加工
4.细胞过程
5.生物体系统
6.人类疾病
7.药物开发

PATHWAY的五种类型

仅仅第一种参考通路(reference pathway)图是手动画出来的,其他的通路图都是通过计算产生的。pathway中的每一个框(或线)都对应一个或多个K编号、EC编号及R编号。
·map -Reference pathway
对于代谢相关的通路,在referencepathway中,一个点同时表示一个基因、这个基因编码的酶及这个酶参加的反应
·ko -Reference pathway (KO)
ko通路中的点只表示基因
·ec -Reference pathway (EC)
ec通路中的点只表示相关的酶
·rn -Reference pathway (Reaction)
Reaction通路中的点只表示该点参与的某个反应、反应物对及反应类型
·org- Organism-specific pathway map
对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway。
KEGG
KEGG ORTHOLOGY (KO) Database
KEGG参考通路图,BRITE功能层次以及KEGG模组都是以一种广泛的方式来表示,都可以用于所有物种。而KEGG直系同源系统(KO System)是这一表示方式的基础。包含手动定义的直系同源组,这些直系同源组就相当于KEGG通路中的点,BRITE层级中的点以及KEGG模组中的点。(这些点并不是某个具体物种的某一个基因,而是在许多物种中都存在的直系同源的某一个基因)。一旦基因被分配了KO标识或K编号,通过基因组注释流程,物种特异性的通路图、BRITE功能层次和KEGG模组就可以自动产生了。

直系同源与旁系同源

l直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:
(1).在进化上起源于一个始祖基因并垂直传递的同源基因;
(2).分布于两种或两种以上物种的基因组;
(3).功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;
(4).结构相似;
(5).组织特异性与亚细胞分布相似。
l旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(儘管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。
ko编号表示一个通路,这个通路是不分物种的,相当于所有物种的这一通路的并集。
eg:ko04722
KEGG
K编号表示一个基因,是ko通路中的基本单位,某一K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。
KEGG
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net
搜索
随机推荐

勇敢心资源网|豫ICP备19027550号