KEGG 是了解高级功能和生物系统(如细胞、 生物和生态系统),从分子水平信息,尤其是大型分子数据集生成的基因组测序和其他高通量实验技术的实用程式资料库资源,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际最常用的生物信息资料库之一,以“理解生物系统的高级功能和实用程式资源库”着称。
基本介绍
- 中文名:京都基因与基因组百科全书
- 外文名:Kyoto Encyclopedia of Genes and Genomes
- 简称:KEGG
- 性质:基因组破译方面的资料库
简介
KEGG(京都基因与基因组百科全书)是基因组破译方面的资料库。在后基因时代一个重大挑战是如何使细胞和有机体在计算机上完整的表达和演绎,让计算机利用基因信息对更高层次和更複杂细胞活动和生物体行为作出计算推测。为达到此目的,人们建立了一个在相关知识基础上的网路推测计算工具。在给出染色体中一套完整的基因的情况下,它可以对蛋白质互动(互动)网路在各种细胞活动起的作用作出预测。 KEGG 的PATHWAY 资料库整合当前在分子互动网路(比如通道,联合体)的知识,KEGG 的GENES/SSDB/KO 资料库提供关于在基因组计画中发现的基因和蛋白质的相关知识,KEGG 的COMPOUND/GLYCAN/REACTION资料库提供生化複合物及反应方面的知识。
产生的背景
如何藉助计算机全面地展示细胞和生物所包含的生物学信息是后基因组时代的重大挑战之一。科学家期望能够根据基因组中的信息,用计算机计算或者预测出比较複杂的细胞中的通路或者生物的複杂行为。出于这个目的,日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了生物信息学资料库KEGG。
特点
·KEGG是一个整合了基因组、化学和系统功能信息的资料库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG资料库的特色之一。··人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。··与其他资料库相比,KEGG 的一个显着特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关係,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。
用途
各个资料库中包含了大量的有用信息。基因组信息存储在GENES资料库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY资料库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个资料库LIGAND,包含关于化学物质、酶分子、酶反应等信息。
通过与世界上其它一些大型生物信息学资料库的连线,KEGG可以为研究者提供更为丰富的生物学信息(LinkDB)。
KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。
影响及发展
KEGG建立了KEGG直系同源系统(theKEGG Orthology (KO)system),这个系统通过把分子网路的相关信息连线到基因组中,从而发展和促进了跨物种注释流程。·结果表明,KEGG被当做一个参考知识库,被广泛的用于基因组测序和其他高通量实验技术得到的大规模数据集的整合和解释中。除了保持对基础研究的支持,随着KEGG分子网路的一些小变化,KEGG正在朝着更加偏向于实际套用的方向发展,这些套用主要集中在整合人类疾病、药物和其他与健康相关的物质。
KEGG资料库
KEGG是一个综合资料库,它们大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为16个主要的资料库。可以通过不同的颜色编码来区分。
分类 | 资料库 | 目录 | 颜色 |
系统信息 | KEGG PATHWAY | KEGG通路图 | |
KEGG BRITE | BRITE功能层次 | ||
KEGG MODULE | KEGG功能单元的模组 | ||
KEGG DISEASE | 人类疾病 | ||
KEGG DRUG | 药物 | ||
KEGG ENVIRON | 天然药物和与健康相关的物质 | ||
基因组信息 | KEGG ORTHOLOGY | KEGG直系同源(KO)组 | |
KEGG GENOME | KEGG中带有完整基因组的物种 | ||
KEGG GENES | 在完整基因组中的基因目录 | ||
KEGG SSDB | 与基因有关的序列相似性资料库 | ||
化学信息 | KEGG COMPOUND | 代谢物及其他小分子化合物 | |
KEGG GLYCAN | 多糖 | ||
KEGG REACTION | 生化反应 | ||
KEGG RPAIR | 化学反应中的反应物对 | ||
KEGG RCLASS | RPAIR定义的反应级别 | ||
KEGG ENZYME | 酶命名法 |
KEGG对象标识符
资料库中包含各种各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。因此,各个资料库中的数据记录都被称为KEGG对象。这些对象可以通过KEGG对象标识符来识别,标识符由一个与资料库相关的前缀加五个数字构成。
Database | Object | Prefix | Example |
KEGG PATHWAY | Pathway map | map, ko, ec, rn, (org) | hsa04930 |
KEGG BRITE | Functional hierarchy | br, jp, ko, (org) | ko01003 |
KEGG MODULE | KEGG module | M, (org)_M | M00010 |
KEGG DISEASE | Human disease | H | H00004 |
KEGG DRUG | Drug | D | D01441 |
KEGG ENVIRON | Crude drug, etc. | E | E00048 |
KEGG ORTHOLOGY | KO group | K | K04527 |
KEGG GENOME | KEGG organism | T | T01001 (hsa) |
KEGG GENES | Gene / protein | hsa:3643 | |
KEGG COMPOUND | Small molecule | C | C00031 |
KEGG GLYCAN | Glycan | G | G00109 |
KEGG REACTION | Reaction | R | R00259 |
KEGG RPAIR | Reactant pair | RP | RP04458 |
KEGG RCLASS | Reaction class | RC | RC00046 |
KEGG ENZYME | Enzyme | ec:2.7.10.1 |
当前资料库中的记录
KEGG Database as of 2013/6/5 | ||
KEGG PATHWAY | Pathway maps, reference (total) | 457(287,038) |
KEGG BRITE | Functional hierarchies, reference (total) | 146 (100,112) |
KEGG MODULE | KEGG modules, reference (total) | 592 (219,684) |
KEGG DISEASE | Human diseases | 1,359 |
KEGG DRUG | Drugs | 10,084 |
KEGG ENVIRON | Crude drugs and health-related substances | 849 |
KEGG ORTHOLOGY | KEGG Orthology (KO) groups | 17,661 |
KEGG GENOME | KEGG Organisms | 2,998 |
KEGG GENES | Genes in high-quality genomes(190 eukaryotes, 2336 bacteria, 153 archaea) | 12,462,216 |
KEGG SSDB | Best hit relations within GENESBi-directional best hit relations within GENES | 181,088,147,7583,841,515,171 |
KEGG DGENES | Genes in draft genomes (20 eukaryotes) | 514,175 |
KEGG EGENES | Genes as EST contigs (99 eukaryotes) | 3,792,883 |
KEGG MGENES | Genes in metagenomes (716 samples) | 90,754,418 |
KEGG COMPOUND | Metabolites and other small molecules | 17,187 |
KEGG GLYCAN | Glycans | 10,985 |
KEGG REACTION | Biochemical reactions | 9,545 |
KEGG RPAIR | Reactant pair chemical transformations | 14,500 |
KEGG RCLASS | Reaction class | 2,879 |
KEGG ENZYME | Enzyme nomenclature | 6,214 |
KEGG PATHWAY Database
KEGG PATHWAY 资料库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网路:
1.新陈代谢
2.遗传信息加工
3.环境信息加工
4.细胞过程
5.生物体系统
6.人类疾病
7.药物开发
PATHWAY的五种类型
仅仅第一种参考通路(reference pathway)图是手动画出来的,其他的通路图都是通过计算产生的。pathway中的每一个框(或线)都对应一个或多个K编号、EC编号及R编号。
·map -Reference pathway
对于代谢相关的通路,在referencepathway中,一个点同时表示一个基因、这个基因编码的酶及这个酶参加的反应
·ko -Reference pathway (KO)
ko通路中的点只表示基因
·ec -Reference pathway (EC)
ec通路中的点只表示相关的酶
·rn -Reference pathway (Reaction)
Reaction通路中的点只表示该点参与的某个反应、反应物对及反应类型
·org- Organism-specific pathway map
对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway。

KEGG ORTHOLOGY (KO) Database
KEGG参考通路图,BRITE功能层次以及KEGG模组都是以一种广泛的方式来表示,都可以用于所有物种。而KEGG直系同源系统(KO System)是这一表示方式的基础。包含手动定义的直系同源组,这些直系同源组就相当于KEGG通路中的点,BRITE层级中的点以及KEGG模组中的点。(这些点并不是某个具体物种的某一个基因,而是在许多物种中都存在的直系同源的某一个基因)。一旦基因被分配了KO标识或K编号,通过基因组注释流程,物种特异性的通路图、BRITE功能层次和KEGG模组就可以自动产生了。
直系同源与旁系同源
l直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:
(1).在进化上起源于一个始祖基因并垂直传递的同源基因;
(2).分布于两种或两种以上物种的基因组;
(3).功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;
(4).结构相似;
(5).组织特异性与亚细胞分布相似。
l旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(儘管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。
ko编号表示一个通路,这个通路是不分物种的,相当于所有物种的这一通路的并集。
eg:ko04722

K编号表示一个基因,是ko通路中的基本单位,某一K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。
