H-InvDB遺伝子リスト特徴抽出ツールH-InvDB Enrichment Analysis Tool (HEAT)は、ヒト遺伝子の集合(遺伝子リスト)に対して、その特徴を機械的に判定するデータマイニング・ツールです。
H-InvDBのさまざまなアノテーション項目について、ユーザが入力した遺伝子リストの中に平均より有意に高い頻度で出現する項目を見つけ出します。この手法は一般にGene Set Enrichment Analysis(GSEA)と呼ばれ、マイクロアレイ実験のデータ解析等によく使われます。統計学的な検定にはフィッシャーの正確確率検定を用いています。
2個以上のヒト遺伝子のIDリストを投入します。ここで入力できるIDの種類は、HUGO Gene Symbol(デフォールト)、INSD (DDBJ/EMBL/GenBank)のアクセッションナンバー(Accession Number)、H-InvDBのTranscript ID (HIT)、Locus ID (HIX)、Protein ID (HIP)、UniProtのAccession Number、RefSeq、GeneID、PDB ID、Ensembl Transcript ID、Ensembl Gene ID、FLJ ID、Clone ID、KEGG ID、HPRD IDの15種類です。IDはスペースかカンマで区切って入力します。改行を入れても構いません。また、テキストファイルからIDリストを読み込むことも可能です。
次に、「遺伝子リストの投入」ボタンを押します。すると、入力されたIDをそれぞれ対応するH-InvDBの代表配列のHITに変換します。このID変換には、
ID一括変換システムのウェブサービスを利用しています。
投入された遺伝子リストを対応するH-InvDBの代表配列のHITに変換した結果、つまり遺伝子リスト対応表を表示します。ここで、対応する代表配列のHITがない場合には空欄が表示され、その遺伝子は次のステップの特徴抽出には使われません。変換された結果に問題がなければ、「解析実行」ボタンを押して特徴抽出を行います。
遺伝子リストの特徴が表示されます。表示される項目は、番号、Feature名、遺伝子リスト中での出現回数/遺伝子数、全代表会列中の出現回数/全遺伝子数、P-valueです。FeatureはP-valueが0.01より小さい場合のみ、P-valueが小さい順にソートされて表示されます。解析対象となるFeatureには以下の項目があります。
| Annotation | Number |
| InterPro | 7,532 |
| Gene Ontology: Biological Process | 638 |
| Gene Ontology: Cellular Component | 197 |
| Gene Ontology: Molecular Function | 978 |
| KEGG pathway | 175 |
| Chromosomal band | 881 |
| Gene family | 3,631 |
| SCOP(立体構造ドメイン) | 2,655 |
| 細胞内局在予測(Wolf PSORTによる) | 11 |
| 組織特異的遺伝子発現(H-ANGELによる10組織カテゴリーへの分類) | 10 |
| プロモータ領域の配列モチーフ(JASPAR) | 130 |
| たんぱく質相互作用(PPI) | 10,869 |
右上の「ダウンロード」をクリックすると、結果をテキスト形式でダウンロードできます。また、Featureリスト中での出現回数の数字をクリックすると、ポップアップウインドウに当該のFeatureを持つHITの一覧が表示されます。
本ツールでのgene set enrichment analysis (GSEA)は、フィッシャーの正確確率検定を用いて確率(P-value)を計算しています。つまり、H-InvDBに登録されている全遺伝子(代表配列のみ)の個数を
N、その中にみつかったFeatureの個数を
n、ユーザが投入した遺伝子の個数を
K、その中にみつかったFeatureの個数を
kとすると、P-valueは次の式で計算されます。
Imanishi T, Itoh T, Suzuki Y, O'Donovan C, Fukuchi S, Koyanagi KO, Barrero RA, Tamura T, Yamaguchi-Kabata Y, Tanino M, Yura K, Miyazaki S, Ikeo K, Homma K, Kasprzyk A, Nishikawa T, Hirakawa M, Thierry-Mieg J, Thierry-Mieg D, Ashurst J, Jia L, Nakao M, Thomas MA, Mulder N, Karavidopoulou Y, Jin L, Kim S, Yasuda T, Lenhard B, Eveno E, Suzuki Y, Yamasaki C, Takeda J, Gough C, Hilton P, Fujii Y, Sakai H, Tanaka S, Amid C, Bellgard M, Bonaldo Mde F, Bono H, Bromberg SK, Brookes AJ, Bruford E, Carninci P, Chelala C, Couillault C, de Souza SJ, Debily MA, Devignes MD, Dubchak I, Endo T, Estreicher A, Eyras E, Fukami-Kobayashi K, Gopinath GR, Graudens E, Hahn Y, Han M, Han ZG, Hanada K, Hanaoka H, Harada E, Hashimoto K, Hinz U, Hirai M, Hishiki T, Hopkinson I, Imbeaud S, Inoko H, Kanapin A, Kaneko Y, Kasukawa T, Kelso J, Kersey P, Kikuno R, Kimura K, Korn B, Kuryshev V, Makalowska I, Makino T, Mano S, Mariage-Samson R, Mashima J, Matsuda H, Mewes HW, Minoshima S, Nagai K, Nagasaki H, Nagata N, Nigam R, Ogasawara O, Ohara O, Ohtsubo M, Okada N, Okido T, Oota S, Ota M, Ota T, Otsuki T, Piatier-Tonneau D, Poustka A, Ren SX, Saitou N, Sakai K, Sakamoto S, Sakate R, Schupp I, Servant F, Sherry S, Shiba R, Shimizu N, Shimoyama M, Simpson AJ, Soares B, Steward C, Suwa M, Suzuki M, Takahashi A, Tamiya G, Tanaka H, Taylor T, Terwilliger JD, Unneberg P, Veeramachaneni V, Watanabe S, Wilming L, Yasuda N, Yoo HS, Stodolsky M, Makalowski W, Go M, Nakai K, Takagi T, Kanehisa M, Sakaki Y, Quackenbush J, Okazaki Y, Hayashizaki Y, Hide W, Chakraborty R, Nishikawa K, Sugawara H, Tateno Y, Chen Z, Oishi M, Tonellato P, Apweiler R, Okubo K, Wagner L, Wiemann S, Strausberg RL, Isogai T, Auffray C, Nomura N, Gojobori T, and Sugano S (2004)
Integrative Annotation of 21,037 Human Genes Validated by Full-Length cDNA Clones. PLoS Biology 2: 856-875.