User Tools

Site Tools


restgenomeanalysisjapanese

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
restgenomeanalysisjapanese [2012/10/19 07:46]
haruo
restgenomeanalysisjapanese [2014/12/13 08:09] (current)
haruo
Line 86: Line 86:
   NC_001318 Borrelia burgdorferi B31    (bbur)   NC_001318 Borrelia burgdorferi B31    (bbur)
   NC_002483 Plasmid F                   ​(plasmidf)   NC_002483 Plasmid F                   ​(plasmidf)
 +  NC_001416 Enterobacteria phage lambda (lambda)
  
 大腸菌(ecoli)の分類学的情報を得るには 大腸菌(ecoli)の分類学的情報を得るには
Line 115: Line 116:
   '​db_xref'​ => '​GI:​9507746 GeneID:​1263561',​   '​db_xref'​ => '​GI:​9507746 GeneID:​1263561',​
  
-[[http://​www.g-language.org/​wiki/​restauro_ja|Restauro-G version 2]] (http://rest.g-language.org/annotation/) に遺伝子のIDを与えると、様々なデータベース (GO, KEGG, Pfam, PubMed, UniProtKB など) から情報を取得してくれます。+[[http://​www.g-language.org/​wiki/​restauro_ja|G-Links]] (http://link.g-language.org/​) に遺伝子のIDを与えると、様々なデータベース (GO, KEGG, Pfam, PubMed, UniProtKB など) から情報を取得してくれます。
 以下のように入力します。 以下のように入力します。
-  * http://rest.g-language.org/annotation/​NP_061412.1 +  * http://link.g-language.org/​NP_061412.1 
-  * http://rest.g-language.org/annotation/​GI:​9507746 +  * http://link.g-language.org/​GI:​9507746 
-  * http://rest.g-language.org/annotation/​GeneID:​1263561+  * http://link.g-language.org/​GeneID:​1263561
  
 repBのアミノ酸配列を出力するには repBのアミノ酸配列を出力するには
Line 155: Line 156:
   * http://​rest.g-language.org/​NC_000913/​rRNA/​16S (16S rRNAのFEATURE番号を取得する)   * http://​rest.g-language.org/​NC_000913/​rRNA/​16S (16S rRNAのFEATURE番号を取得する)
   * http://​rest.g-language.org/​NC_000913/​get_geneseq/​FEATURE462 (16S rRNAの1つであるFEATURE462の塩基配列を取得する)   * http://​rest.g-language.org/​NC_000913/​get_geneseq/​FEATURE462 (16S rRNAの1つであるFEATURE462の塩基配列を取得する)
 +
 +
 +====== パターン検索 ======
 +塩基配列のパターン検索を実行する関数群[[http://​www.g-language.org/​documentation/​1.9.0/​lib/​G/​Seq/​PatSearch.html|(PatSearch)]]として、[[http://​rest.g-language.org/​help/​oligomer_search|oligomer_search]]関数や[[http://​rest.g-language.org/​help/​palindrome|palindrome]]関数が用意されています。例えば、[[https://​en.wikipedia.org/​wiki/​Inverted_repeat#​Palindrome_vs._inverted_repeat|inverted repeat]] (5' TTACGnnnnnnCGTAA 3'​)とパリンドローム配列 (5' TTACGCGTAA 3'​)を検索する方法は以下の通りです。
 +
 +大腸菌ゲノム (ecoli) でオリゴマー TTACGCGTAA が存在する位置を調べるには
 +http://​rest.g-language.org/​ecoli/​oligomer_search/​TTACGCGTAA
 +と入力します。出力結果は以下の通りです。
 +  209570,​1164188,​1443204,​1934579,​2167198,​2919269,​4203297
 +
 +inverted repeat: TTACGnnnnnnCGTAA を検索して、位置と配列の両方を表示させるには
 +http://​rest.g-language.org/​ecoli/​oligomer_search/​TTACGnnnnnnCGTAA/​return=both
 +と入力します。出力結果は以下の通りです。
 +  843936,​ttacgaaacagcgtaa,​3112312,​ttacgcacaggcgtaa
 +
 +ヘルプページ (http://​rest.g-language.org/​help/​oligomer_search) にあるように、塩基の縮重コード表記("​grtggngg"​)や正規表現("​g[ag]tgg[a-z]gg"​)を使用できます。
 +
 +プラスミドF (plasmidf) で10bp以上のパリンドローム配列を検索するには
 +http://​rest.g-language.org/​plasmidf/​palindrome/​shortest=10
 +と入力します。
  
  
Line 168: Line 189:
  
 以下の使用例も試してみてください。 以下の使用例も試してみてください。
 +  * http://​rest.g-language.org/​ecoli/​base_entropy/​output=stdout (開始コドン周辺のエントロピーを標準出力)
   * http://​rest.g-language.org/​ecoli/​base_entropy/​position=end (終止コドン周辺のエントロピーを計算)   * http://​rest.g-language.org/​ecoli/​base_entropy/​position=end (終止コドン周辺のエントロピーを計算)
   * http://​rest.g-language.org/​ecoli/​base_entropy/​upstream=50/​downstream=50 (開始コドンの上流50塩基と下流50塩基のエントロピーを計算)   * http://​rest.g-language.org/​ecoli/​base_entropy/​upstream=50/​downstream=50 (開始コドンの上流50塩基と下流50塩基のエントロピーを計算)
-  * http://​rest.g-language.org/​ecoli/​base_entropy/​output=stdout (開始コドン周辺のエントロピーを標準出力) 
   * [[http://​rest.g-language.org/​ecoli/​view_cds/​length=20]] (開始コドンと終止コドンの周辺の塩基含量をグラフ出力)   * [[http://​rest.g-language.org/​ecoli/​view_cds/​length=20]] (開始コドンと終止コドンの周辺の塩基含量をグラフ出力)
   * [[http://​rest.g-language.org/​ecoli/​*/​before_startcodon/​20]] (全遺伝子の上流20塩基の配列を出力)   * [[http://​rest.g-language.org/​ecoli/​*/​before_startcodon/​20]] (全遺伝子の上流20塩基の配列を出力)
   * http://​rest.g-language.org/​ecoli/​base_relative_entropy (Kullback–Leibler divergenceを計算)   * http://​rest.g-language.org/​ecoli/​base_relative_entropy (Kullback–Leibler divergenceを計算)
 +
  
 ====== DNA複製系の解析 ====== ====== DNA複製系の解析 ======
Line 212: Line 234:
 http://​rest.g-language.org/​ecoli/​rep_ori_ter http://​rest.g-language.org/​ecoli/​rep_ori_ter
 と入力します。実験データがない場合には、関数rep_ori_terは、関数find_ori_terで予測された座標を返します。 と入力します。実験データがない場合には、関数rep_ori_terは、関数find_ori_terで予測された座標を返します。
 +
 +ゲノムの異なる領域(全ゲノム、コード領域、遺伝子間領域、コドン3文字目)のGC skewを計算するには http://​rest.g-language.org/​ecoli/​genomicskew と入力します。
  
 dnaA遺伝子 (http://​rest.g-language.org/​ecoli/​dnaA) が複製開始点の近くにあることを確認しましょう。 dnaA遺伝子 (http://​rest.g-language.org/​ecoli/​dnaA) が複製開始点の近くにあることを確認しましょう。
Line 237: Line 261:
  
 == オリゴヌクレオチド組成の解析 == == オリゴヌクレオチド組成の解析 ==
-Genomic signatureは、オリゴヌクレオチド (2連続塩基や3連続塩基) の観測度数/​期待度数と定義されます。Genomic signatureは、生物のDNA複製・修復系に特異的な変異圧により決定されると考えられ、生物の分類やプラスミドの宿主予測に利用されています [[http://​www.pnas.org/content/96/​16/​9184.full|(Campbell A et al., 1999)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​18953039|(Suzuki H et al., 2008)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​20851899|(Suzuki H et al., 2010)]]。+Genomic signatureは、オリゴヌクレオチド (2連続塩基や3連続塩基) の観測度数/​期待度数と定義されます。Genomic signatureは、生物のDNA複製・修復系に特異的な変異圧により決定されると考えられ、生物の分類やプラスミドの宿主予測に利用されています [[http://​www.ncbi.nlm.nih.gov/pubmed/10430917|(Campbell A et al., 1999)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​18953039|(Suzuki H et al., 2008)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​20851899|(Suzuki H et al., 2010)]]。
  
 M. genitalium (mgen) ゲノムの2連続塩基組成を計算するには M. genitalium (mgen) ゲノムの2連続塩基組成を計算するには
Line 316: Line 340:
  
 == 同義コドン使用の多様度 == == 同義コドン使用の多様度 ==
-遺伝子間の同義コドン使用の多様度測定に、遺伝子間の平均距離 (Dmean) を計算できます[[http://​www.biomedcentral.com/​1471-2105/10/167|(Suzuki H et al., 2009)]]。+遺伝子間の同義コドン使用の多様度測定に、遺伝子間の平均距離 (Dmean) を計算できます[[http://​www.ncbi.nlm.nih.gov/pubmed/19480720|(Suzuki H et al., 2009)]]。
 例えば、Plasmid F (plasmidf) のDmeanを計算するには 例えば、Plasmid F (plasmidf) のDmeanを計算するには
 http://​rest.g-language.org/​plasmidf/​Dmean http://​rest.g-language.org/​plasmidf/​Dmean
Line 323: Line 347:
  
 == 同義コドン使用の均等度 == == 同義コドン使用の均等度 ==
-コドン均等使用からの逸脱度を測る測度として、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​9732453|ENC (Effective Number of Codons)、SCS (Scaled Chi-Square)、CBI (Codon Bias Index)、ICDI (Intrinsic Codon Deviation Index)]]、[[http://​www.iab.keio.ac.jp/jp/​content/​view/​307/​139/|Ew (weighted sum of relative entropy)]]などが利用できます。例えば、Plasmid F (plasmidf) で各遺伝子のENC、SCS、CBI、ICDI、Ewを計算するには以下のように入力します。+コドン均等使用からの逸脱度を測る測度として、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​9732453|ENC (Effective Number of Codons)、SCS (Scaled Chi-Square)、CBI (Codon Bias Index)、ICDI (Intrinsic Codon Deviation Index)]]、[[http://​www.ncbi.nlm.nih.gov/pubmed/18350114|Ew (weighted sum of relative entropy)]]などが利用できます。例えば、Plasmid F (plasmidf) で各遺伝子のENC、SCS、CBI、ICDI、Ewを計算するには以下のように入力します。
   * http://​rest.g-language.org/​plasmidf/​enc   * http://​rest.g-language.org/​plasmidf/​enc
   * http://​rest.g-language.org/​plasmidf/​scs   * http://​rest.g-language.org/​plasmidf/​scs
Line 334: Line 358:
  
 == 遺伝子発現量の予測 == == 遺伝子発現量の予測 ==
-コドン使用に基づいて遺伝子の発現量を予測する手法には、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3118331|P2 index]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3916708|Fop (Frequency of OPtimal codons)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3547335|CAI (Codon Adaptation Index)]]、[[http://​www.cmbl.uga.edu/​software/​PHX-PA-guide.htm|PHX (Predicted Highly eXpressed)]]などがあります。例えば、大腸菌 (ecoli) でP2、Fop、CAI、PHX解析を行うには以下のように入力します。+コドン使用に基づいて遺伝子の発現量を予測する手法には、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3118331|P2 index]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3916708|Fop (Frequency of OPtimal codons)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3547335|CAI (Codon Adaptation Index)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​15448185|tAI (tRNA adaptation index)]]、[[http://​www.cmbl.uga.edu/​software/​PHX-PA-guide.htm|PHX (Predicted Highly eXpressed)]]などがあります。例えば、大腸菌 (ecoli) でP2、Fop、CAI、tAI、PHX解析を行うには以下のように入力します。
   * http://​rest.g-language.org/​ecoli/​P2   * http://​rest.g-language.org/​ecoli/​P2
   * http://​rest.g-language.org/​ecoli/​fop   * http://​rest.g-language.org/​ecoli/​fop
   * http://​rest.g-language.org/​ecoli/​cai   * http://​rest.g-language.org/​ecoli/​cai
 +  * http://​rest.g-language.org/​ecoli/​cai/​tai=1
   * http://​rest.g-language.org/​ecoli/​phx   * http://​rest.g-language.org/​ecoli/​phx
  
Line 346: Line 371:
 P2は、コドン・アンチコドン相互作用の効率の指標となり、高発現遺伝子はP2値が高い (P2 > 0.7) ことが報告されています。 P2は、コドン・アンチコドン相互作用の効率の指標となり、高発現遺伝子はP2値が高い (P2 > 0.7) ことが報告されています。
  
-Fopは、全コドンに占める適合コドン (optimal codon) の割合と定義され、0 (適合コドンなし) から1 (適合コドンのみ) までの値をとります。デフォルトでは、翻訳適合コドンが全ての種で同じと考えられる4種類のアミノ酸 (Phe, Tyr, Ile, Asn) [[http://nar.oxfordjournals.org/content/33/​4/​1141.full|(Sharp PM et al., 2005)]] のみを計算に含めます。+Fopは、全コドンに占める適合コドン (optimal codon) の割合と定義され、0 (適合コドンなし) から1 (適合コドンのみ) までの値をとります。デフォルトでは、翻訳適合コドンが全ての種で同じと考えられる4種類のアミノ酸 (Phe, Tyr, Ile, Asn) [[http://www.ncbi.nlm.nih.gov/pubmed/15728743|(Sharp PM et al., 2005)]] のみを計算に含めます。
  
 CAIは高発現遺伝子のコドン使用に類似しているほど値が1に近づきます。 CAIは高発現遺伝子のコドン使用に類似しているほど値が1に近づきます。
  
 PHX解析では、全遺伝子のコドン使用からの差 (BgC) が大きく、高発現遺伝子のコドン使用からの差 (BgH) が小さく、発現量予測値 (E_g = BgC/BgH) が1.05より大きい遺伝子を高発現と予測します (phx = 1) 。高発現遺伝子群は、翻訳伸長因子 (elongation factor) やリボソームタンパク質 (ribosomal protein) をコードする遺伝子群を含みます。また、コドン使用が全遺伝子と高発現遺伝子の何れとも異なる遺伝子を外来性 (Putative Alien; PA) と予測します (pa = 1) 。標準出力させるには PHX解析では、全遺伝子のコドン使用からの差 (BgC) が大きく、高発現遺伝子のコドン使用からの差 (BgH) が小さく、発現量予測値 (E_g = BgC/BgH) が1.05より大きい遺伝子を高発現と予測します (phx = 1) 。高発現遺伝子群は、翻訳伸長因子 (elongation factor) やリボソームタンパク質 (ribosomal protein) をコードする遺伝子群を含みます。また、コドン使用が全遺伝子と高発現遺伝子の何れとも異なる遺伝子を外来性 (Putative Alien; PA) と予測します (pa = 1) 。標準出力させるには
-http://​rest.g-language.org/​ecoli/​phx/​output=show+http://​rest.g-language.org/​ecoli/​phx/​output=stdout
 と入力します。 と入力します。
  
Line 357: Line 382:
  
 == 翻訳選択 (Translational selection) の検出 == == 翻訳選択 (Translational selection) の検出 ==
-コドン使用に翻訳の効率・正確度を高める自然選択 (Translational selection) が働かなくて、高発現遺伝子群と他の遺伝子群との間でコドン使用に差がないゲノムでは、コドン使用から遺伝子発現量を予測できないことに注意してください [[http://mbe.oxfordjournals.org/content/24/​1/​10.long|(Henry I and Sharp PM, 2006)]]。+コドン使用に翻訳の効率・正確度を高める自然選択 (Translational selection) が働かなくて、高発現遺伝子群と他の遺伝子群との間でコドン使用に差がないゲノムでは、コドン使用から遺伝子発現量を予測できないことに注意してください [[http://www.ncbi.nlm.nih.gov/pubmed/17038449|(Henry I and Sharp PM, 2006)]]。
  
-翻訳選択の程度を測るのに、[[http://​nar.oxfordjournals.org/content/33/​4/​1141.full|S (Strength of selected codon usage bias)]]を利用できます。[[http://​nar.oxfordjournals.org/content/33/​4/​1141.full|Sharp PM et al. (2005)]]が選んだ40個の高発現遺伝子群 (翻訳伸長因子とリボソームタンパク質;​ tufA, tsf, fusA, rplA-rplF, rplI-rplT, rpsB-rpsT) に基づいて、S値を計算するには+翻訳選択の程度を測るのに、[[http://​www.ncbi.nlm.nih.gov/pubmed/15728743|S (Strength of selected codon usage bias)]]を利用できます。[[http://​www.ncbi.nlm.nih.gov/pubmed/15728743|Sharp PM et al. (2005)]]が選んだ40個の高発現遺伝子群 (翻訳伸長因子とリボソームタンパク質;​ tufA, tsf, fusA, rplA-rplF, rplI-rplT, rpsB-rpsT) に基づいて、S値を計算するには
 http://​rest.g-language.org/​ecoli/​S_value/​sharp=1 http://​rest.g-language.org/​ecoli/​S_value/​sharp=1
-と入力します。大腸菌 (ecoli) や枯草菌 (bsub) は高いS値を示す (翻訳選択が強い) のに対して、B.burgdorferi (bbur) や M.genitalium (mgen) は低いS値を示す (翻訳選択が弱い) ことを確認しましょう。増殖の速い菌は、rRNAとtRNAの遺伝子コピー数が多く、高いS値 (S > 1.0) を示す傾向があります[[http://​nar.oxfordjournals.org/content/33/​4/​1141.full|(Sharp PM et al., 2005)]]。+と入力します。大腸菌 (ecoli) や枯草菌 (bsub) は高いS値を示す (翻訳選択が強い) のに対して、B.burgdorferi (bbur) や M.genitalium (mgen) は低いS値を示す (翻訳選択が弱い) ことを確認しましょう。増殖の速い菌は、rRNAとtRNAの遺伝子コピー数が多く、高いS値 (S > 1.0) を示す傾向があります[[http://​www.ncbi.nlm.nih.gov/pubmed/15728743|(Sharp PM et al., 2005)]]。
  
 多変量解析 (対応分析や主成分分析) により翻訳選択が働いたか否かを判定する方法を次に説明します。 多変量解析 (対応分析や主成分分析) により翻訳選択が働いたか否かを判定する方法を次に説明します。
Line 367: Line 392:
  
 == コドン使用データの多変量解析 == == コドン使用データの多変量解析 ==
- 遺伝子間の同義コドン使用の変動要因を同定するために、多変量解析手法である対応分析や主成分分析が用いられています。対応分析では、同義コドン使用の変動を覆い隠すバイアス (アミノ酸組成やコドン縮重度) の影響を受けない群内対応分析 (Within-group Correspondence Analysis; WCA) の利用が推奨されます[[http://​dnaresearch.oxfordjournals.org/content/15/​6/​357.full|(Suzuki H et al., 2008)]]。+ 遺伝子間の同義コドン使用の変動要因を同定するために、多変量解析手法である対応分析や主成分分析が用いられています。対応分析では、同義コドン使用の変動を覆い隠すバイアス (アミノ酸組成やコドン縮重度) の影響を受けない群内対応分析 (Within-group Correspondence Analysis; WCA) の利用が推奨されます[[http://​www.ncbi.nlm.nih.gov/pubmed/18940873|(Suzuki H et al., 2008)]]。
   * 大腸菌 (ecoli) でWCAを実行するには http://​rest.g-language.org/​ecoli/​codon_mva と入力します。解析結果の散布図が表示されます。WCAで得られる第1軸〜第4軸の値 (Comp1 to Comp4) を縦軸に示し、縦軸との相関が最大の統計量 (gcc3, gtc3) を横軸に示しています。赤○は(リボソームタンパク質や翻訳伸長因子をコードする)高発現遺伝子群を、黒×は他の遺伝子群を示しています。第1軸 (寄与率20.8%) は、gcc3(コドン3文字目のG+C含量)と高い相関 (r = 0.70) を示し、「G+C含量を決定する変異圧の違いを表す軸」あるいは「ゲノムG+C含量の異なる生物種由来の水平伝播遺伝子群と他の遺伝子群を分ける軸」と解釈できます。第2軸 (寄与率9.9%) は、高発現遺伝子群の標準得点の平均値が大きい (z = 3.14) ので、「高発現遺伝子群と他の遺伝子群を分ける軸」と解釈できます。このことは、翻訳選択 (Translational selection) が働いたことを示唆します。なお、対応分析や主成分分析で得られる軸の符号は反転してもかまいません。   * 大腸菌 (ecoli) でWCAを実行するには http://​rest.g-language.org/​ecoli/​codon_mva と入力します。解析結果の散布図が表示されます。WCAで得られる第1軸〜第4軸の値 (Comp1 to Comp4) を縦軸に示し、縦軸との相関が最大の統計量 (gcc3, gtc3) を横軸に示しています。赤○は(リボソームタンパク質や翻訳伸長因子をコードする)高発現遺伝子群を、黒×は他の遺伝子群を示しています。第1軸 (寄与率20.8%) は、gcc3(コドン3文字目のG+C含量)と高い相関 (r = 0.70) を示し、「G+C含量を決定する変異圧の違いを表す軸」あるいは「ゲノムG+C含量の異なる生物種由来の水平伝播遺伝子群と他の遺伝子群を分ける軸」と解釈できます。第2軸 (寄与率9.9%) は、高発現遺伝子群の標準得点の平均値が大きい (z = 3.14) ので、「高発現遺伝子群と他の遺伝子群を分ける軸」と解釈できます。このことは、翻訳選択 (Translational selection) が働いたことを示唆します。なお、対応分析や主成分分析で得られる軸の符号は反転してもかまいません。
   * B. burgdorferi (http://​rest.g-language.org/​bbur/​codon_mva) では、第1軸がgtc3 (コドン3文字目のG+T含量) と高い相関 (r = 0.96) を示し、遺伝子間の同義コドン使用の主たる変動要因は「複製鎖 (リーディング鎖とラギング鎖) 間の変異圧の違い」と解釈できます。G+T含量は、リーディング鎖で高く、ラギング鎖で低いからです。ゲノムのストランドバイアス (塩基組成の複製鎖間差) を GC skew (C-G)/(C+G) (http://​rest.g-language.org/​bbur/​gcskew) と AT skew (A-T)/(A+T) (http://​rest.g-language.org/​bbur/​gcskew/​at=1) により確認しましょう。 ​   * B. burgdorferi (http://​rest.g-language.org/​bbur/​codon_mva) では、第1軸がgtc3 (コドン3文字目のG+T含量) と高い相関 (r = 0.96) を示し、遺伝子間の同義コドン使用の主たる変動要因は「複製鎖 (リーディング鎖とラギング鎖) 間の変異圧の違い」と解釈できます。G+T含量は、リーディング鎖で高く、ラギング鎖で低いからです。ゲノムのストランドバイアス (塩基組成の複製鎖間差) を GC skew (C-G)/(C+G) (http://​rest.g-language.org/​bbur/​gcskew) と AT skew (A-T)/(A+T) (http://​rest.g-language.org/​bbur/​gcskew/​at=1) により確認しましょう。 ​
Line 381: Line 406:
 http://​rest.g-language.org/​mgen/​codon_mva/​method=pca/​data=R4 http://​rest.g-language.org/​mgen/​codon_mva/​method=pca/​data=R4
 と入力します。 と入力します。
- 
restgenomeanalysisjapanese.1350632792.txt.gz · Last modified: 2014/01/18 07:44 (external edit)