User Tools

Site Tools


restgenomeanalysisjapanese

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
restgenomeanalysisjapanese [2012/07/18 00:43]
haruo
restgenomeanalysisjapanese [2014/12/13 08:09] (current)
haruo
Line 4: Line 4:
  
 例えば、大腸菌Escherichia coli (ecoli) ゲノムの基本情報を見たい時は、URLに 例えば、大腸菌Escherichia coli (ecoli) ゲノムの基本情報を見たい時は、URLに
-http://rest.g-language.org/ecoli+http://useG.jp/ecoli
 と入力するだけです。 と入力するだけです。
  
-枯草菌Bacillus subtilis (bsub) ゲノムで開始コドン周辺塩基配列の保存度調べるには +recA遺伝子情報取得するには 
-http://rest.g-language.org/bsub/base_entropy+http://useG.jp/ecoli/recA
 と入力します。 と入力します。
  
-Borrelia burgdorferi (bbur) ゲノムの GC skew (C-G)/​(C+G) ​計算するには +開始コドン周辺塩基配列の保存度調べるには 
-http://rest.g-language.org/bbur/gcskew+http://useG.jp/ecoli/base_entropy
 と入力します。 と入力します。
  
-Mycoplasma genitalium (mgen) ゲノム内のG+C含量の変動るには +コドン使用頻度計算するには 
-http://rest.g-language.org/mgen/gcwin+http://useG.jp/ecoli/codon_usage
 と入力します。 と入力します。
  
-Plasmid F (plasmidf) ​コドン使用頻度を計算するには +ゲノム領域毎にG+C含量を計算するには 
-http://rest.g-language.org/plasmidf/codon_usage+http://useG.jp/​ecoli/​gcwin 
 +と入力します。 
 + 
 +ゲノムの領域毎にGC skew (C-G)/(C+G) を計算するには 
 +http://useG.jp/ecoli/gcskew
 と入力します。 と入力します。
  
 手法のヘルプを見るには 手法のヘルプを見るには
-  http://rest.g-language.org/[method]+  http://useG.jp/[method]
 と入力します。 と入力します。
 +
 例えば、関数 gcskew のヘルプを見るには 例えば、関数 gcskew のヘルプを見るには
-http://rest.g-language.org/​help/​gcskew+http://useG.jp/​help/​gcskew
 と入力します。 と入力します。
  
 手法の詳細は、[[http://​www.g-language.org/​data/​gaou/​doc/​GGG-1-2008proof.pdf|Arakawa K et al. (2008)]]を参照してください。 手法の詳細は、[[http://​www.g-language.org/​data/​gaou/​doc/​GGG-1-2008proof.pdf|Arakawa K et al. (2008)]]を参照してください。
  
-以下で、ファイルのロード、ゲノム・遺伝子情報の取得、コンセンサス解析、DNA複製系の解析、塩基組成・アミノ酸組成・コドン使用解析方法を紹介します+ 
 +== 基本URL == 
 +  * http://​rest.g-language.org 
 +  * http://​useG.jp (このURLURLに転送されます
  
 == 参考URL == == 参考URL ==
Line 40: Line 49:
   * http://​rest.g-language.org/​method_list/​ (データ解析手法の一覧)   * http://​rest.g-language.org/​method_list/​ (データ解析手法の一覧)
   * http://​rest.g-language.org/​organism_list/​ (利用可能なゲノムの一覧)   * http://​rest.g-language.org/​organism_list/​ (利用可能なゲノムの一覧)
 +
 +
 +以下では、ファイルのロード、ゲノム・遺伝子情報の取得、コンセンサス解析、DNA複製系の解析、塩基組成・アミノ酸組成・コドン使用の解析方法を紹介します。
  
  
Line 74: Line 86:
   NC_001318 Borrelia burgdorferi B31    (bbur)   NC_001318 Borrelia burgdorferi B31    (bbur)
   NC_002483 Plasmid F                   ​(plasmidf)   NC_002483 Plasmid F                   ​(plasmidf)
 +  NC_001416 Enterobacteria phage lambda (lambda)
  
 大腸菌(ecoli)の分類学的情報を得るには 大腸菌(ecoli)の分類学的情報を得るには
Line 84: Line 97:
 http://​rest.g-language.org/​plasmidf/​repB http://​rest.g-language.org/​plasmidf/​repB
 と入力します。 と入力します。
 +
 +G-languageはゲノムの各遺伝子にFEATURE番号とCDS番号を与えます。例えば、repB遺伝子のFEATURE番号は110、CDS番号は35です。
 +  '​feature'​ => 110,
 +  '​cds'​ => 35,
  
 以下のようなゲノム上の遺伝子コード領域の情報が得られます。 以下のようなゲノム上の遺伝子コード領域の情報が得られます。
Line 91: Line 108:
 repB遺伝子の領域は、ゲノムの座標 36643 (bp) から 37620 (bp) の相補鎖 (complement) に存在することを意味します。 repB遺伝子の領域は、ゲノムの座標 36643 (bp) から 37620 (bp) の相補鎖 (complement) に存在することを意味します。
  
-また、機能注釈(アノテーション)情報が得られます。+以下のような機能注釈(アノテーション)情報が得られます。
   '​product'​ => '​replication initiator protein',​   '​product'​ => '​replication initiator protein',​
   '​note'​ => 'binds to repeated iterons in RepFIB',​   '​note'​ => 'binds to repeated iterons in RepFIB',​
  
-さらに、遺伝子にユニークなIDが得られます。+以下のような遺伝子IDが得られます。
   '​protein_id'​ => '​NP_061412.1',​   '​protein_id'​ => '​NP_061412.1',​
   '​db_xref'​ => '​GI:​9507746 GeneID:​1263561',​   '​db_xref'​ => '​GI:​9507746 GeneID:​1263561',​
  
-[[http://​www.g-language.org/​wiki/​restauro_ja|Restauro-G version 2]] (http://rest.g-language.org/annotation/) に遺伝子のIDを与えると、様々なデータベース (GO, KEGG, Pfam, PubMed, UniProtKB など) から情報を取得してくれます。+[[http://​www.g-language.org/​wiki/​restauro_ja|G-Links]] (http://link.g-language.org/​) に遺伝子のIDを与えると、様々なデータベース (GO, KEGG, Pfam, PubMed, UniProtKB など) から情報を取得してくれます。
 以下のように入力します。 以下のように入力します。
-  * http://rest.g-language.org/annotation/​NP_061412.1 +  * http://link.g-language.org/​NP_061412.1 
-  * http://rest.g-language.org/annotation/​GI:​9507746 +  * http://link.g-language.org/​GI:​9507746 
-  * http://rest.g-language.org/annotation/​GeneID:​1263561+  * http://link.g-language.org/​GeneID:​1263561
  
-repBのアミノ酸配列をるには+repBのアミノ酸配列を出力するには
 http://​rest.g-language.org/​plasmidf/​repB/​translation http://​rest.g-language.org/​plasmidf/​repB/​translation
 と入力します。 と入力します。
  
-repBの塩基配列をるには+repBの塩基配列を出力するには
 http://​rest.g-language.org/​plasmidf/​repB/​get_geneseq http://​rest.g-language.org/​plasmidf/​repB/​get_geneseq
 と入力します。 と入力します。
  
-repBの上流200塩基の配列をるには+repBの上流200塩基の配列を出力するには
 http://​rest.g-language.org/​plasmidf/​repB/​before_startcodon/​200 http://​rest.g-language.org/​plasmidf/​repB/​before_startcodon/​200
 と入力します。 と入力します。
  
-全タンパク質の機能注釈情報 (product) を表示するには +全タンパク質の機能注釈情報 (product) を出力するには 
-http://​rest.g-language.org/​plasmidf/​*/​product+[[http://​rest.g-language.org/​plasmidf/​*/​product]]
 と入力します。 と入力します。
  
-"​replication"​の記載を含む機能注釈情報 (product) を表示するには+"​replication"​の記載を含む機能注釈情報 (product) を出力するには
 http://​rest.g-language.org/​plasmidf/​product=replication/​product http://​rest.g-language.org/​plasmidf/​product=replication/​product
 と入力します。 と入力します。
  
  
-== FASTA形式の取得 ​== +== FASTA形式で配列を出力 ​== 
-  * [[http://​rest.g-language.org/​ecoli/​*/​translation]] (全タンパク質のアミノ酸配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.faa|NC_000913.faa]]に相当) +大腸菌 (NC_000913) の配列をFASTA形式で出力するには以下のようにします。 
-  * [[http://​rest.g-language.org/​ecoli/​*/​get_geneseq]] (全遺伝子の塩基配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.ffn|NC_000913.ffn]]に相当) +  * [[http://​rest.g-language.org/​NC_000913/​*/​translation]] (全タンパク質のアミノ酸配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.faa|NC_000913.faa]]に相当) 
-  * http://​rest.g-language.org/​ecoli/seq (ゲノム塩基配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.fna|NC_000913.fna]]に相当) +  * [[http://​rest.g-language.org/​NC_000913/​*/​get_geneseq]] (全遺伝子の塩基配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.ffn|NC_000913.ffn]]に相当) 
-  * [[http://​rest.g-language.org/​ecoli/output]] (ゲノムをGenbank形式で出力. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.gbk|NC_000913.gbk]]に相当)+  * http://​rest.g-language.org/​NC_000913/seq (ゲノム塩基配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.fna|NC_000913.fna]]に相当) 
 +  * [[http://​rest.g-language.org/​NC_000913/output]] (ゲノムをGenbank形式で出力. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.gbk|NC_000913.gbk]]に相当)
  
  
 == rRNA遺伝子の情報の取得 == == rRNA遺伝子の情報の取得 ==
-  ​* http://​rest.g-language.org/​ecoli/rRNA (rRNAのFEATURE番号を得る) +大腸菌 (NC_000913) のrRNA配列は以下のように取得できます。 
-  * http://​rest.g-language.org/​ecoli/rRNA/16S (16S rRNAのFEATURE番号を取得する) +  ​* http://​rest.g-language.org/​NC_000913/rRNA (rRNAのFEATURE番号を得る) 
-  * http://​rest.g-language.org/​ecoli/​get_geneseq/​FEATURE462 (16S rRNAの1つであるFEATURE462の塩基配列を取得する)+  * http://​rest.g-language.org/​NC_000913/rRNA/16S (16S rRNAのFEATURE番号を取得する) 
 +  * http://​rest.g-language.org/​NC_000913/​get_geneseq/​FEATURE462 (16S rRNAの1つであるFEATURE462の塩基配列を取得する)
  
  
-====== ​情報理論を用いたコンセサス解析 ​====== +====== ​パター検索 ​====== 
-転写開始点やリボソーム結合部位 (原核生物のShine Dalgarno配列や真核生物Kozak配列) といったコセンサス配列の保存度解析するのに、情報理論のエントロピー ​(Shannon entropy) が用されています。は、4つの塩基 ​(A, T, G, Cが均等に出現する場合に最大値の2示し、1つの塩基だけが出現する場合に最小値0を示します。+塩基配列のパター検索実行する関数群[[http://​www.g-language.org/​documentation/​1.9.0/​lib/​G/​Seq/​PatSearch.html|(PatSearch)]]として、[[http://​rest.g-language.org/​help/​oligomer_search|oligomer_search]]関数や[[http://​rest.g-language.org/​help/​palindrome|palindrome]]関数が用されています。例えば、[[https://​en.wikipedia.org/​wiki/​Inverted_repeat#​Palindrome_vs._inverted_repeat|inverted repeat]] (5' TTACGnnnnnnCGTAA 3'​)とパリローム配列 ​(5' TTACGCGTAA 3')を検索する方法は以下通りです。
  
-大腸菌ゲノムで開始コドン周辺 ​(上下流30塩基) のエントロピーをグラフ出力するには+大腸菌ゲノム ​(ecoli) ​オリゴマー TTACGCGTAA が存在する位置を調べるには 
 +http://​rest.g-language.org/​ecoli/​oligomer_search/​TTACGCGTAA 
 +と入力します。出力結果は以下の通りです。 
 +  209570,​1164188,​1443204,​1934579,​2167198,​2919269,​4203297 
 + 
 +inverted repeat: TTACGnnnnnnCGTAA を検索して、位置と配列の両方を表示させるには 
 +http://​rest.g-language.org/​ecoli/​oligomer_search/​TTACGnnnnnnCGTAA/​return=both 
 +と入力します。出力結果は以下の通りです。 
 +  843936,​ttacgaaacagcgtaa,​3112312,​ttacgcacaggcgtaa 
 + 
 +ヘルプページ (http://​rest.g-language.org/​help/​oligomer_search) にあるように、塩基の縮重表記("​grtggngg"​)や正規表現("​g[ag]tgg[a-z]gg"​)を使用できます。 
 + 
 +プラスミドF (plasmidf) で10bp以のパリンドローム配列を検索するには 
 +http://​rest.g-language.org/​plasmidf/​palindrome/​shortest=10 
 +入力します。 
 + 
 + 
 +====== コンセンサス解析 ====== 
 +転写開始点やリボソーム結合部位 (原核生物のShine Dalgarno配列や真核生物のKozak配列) といったコンセンサス配列の保存度を解析するのに、情報理論のエントロピー (entropy) が利用されています [[http://​www.g-language.org/​data/​gaou/​doc/​GGG-1-2008proof.pdf|(Arakawa K et al., 2008)]]。エントロピーは、4つの塩基 ​(A, T, G, Cが均等に出現する場合に最大値の2を示し、1つの塩基だけが出現する場合に最小値の0を示します。 
 + 
 +大腸菌 (ecoli) で開始コドン周辺のエントロピーを計算するには
 http://​rest.g-language.org/​ecoli/​base_entropy http://​rest.g-language.org/​ecoli/​base_entropy
 と入力します。 と入力します。
-position=0とposition=-10付近でエントロピー(不確かさ)が減少し、開始コドンATGとShine Dalgarno配列が保存されていることがわかります。+開始コドンATGとShine Dalgarno配列が保存されているため、position=0とposition=-10付近でエントロピー(不確かさ)が減少しています。
  
 +ヘルプ (http://​rest.g-language.org/​help/​base_entropy) にあるようにデフォルトでは開始コドン (position=start) の上流30塩基 (upstream=30) と下流30塩基 (downstream=30) のエントロピーをグラフ出力します (output=show)。
  
 以下の使用例も試してみてください。 以下の使用例も試してみてください。
   * http://​rest.g-language.org/​ecoli/​base_entropy/​output=stdout (開始コドン周辺のエントロピーを標準出力)   * http://​rest.g-language.org/​ecoli/​base_entropy/​output=stdout (開始コドン周辺のエントロピーを標準出力)
-  * http://​rest.g-language.org/​ecoli/​base_entropy/​upstream=100 (開始コドンの上流100塩基のエントロピーを計算) 
   * http://​rest.g-language.org/​ecoli/​base_entropy/​position=end (終止コドン周辺のエントロピーを計算)   * http://​rest.g-language.org/​ecoli/​base_entropy/​position=end (終止コドン周辺のエントロピーを計算)
-  * http://​rest.g-language.org/​help/​base_entropy (関数base_entropyヘルプ)+  * http://​rest.g-language.org/​ecoli/​base_entropy/​upstream=50/​downstream=50 ​(開始コドンの上流50塩基と下流50塩基のエントロピーを計算) 
 +  * [[http://​rest.g-language.org/​ecoli/​view_cds/​length=20]] (開始コドンと終止コドンの周辺の塩基含量をグラフ出力) 
 +  * [[http://​rest.g-language.org/​ecoli/​*/​before_startcodon/​20]] (全遺伝子の上流20塩基配列を出力)
   * http://​rest.g-language.org/​ecoli/​base_relative_entropy (Kullback–Leibler divergenceを計算)   * http://​rest.g-language.org/​ecoli/​base_relative_entropy (Kullback–Leibler divergenceを計算)
  
  
-====== DNA複製機構の解析 ====== +====== DNA複製の解析 ====== 
-複製鎖間の変異圧の違いにより、リーディング鎖はGとTの塩基が過剰に、ラギング鎖はCとAの塩基が過剰になると考えられます。+複製鎖間の変異圧や選択圧の違いにより、リーディング鎖はGとTの塩基が過剰に、ラギング鎖はCとAの塩基が過剰になると考えられています ​[[http://​www.g-language.org/​data/​gaou/​doc/​GGG-1-2008proof.pdf|(Arakawa K et al., 2008)]]
  
-大腸菌ゲノム ​(ecoli) ​GとCの塩基組成の非対称性 [GC skew (C-G)/(C+G)を計算するには+大腸菌 ​(ecoli) ​ゲノムでGC skew (C-G)/(C+G) を計算するには
 http://​rest.g-language.org/​ecoli/​gcskew http://​rest.g-language.org/​ecoli/​gcskew
-と入力します。+と入力します。GC skewのシフトポイントはDNA複製の開始点と終止点に対応しています。
  
-GC skewのシフトイントはDNA複製の開始点と終止点対応してます。+ヘルプ (http://​rest.g-language.org/​help/​gcskew) にあるようにデォルでは10,​000bpウインドウ (window=10000) 毎GC skewを計算してグラフ出力します ​(output=show)
  
-プ (http://​rest.g-language.org/​help/gcskew) にあるように、デフォルトでは10,​000bpウインドウ毎にGC skewを計算します。+CSV形式でファイ出力させるには 
 +http://​rest.g-language.org/​ecoli/gcskew/output=f 
 +と入力します。
  
 ウインドウサイズを100,​000bpにしてGC skewを計算するには ウインドウサイズを100,​000bpにしてGC skewを計算するには
Line 180: Line 223:
 ゲノムの座標3.9(Mbp)と1.5(Mbp)は、累積GC skewが最大値と最小値をとり、DNA複製の開始点と終止点に対応しています。 ゲノムの座標3.9(Mbp)と1.5(Mbp)は、累積GC skewが最大値と最小値をとり、DNA複製の開始点と終止点に対応しています。
  
-累積GC skewの明瞭さの程度を測る GC Skew Index (GCSI) を計算するには、+累積GC skewの明瞭さの程度を測る ​[[http://​www.iab.keio.ac.jp/​jp/​content/​view/​300/​141/​|GC Skew Index (GCSI)]] を計算するには、
 http://​rest.g-language.org/​ecoli/​gcsi http://​rest.g-language.org/​ecoli/​gcsi
 と入力します。大腸菌ゲノムではGCSI = 0.09666を示します。 と入力します。大腸菌ゲノムではGCSI = 0.09666を示します。
  
-累積skewに基づいてDNA複製の開始点(Origin)と終止点(Terminus)を予測するには+累積skewに基づいてDNA複製の開始点 (Origin) と終止点 (Terminus) を予測するには
 http://​rest.g-language.org/​ecoli/​find_ori_ter http://​rest.g-language.org/​ecoli/​find_ori_ter
 と入力します。 と入力します。
  
-大腸菌で実験的に確認されているDNA複製の開始点(Origin=3924034)と終止点(Terminus=1588773)を得るには+大腸菌で実験的に確認されているDNA複製の開始点 (Origin=3924034) と終止点 (Terminus=1588773) をるには
 http://​rest.g-language.org/​ecoli/​rep_ori_ter http://​rest.g-language.org/​ecoli/​rep_ori_ter
 と入力します。実験データがない場合には、関数rep_ori_terは、関数find_ori_terで予測された座標を返します。 と入力します。実験データがない場合には、関数rep_ori_terは、関数find_ori_terで予測された座標を返します。
 +
 +ゲノムの異なる領域(全ゲノム、コード領域、遺伝子間領域、コドン3文字目)のGC skewを計算するには http://​rest.g-language.org/​ecoli/​genomicskew と入力します。
  
 dnaA遺伝子 (http://​rest.g-language.org/​ecoli/​dnaA) が複製開始点の近くにあることを確認しましょう。 dnaA遺伝子 (http://​rest.g-language.org/​ecoli/​dnaA) が複製開始点の近くにあることを確認しましょう。
  
 DnaAタンパク質が特異的に結合する配列 dnaA box (5'-TT A/T TNCACA-3'​) を探索するには DnaAタンパク質が特異的に結合する配列 dnaA box (5'-TT A/T TNCACA-3'​) を探索するには
-http://​rest.g-language.org/​ecoli/​dnaAbox+http://​rest.g-language.org/​ecoli/​find_dnaAbox
 と入力します。 と入力します。
  
Line 205: Line 250:
 ====== 塩基組成の解析 ====== ====== 塩基組成の解析 ======
 == ゲノム領域毎のG+C含量の解析 == == ゲノム領域毎のG+C含量の解析 ==
-ゲノムのG+C含量 (G+C)/​(A+T+G+C) は、様々な因子(ゲノムサイズ、酸素要求性、窒素利用能、生育温度、自由生活性か否か等)と相関を示します[[http://​www.ncbi.nlm.nih.gov/​pubmed/​20838593|(Hildebrand F et al., 2010)]]。ゲノム内のG+C含量の変動は、外来性遺伝子クラスター (genomic islands) の検出に利用されています[[http://​www.ncbi.nlm.nih.gov/​pubmed/​11435108|(Karlin S., 2001)]]。+ゲノムのG+C含量 (G+C)/​(A+T+G+C) は、様々な因子(ゲノムサイズ、酸素要求性、窒素利用能、生育温度、自由生活性か否か等)と相関を示します [[http://​www.ncbi.nlm.nih.gov/​pubmed/​20838593|(Hildebrand F et al., 2010)]]。ゲノム内のG+C含量の変動は、外来性遺伝子クラスター (genomic islands) の検出に利用されています [[http://​www.ncbi.nlm.nih.gov/​pubmed/​11435108|(Karlin S., 2001)]]。
  
-Mycoplasma genitalium (mgen) ゲノム内の10,​000bpウインドウG+C含量を計算するには+Mycoplasma genitalium (mgen) ゲノムで領域G+C含量を計算するには
 http://​rest.g-language.org/​mgen/​gcwin http://​rest.g-language.org/​mgen/​gcwin
 と入力します。 と入力します。
- +ウインドウサイズをデフォルトの10,​000bpから1,000bpに変更するには
-ウインドウサイズを1,​000bpにしてG+C含量を計算するには+
 http://​rest.g-language.org/​mgen/​gcwin/​window=1000 http://​rest.g-language.org/​mgen/​gcwin/​window=1000
 と入力します。 と入力します。
Line 217: Line 261:
  
 == オリゴヌクレオチド組成の解析 == == オリゴヌクレオチド組成の解析 ==
-Genomic signatureは、オリゴヌクレオチド (2連続塩基や3連続塩基) の観測度数/​期待度数と定義されます。Genomic signatureは、生物のDNA複製・修復系に特異的な変異圧により決定されると考えられ、生物の分類やプラスミドの宿主予測に利用されています[[http://​www.pnas.org/content/96/​16/​9184.full|(Campbell A et al., 1999)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​18953039|(Suzuki H et al., 2008)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​20851899|(Suzuki H et al., 2010)]]。+Genomic signatureは、オリゴヌクレオチド (2連続塩基や3連続塩基) の観測度数/​期待度数と定義されます。Genomic signatureは、生物のDNA複製・修復系に特異的な変異圧により決定されると考えられ、生物の分類やプラスミドの宿主予測に利用されています [[http://​www.ncbi.nlm.nih.gov/pubmed/10430917|(Campbell A et al., 1999)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​18953039|(Suzuki H et al., 2008)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​20851899|(Suzuki H et al., 2010)]]。
  
 M. genitalium (mgen) ゲノムの2連続塩基組成を計算するには M. genitalium (mgen) ゲノムの2連続塩基組成を計算するには
 http://​rest.g-language.org/​mgen/​signature http://​rest.g-language.org/​mgen/​signature
-と入力します。 +と入力し
 3連続塩基組成を計算するには 3連続塩基組成を計算するには
 http://​rest.g-language.org/​mgen/​signature/​wordlength=3 http://​rest.g-language.org/​mgen/​signature/​wordlength=3
Line 231: Line 274:
 M. genitalium (mgen) の各遺伝子の塩基使用に関する統計量 (Base Usage Indices; bui) を計算するには M. genitalium (mgen) の各遺伝子の塩基使用に関する統計量 (Base Usage Indices; bui) を計算するには
 http://​rest.g-language.org/​mgen/​bui http://​rest.g-language.org/​mgen/​bui
-と入力します。以下のが得られます。+と入力します。以下の統計量が得られます。
   * acgt: A + T + G + C   * acgt: A + T + G + C
   * ryr: purine/​pyrimidine ratio (A + G)/(T + C)   * ryr: purine/​pyrimidine ratio (A + G)/(T + C)
Line 244: Line 287:
 ゲノム上の遺伝子の位置を表示させるには ゲノム上の遺伝子の位置を表示させるには
 http://​rest.g-language.org/​mgen/​bui/​tag=start http://​rest.g-language.org/​mgen/​bui/​tag=start
-と入力します。tagオプションには、遺伝子情報の取得 (http://​rest.g-language.org/​mgen/​recA) により表示されるキー ('​start',​ '​end',​ '​gene',​ '​product',​ '​locus_tag',​ '​protein_id',​ '​db_xref'​ などを指定できます。+と入力します。tagオプションには、'​start',​ '​end',​ '​gene',​ '​product',​ '​locus_tag',​ '​protein_id',​ '​db_xref'​などのキーを指定できます。
  
  
 ====== アミノ酸使用の解析 ====== ====== アミノ酸使用の解析 ======
 == アミノ酸使用頻度の解析 == == アミノ酸使用頻度の解析 ==
-M. genitalium (mgen) における全タンパク質の累積アミノ酸使用の絶対度数(A0)と相対度数(A1)を計算するには、それぞれ以下のように入力します。+M. genitalium (mgen) における全タンパク質の累積アミノ酸使用の絶対度数(A0)と相対度数(A1)を計算するには、以下のように入力します。
   * http://​rest.g-language.org/​mgen/​codon_compiler/​output=stdout/​data=A0   * http://​rest.g-language.org/​mgen/​codon_compiler/​output=stdout/​data=A0
   * http://​rest.g-language.org/​mgen/​codon_compiler/​output=stdout/​data=A1   * http://​rest.g-language.org/​mgen/​codon_compiler/​output=stdout/​data=A1
Line 257: Line 300:
 各タンパク質のアミノ酸使用に関する統計量 (Amino Acid Usage Indices; aaui) を計算するには 各タンパク質のアミノ酸使用に関する統計量 (Amino Acid Usage Indices; aaui) を計算するには
 http://​rest.g-language.org/​mgen/​aaui http://​rest.g-language.org/​mgen/​aaui
-と入力します。以下のが得られます。+と入力します。以下の統計量が得られます。
   * Laa: length in amino acids アミノ酸配列の長さ   * Laa: length in amino acids アミノ酸配列の長さ
   * ndaa: number of different amino acids アミノ酸の種類数(最大20)   * ndaa: number of different amino acids アミノ酸の種類数(最大20)
Line 266: Line 309:
  
 == アミノ酸使用データの多変量解析 == == アミノ酸使用データの多変量解析 ==
-タンパク質間のアミノ酸使用の変動要因を同定するために、多変量解析手法が利用されます[[http://​www.ncbi.nlm.nih.gov/​pubmed/​8065933|(Lobry JR et al., 1994)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​11965430|(Zavala A et al., 2002)]]。例えば、M.genitaliumでアミノ酸使用データの対応分析を実行するには http://​rest.g-language.org/​mgen/​codon_mva/​method=coa/​data=A0 と入力します。第1軸はgravy (平均疎水度) と高い相関(r = 0.8585)を示し、内在性膜タンパク質 (integral membrane protein) と他のタンパク質を分ける軸と解釈できます。+タンパク質間のアミノ酸使用の変動要因を同定するために、多変量解析手法 ​(対応分析や主成分分析) ​が利用されています[[http://​www.ncbi.nlm.nih.gov/​pubmed/​8065933|(Lobry JR et al., 1994)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​11965430|(Zavala A et al., 2002)]]。例えば、M.genitalium ​(mgen) ​でアミノ酸使用データの対応分析を実行するには http://​rest.g-language.org/​mgen/​codon_mva/​method=coa/​data=A0 と入力します。第1軸はgravy (平均疎水度) と高い相関(r = 0.8585)を示し、内在性膜タンパク質 (integral membrane protein) と他のタンパク質を分ける軸と解釈できます。
  
  
 ====== コドン使用の解析 ====== ====== コドン使用の解析 ======
-同義コドン使用は、生物間や内の遺伝子間で違いが認められ、複合的な要因(G+C含量、複製鎖間の違い、遺伝子発現量の違い)を反映します。遺伝子のコドン使用の情報は、水平伝播遺伝子や遺伝子発現量予測するの利用できます。+[[http://​www.nig.ac.jp/​museum/​evolution/​04.html|コドン使用]]は、生物間やゲノム内の遺伝子間で違いが認められ、複合的な要因(G+C含量、複製鎖間の違い、遺伝子発現量の違い)を反映します ​[[http://​www.g-language.org/​data/​gaou/​doc/​GGG-1-2008proof.pdf|(Arakawa K et al., 2008)]]。コドン使用の情報は、水平伝播遺伝子や遺伝子発現量予測に利用されています。
  
 == コドン使用頻度の解析 == == コドン使用頻度の解析 ==
-コドン使用は以下のように様々な形で表現することができます。+コドン使用データは以下のように様々な形で表現されます。
   * R0: コドンの絶対度数 (Absolute Frequency; AF)。いわゆる、計数値、カウント。   * R0: コドンの絶対度数 (Absolute Frequency; AF)。いわゆる、計数値、カウント。
   * R1: コドンの相対度数。全ての値を合計すると1になる。   * R1: コドンの相対度数。全ての値を合計すると1になる。
   * R2: 各アミノ酸におけるコドンの相対度数 (Relative Frequency; RF)。各アミノ酸における合計値が1になる。   * R2: 各アミノ酸におけるコドンの相対度数 (Relative Frequency; RF)。各アミノ酸における合計値が1になる。
-  * R3: コドンの観測度数/​期待度数 (Relative Synonymous Codon Usage; RSCU)。各アミノ酸における合計値がコドン縮重度(k=1,2,​3,​4,​6)になる。+  * R3: コドンの観測度数/​期待度数 (Relative Synonymous Codon Usage; RSCU)。各アミノ酸における合計値がコドン縮重度(2,​3,​4,​6)になる。例えば、Pheは2、Ileは3、Valは4、Leuは6
   * R4: 相対コドン適合度 (Relative Adaptiveness;​ W)。各コドンの度数を各アミノ酸における最大度数により除す正規化。   * R4: 相対コドン適合度 (Relative Adaptiveness;​ W)。各コドンの度数を各アミノ酸における最大度数により除す正規化。
 例えば、Plasmid F (plasmidf) における全遺伝子群の累積コドン使用をR0〜R4でグラフ出力するには以下のように入力します。 例えば、Plasmid F (plasmidf) における全遺伝子群の累積コドン使用をR0〜R4でグラフ出力するには以下のように入力します。
Line 292: Line 335:
 repB遺伝子のコドン計数値を計算するには repB遺伝子のコドン計数値を計算するには
 http://​rest.g-language.org/​plasmidf/​repB http://​rest.g-language.org/​plasmidf/​repB
-  '​feature'​ => 110, +で得られるFEATURE番号 ​('​feature'​ => 110) を次のように入力します。
-で得られるFEATURE番号(FEATURE110)を次のように入力します。+
 http://​rest.g-language.org/​plasmidf/​codon_compiler/​data=R0/​output=stdout/​id=FEATURE110 http://​rest.g-language.org/​plasmidf/​codon_compiler/​data=R0/​output=stdout/​id=FEATURE110
  
  
 == 同義コドン使用の多様度 == == 同義コドン使用の多様度 ==
-ゲノム内の全遺伝子間の同義コドン使用の多様性レベルを量化するために、遺伝子間の平均距離 (Dmean) を計算しょう[[http://​www.biomedcentral.com/​1471-2105/​10/​167|(Suzuki H et al., 2009)]]。ゲノムG+C含量が50%から離れるほどDmeanは低くなる傾向を示します[[http://​www.biomedcentral.com/​1471-2105/​10/​167/figure/F2|(Suzuki H et al., 2009)]]。 +遺伝子間の同義コドン使用の多様度測定に、遺伝子間の平均距離 (Dmean) を計算でき[[http://​www.ncbi.nlm.nih.gov/pubmed/19480720|(Suzuki H et al., 2009)]]。
 例えば、Plasmid F (plasmidf) のDmeanを計算するには 例えば、Plasmid F (plasmidf) のDmeanを計算するには
 http://​rest.g-language.org/​plasmidf/​Dmean http://​rest.g-language.org/​plasmidf/​Dmean
Line 306: Line 347:
  
 == 同義コドン使用の均等度 == == 同義コドン使用の均等度 ==
-コドン均等使用からの逸脱度を測る測度として、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​9732453|ENC (Effective Number of Codons)、SCS (Scaled Chi-Square)、CBI (Codon Bias Index)、ICDI (Intrinsic Codon Deviation Index)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​15194186|Ew (weighted sum of relative entropy)]]などが利用できます。例えば、Plasmid F (plasmidf) で各遺伝子のENC、SCS、CBI、ICDI、Ewを計算するには以下のように入力します。+コドン均等使用からの逸脱度を測る測度として、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​9732453|ENC (Effective Number of Codons)、SCS (Scaled Chi-Square)、CBI (Codon Bias Index)、ICDI (Intrinsic Codon Deviation Index)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​18350114|Ew (weighted sum of relative entropy)]]などが利用できます。例えば、Plasmid F (plasmidf) で各遺伝子のENC、SCS、CBI、ICDI、Ewを計算するには以下のように入力します。
   * http://​rest.g-language.org/​plasmidf/​enc   * http://​rest.g-language.org/​plasmidf/​enc
   * http://​rest.g-language.org/​plasmidf/​scs   * http://​rest.g-language.org/​plasmidf/​scs
Line 317: Line 358:
  
 == 遺伝子発現量の予測 == == 遺伝子発現量の予測 ==
-コドン使用に基づいて遺伝子の発現量を予測する手法には、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3118331|P2 index]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3916708|Fop (Frequency of OPtimal codons)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3547335|CAI (Codon Adaptation Index)]]、[[http://​jb.asm.org/content/183/17/5025.long|PHX (Predicted Highly eXpressed)]]などがあります。例えば、大腸菌 (ecoli) でP2、Fop、CAI、PHX解析を行うには以下のように入力します。+コドン使用に基づいて遺伝子の発現量を予測する手法には、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3118331|P2 index]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3916708|Fop (Frequency of OPtimal codons)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3547335|CAI (Codon Adaptation Index)]]、[[http://​www.ncbi.nlm.nih.gov/pubmed/15448185|tAI (tRNA adaptation index)]]、[[http:​//www.cmbl.uga.edu/​software/​PHX-PA-guide.htm|PHX (Predicted Highly eXpressed)]]などがあります。例えば、大腸菌 (ecoli) でP2、Fop、CAI、tAI、PHX解析を行うには以下のように入力します。
   * http://​rest.g-language.org/​ecoli/​P2   * http://​rest.g-language.org/​ecoli/​P2
   * http://​rest.g-language.org/​ecoli/​fop   * http://​rest.g-language.org/​ecoli/​fop
   * http://​rest.g-language.org/​ecoli/​cai   * http://​rest.g-language.org/​ecoli/​cai
 +  * http://​rest.g-language.org/​ecoli/​cai/​tai=1
   * http://​rest.g-language.org/​ecoli/​phx   * http://​rest.g-language.org/​ecoli/​phx
-遺伝子のlocus_tagの代わりに機能注釈情報(product)を表示したいときには + 
-http://​rest.g-language.org/​ecoli/​phx/​tag=product+遺伝子のlocus_tagの代わりにproduct (機能注釈情報) を表示するには 
 +http://​rest.g-language.org/​ecoli/​cai/​tag=product
 と入力します。 と入力します。
-全遺伝子群の累積コドン使用からの差 (BgC) が大きく、高発現遺伝子群の累積コドン使用からの差 (BgH) が小さく、発現量予測値 (E_g = BgC/BgH) が1.05より大きい遺伝子は、高発現と予測されます (phx = 1) 。高発現遺伝子群は、リボソームタンパク質 (ribosomal subunit protein) や翻訳伸長因子 (elongation factor) をコードする遺伝子群を含みます。 
  
 +P2は、コドン・アンチコドン相互作用の効率の指標となり、高発現遺伝子はP2値が高い (P2 > 0.7) ことが報告されています。
  
-== 翻訳選択 (Translational selection) の検出 == +Fopは、全コドンに占める適合コドン ​(optimal codon) の割合定義され、0 (適合コドンなし) から1 (適合コドンのみ) までの値をとります。デフォルトでは、翻訳適合コドンが全ての種同じと考えられる4種類のアミノ酸 (Phe, Tyr, Ile, Asn) [[http://www.ncbi.nlm.nih.gov/pubmed/15728743|(Sharp PM et al.2005)]] のみを計算に含めます
-翻訳の効率と正確度を高める自然選択 ​(Translational selectionが働かなくて、高発現遺伝子群と他遺伝子群の間でコドン使用に差が認められいゲノムでは、コドン使用から遺伝子発現量を予測きません[[http://mbe.oxfordjournals.org/content/24/​1/​10.long|(Henry I and Sharp PM, 2006)]]。+
  
-翻訳選択程度を測に、[[http://​nar.oxfordjournals.org/​content/​33/​4/​1141.full|S ​(Strength of selected codon usage bias)]]を利きます。高発現遺伝子群としてリボソームタンパク質 (ribosomal protein) を用いて大腸菌 (ecoli) ​S値計算するには +CAIは高発現遺伝子コドン使用に類似していほど値が1近づきます。 
-http://​rest.g-language.org/​ecoli/​S_value+ 
 +PHX解析では全遺伝子のコドン使用からの差 ​(BgCが大きく、高発現遺伝子のコドン使からの差 (BgH) が小さく、発現量予測値 (E_g = BgC/BgH) が1.05より大い遺伝子を高発現と予測します ​(phx = 1) 。高発現遺伝子群は、翻訳伸長因子 (elongation factor) やリボソームタンパク質 (ribosomal protein) をコードする遺伝子群を含みます。またコドン使用が全遺伝子と高発現遺伝子何れとも異なる遺伝子外来性 (Putative Alien; PA) と予測します (pa = 1) 。標準出力させるには 
 +http://​rest.g-language.org/​ecoli/​phx/​output=stdout
 と入力します。 と入力します。
-[[http://nar.oxfordjournals.org/content/33/4/1141.full|Sharp PM et al. (2005)]]が選んだ40個の高発現遺伝子群 (tufA, tsf, fusA, rplA-rplF, rplI-rplT, rpsB-rpsT) ​を用いて、S値を計算するには+ 
 +CAIやPHX解析で得られた値は、ゲノム毎の高発現遺伝子に基づいているので、ゲノム間で単純に比較できないことに注意してください。 
 + 
 +== 翻訳選択 (Translational selection) の検出 == 
 +コドン使用に翻訳の効率・正確度を高める自然選択 (Translational selection) が働かなくて、高発現遺伝子群と他の遺伝子群との間でコドン使用に差がないゲノムでは、コドン使用から遺伝子発現量を予測できないことに注意してください ​[[http://www.ncbi.nlm.nih.gov/pubmed/17038449|(Henry I and Sharp PM, 2006)]]。 
 + 
 +翻訳選択の程度を測るのに、[[http:​//www.ncbi.nlm.nih.gov/​pubmed/​15728743|S (Strength of selected codon usage bias)]]を利用できます。[[http://​www.ncbi.nlm.nih.gov/​pubmed/​15728743|Sharp PM et al. (2005)]]が選んだ40個の高発現遺伝子群 (翻訳伸長因子とリボソームタンパク質; ​tufA, tsf, fusA, rplA-rplF, rplI-rplT, rpsB-rpsT) ​に基づいて、S値を計算するには
 http://​rest.g-language.org/​ecoli/​S_value/​sharp=1 http://​rest.g-language.org/​ecoli/​S_value/​sharp=1
-と入力します。大腸菌 (S = 1.5) や枯草菌 (S = 1.3) は高いS値を示す選択が強いのに対して、B.burgdorferi (S = -0.37) や M.genitalium (S = 0.32) は低いS値を示しま選択た痕跡が無い)。増殖の速い菌は、rRNAとtRNAの遺伝子コピー数が多く、S値が高い傾向あります[[http://​nar.oxfordjournals.org/content/33/​4/​1141.full|(Sharp PM et al., 2005)]]。+と入力します。大腸菌 (ecoli) や枯草菌 (bsub) は高いS値を示す ​(翻訳選択が強いのに対して、B.burgdorferi (bbur) や M.genitalium (mgen) は低いS値を示す ​(翻訳選択が) ことを確認しましょう。増殖の速い菌は、rRNAとtRNAの遺伝子コピー数が多く、高いS値 (S > 1.0) を示す傾向あります[[http://​www.ncbi.nlm.nih.gov/pubmed/15728743|(Sharp PM et al., 2005)]]。
  
-多変量解析 (対応分析や主成分分析) により翻訳選択の有無を判定する方法を次に説明します。+多変量解析 (対応分析や主成分分析) により翻訳選択が働いたか否かを判定する方法を次に説明します。
  
  
 == コドン使用データの多変量解析 == == コドン使用データの多変量解析 ==
- 遺伝子間の同義コドン使用の変動要因を同定するために、多変量解析手法である対応分析 ​(Correspondence Analysis) ​や主成分分析 ​(Principal Component Analysis; PCA) が用いられています。コドンの絶対度数、相対度数、観測度数/​期待度数 (Relative Synonymous Codon Usage; RSCU)などを入力データとする対応分析は、同義コドン使用の変動を覆い隠すバイアスアミノ酸組成やコドン縮重度)の影響を受けるという問題があります。そこで、このようなバイアスの影響を受けない群内対応分析 (Within-group Correspondence Analysis; WCA) の利用が推奨されます[[http://​dnaresearch.oxfordjournals.org/content/15/​6/​357.full|(Suzuki H et al., 2008)]]。 + 遺伝子間の同義コドン使用の変動要因を同定するために、多変量解析手法である対応分析や主成分分析が用いられています。対応分析は、同義コドン使用の変動を覆い隠すバイアス ​(アミノ酸組成やコドン縮重度の影響を受けない群内対応分析 (Within-group Correspondence Analysis; WCA) の利用が推奨されます[[http://​www.ncbi.nlm.nih.gov/pubmed/18940873|(Suzuki H et al., 2008)]]。 
-  * 大腸菌 (ecoli) でWCAを実行するには http://​rest.g-language.org/​ecoli/​codon_mva と入力します。解析結果の散布図が表示されます。WCAで得られる第1軸〜第4軸の値 (Comp1 to Comp4) を縦軸に示し、縦軸との相関が最大の統計量gcc3, gtc3, P2)を横軸に示しています。赤○は(リボソームタンパク質や翻訳伸長因子をコードする)高発現遺伝子群を、黒×は他の遺伝子群を示しています。第1軸寄与率20.8%は、gcc3(コドン3文字目のG+C含量)と高い相関r = 0.70を示し、「G+C含量を決定する変異圧の違いを表す軸」あるいは「ゲノムG+C含量の異なる生物種由来の水平伝播遺伝子群と他の遺伝子群を分ける軸」と解釈できます。第2軸寄与率9.9%は、高発現遺伝子群が高い標準得点z = 3.14)を示し、「高発現遺伝子群と他の遺伝子群を分ける軸」と解釈できます。このことは、翻訳選択 (Translational selection) が働いたことを示唆します。なお、対応分析や主成分分析で得られる軸の符号は反転してもかまいません。 +  * 大腸菌 (ecoli) でWCAを実行するには http://​rest.g-language.org/​ecoli/​codon_mva と入力します。解析結果の散布図が表示されます。WCAで得られる第1軸〜第4軸の値 (Comp1 to Comp4) を縦軸に示し、縦軸との相関が最大の統計量 ​(gcc3, gtc3を横軸に示しています。赤○は(リボソームタンパク質や翻訳伸長因子をコードする)高発現遺伝子群を、黒×は他の遺伝子群を示しています。第1軸 ​(寄与率20.8%は、gcc3(コドン3文字目のG+C含量)と高い相関 ​(r = 0.70を示し、「G+C含量を決定する変異圧の違いを表す軸」あるいは「ゲノムG+C含量の異なる生物種由来の水平伝播遺伝子群と他の遺伝子群を分ける軸」と解釈できます。第2軸 ​(寄与率9.9%は、高発現遺伝子群標準得点の平均値が大きい (z = 3.14) ので、「高発現遺伝子群と他の遺伝子群を分ける軸」と解釈できます。このことは、翻訳選択 (Translational selection) が働いたことを示唆します。なお、対応分析や主成分分析で得られる軸の符号は反転してもかまいません。 
-  * B. burgdorferi (http://​rest.g-language.org/​bbur/​codon_mva) では、第1軸がgtc3 (コドン3文字目のG+T含量) と高い相関r = 0.96を示し、遺伝子間の同義コドン使用の主たる変動要因は「複製鎖リーディング鎖とラギング鎖間の変異圧の違い」と解釈できます。G+T含量は、リーディング鎖で高く、ラギング鎖で低いからです。 +  * B. burgdorferi (http://​rest.g-language.org/​bbur/​codon_mva) では、第1軸がgtc3 (コドン3文字目のG+T含量) と高い相関 ​(r = 0.96を示し、遺伝子間の同義コドン使用の主たる変動要因は「複製鎖 ​(リーディング鎖とラギング鎖間の変異圧の違い」と解釈できます。G+T含量は、リーディング鎖で高く、ラギング鎖で低いからです。ゲノムのストランドバイアス (塩基組成の複製鎖間差) を GC skew (C-G)/(C+G) (http://​rest.g-language.org/​bbur/​gcskew) と AT skew (A-T)/(A+T) (http://​rest.g-language.org/​bbur/​gcskew/​at=1) により確認しましょう。  
-  * M. genitalium (http://​rest.g-language.org/​mgen/​codon_mva) では、第1軸がgcc3 (コドン3文字目のG+C含量) と高い相関r = 0.96を示し、遺伝子間の同義コドン使用の主たる変動要因は「ゲノム内の変異圧の違い」と解釈できます 。+  * M. genitalium (http://​rest.g-language.org/​mgen/​codon_mva) では、第1軸がgcc3 (コドン3文字目のG+C含量) と高い相関 ​(r = 0.96を示し、遺伝子間の同義コドン使用の主たる変動要因は「ゲノム内の変異圧の違い」と解釈できます。ゲノムの領域毎のG+C含量 (http://​rest.g-language.org/​mgen/​gcwin) の違いを確認しましょう
  
-結果を標準出力させるには+解析結果を標準出力させるには
 http://​rest.g-language.org/​mgen/​codon_mva/​output=stdout http://​rest.g-language.org/​mgen/​codon_mva/​output=stdout
-と入力します。各軸の寄与率、各軸と各統計量 (Laa, aroma, gravy, mmw, gcc3, gtc3, P2) の相関係数が出力されます。+と入力します。 
 +各軸の寄与率 ​(%) に加え、各軸と各統計量 (Laa, aroma, gravy, mmw, gcc3, gtc3, P2) の相関係数が出力されます。
  
-主成分分析 (PCA) では、同義コドン使用の変動を覆い隠すバイアス (配列の長さ、アミノ酸組成、コドン縮重度) に影響されないコドン使用データ (R4) の利用が推奨されます[[http://​www.ncbi.nlm.nih.gov/​pubmed/​16289058|(Suzuki H et al., 2005)]]。 +主成分分析 (Principal Component Analysis; ​PCA) では、同義コドン使用の変動を覆い隠すバイアス (配列の長さ、アミノ酸組成、コドン縮重度) に影響されないコドン使用データ (R4) の利用が推奨されます[[http://​www.ncbi.nlm.nih.gov/​pubmed/​16289058|(Suzuki H et al., 2005)]]。 
-M.genitalium (mgen) でR4データに対してPCAを実行するには+M. genitalium (mgen) でR4データに対してPCAを実行するには
 http://​rest.g-language.org/​mgen/​codon_mva/​method=pca/​data=R4 http://​rest.g-language.org/​mgen/​codon_mva/​method=pca/​data=R4
 と入力します。 と入力します。
- 
- 
restgenomeanalysisjapanese.1342572220.txt.gz · Last modified: 2014/01/18 07:44 (external edit)