User Tools

Site Tools


restgenomeanalysisjapanese

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
restgenomeanalysisjapanese [2012/07/19 06:43]
haruo
restgenomeanalysisjapanese [2014/12/13 08:09] (current)
haruo
Line 4: Line 4:
  
 例えば、大腸菌Escherichia coli (ecoli) ゲノムの基本情報を見たい時は、URLに 例えば、大腸菌Escherichia coli (ecoli) ゲノムの基本情報を見たい時は、URLに
-http://rest.g-language.org/ecoli+http://useG.jp/ecoli
 と入力するだけです。 と入力するだけです。
  
 recA遺伝子の情報を取得するには recA遺伝子の情報を取得するには
-http://rest.g-language.org/ecoli/recA+http://useG.jp/ecoli/recA
 と入力します。 と入力します。
  
 開始コドン周辺の塩基配列の保存度を調べるには 開始コドン周辺の塩基配列の保存度を調べるには
-http://rest.g-language.org/​ecoli/​base_entropy+http://useG.jp/​ecoli/​base_entropy
 と入力します。 と入力します。
  
 コドン使用頻度を計算するには コドン使用頻度を計算するには
-http://rest.g-language.org/​ecoli/​codon_usage+http://useG.jp/​ecoli/​codon_usage
 と入力します。 と入力します。
  
-G+C含量の変動るには +ゲノムの領域毎にG+C含量を計算するには 
-http://rest.g-language.org/​ecoli/​gcwin+http://useG.jp/​ecoli/​gcwin
 と入力します。 と入力します。
  
-GC skew (C-G)/(C+G) を計算するには +ゲノムの領域毎にGC skew (C-G)/(C+G) を計算するには 
-http://rest.g-language.org/​ecoli/​gcskew+http://useG.jp/​ecoli/​gcskew
 と入力します。 と入力します。
  
 手法のヘルプを見るには 手法のヘルプを見るには
-  http://rest.g-language.org/[method]+  http://useG.jp/[method]
 と入力します。 と入力します。
  
 例えば、関数 gcskew のヘルプを見るには 例えば、関数 gcskew のヘルプを見るには
-http://rest.g-language.org/​help/​gcskew+http://useG.jp/​help/​gcskew
 と入力します。 と入力します。
  
Line 39: Line 39:
  
 == 基本URL == == 基本URL ==
-http://​rest.g-language.org/ +  * http://​rest.g-language.org 
-http://​useG.jp(このURLは上のURLに転送されます)+  ​* ​http://​useG.jp (このURLは上のURLに転送されます)
  
  
Line 51: Line 51:
  
  
-以下では、ファイルの入出力、ゲノム・遺伝子情報の取得、コンセンサス解析、DNA複製系の解析、塩基組成・アミノ酸組成・コドン使用の解析方法を紹介します。+以下では、ファイルのロード、ゲノム・遺伝子情報の取得、コンセンサス解析、DNA複製系の解析、塩基組成・アミノ酸組成・コドン使用の解析方法を紹介します。
  
  
Line 86: Line 86:
   NC_001318 Borrelia burgdorferi B31    (bbur)   NC_001318 Borrelia burgdorferi B31    (bbur)
   NC_002483 Plasmid F                   ​(plasmidf)   NC_002483 Plasmid F                   ​(plasmidf)
 +  NC_001416 Enterobacteria phage lambda (lambda)
  
 大腸菌(ecoli)の分類学的情報を得るには 大腸菌(ecoli)の分類学的情報を得るには
Line 97: Line 98:
 と入力します。 と入力します。
  
-ゲノムの各遺伝子には以下のようなFEATURE番号とCDS番号与えられます。+G-languageはゲノムの各遺伝子にFEATURE番号とCDS番号与えます。例えば、repB遺伝子のFEATURE番号は110、CDS番号は35です。
   '​feature'​ => 110,   '​feature'​ => 110,
   '​cds'​ => 35,   '​cds'​ => 35,
Line 115: Line 116:
   '​db_xref'​ => '​GI:​9507746 GeneID:​1263561',​   '​db_xref'​ => '​GI:​9507746 GeneID:​1263561',​
  
-[[http://​www.g-language.org/​wiki/​restauro_ja|Restauro-G version 2]] (http://rest.g-language.org/annotation/) に遺伝子のIDを与えると、様々なデータベース (GO, KEGG, Pfam, PubMed, UniProtKB など) から情報を取得してくれます。+[[http://​www.g-language.org/​wiki/​restauro_ja|G-Links]] (http://link.g-language.org/​) に遺伝子のIDを与えると、様々なデータベース (GO, KEGG, Pfam, PubMed, UniProtKB など) から情報を取得してくれます。
 以下のように入力します。 以下のように入力します。
-  * http://rest.g-language.org/annotation/​NP_061412.1 +  * http://link.g-language.org/​NP_061412.1 
-  * http://rest.g-language.org/annotation/​GI:​9507746 +  * http://link.g-language.org/​GI:​9507746 
-  * http://rest.g-language.org/annotation/​GeneID:​1263561+  * http://link.g-language.org/​GeneID:​1263561
  
 repBのアミノ酸配列を出力するには repBのアミノ酸配列を出力するには
Line 134: Line 135:
  
 全タンパク質の機能注釈情報 (product) を出力するには 全タンパク質の機能注釈情報 (product) を出力するには
-http://​rest.g-language.org/​plasmidf/​*/​product+[[http://​rest.g-language.org/​plasmidf/​*/​product]]
 と入力します。 と入力します。
  
Line 143: Line 144:
  
 == FASTA形式で配列を出力 == == FASTA形式で配列を出力 ==
-  ​* [[http://​rest.g-language.org/​ecoli/​*/​translation]] (全タンパク質のアミノ酸配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.faa|NC_000913.faa]]に相当) +大腸菌 (NC_000913) の配列をFASTA形式で出力するには以下のようにします。 
-  * [[http://​rest.g-language.org/​ecoli/​*/​get_geneseq]] (全遺伝子の塩基配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.ffn|NC_000913.ffn]]に相当) +  ​* [[http://​rest.g-language.org/​NC_000913/​*/​translation]] (全タンパク質のアミノ酸配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.faa|NC_000913.faa]]に相当) 
-  * http://​rest.g-language.org/​ecoli/seq (ゲノム塩基配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.fna|NC_000913.fna]]に相当) +  * [[http://​rest.g-language.org/​NC_000913/​*/​get_geneseq]] (全遺伝子の塩基配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.ffn|NC_000913.ffn]]に相当) 
-  * [[http://​rest.g-language.org/​ecoli/output]] (ゲノムをGenbank形式で出力. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.gbk|NC_000913.gbk]]に相当)+  * http://​rest.g-language.org/​NC_000913/seq (ゲノム塩基配列. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.fna|NC_000913.fna]]に相当) 
 +  * [[http://​rest.g-language.org/​NC_000913/output]] (ゲノムをGenbank形式で出力. [[ftp://​ftp.ncbi.nih.gov/​genomes/​Bacteria/​Escherichia_coli_K_12_substr__MG1655_uid57779/​NC_000913.gbk|NC_000913.gbk]]に相当)
  
  
 == rRNA遺伝子の情報の取得 == == rRNA遺伝子の情報の取得 ==
-  ​* http://​rest.g-language.org/​ecoli/rRNA (rRNAのFEATURE番号を得る) +大腸菌 (NC_000913) のrRNA配列は以下のように取得できます。 
-  * http://​rest.g-language.org/​ecoli/rRNA/16S (16S rRNAのFEATURE番号を取得する) +  ​* http://​rest.g-language.org/​NC_000913/rRNA (rRNAのFEATURE番号を得る) 
-  * http://​rest.g-language.org/​ecoli/​get_geneseq/​FEATURE462 (16S rRNAの1つであるFEATURE462の塩基配列を取得する)+  * http://​rest.g-language.org/​NC_000913/rRNA/16S (16S rRNAのFEATURE番号を取得する) 
 +  * http://​rest.g-language.org/​NC_000913/​get_geneseq/​FEATURE462 (16S rRNAの1つであるFEATURE462の塩基配列を取得する)
  
  
-====== ​情報理論を用いコンセンサス解析 ====== +====== ​パターン検索 ====== 
-転写開始点やリボソーム結合部位 (原核生物のShine Dalgarno配列や真核生物のKozak配列) といったコンセンサス配列の保存度を解析するのに、情報理論のエントロピー (entropy) が利用されています。エントロピーは、4つの塩基 (A, T, G, C) が均等に出現する場合に最大値の2を示し、1つの塩基だけが出現する場合に最小値の0を示します。+塩基配列のパターン検索実行する関数群[[http://​www.g-language.org/​documentation/​1.9.0/​lib/​G/​Seq/​PatSearch.html|(PatSearch)]]として、[[http://​rest.g-language.org/​help/​oligomer_search|oligomer_search]]関数や[[http://​rest.g-language.org/​help/​palindrome|palindrome]]関数が意されてます。例えば、[[https://​en.wikipedia.org/​wiki/​Inverted_repeat#​Palindrome_vs._inverted_repeat|inverted repeat]] (5' TTACGnnnnnnCGTAA 3'​)とパリンドローム配列 (5' TTACGCGTAA 3'​)を検索する方法は以下の通りです。 
 + 
 +大腸菌ゲノム (ecoli) でオリゴマー TTACGCGTAA が存在する位置を調べるには 
 +http://​rest.g-language.org/​ecoli/​oligomer_search/​TTACGCGTAA 
 +と入力します。出力結果は以下の通りです。 
 +  209570,​1164188,​1443204,​1934579,​2167198,​2919269,​4203297 
 + 
 +inverted repeat: TTACGnnnnnnCGTAA を検索して、位置と配列の両方を表示させるには 
 +http://​rest.g-language.org/​ecoli/​oligomer_search/​TTACGnnnnnnCGTAA/​return=both 
 +と入力します。出力結果は以下の通りです。 
 +  843936,​ttacgaaacagcgtaa,​3112312,​ttacgcacaggcgtaa 
 + 
 +ヘルプページ (http://​rest.g-language.org/​help/​oligomer_search) にあるように、塩基の縮重コード表記("​grtggngg"​)や正規表現("​g[ag]tgg[a-z]gg"​)を使用できます。 
 + 
 +プラスミドF (plasmidf) で10bp以上のパリンドローム配列を検索するには 
 +http://​rest.g-language.org/​plasmidf/​palindrome/​shortest=10 
 +と入力します。 
 + 
 + 
 +====== ​コンセンサス解析 ====== 
 +転写開始点やリボソーム結合部位 (原核生物のShine Dalgarno配列や真核生物のKozak配列) といったコンセンサス配列の保存度を解析するのに、情報理論のエントロピー (entropy) が利用されています ​[[http://​www.g-language.org/​data/​gaou/​doc/​GGG-1-2008proof.pdf|(Arakawa K et al., 2008)]]。エントロピーは、4つの塩基 (A, T, G, C) が均等に出現する場合に最大値の2を示し、1つの塩基だけが出現する場合に最小値の0を示します。
  
 大腸菌 (ecoli) で開始コドン周辺のエントロピーを計算するには 大腸菌 (ecoli) で開始コドン周辺のエントロピーを計算するには
 http://​rest.g-language.org/​ecoli/​base_entropy http://​rest.g-language.org/​ecoli/​base_entropy
 と入力します。 と入力します。
-position=0とposition=-10付近でエントロピー(不確かさ)が減少し、開始コドンATGとShine Dalgarno配列が保存されていることがわかります。+開始コドンATGとShine Dalgarno配列が保存されているため、position=0とposition=-10付近でエントロピー(不確かさ)が減少しています。
  
 ヘルプ (http://​rest.g-language.org/​help/​base_entropy) にあるようにデフォルトでは開始コドン (position=start) の上流30塩基 (upstream=30) と下流30塩基 (downstream=30) のエントロピーをグラフ出力します (output=show)。 ヘルプ (http://​rest.g-language.org/​help/​base_entropy) にあるようにデフォルトでは開始コドン (position=start) の上流30塩基 (upstream=30) と下流30塩基 (downstream=30) のエントロピーをグラフ出力します (output=show)。
  
 以下の使用例も試してみてください。 以下の使用例も試してみてください。
-  * http://​rest.g-language.org/​ecoli/​base_entropy/​position=end (終止コドン周辺のエントロピーを計算) 
-  * http://​rest.g-language.org/​ecoli/​base_entropy/​upstream=100 (開始コドンの上流100塩基のエントロピーを計算) 
   * http://​rest.g-language.org/​ecoli/​base_entropy/​output=stdout (開始コドン周辺のエントロピーを標準出力)   * http://​rest.g-language.org/​ecoli/​base_entropy/​output=stdout (開始コドン周辺のエントロピーを標準出力)
 +  * http://​rest.g-language.org/​ecoli/​base_entropy/​position=end (終止コドン周辺のエントロピーを計算)
 +  * http://​rest.g-language.org/​ecoli/​base_entropy/​upstream=50/​downstream=50 (開始コドンの上流50塩基と下流50塩基のエントロピーを計算)
 +  * [[http://​rest.g-language.org/​ecoli/​view_cds/​length=20]] (開始コドンと終止コドンの周辺の塩基含量をグラフ出力)
 +  * [[http://​rest.g-language.org/​ecoli/​*/​before_startcodon/​20]] (全遺伝子の上流20塩基の配列を出力)
   * http://​rest.g-language.org/​ecoli/​base_relative_entropy (Kullback–Leibler divergenceを計算)   * http://​rest.g-language.org/​ecoli/​base_relative_entropy (Kullback–Leibler divergenceを計算)
  
  
-====== DNA複製機構の解析 ====== +====== DNA複製の解析 ====== 
-複製鎖間の変異圧や選択圧の違いにより、リーディング鎖はGとTの塩基が過剰に、ラギング鎖はCとAの塩基が過剰になると考えられています。+複製鎖間の変異圧や選択圧の違いにより、リーディング鎖はGとTの塩基が過剰に、ラギング鎖はCとAの塩基が過剰になると考えられています ​[[http://​www.g-language.org/​data/​gaou/​doc/​GGG-1-2008proof.pdf|(Arakawa K et al., 2008)]]
  
-大腸菌ゲノム ​(ecoli) でGとCの塩基組成の非対称性を測る ​GC skew (C-G)/(C+G) を計算するには+大腸菌 (ecoli) ​ゲノムでGC skew (C-G)/(C+G) を計算するには
 http://​rest.g-language.org/​ecoli/​gcskew http://​rest.g-language.org/​ecoli/​gcskew
-と入力します。+と入力します。GC skewのシフトポイントはDNA複製の開始点と終止点に対応しています。
  
-GC skewのシフトイントはDNA複製の開始点と終止点対応してます。+ヘルプ (http://​rest.g-language.org/​help/​gcskew) にあるようにデォルでは10,​000bpウインドウ (window=10000) 毎GC skewを計算してグラフ出力します ​(output=show)
  
-プ (http://​rest.g-language.org/​help/gcskew) にあるように、デフォルトでは10,​000bpウインドウ毎にGC skewを計算します。+CSV形式でファイ出力させるには 
 +http://​rest.g-language.org/​ecoli/gcskew/output=f 
 +と入力します。
  
 ウインドウサイズを100,​000bpにしてGC skewを計算するには ウインドウサイズを100,​000bpにしてGC skewを計算するには
Line 204: Line 231:
 と入力します。 と入力します。
  
-大腸菌で実験的に確認されているDNA複製の開始点(Origin=3924034)と終止点(Terminus=1588773)を得るには+大腸菌で実験的に確認されているDNA複製の開始点 (Origin=3924034) と終止点 (Terminus=1588773) をるには
 http://​rest.g-language.org/​ecoli/​rep_ori_ter http://​rest.g-language.org/​ecoli/​rep_ori_ter
 と入力します。実験データがない場合には、関数rep_ori_terは、関数find_ori_terで予測された座標を返します。 と入力します。実験データがない場合には、関数rep_ori_terは、関数find_ori_terで予測された座標を返します。
 +
 +ゲノムの異なる領域(全ゲノム、コード領域、遺伝子間領域、コドン3文字目)のGC skewを計算するには http://​rest.g-language.org/​ecoli/​genomicskew と入力します。
  
 dnaA遺伝子 (http://​rest.g-language.org/​ecoli/​dnaA) が複製開始点の近くにあることを確認しましょう。 dnaA遺伝子 (http://​rest.g-language.org/​ecoli/​dnaA) が複製開始点の近くにあることを確認しましょう。
  
 DnaAタンパク質が特異的に結合する配列 dnaA box (5'-TT A/T TNCACA-3'​) を探索するには DnaAタンパク質が特異的に結合する配列 dnaA box (5'-TT A/T TNCACA-3'​) を探索するには
-http://​rest.g-language.org/​ecoli/​dnaAbox+http://​rest.g-language.org/​ecoli/​find_dnaAbox
 と入力します。 と入力します。
  
Line 221: Line 250:
 ====== 塩基組成の解析 ====== ====== 塩基組成の解析 ======
 == ゲノム領域毎のG+C含量の解析 == == ゲノム領域毎のG+C含量の解析 ==
-ゲノムのG+C含量 (G+C)/​(A+T+G+C) は、様々な因子(ゲノムサイズ、酸素要求性、窒素利用能、生育温度、自由生活性か否か等)と相関を示します[[http://​www.ncbi.nlm.nih.gov/​pubmed/​20838593|(Hildebrand F et al., 2010)]]。ゲノム内のG+C含量の変動は、外来性遺伝子クラスター (genomic islands) の検出に利用されています[[http://​www.ncbi.nlm.nih.gov/​pubmed/​11435108|(Karlin S., 2001)]]。+ゲノムのG+C含量 (G+C)/​(A+T+G+C) は、様々な因子(ゲノムサイズ、酸素要求性、窒素利用能、生育温度、自由生活性か否か等)と相関を示します [[http://​www.ncbi.nlm.nih.gov/​pubmed/​20838593|(Hildebrand F et al., 2010)]]。ゲノム内のG+C含量の変動は、外来性遺伝子クラスター (genomic islands) の検出に利用されています [[http://​www.ncbi.nlm.nih.gov/​pubmed/​11435108|(Karlin S., 2001)]]。
  
-Mycoplasma genitalium (mgen) ゲノム内の10,​000bpウインドウG+C含量を計算するには+Mycoplasma genitalium (mgen) ゲノムで領域G+C含量を計算するには
 http://​rest.g-language.org/​mgen/​gcwin http://​rest.g-language.org/​mgen/​gcwin
 と入力します。 と入力します。
- +ウインドウサイズをデフォルトの10,​000bpから1,000bpに変更するには
-ウインドウサイズを1,​000bpにしてG+C含量を計算するには+
 http://​rest.g-language.org/​mgen/​gcwin/​window=1000 http://​rest.g-language.org/​mgen/​gcwin/​window=1000
 と入力します。 と入力します。
Line 233: Line 261:
  
 == オリゴヌクレオチド組成の解析 == == オリゴヌクレオチド組成の解析 ==
-Genomic signatureは、オリゴヌクレオチド (2連続塩基や3連続塩基) の観測度数/​期待度数と定義されます。Genomic signatureは、生物のDNA複製・修復系に特異的な変異圧により決定されると考えられ、生物の分類やプラスミドの宿主予測に利用されています[[http://​www.pnas.org/content/96/​16/​9184.full|(Campbell A et al., 1999)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​18953039|(Suzuki H et al., 2008)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​20851899|(Suzuki H et al., 2010)]]。+Genomic signatureは、オリゴヌクレオチド (2連続塩基や3連続塩基) の観測度数/​期待度数と定義されます。Genomic signatureは、生物のDNA複製・修復系に特異的な変異圧により決定されると考えられ、生物の分類やプラスミドの宿主予測に利用されています [[http://​www.ncbi.nlm.nih.gov/pubmed/10430917|(Campbell A et al., 1999)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​18953039|(Suzuki H et al., 2008)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​20851899|(Suzuki H et al., 2010)]]。
  
 M. genitalium (mgen) ゲノムの2連続塩基組成を計算するには M. genitalium (mgen) ゲノムの2連続塩基組成を計算するには
Line 281: Line 309:
  
 == アミノ酸使用データの多変量解析 == == アミノ酸使用データの多変量解析 ==
-タンパク質間のアミノ酸使用の変動要因を同定するために、多変量解析手法が利用されます[[http://​www.ncbi.nlm.nih.gov/​pubmed/​8065933|(Lobry JR et al., 1994)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​11965430|(Zavala A et al., 2002)]]。例えば、M.genitalium (mgen) でアミノ酸使用データの対応分析を実行するには http://​rest.g-language.org/​mgen/​codon_mva/​method=coa/​data=A0 と入力します。第1軸はgravy (平均疎水度) と高い相関(r = 0.8585)を示し、内在性膜タンパク質 (integral membrane protein) と他のタンパク質を分ける軸と解釈できます。+タンパク質間のアミノ酸使用の変動要因を同定するために、多変量解析手法 ​(対応分析や主成分分析) ​が利用されています[[http://​www.ncbi.nlm.nih.gov/​pubmed/​8065933|(Lobry JR et al., 1994)]][[http://​www.ncbi.nlm.nih.gov/​pubmed/​11965430|(Zavala A et al., 2002)]]。例えば、M.genitalium (mgen) でアミノ酸使用データの対応分析を実行するには http://​rest.g-language.org/​mgen/​codon_mva/​method=coa/​data=A0 と入力します。第1軸はgravy (平均疎水度) と高い相関(r = 0.8585)を示し、内在性膜タンパク質 (integral membrane protein) と他のタンパク質を分ける軸と解釈できます。
  
  
 ====== コドン使用の解析 ====== ====== コドン使用の解析 ======
-同義コドン使用は、生物間やゲノム内の遺伝子間で違いが認められ、複合的な要因(G+C含量、複製鎖間の違い、遺伝子発現量の違い)を反映します。遺伝子のコドン使用の情報は、水平伝播遺伝子や遺伝子発現量予測するの利用できます。+[[http://​www.nig.ac.jp/​museum/​evolution/​04.html|コドン使用]]は、生物間やゲノム内の遺伝子間で違いが認められ、複合的な要因(G+C含量、複製鎖間の違い、遺伝子発現量の違い)を反映します ​[[http://​www.g-language.org/​data/​gaou/​doc/​GGG-1-2008proof.pdf|(Arakawa K et al., 2008)]]。コドン使用の情報は、水平伝播遺伝子や遺伝子発現量予測に利用されています。
  
 == コドン使用頻度の解析 == == コドン使用頻度の解析 ==
-コドン使用は以下のように様々な形で表現することができます。+コドン使用データは以下のように様々な形で表現されます。
   * R0: コドンの絶対度数 (Absolute Frequency; AF)。いわゆる、計数値、カウント。   * R0: コドンの絶対度数 (Absolute Frequency; AF)。いわゆる、計数値、カウント。
   * R1: コドンの相対度数。全ての値を合計すると1になる。   * R1: コドンの相対度数。全ての値を合計すると1になる。
   * R2: 各アミノ酸におけるコドンの相対度数 (Relative Frequency; RF)。各アミノ酸における合計値が1になる。   * R2: 各アミノ酸におけるコドンの相対度数 (Relative Frequency; RF)。各アミノ酸における合計値が1になる。
-  * R3: コドンの観測度数/​期待度数 (Relative Synonymous Codon Usage; RSCU)。各アミノ酸における合計値がコドン縮重度(2,​3,​4,​6)になる。+  * R3: コドンの観測度数/​期待度数 (Relative Synonymous Codon Usage; RSCU)。各アミノ酸における合計値がコドン縮重度(2,​3,​4,​6)になる。例えば、Pheは2、Ileは3、Valは4、Leuは6
   * R4: 相対コドン適合度 (Relative Adaptiveness;​ W)。各コドンの度数を各アミノ酸における最大度数により除す正規化。   * R4: 相対コドン適合度 (Relative Adaptiveness;​ W)。各コドンの度数を各アミノ酸における最大度数により除す正規化。
 例えば、Plasmid F (plasmidf) における全遺伝子群の累積コドン使用をR0〜R4でグラフ出力するには以下のように入力します。 例えば、Plasmid F (plasmidf) における全遺伝子群の累積コドン使用をR0〜R4でグラフ出力するには以下のように入力します。
Line 312: Line 340:
  
 == 同義コドン使用の多様度 == == 同義コドン使用の多様度 ==
-ゲノム内の全遺伝子間の同義コドン使用の多様性レベルを量化するために、遺伝子間の平均距離 (Dmean) を計算しょう[[http://​www.biomedcentral.com/​1471-2105/​10/​167|(Suzuki H et al., 2009)]]。ゲノムG+C含量が50%から離れるほどDmeanは低くなる傾向を示します[[http://​www.biomedcentral.com/​1471-2105/​10/​167/figure/F2|(Suzuki H et al., 2009)]]。 +遺伝子間の同義コドン使用の多様度測定に、遺伝子間の平均距離 (Dmean) を計算でき[[http://​www.ncbi.nlm.nih.gov/pubmed/19480720|(Suzuki H et al., 2009)]]。
 例えば、Plasmid F (plasmidf) のDmeanを計算するには 例えば、Plasmid F (plasmidf) のDmeanを計算するには
 http://​rest.g-language.org/​plasmidf/​Dmean http://​rest.g-language.org/​plasmidf/​Dmean
Line 320: Line 347:
  
 == 同義コドン使用の均等度 == == 同義コドン使用の均等度 ==
-コドン均等使用からの逸脱度を測る測度として、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​9732453|ENC (Effective Number of Codons)、SCS (Scaled Chi-Square)、CBI (Codon Bias Index)、ICDI (Intrinsic Codon Deviation Index)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​15194186|Ew (weighted sum of relative entropy)]]などが利用できます。例えば、Plasmid F (plasmidf) で各遺伝子のENC、SCS、CBI、ICDI、Ewを計算するには以下のように入力します。+コドン均等使用からの逸脱度を測る測度として、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​9732453|ENC (Effective Number of Codons)、SCS (Scaled Chi-Square)、CBI (Codon Bias Index)、ICDI (Intrinsic Codon Deviation Index)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​18350114|Ew (weighted sum of relative entropy)]]などが利用できます。例えば、Plasmid F (plasmidf) で各遺伝子のENC、SCS、CBI、ICDI、Ewを計算するには以下のように入力します。
   * http://​rest.g-language.org/​plasmidf/​enc   * http://​rest.g-language.org/​plasmidf/​enc
   * http://​rest.g-language.org/​plasmidf/​scs   * http://​rest.g-language.org/​plasmidf/​scs
Line 331: Line 358:
  
 == 遺伝子発現量の予測 == == 遺伝子発現量の予測 ==
-コドン使用に基づいて遺伝子の発現量を予測する手法には、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3118331|P2 index]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3916708|Fop (Frequency of OPtimal codons)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3547335|CAI (Codon Adaptation Index)]]、[[http://​jb.asm.org/content/183/17/5025.long|PHX (Predicted Highly eXpressed)]]などがあります。例えば、大腸菌 (ecoli) でP2、Fop、CAI、PHX解析を行うには以下のように入力します。+コドン使用に基づいて遺伝子の発現量を予測する手法には、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3118331|P2 index]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3916708|Fop (Frequency of OPtimal codons)]]、[[http://​www.ncbi.nlm.nih.gov/​pubmed/​3547335|CAI (Codon Adaptation Index)]]、[[http://​www.ncbi.nlm.nih.gov/pubmed/15448185|tAI (tRNA adaptation index)]]、[[http:​//www.cmbl.uga.edu/​software/​PHX-PA-guide.htm|PHX (Predicted Highly eXpressed)]]などがあります。例えば、大腸菌 (ecoli) でP2、Fop、CAI、tAI、PHX解析を行うには以下のように入力します。
   * http://​rest.g-language.org/​ecoli/​P2   * http://​rest.g-language.org/​ecoli/​P2
   * http://​rest.g-language.org/​ecoli/​fop   * http://​rest.g-language.org/​ecoli/​fop
   * http://​rest.g-language.org/​ecoli/​cai   * http://​rest.g-language.org/​ecoli/​cai
 +  * http://​rest.g-language.org/​ecoli/​cai/​tai=1
   * http://​rest.g-language.org/​ecoli/​phx   * http://​rest.g-language.org/​ecoli/​phx
-遺伝子のlocus_tagの代わりに機能注釈情報 ​(product) を表示するには + 
-http://​rest.g-language.org/​ecoli/​phx/​tag=product+遺伝子のlocus_tagの代わりにproduct (機能注釈情報) を表示するには 
 +http://​rest.g-language.org/​ecoli/​cai/​tag=product
 と入力します。 と入力します。
-全遺伝子群の累積コドン使用からの差 (BgC) が大きく、高発現遺伝子群の累積コドン使用からの差 (BgH) が小さく、発現量予測値 (E_g = BgC/BgH) が1.05より大きい遺伝子は、高発現と予測されます (phx = 1) 。高発現遺伝子群は、リボソームタンパク質 (ribosomal subunit protein) や翻訳伸長因子 (elongation factor) をコードする遺伝子群を含みます。 
  
 +P2は、コドン・アンチコドン相互作用の効率の指標となり、高発現遺伝子はP2値が高い (P2 > 0.7) ことが報告されています。
  
-== 翻訳選択 (Translational selection) の検出 == +Fopは、全コドンにめる適合コドン ​(optimal codon) の割合定義され、0 (適合コドンなし) から1 (適合コドンのみ) までの値をとります。デフォルトでは、翻訳適合コドンが全ての種同じと考えられる4種類のアミノ酸 (Phe, Tyr, Ile, Asn) [[http://www.ncbi.nlm.nih.gov/pubmed/15728743|(Sharp PM et al.2005)]] のみを計算に含めます
-コドン使用翻訳の効率と正確度を高める自然選択 ​(Translational selectionが働かなくて、高発現遺伝子群と他遺伝子群の間でコドン使用に差が認められいゲノムでは、コドン使用から遺伝子発現量を予測きません[[http://mbe.oxfordjournals.org/content/24/​1/​10.long|(Henry I and Sharp PM, 2006)]]。+
  
-翻訳選択程度を測に、[[http://​nar.oxfordjournals.org/​content/​33/​4/​1141.full|S ​(Strength of selected codon usage bias)]]を利きます。高発現遺伝子群としてリボソームタンパク質 (ribosomal protein) を用いて大腸菌 (ecoli) ​S値計算するには +CAIは高発現遺伝子コドン使用に類似していほど値が1近づきます。 
-http://​rest.g-language.org/​ecoli/​S_value+ 
 +PHX解析では全遺伝子のコドン使用からの差 ​(BgCが大きく、高発現遺伝子のコドン使からの差 (BgH) が小さく、発現量予測値 (E_g = BgC/BgH) が1.05より大い遺伝子を高発現と予測します ​(phx = 1) 。高発現遺伝子群は、翻訳伸長因子 (elongation factor) やリボソームタンパク質 (ribosomal protein) をコードする遺伝子群を含みます。またコドン使用が全遺伝子と高発現遺伝子何れとも異なる遺伝子外来性 (Putative Alien; PA) と予測します (pa = 1) 。標準出力させるには 
 +http://​rest.g-language.org/​ecoli/​phx/​output=stdout
 と入力します。 と入力します。
-[[http://nar.oxfordjournals.org/content/33/4/1141.full|Sharp PM et al. (2005)]]が選んだ40個の高発現遺伝子群 (tufA, tsf, fusA, rplA-rplF, rplI-rplT, rpsB-rpsT) ​を用いて、S値を計算するには+ 
 +CAIやPHX解析で得られた値は、ゲノム毎の高発現遺伝子に基づいているので、ゲノム間で単純に比較できないことに注意してください。 
 + 
 +== 翻訳選択 (Translational selection) の検出 == 
 +コドン使用に翻訳の効率・正確度を高める自然選択 (Translational selection) が働かなくて、高発現遺伝子群と他の遺伝子群との間でコドン使用に差がないゲノムでは、コドン使用から遺伝子発現量を予測できないことに注意してください ​[[http://www.ncbi.nlm.nih.gov/pubmed/17038449|(Henry I and Sharp PM, 2006)]]。 
 + 
 +翻訳選択の程度を測るのに、[[http:​//www.ncbi.nlm.nih.gov/​pubmed/​15728743|S (Strength of selected codon usage bias)]]を利用できます。[[http://​www.ncbi.nlm.nih.gov/​pubmed/​15728743|Sharp PM et al. (2005)]]が選んだ40個の高発現遺伝子群 (翻訳伸長因子とリボソームタンパク質; ​tufA, tsf, fusA, rplA-rplF, rplI-rplT, rpsB-rpsT) ​に基づいて、S値を計算するには
 http://​rest.g-language.org/​ecoli/​S_value/​sharp=1 http://​rest.g-language.org/​ecoli/​S_value/​sharp=1
-と入力します。大腸菌 (S = 1.5) や枯草菌 (S = 1.3) は高いS値を示す選択が強いのに対して、B.burgdorferi (S = -0.37) や M.genitalium (S = 0.32) は低いS値を示しま選択た痕跡が無い)。増殖の速い菌は、rRNAとtRNAの遺伝子コピー数が多く、S値が高い傾向あります[[http://​nar.oxfordjournals.org/content/33/​4/​1141.full|(Sharp PM et al., 2005)]]。+と入力します。大腸菌 (ecoli) や枯草菌 (bsub) は高いS値を示す ​(翻訳選択が強いのに対して、B.burgdorferi (bbur) や M.genitalium (mgen) は低いS値を示す ​(翻訳選択が) ことを確認しましょう。増殖の速い菌は、rRNAとtRNAの遺伝子コピー数が多く、高いS値 (S > 1.0) を示す傾向あります[[http://​www.ncbi.nlm.nih.gov/pubmed/15728743|(Sharp PM et al., 2005)]]。
  
-多変量解析 (対応分析や主成分分析) により翻訳選択の有無を判定する方法を次に説明します。+多変量解析 (対応分析や主成分分析) により翻訳選択が働いたか否かを判定する方法を次に説明します。
  
  
 == コドン使用データの多変量解析 == == コドン使用データの多変量解析 ==
- 遺伝子間の同義コドン使用の変動要因を同定するために、多変量解析手法である対応分析 ​(Correspondence Analysis) ​や主成分分析 ​(Principal Component Analysis; PCA) が用いられています。同義コドン使用の変動を覆い隠すバイアスアミノ酸組成やコドン縮重度の影響を受けない群内対応分析 (Within-group Correspondence Analysis; WCA) の利用が推奨されます[[http://​dnaresearch.oxfordjournals.org/content/15/​6/​357.full|(Suzuki H et al., 2008)]]。 + 遺伝子間の同義コドン使用の変動要因を同定するために、多変量解析手法である対応分析や主成分分析が用いられています。対応分析では、同義コドン使用の変動を覆い隠すバイアス ​(アミノ酸組成やコドン縮重度の影響を受けない群内対応分析 (Within-group Correspondence Analysis; WCA) の利用が推奨されます[[http://​www.ncbi.nlm.nih.gov/pubmed/18940873|(Suzuki H et al., 2008)]]。 
-  * 大腸菌 (ecoli) でWCAを実行するには http://​rest.g-language.org/​ecoli/​codon_mva と入力します。解析結果の散布図が表示されます。WCAで得られる第1軸〜第4軸の値 (Comp1 to Comp4) を縦軸に示し、縦軸との相関が最大の統計量 (gcc3, gtc3) を横軸に示しています。赤○は(リボソームタンパク質や翻訳伸長因子をコードする)高発現遺伝子群を、黒×は他の遺伝子群を示しています。第1軸寄与率20.8%は、gcc3(コドン3文字目のG+C含量)と高い相関r = 0.70を示し、「G+C含量を決定する変異圧の違いを表す軸」あるいは「ゲノムG+C含量の異なる生物種由来の水平伝播遺伝子群と他の遺伝子群を分ける軸」と解釈できます。第2軸寄与率9.9%は、高発現遺伝子群の標準得点の平均値が大きい (z = 3.14) ので、「高発現遺伝子群と他の遺伝子群を分ける軸」と解釈できます。このことは、翻訳選択 (Translational selection) が働いたことを示唆します。なお、対応分析や主成分分析で得られる軸の符号は反転してもかまいません。 +  * 大腸菌 (ecoli) でWCAを実行するには http://​rest.g-language.org/​ecoli/​codon_mva と入力します。解析結果の散布図が表示されます。WCAで得られる第1軸〜第4軸の値 (Comp1 to Comp4) を縦軸に示し、縦軸との相関が最大の統計量 (gcc3, gtc3) を横軸に示しています。赤○は(リボソームタンパク質や翻訳伸長因子をコードする)高発現遺伝子群を、黒×は他の遺伝子群を示しています。第1軸 ​(寄与率20.8%は、gcc3(コドン3文字目のG+C含量)と高い相関 ​(r = 0.70を示し、「G+C含量を決定する変異圧の違いを表す軸」あるいは「ゲノムG+C含量の異なる生物種由来の水平伝播遺伝子群と他の遺伝子群を分ける軸」と解釈できます。第2軸 ​(寄与率9.9%は、高発現遺伝子群の標準得点の平均値が大きい (z = 3.14) ので、「高発現遺伝子群と他の遺伝子群を分ける軸」と解釈できます。このことは、翻訳選択 (Translational selection) が働いたことを示唆します。なお、対応分析や主成分分析で得られる軸の符号は反転してもかまいません。 
-  * B. burgdorferi (http://​rest.g-language.org/​bbur/​codon_mva) では、第1軸がgtc3 (コドン3文字目のG+T含量) と高い相関r = 0.96を示し、遺伝子間の同義コドン使用の主たる変動要因は「複製鎖リーディング鎖とラギング鎖間の変異圧の違い」と解釈できます。G+T含量は、リーディング鎖で高く、ラギング鎖で低いからです。ゲノムのGC skew (C-G)/(C+G) (http://​rest.g-language.org/​bbur/​gcskew) と AT skew (A-T)/(A+T) (http://​rest.g-language.org/​bbur/​gcskew/​at=1) ​を見てみましょう。  +  * B. burgdorferi (http://​rest.g-language.org/​bbur/​codon_mva) では、第1軸がgtc3 (コドン3文字目のG+T含量) と高い相関 ​(r = 0.96を示し、遺伝子間の同義コドン使用の主たる変動要因は「複製鎖 ​(リーディング鎖とラギング鎖間の変異圧の違い」と解釈できます。G+T含量は、リーディング鎖で高く、ラギング鎖で低いからです。ゲノムのストランドバイアス (塩基組成の複製鎖間差) を GC skew (C-G)/(C+G) (http://​rest.g-language.org/​bbur/​gcskew) と AT skew (A-T)/(A+T) (http://​rest.g-language.org/​bbur/​gcskew/​at=1) ​により確認しましょう。  
-  * M. genitalium (http://​rest.g-language.org/​mgen/​codon_mva) では、第1軸がgcc3 (コドン3文字目のG+C含量) と高い相関r = 0.96を示し、遺伝子間の同義コドン使用の主たる変動要因は「ゲノム内の変異圧の違い」と解釈できます。ゲノムのG+C含量 (http://​rest.g-language.org/​mgen/​gcwin) ​に変動がめられ+  * M. genitalium (http://​rest.g-language.org/​mgen/​codon_mva) では、第1軸がgcc3 (コドン3文字目のG+C含量) と高い相関 ​(r = 0.96を示し、遺伝子間の同義コドン使用の主たる変動要因は「ゲノム内の変異圧の違い」と解釈できます。ゲノムの領域毎のG+C含量 (http://​rest.g-language.org/​mgen/​gcwin) ​の違いを確しょう
  
-結果を標準出力させるには+解析結果を標準出力させるには
 http://​rest.g-language.org/​mgen/​codon_mva/​output=stdout http://​rest.g-language.org/​mgen/​codon_mva/​output=stdout
-と入力します。各軸の寄与率、各軸と各統計量 (Laa, aroma, gravy, mmw, gcc3, gtc3, P2) の相関係数が出力されます。+と入力します。 
 +各軸の寄与率 ​(%) に加え、各軸と各統計量 (Laa, aroma, gravy, mmw, gcc3, gtc3, P2) の相関係数が出力されます。
  
-主成分分析 (PCA) では、同義コドン使用の変動を覆い隠すバイアス (配列の長さ、アミノ酸組成、コドン縮重度) に影響されないコドン使用データ (R4) の利用が推奨されます[[http://​www.ncbi.nlm.nih.gov/​pubmed/​16289058|(Suzuki H et al., 2005)]]。 +主成分分析 (Principal Component Analysis; ​PCA) では、同義コドン使用の変動を覆い隠すバイアス (配列の長さ、アミノ酸組成、コドン縮重度) に影響されないコドン使用データ (R4) の利用が推奨されます[[http://​www.ncbi.nlm.nih.gov/​pubmed/​16289058|(Suzuki H et al., 2005)]]。 
-M.genitalium (mgen) でR4データに対してPCAを実行するには+M. genitalium (mgen) でR4データに対してPCAを実行するには
 http://​rest.g-language.org/​mgen/​codon_mva/​method=pca/​data=R4 http://​rest.g-language.org/​mgen/​codon_mva/​method=pca/​data=R4
 と入力します。 と入力します。
- 
- 
restgenomeanalysisjapanese.1342680193.txt.gz · Last modified: 2014/01/18 07:44 (external edit)