日本語
NAME
G - G言語コア・モジュール in Perl (Prelude)
SYNOPSIS
use G; # Gのモジュールをインポートします。
$gb = new G("ecoli.gbk"); # $gbにGのインスタンスを作成します。
# 同時に、ecoli.gbk を読み込み、
# アノテーションと塩基配列を読みます。
# 詳細に関しては、
# DESCRIPTIONを参照してください。
$gb->seq_info(); # 塩基配列の基本情報を出力します。
find_ori_ter(\$gb->{SEQ}); # MTパッケージの関数に
# リファレンスとして塩基配列を与えます。
DESCRIPTION
G言語のPreludeコアは大部分の塩基配列データベースを完全にサポートします。
格納されるアノテーション:
LOCUS
$gb->{LOCUS}->{id} -登録番号/アクセッションナンバー
$gb->{LOCUS}->{length} -塩基配列の長さ
$gb->{LOCUS}->{nucleotide} -塩基配列の種類 (例. DNA、RNA)
$gb->{LOCUS}->{circular} -環状ゲノムなら1を、
そうでなければ0を返す。
$gb->{LOCUS}->{type} -生物種 (例. BCT、MAM)
$gb->{LOCUS}->{date} -登録日時
HEADER
$gb->{HEADER}
COMMENT
$gb->{COMMENT}
FEATURE
各FEATUREは、番号が付けられ(FEATURE1.. FEATURE 1172)、
Genbankのキーを全て含んでいるハッシュ構造です。
つまり、ほとんどの場合、FEATURE$iのハッシュは、
以下の情報を少なくとも含んでいます:
$gb->{FEATURE$i}->{start}
$gb->{FEATURE$i}->{end}
$gb->{FEATURE$i}->{direction}
$gb->{FEATURE$i}->{join}
$gb->{FEATURE$i}->{note}
$gb->{FEATURE$i}->{type} -CDS、gene、RNA など
各FEATUREを解析するには、以下のように記述します:
$i = 1;
while(defined(%{$gb->{FEATURE$i}})){
$i ++;
}
以下に示すように、各CDSも類似の様式で格納されます。
$gb->{CDS$i}->{start}
$gb->{CDS$i}->{end}
$gb->{CDS$i}->{direction}
$gb->{CDS$i}->{join}
$gb->{CDS$i}->{feature} -number $n for $gb->{FEATURE$n}
where "CDS$i" = "FEATURE$n"
同様に、全てのCDSを解析するには、以下のように記述します:
$i = 1;
while(defined(%{$gb->{CDS$i}})){
$i ++;
}
BASE COUNT
$gb->{BASE_COUNT}
SEQ
$gb->{SEQ} -"ORIGIN"以降の塩基配列データ
サポートされているメソッド:
new()
Gのインスタンスを作成します。
第1のオプションはデータベースのファイル名です。デフォルトの形式は
GenBankデータベースです。
第2のオプションは、詳細な動作を指定します。
'without annotation' オプションは、アノテーションを省略します。
'long sequence' オプションは、ゲノム配列を読むために
ファイルハンドルのポインタを使用します。
詳細に関しては、後述する next_seq() メソッド
を参照してください。
'bioperl' オプションは、bioperlオブジェクトから
Gのインスタンスを作成します。
例. $bp = $bp->next_seq(); # bioperl
$gb = new G($bp, "bioperl"); # G
- 以下のオプションを利用するには、bioperlをインストールして下さい -
'Fasta' オプションは、Fasta 形式のデータベースをロードします。
'EMBL' オプションは、EMBL 形式のデータベースをロードします。
'swiss' オプションは、swiss 形式のデータベースをロードします。
'SCF' オプションは、SCF 形式のデータベースをロードします。
'PIR' オプションは、PIR 形式のデータベースをロードします。
'GCG' オプションは、GCG 形式のデータベースをロードします。
'raw' オプションは、raw 形式のデータベースをロードします。
'ace' オプションは、ace 形式のデータベースをロードします。
complement()
塩基配列を与えると、その相補的配列を返します。
例. complement('atgc'); は、'gcat' を返します。
translate()
塩基配列を与えると、それを翻訳してアミノ酸配列を返します。
この際、標準的なコドン・テーブルが使用されます。
例. translate('ctggtg'); は、'LV' を返します。
$gb->seq_info()
ゲノムの基本情報をSTDOUTへ出力します。
$gb->DESTROY()
Gのインスタンスを破壊します。
$gb->del_key()
オブジェクトを与えると、それをGのインスタンス構造から削除します。
例. $gb->del_key('FEATURE1'); は、'FEATURE1' のハッシュを削除します。
$gb->getseq()
(Perlのように 0 から始まる)開始位置と終了位置を与えると、
指定された塩基配列を返します。
例. $gb->getseq(1,3); は、
第2、第3、および第4番目のヌクレオチドを返します。
$gb->get_gbkseq()
(Genbankのように 1 から始まる)開始位置と終了位置を与えると、
指定された塩基配列を返します。
例. $gb->get_gbkseq(1,3); は、
第1、第2、および第3番目のヌクレオチドを返します。
$gb->get_cdsseq()
CDSのIDが与えられると、CDSの塩基配列を返します。
この際、'complement' は適切に変換されます。
例. $gb->get_cdsseq('CDS1'); は、'CDS1' の塩基配列を返します。
$gb->get_geneseq()
CDSのIDが与えられると、CDSの塩基配列を返します。あるいは
イントロンが存在する場合にはエクソンの塩基配列を返します。
'complement' は適切に変換され、イントロンはスプライシングされます。
例. $gb->get_geneseq('CDS1'); は、
'CDS1' の塩基配列またはエクソンを返します。
$gb->feature()
全FEATUREのオブジェクト名を配列で返します。
foreach ($gb->feature()){
$gb->get_cdsseq($_);
}
は、全FEATUREの塩基配列を出力します。
$gb->cds()
全CDSのオブジェクト名を配列で返します。
!注意! 全てのFEATUREの値へアクセス可能にするために、CDSの
オブジェクト名とは、実際にはFEATUREのオブジェクト名のことです。
しかしながら通常、この違いを意識する必要はありません。
foreach ($gb->cds()){
$gb->get_geneseq($_);
}
は、全遺伝子の塩基配列を出力します。
$gb->startcodon()
CDSのIDを与えると、開始コドンを返します。
例. $gb->startcodon('CDS1'); は、'atg' を返します。
$gb->stopcodon()
CDSのIDを与えると、終止コドンを返します。
例. $gb->stopcodon('CDS1'); は、'tag' を返します。
$gb->before_startcodon()
CDSのIDと塩基長を与えると、開始コドン上流の塩基配列を返します。
例. $gb->before_startcodon('CDS1', 100); は、
'CDS1' の開始コドン上流100塩基の配列を返します。
$gb->after_startcodon()
CDSのIDと塩基長を与えると、開始コドン下流の塩基配列を返します。
例. $gb->after_startcodon('CDS1', 100); は、
'CDS1' の開始コドン下流100塩基の配列を返します。
$gb->before_stopcodon()
CDSのIDと塩基長を与えると、終止コドン上流の塩基配列を返します。
例. $gb->before_stopcodon('CDS1', 100); は、
'CDS1' の停止コドン上流100塩基の配列を返します。
$gb->after_stopcodon()
CDSのIDと塩基長を与えると、終止コドン下流の塩基配列を返します。
例. $gb->after_stopcodon('CDS1', 100); は、
'CDS1' の停止コドン下流100塩基の配列を返します。
$gb->get_intron()
CDSのIDを与えると、イントロンの塩基配列を返します。
例. $gb->get_intron('CDS1'); は、
($1st_intron, $2nd_intron,..)を返します。
$gb->get_exon()
CDSのIDを与えると、エクソンの塩基配列を返します。
'complement' は適切に変換され、イントロンはスプライシングされます。
例. $gb->get_exon('CDS1'); は、'CDS1' のエクソンを返します。
$gb->next_locus()
次のLOCUSを読みます。
その際、Gのインスタンスは更新されます。
do{
}while($gb->next_locus());
と記述することにより、連続して複数のLOCUSを解析することができます。
$gb->next_seq()
Gのインスタンスが 'long sequence' オプションで作成される場合、
gb->next_seq() メソッドは、$gb->{SEQ}に次のLOCUSを読み込みます。
while($gb->next_seq(100000)){
print $gb->{SEQ};
}
と記述することにより、連続的に解析することができます。
$gb->rewind_genome()
Gのインスタンスが 'long sequence' オプションで作成される場合、
$gb->rewind_genome() メソッドは、ファイルハンドルのポインタを
ORIGINの位置に戻します。
AUTHOR
Kazuharu Gaou Arakawa, gaou@g-language.org
SEE ALSO
perl(1).