User Tools

Site Tools


bioforumeurope1

システム生物学における大規模モデリング

要旨

近年、測定機器の精度向上にともない多くの全ゲノム配列が解読、公開され、細胞内における生体内反応が網羅的、かつ定量的に測定可能になってきている。生命科学における中心的な課題のひとつは、これらオミクスデータ–測定された大量のデータ–を統合し、細胞内の分子がどのように調和して生物の複雑かつ動的なシステムを生み出しているか明らかにし、新たな生物学的知見を得ることである。

全細胞の動的なシミュレーション

全ゲノム配列の解読と測定機器の精度向上は、トランスクリプトーム、プロテオーム、メタボローム、インタラクトームといったオミクス領域に多量のデータをもたらし、従来の分子生物学をデータが豊富な研究分野へと様変わりさせた。そしてある意味、分子生物学の研究スタイルを大量のデータにもとづくものへと築き上げた。しかし、こうしたハイスループットな研究手法もまた研究対象に対して還元的で記述的な手法であることに変わりはない。このような背景を受け、システム生物学は、生命システムとしての細胞をより包括的に理解するために、細胞を構成する要素を網羅的に統合するという手法を用いることで、生体内における大量の相互作用が複雑な挙動を示す細胞にどのような影響を与えるか、そのメカニズム明らかにすることが期待されている。このような非線形的な相互作用からなる細胞の挙動を観察、解析するために、数理モデルとシミュレーションが有効な手法であると考えられる。E-Cellプロジェクト (www.e-cell.org/) は、オブジェクト指向モデリングと多解法・多次元尺度型のシミュレーション環境を備えた細胞シミュレーションソフトウェアを開発すること、また、ミトコンドリア、ニューロン、赤血球、概日リズム、大腸菌における中心炭素代謝といった数種類の細胞や細胞内プロセスの動的なシミュレーションモデルを構築し、解析することで、このような複雑な挙動を示す生命システムを解き明かすために活動している。このような細胞の動的なシミュレーションモデルは、質量保存則とアンリ=ミカエリス=メンテン型の方程式から導かれた酵素反応速度論にもとづいた連立常微分方程式によって記述され、定量的な計算には長時間の計算時間と先行研究から計算に必要なパラメターと方程式を抽出するための労力を要する。多くの場合、モデルを構成するすべてのパラメターを文献やデータベースから取得することは難しいため、将来的には遺伝的アルゴリズムなどといった情報科学の手法を用いてパラメターを推測することが望まれる。

> E-Cellシミュレーション環境(バージョン3)のスクリーンショット。E-Cellシステムは動的な計算機上で細胞シミュレーションを可能にする。そして、汎用性の高いオブジェクト指向モデリングとマルチアルゴリズム・タイムスケール型のシミュレーション環境を備え、Python言語による高い拡張性をもつ点で他のシミュレーション環境に比べ幾つかの優位性を誇る。E-cellは活発に開発が進められており、Gnu General Public Licenseにもとづきオープンソースソフトウェアとして www.e-cell.org から入手可能である。

E-Cellシステムを用いたショウジョウバエの概日時計をシミュレーションした結果。細胞内で生じる動的な挙動は非直感的で複雑な生体内反応によってにもたらされる。図中の24時間周期の振動はPERタンパク質とCLKタンパク質のフィードバックによって生じる。

オミクスデータを用いた大規模モデルの自動生成

システム生物学において、細胞モデルのすべての要素を網羅的に自動生成することは現時点では現実的ではないが、オミクスデータを用いることで大規模な細胞モデルを自動生成することは一定の範囲において可能である。よってモデルの自動生成化における主要な課題は、データベースごとに異なるデータ様式で保存されている生物学的データを統合することにある。ここで、データの統合は、遺伝子、mRNA、タンパク質、代謝物といった異なる階層にまたがった生体分子の意味的な対応づけと、同一データにおける異なるデータ様式の統一が要求される。例えば、大腸菌における「ピルビン酸キナーゼI」遺伝子は、データベースによって「PK-1」、「PK-I」、「pykF」、「pyruvate kinase F」、「b1676」などと記述される場合があり、さらにこの名称は遺伝子のほかに、mRNA、タンパク質の名称としても用いられる。よって、データベースの統合は十分に整備された同一のテータを指す異なる名称をもったデータの語彙ライブラリーと辞書のテキストマイニングとアノテーションに依存する。しかしながら、分子生物学の知見はセントラルドグマに立脚しているため、データがどのような分子生物学的な階層にまたがっていたとしても、データベースに登録されているデータには必ず対応するDNA配列が関連付けられている。したがって、私たちは大量のオミクスデータを統合するため、遺伝子のDNA配列をデータベースの辞書として、BLASTといった相同性検索から類似するデータをデータベースのクエリとして用いて、さまざま生物学的な資源から情報を関連づけさせるという遺伝子指向型のアプローチ方法を採用した。このアプローチにはDNA配列をシステム生物学におけるオミクス解析の起点にすることができるといった利点があることも特筆すべき点だ。

GEMシステムによって自動生成され、Cytoscapeによって可視化された大腸菌の代謝経路。このモデルには968個の生体内反応と1195個の代謝物が含まれ、KEGGに登録されている大腸菌の代謝経路を完全に再現している。

ゲノムにはすべての遺伝子情報が含まれることから細胞内の最大要素数を定義することができるため、全細胞モデルの検索空間を制約し遺伝子のDNA配列から関連する情報を集積することができる。私たちは生物固有のゲノムから代謝反応に関わる遺伝子を自動抽出して、遺伝子の類似性やオーソロジーから生物固有の代謝モデルを自動生成する the Genome-based Modeling (GEM) システムを開発した。GEMシステムによって自動生成されたモデル自体は各化学反応の速度パラメターを保持していないが、化学量論行列やSBMLを用いることで代謝流束解析やグラフ解析へ応用し、代謝経路の網羅的な解析が可能である。代謝モデルに含まれる要素数はゲノムによって制約されるため、トップダウン的なアプローチ方法によって速度パラメターを追加していくことに適している。GEMシステムによって自動生成されたモデルの精度の妥当性を検討するために、バクテリア90種以上を対象としてモデル化し、代謝モデルをKEGG代謝データベースと比較した。自動生成した大部分のモデルは、500個以上の酵素と800個以上の代謝物から構成され、KEGGに登録されている代謝経路の約90~100%を満たした。大腸菌ゲノムから生成したモデルは最も精度が高く、968個の酵素と1195個の代謝物から構成され、KEGGにおける代謝経路を完全に満たし、EcoCycにおける代謝経路の92%を満たした。自動生成したすべてのモデルは www.g-language.org/gem/models/static.cgi からダウンロードできる。現状のGEMシステムは速度パラメターを考慮した静的な化学反応の記述にとどまっているが、遺伝子指向型のアプローチ方法は、遺伝子発現制御やシグナル伝達経路といったあらゆる種類の分子生物学的な階層に対して拡張性をもつ。特に代謝といった分野では、ハイスループットな測定機器で測定される定量的なデータによって、細胞内の動的な相互作用をシステムとしてとらえることが期待され、これからのシステム生物学がより発展していくだろう。

bioforumeurope1.txt · Last modified: 2014/01/18 07:44 (external edit)