User Tools

Site Tools


bioforumeurope2

マルチオミクスデータの可視化

要旨

複雑なデータの科学可視化は、データの解釈や仮説の設定といった過程における研究者のヒューリスティックな作業を助ける。 こうした可視化は、理論体系が完全に確立できていないような新領域においては特に重要な役割をもつ。したがって、急速にデータ駆動型の研究分野へと変貌をとげているポストゲノム時代の分子生物学において、可視化はますます重要性を増してきている。

ユーザインタラクションを前提とした可視化

分子生物学における大規模データとその他の研究分野における大規模データの大きな違いとして、高度な生物学的階層を持ち合わせていること(多階層性)、さらに各階層の尺度が広範囲にわたってること(多次元尺度性)が挙げられる。細胞をゲノム、トランスクリプトーム、プロテオーム、メタボロームといった異なる階層から見てみると、各階層で固有の要素とその相互作用が存在する。これら関連要素を解析することは不可欠であるとともに、全階層を横断的に解析することもまた不可欠である。このような観点から、国際的な協力のもと全細胞における詳細で動的な細胞シミュレーションを目指しているE-Cellプロジェクト(http://www.e-cell.org)では、多解法・多次元尺度によるシミュレーションを可能とするソフトウェアを開発することで、動的な細胞を再現させようとしている。

科学における可視化では、多階層・多次元尺度性をともなうデータを可視化するために、ユーザによる操作を前提としたユーザインターフェイスが伝統的に用いられている。地理データを可視化したGoogle Maps (http://maps.google.com) と Google Earth (http://earth.google.com) の成功を受け、分子生物学の多種多様なデータを含めた大規模データの可視化にZUI (Zoomable User Interface) を用いることが適していると注目されている。最近ではKEGG AtlasやReactomeといったいくつかの代謝経路データベースにおいてZUIの利用が試みられている。私たちはこのZUIとブラウザのタブ機能を模したものを組み合わせることで、複数の視点を提供し、ウェブブラウザを用いて簡単にアクセス可能なゲノムブラウザGenome Projector (http://www.g-language.org/GenomeProjector) を開発している。

Genome Projectorで大腸菌の環状ゲノムマップからtRNAを検索したときのスクリーンショット。存在が予想されるtRNA合成酵素とPDBから取得したタンパク質の立体構造が詳細なアノテーションとして示されている。

Genome Projectorは、4つの連続的に拡大縮小できるマップ(環状ゲノムマップ、ゲノムマップ、Roche生化学的パスウェイマップ、DNA Walkマップ)を備え、環状ゲノムをもつバクテリア320種に対応し、AJAX (Asynchronous JavaScript and XML) と Google Maps APIの技術を用いたデータベースブラウザである。各マップはキーワードでそれぞれ検索できる。したがってユーザは、タブ機能を用いて画面を切り替え、表示しているマップを連続的に拡大縮小することで、対象の遺伝子が染色体上のどこに位置していて、どれほど発現しており、代謝経路上でどのような機能を果たしており、周辺の塩基組成がどのようになっているのかを即座に知ることができる。また、追加の情報を各マップに重ねて表示することができる。現在のGenome Projectorは遺伝子発現強度をゲノムマップに、生物種固有の代謝経路を生化学パスウェイマップに重ねている。Genome Projectorは従来のゲノムブラウザと異なり、ユーザアクションにすばやく対応することができるため、ユーザが多様なコンテクストとスケールをもつ大量のデータに容易にアクセスすることができる。

Genome Projectorにおけるオーバーレイを用いた可視化の例。生物種固有の代謝経路がRoche社・生化学的経路マップ上でハイライトされている。同様に、遺伝子発現強度も遺伝子マップ上にオーバーレイすることができる。

細胞シミュレーションの3D可視化

通常、コンピュータ上における細胞シミュレーションは反応速度や物質濃度の時系列グラフとして可視化される。このような可視化手法は数個の分子や反応を観察することには適しているが、すべての反応系を理解するために一度に数十個から時に数百個のグラフを捉えるようなマルチスケールモデルには適していない。現在、システム生物学においてモデル構築は研究を進める上でボトルネックとなっているが、研究者の経験知を補助する効果的な可視化があれば、モデル構築を迅速化することができるはずだ。そこで我々は、効果的な可視化を実現するために、三次元可視化手法を適応したE-Cell 3D (http://ecell3d.iab.keio.ac.jp) を開発した。E-Cell 3DはMacOS X上で動作するQuartzやOpenGLといった最新の3DグラフィックAPIを用いており、要素間や生体内反応のネットワークを三次元空間として可視化する。SBML (Systems Biology Markup Language) やE-Cellフォーマットで記述されたモデルは自動的に三次元空間上に配置され、分子濃度がノードの大きさと明度 (青色から黄色に変化する) として、反応流束はエッジ間を流れる粒子の速度として反映される。E-Cell 3Dではすべての関連要素がひとつの空間上に表現されるため、ユーザは細胞の動的な挙動を一瞬にして捉えることができる。さらに、あるノードから大量の流束が流入出するとき、自動的にノードが配置される座標が変更され、瞬時にネットワーク内の制御因子を同定することができる。概日リズムのような大規模なモデルでは、ネットワーク内の振動の同期を鮮明に観察することができ、フィードバックをもつ振動の制御因子を同定できる。

E-Cell 3Dによるキイロショウジョウバエ概日リズムシミュレーションの可視化。

多量の流束をともなう反応では、分子の座標が大きく起動する。これによりシステムを大きく制御している因子が一目瞭然となる。この図ではショウジョウバエの概日リズムに関わる2つの連携したフィードバックループが可視化されている。

繰り返しになるが、可視化においてはユーザインターフェイスが重要な役割を果たす。E-Cell 3Dではマウスやキーボード、あるいは3軸加速センサをもつ任天堂のWiiリモコンといったリモート運動センサを用いることで、ユーザは回転、拡大縮小といった操作で3Dグラフィックスを制御でき、従来の分子濃度のグラフを効果的に可視化できる。

次世代シークエンサやハイスループット測定機器の導入により、データ量は今後加速的に増大することが予想される。コンピュータシミュレーションを用いて、仮説の導出を目的としたバイオインフォマティクスの解析的な手法と相まって、生物学の複雑な情報を理解するために科学的可視化は有効で必要不可欠な手法である。

bioforumeurope2.txt · Last modified: 2014/01/18 07:44 (external edit)