BioSupercomputing Newsletter Vol.4

Home -> Newsletter -> Vol.5

研究報告
生命体シミュレーションのためのデータ同化技術の開発

樋口 知之

統計数理研究所
樋口 知之(データ解析融合WG)

 今回の東日本大震災によって私たち研究者は、複雑なシステムを理解し防御あるいは制御することの困難さと、その問題克服に向けて英知を傾ける永続的な努力の必要性を改めて認識させられました。地球に限らず生命体のような複雑なシステムの理解と制御においては、対象に関する知識は常に不完全であることを前提に、現象の予測能力でもって研究の進め方を評価し修正する方策が有効です。このことは統計学が教えるところでありますし、そもそも人間が地球上に繁栄してきた大きな理由の一つでもあります。
 予測能力は大きく分けて二つの機能に関する有効性の総合指標となっています。一つはフォワード(前向き)計算モデルの記述力、もう一つは対象の現状態(現況)を捉える認識力です。フォワード計算とは、分かりやすく言えば繰り返し代入計算のことで、右辺に値を入れたら左辺の値が出、その値をまた右辺に入れれば次のステップの左辺の値が出るような計算方式を指します。時間発展を陽に求めるシミュレーション計算の多くはこの方式をとり、また長期予測はこのフォワード計算の反復で実現されます。一方、後者は計測手法のイノベーションと直結しています。画期的な計測法の発明により従来よりも圧倒的な規模と精密さで情報を得ることのできる新しい装置は、どの分野の研究者にとっても大きな魅力であり、特に生命科学においては、その発展の大きな牽引力となってきました。
 しかしながら、計測装置の研究開発のみに傾斜することは、予測能力の観点からすると得策でありません。それは、対象を直接的にまるごと計測する方向性には理論上限界があることもありますが、予測能力を上げるためには、フォワード計算モデルの記述力を強化することも極めて効果的だからです。地球・宇宙科学や物性物理のようなシミュレーションを用いた研究に長い歴史がある分野では、フォワード計算の基礎となる支配方程式がたいてい確立しており、支配方程式にもとづく計算をスーパーコンピュータ上でどう近似的に上手に実現するかが成功の鍵です。この近似計算の改善がフォワード計算モデルの改良に相当しています。バイオスーパーコンピューティングの大きな目標の一つも、このフォワード計算モデルの記述力を、計算ハードのスケールメリットを最大限に生かして劇的に向上させることです。ただし残念ながら生命科学においては、支配方程式に相当する原理がないと言っても過言でなく、従って、フォワード計算モデル自体も多種多様な考え方にもとづいた一般性の低いものとならざるを得ない状況です。
 では生命科学においてはフォワード計算モデルの系統だった改良は困難なのでしょうか?前述したように、計測法の発展とフォワード計算モデルの改良が両輪となって、現象の予測能力の向上は実現されます。そうすると、フォワード計算モデルを何某かの独自の評価基準で改善するのでなく、予測能力が向上するようにモデルに手を入れることは自然に思えます。つまり計測データから学習する機能をフォワード計算モデルに付加するわけです。事実、シミュレーション研究の最先端領域である気象・海洋分野では、全世界から時々刻々と集められる大量の時空間データと、スーパーコンピュータ上での世界最大規模のシミュレーション計算結果を、ベイズ統計を用いて情報統合し、シミュレーションモデルをリアルタイムで改良することで予測性能をあげる予報業務が普通になりつつあります。また、最近話題になった放射線の影響を予想するシミュレータSPEEDIが、その力を十分に発揮できなかった理由の一つに、実観測データをリアルタイムでシミュレータに反映させる機能がなかったことが指摘されています。
 このような観測データとモデル計算結果の情報統合はデータ同化と呼ばれ、近年シミュレーション科学の分野で大きな注目を浴びています。データ同化の考え方を生命体シミュレーションに適用すれば、少なくとも予測性能の着実なアップに繋がり、ひいては複雑システムの理解と制御に役立つことでしょう。私どもはこの強い思いのもと、データ解析融合チームメンバーとして生命体シミュレーションのためのデータ同化技術の研究開発に日々取り組んできました。現在の生命体シミュレーションモデルは服に例えて言えば既製服のようなものです。バラエティがあったとしても、せいぜいS・M・Lのサイズの違いがあるくらいでしょう。片や人の体内システムは一人一人異なっています。薬や治療法の副作用に苦しむ患者さんの診療データから、その人にあったオーダーメイド、せめてセミオーダーメイドの生命体シミュレータが自動的に構築できる、そんな時代が早く到来することを夢見て頑張っています。

開発しているアプリケーション LiSDAS

図1:開発しているアプリケーションLiSDAS(Life Science Data Assimilation Systems)の利用法をあらわした概念図。LiSDASは、よく知られている地域気象観測システムのAMeDASをもじって命名しました。実験・計測現場で得られたデータ(左上部分)と既存のモデル群(右上部分)を結合し、データ同化を行います。データ同化により、モデルの評価や再構成も同時に実現されます。同化されたシミュレータの計算結果と計測データを下部に示しました。データ同化の結果は、新たな仮説構築や次の実験のデザインにも活かされます。このような一連の情報循環を実現する計算プラットホームがLiSDASです。

BioSupercomputing Newsletter Vol.5

SPECIAL INTERVIEW
“予測する生物学”をめざすバイオスーパーコンピューティングの挑戦はいよいよ世界一の「京」で成果を出すフェーズに入った
理化学研究所 次世代計算科学研究開発プログラム 副プログラムディレクター 姫野 龍太郎
高性能計算機資源および開発アプリケーションの産業利用促進を図るために何をすべきか
計算科学振興財団 チーフコーディネーター 福田 正大
都市活力研究所 主席研究員 バイオグリッドセンター関西 理事・事務局長 志水 隆一
研究報告
QM/MM 自由エネルギー法による酵素反応分子機構の解析
京都大学大学院理学研究科 林 重彦(分子スケールWG)
アクチン細胞骨格の計算メカノバイオロジー
京都大学再生医科学研究所 井上 康博(細胞スケールWG)
血栓シミュレーションに向けた血流解析手法の開発
東京大学工学系研究科 伊井 仁志(臓器全身スケールWG)
生命体シミュレーションのためのデータ同化技術の開発
統計数理研究所 樋口 知之(データ解析融合WG)
SPECIAL INTERVIEW
複雑な生命現象の理解と予測に向けて計算生命科学の明日を拓く
理化学研究所 HPCI計算生命科学推進プログラム プログラムディレクター 柳田 敏雄
理化学研究所 HPCI計算生命科学推進プログラム 副プログラムディレクター 木寺 詔紀
理化学研究所 HPCI計算生命科学推進プログラム 副プログラムディレクター 江口 至洋
研究報告
創薬応用シミュレーション
東京大学先端科学技術研究センター 藤谷 秀章(分野1-課題2)
次世代DNAシークエンサデータの超高速解析
東京工業大学大学院情報理工学研究科
秋山 泰 / 石田貴士 / 角田将典 / 鈴木脩司(分野1-課題4)
報告
バイオスーパーコンピューティングサマースクール2011
理化学研究所 次世代計算科学研究開発プログラム
石峯 康浩(臓器全身スケールWG)
統計数理研究所 データ同化研究開発センター
斎藤 正也(データ解析融合WG)
新潟国際情報大学
近山 英輔(細胞スケールWG)
東海大学医学部内科学系循環器内科
七澤 洋平(細胞スケール/臓器全身スケールWG)
理化学研究所 次世代計算科学研究開発プログラム
半田 高史(脳神経系WG)
理化学研究所 次世代計算科学研究開発プログラム
舛本 現(開発・高度化T)
理化学研究所 次世代計算科学研究開発プログラム
森次 圭(分子スケールWG)
「次世代生命体統合シミュレーションソフトウェアの開発(ISLiM)」開発アプリケーション紹介ページ、オープン
次世代計算科学研究開発プログラム 次世代生命体統合シミュレーション研究推進グループ
イベント情報