統計数理研究所
樋口 知之(データ解析融合WG)
今回の東日本大震災によって私たち研究者は、複雑なシステムを理解し防御あるいは制御することの困難さと、その問題克服に向けて英知を傾ける永続的な努力の必要性を改めて認識させられました。地球に限らず生命体のような複雑なシステムの理解と制御においては、対象に関する知識は常に不完全であることを前提に、現象の予測能力でもって研究の進め方を評価し修正する方策が有効です。このことは統計学が教えるところでありますし、そもそも人間が地球上に繁栄してきた大きな理由の一つでもあります。
予測能力は大きく分けて二つの機能に関する有効性の総合指標となっています。一つはフォワード(前向き)計算モデルの記述力、もう一つは対象の現状態(現況)を捉える認識力です。フォワード計算とは、分かりやすく言えば繰り返し代入計算のことで、右辺に値を入れたら左辺の値が出、その値をまた右辺に入れれば次のステップの左辺の値が出るような計算方式を指します。時間発展を陽に求めるシミュレーション計算の多くはこの方式をとり、また長期予測はこのフォワード計算の反復で実現されます。一方、後者は計測手法のイノベーションと直結しています。画期的な計測法の発明により従来よりも圧倒的な規模と精密さで情報を得ることのできる新しい装置は、どの分野の研究者にとっても大きな魅力であり、特に生命科学においては、その発展の大きな牽引力となってきました。
しかしながら、計測装置の研究開発のみに傾斜することは、予測能力の観点からすると得策でありません。それは、対象を直接的にまるごと計測する方向性には理論上限界があることもありますが、予測能力を上げるためには、フォワード計算モデルの記述力を強化することも極めて効果的だからです。地球・宇宙科学や物性物理のようなシミュレーションを用いた研究に長い歴史がある分野では、フォワード計算の基礎となる支配方程式がたいてい確立しており、支配方程式にもとづく計算をスーパーコンピュータ上でどう近似的に上手に実現するかが成功の鍵です。この近似計算の改善がフォワード計算モデルの改良に相当しています。バイオスーパーコンピューティングの大きな目標の一つも、このフォワード計算モデルの記述力を、計算ハードのスケールメリットを最大限に生かして劇的に向上させることです。ただし残念ながら生命科学においては、支配方程式に相当する原理がないと言っても過言でなく、従って、フォワード計算モデル自体も多種多様な考え方にもとづいた一般性の低いものとならざるを得ない状況です。
では生命科学においてはフォワード計算モデルの系統だった改良は困難なのでしょうか?前述したように、計測法の発展とフォワード計算モデルの改良が両輪となって、現象の予測能力の向上は実現されます。そうすると、フォワード計算モデルを何某かの独自の評価基準で改善するのでなく、予測能力が向上するようにモデルに手を入れることは自然に思えます。つまり計測データから学習する機能をフォワード計算モデルに付加するわけです。事実、シミュレーション研究の最先端領域である気象・海洋分野では、全世界から時々刻々と集められる大量の時空間データと、スーパーコンピュータ上での世界最大規模のシミュレーション計算結果を、ベイズ統計を用いて情報統合し、シミュレーションモデルをリアルタイムで改良することで予測性能をあげる予報業務が普通になりつつあります。また、最近話題になった放射線の影響を予想するシミュレータSPEEDIが、その力を十分に発揮できなかった理由の一つに、実観測データをリアルタイムでシミュレータに反映させる機能がなかったことが指摘されています。
このような観測データとモデル計算結果の情報統合はデータ同化と呼ばれ、近年シミュレーション科学の分野で大きな注目を浴びています。データ同化の考え方を生命体シミュレーションに適用すれば、少なくとも予測性能の着実なアップに繋がり、ひいては複雑システムの理解と制御に役立つことでしょう。私どもはこの強い思いのもと、データ解析融合チームメンバーとして生命体シミュレーションのためのデータ同化技術の研究開発に日々取り組んできました。現在の生命体シミュレーションモデルは服に例えて言えば既製服のようなものです。バラエティがあったとしても、せいぜいS・M・Lのサイズの違いがあるくらいでしょう。片や人の体内システムは一人一人異なっています。薬や治療法の副作用に苦しむ患者さんの診療データから、その人にあったオーダーメイド、せめてセミオーダーメイドの生命体シミュレータが自動的に構築できる、そんな時代が早く到来することを夢見て頑張っています。
図1:開発しているアプリケーションLiSDAS(Life Science Data Assimilation Systems)の利用法をあらわした概念図。LiSDASは、よく知られている地域気象観測システムのAMeDASをもじって命名しました。実験・計測現場で得られたデータ(左上部分)と既存のモデル群(右上部分)を結合し、データ同化を行います。データ同化により、モデルの評価や再構成も同時に実現されます。同化されたシミュレータの計算結果と計測データを下部に示しました。データ同化の結果は、新たな仮説構築や次の実験のデザインにも活かされます。このような一連の情報循環を実現する計算プラットホームがLiSDASです。
BioSupercomputing Newsletter Vol.5