BioSupercomputing Newsletter Vol.4

Home -> Newsletter -> Vol.5

SPECIAL INTERVIEW
バイオスーパーコンピューティングが拓くライフサイエンスの未来

“予測する生物学”をめざすバイオスーパーコンピューティングの挑戦はいよいよ世界一の「京」で成果を出すフェーズに入った

姫野 龍太郎

理化学研究所
次世代計算科学研究開発プログラム 副プログラムディレクター
姫野 龍太郎

開発ソフトウェアの3分の1が「京」環境でのテストを開始

 非常に複雑な“超多体系多階層問題”ともいうべき生命現象を、ペタスケールという桁違いの性能を有するスーパーコンピュータ「京」をフル活用することによって理解し、創薬や医療に貢献するためのソフトウェアを開発する──こうした目的で2006年に動き出したグランドチャレンジ(次世代生命体統合シミュレーション)も5年が経過しようとしており、ソフトウェアの開発は、いよいよ「京」を活用しながらの超大規模並列化と実機チューニングを進める、新たなフェーズを迎えています。
 整備途中ながら、「京」は、今年(2011年)6月に発表された第37回TOP500において、LINPACKベンチマークで8.162PFLOPSを達成(実行効率93.0%)し、第1位を獲得しました。そして、この「京」で実行することを目標に、現在31本のソフトウェア開発が進行中です。すでに、そのうちの11本が大規模並列化を進める開発フェーズ(8,192並列)をクリアし、「京」環境でのテストを行っています。その1つである「大規模並列用MDコアプログラム(cppmd)」は、3月末の時点で実効効率30%を超える性能を発揮して、1.3PFLOPSを達成しました。これらのソフトウェア開発には、「京」の性能をフルに引き出すことが求められており、私たちとしても、マシン全体(10PFLOPS)を使ったときに、少なくとも1PFLOPSを超えるソフトウェアをできる限り多く揃えたいと考えていますが、とりあえず1本は目標となる性能を達成したことになります。cppmdを含めて現在(2011年10月)までに4本(cppmd、ZZ-EFSI、CafeMol、ZZ-HIFU)が実効効率20%を超え、さらにそのうちの2本(cppmd、ZZ-EFSI)は約40%に達しています。「京」が使えるようになったのが今年度に入ってからですから、それを考えるとかなり速いペースで性能チューニングが進み、ある程度満足ゆく性能が出ていると言えるでしょう。ただ残念なことに、いくつかのソフトウェアでは、まだ並列性能や単体性能がよくなかったり、Platypus-MM/CGのように並列性能は出ているのに単体性能があまりよくないといったものもあり、さらなる改良を進めているところです。もちろん、「京」そのものも未だ整備途中のマシンですから、今後、コンパイラや通信用のライブラリなどが充実していくことによってソフトウェアの性能も向上していくと思いますが、それを待っている余裕はありません。私たちが試験利用を通じて「京」を優先的に使えるのは2012年10月末までです。それまでに、まとまった計算を行って、サイエンティフィックに意味のあるしっかりとした結果を出さなければいけません。そのためにはコードの最適化など、今できることをすべて行いながら、なるべく短い時間で最大限の性能を出すことが求められています。
 もちろん私たちとしては、開発中の31本のソフトウェアすべてを「京」で走らせて、結果を出す計画です。しかしながら期間は限られていますので、計算規模や時間をどのように割り振っていくかも、これから具体的に決めていかなければいけません。システム全体を使って計算できるものは10本以下、いやもっと少ないかもしれません。さらに、計算規模を縮小して長い時間をかけるなど、問題設定の検討も必要です。限られた時間内に計算資源を効率よく活用して最大の成果を出すにはどうすればよいのか、それも今後の大きな課題の1つだと思っています。

ライフサイエンスの新たな時代を拓くために種をまいたグランドチャレンジ

 グランドチャレンジと並行して、今年度から「HPCI戦略プログラム 分野1「予測する生命科学・医療および創薬基盤」」が始まりました。グランドチャレンジがめざしてきたのは、基本的にソフトウェアの開発です。それもニーズ志向ではなく、シーズ志向、つまりサイエンスオリエンテッドで開発に取り組んできました。ライフサイエンス全体をコンピュータシミュレーションやデータ解析の方向へ導いていきたいという思いで、遺伝子、生体分子から臓器、全身まで、いろいろなスケールの幅広い研究を含めたソフトウェアのパッケージをつくってきました。さらにその結果を出し、それらを公開することによって、この分野の敷居を低くし、新たに研究したいと思っている人たちに私たちの成果を役立ててもらうことが狙いです。ですから、必ずしも製薬・医療分野が望んでいるソフトウェアばかりではありません。一方、HPCI戦略プログラムは、「京」などの高度計算機資源を最大限に活用して、社会的に意味のある成果を生み出していくことをめざしています。ですから、同じ分子動力学の計算ソフトでも、グランドチャレンジにおいては「京」に向けて開発することが目的であり、戦略プログラムではそれを利用して創薬につなげていくことが期待されているのです。同じものを扱っていても、「開発」と「利用」というように、フェーズは全く違います。私たちは、いってみれば種をまいてきたわけで、きれいな花が咲くように全力で努力してきました。さらにそこから実を上手に育てて刈り取るのが、戦略プログラムの仕事といえるのではないでしょうか。
 私たちは、ある意味で社会のニーズとは無関係に設定したゴールに向かって走ってきました。しかし今後は、必ずしもそれだけではなく、実際の創薬に向けて活用されたり、医療機器の開発に役立てられたりという応用の道を開いていくために、新たな機能をつけ加えたり、使いたいと望む人たちと共同研究をしたり、講習会を開いたりすることが求められるでしょう。そうして、グランドチャレンジの成果が、戦略プログラムに引き継がれていくのだと思っています。産業利用、特に創薬の面では、すでに分子スケールの研究チームやデータ解析融合の研究チームの成果に大きな期待が寄せられています。すぐにでも活用できるソフトウェアとして、注目されているわけです。臓器・全身チームの取り組みも、少し時間がかかるかもしれませんが、創薬や医療に貢献するものとして期待されています。私としては、これらのソフトウェアをベースに新たな機能を付加したり、組み合わせたりすることで、さらに私たちが予想し得なかった新しい方向へ伸びていってほしいと願っています。とはいえ、私たちがまずやらなければいけないことは、これまで開発してきたソフトウェアにさらに磨きをかけることです。そして、今までにない、世界が驚くような研究成果を出すこと、すなわち素晴らしいサイエンスの花を咲かせることであるのは言うまでもありません。

京速コンピュータ・ケース・計算科学研究機構
(左)計算機室に並ぶ京速コンピュータ「京」。
(中)1筐体に24枚のシステムボードが搭載されている。
(右)「京」の設置が進められている計算科学研究機構の建物。

「京」が使えるようになってより深まった研究者の一体感

 そもそもグランドチャレンジが計画されたころ、私たちのまわりの圧倒的多数は、ライフサイエンスの研究を加速したいのであれば、コンピュータシミュレーションにお金をかけるより、実験装置を充実させる方がよほど効果があるという考えでした。ライフサイエンスのソフトウェアで、スーパーコンピュータできちんと成果が出せるものが本当にできるのか、そんな疑問の声があがる状況のもとで、グランドチャレンジはスタートしたのでした。ところが、今の段階で、すでに開発中のソフトウェアの3分の1が1万並列を超えるレベルで「京」でのテストを開始し、実効効率10%を超える性能を出すものが次々に生まれています。もちろん、これは単にプログラムの性能の話であり、科学的に意味のある結果を出していくのはこれからですが、確かに言えることは、このプロジェクトを取り巻く人々の見方が、確実に変化してきたということです。コンピュータシミュレーションの可能性に期待する声は、どんどん大きくなっています。
 同時にプロジェクトのなかにいる人たちも変わってきました。もともと非常に広い研究分野の人々の集まりだったこともあり、当初は自分の研究分野にしか関心がなく、共通の言語がない状態でスタートしました。同じテーブルにつくようになって、ようやくお互いの顔も分かるようになり少しずつ理解が進むようになりましたが、劇的な変化が生まれたのは、「京」が使えるようになってからでした。「京」で性能を出すためにはどうしたらいいのか、これはプロジェクトに関わるすべての研究者の共通の関心事です。そして、共通体験、共有言語を通して、「京」を中心に1つのプロジェクトを推進しているという一体感が研究者たちのなかに生まれ、お互いの絆がますます深まっていくことを実感しています。その一例が、最近できた「京」を使う若手研究者たちだけのメーリングリストです。そこには、「『京』がハードウェアで世界一になったのだから、次は私たちが成果を出す番だ」、「私たちが頑張らなければいけない」といった熱意あふれる意見なども書き込まれていて、目的意識の高さと、一緒になって1つのプロジェクトを推進しているという実感をみんなが持っていることを、あらためて知ることができました。
 「京」が動き出すと同時に結果を出す、それが私たちに与えられた使命であり、そのために残された時間はあと1年です。見事な花を咲かせ、次に続く「利用」というフェーズにつなげていくためにも、ラストスパートを迎える最後の1年は、最も重要な年になるはずです。そんな来年に向けて、今いちばんの懸念は、実は来年度の予算です。これをしっかりと確保すること、これもまた私たちの大きな課題になっています。

Grand Challenge in Life Science

京速コンピュータ「京」の性能をフルに活用して、生命現象の理解と医療に貢献するためのソフトウェア開発をめざす。

京速コンピュータ開発

開発が進む31本のソフトウェアのうち、すでに11本が予定の大規模並列化を達成し、「京」を使用したテストに入っている(左)。1万並列以上を達成したものも10本を数える(右)。(2011年10月現在)

BioSupercomputing Newsletter Vol.5

SPECIAL INTERVIEW
“予測する生物学”をめざすバイオスーパーコンピューティングの挑戦はいよいよ世界一の「京」で成果を出すフェーズに入った
理化学研究所 次世代計算科学研究開発プログラム 副プログラムディレクター 姫野 龍太郎
高性能計算機資源および開発アプリケーションの産業利用促進を図るために何をすべきか
計算科学振興財団 チーフコーディネーター 福田 正大
都市活力研究所 主席研究員 バイオグリッドセンター関西 理事・事務局長 志水 隆一
研究報告
QM/MM 自由エネルギー法による酵素反応分子機構の解析
京都大学大学院理学研究科 林 重彦(分子スケールWG)
アクチン細胞骨格の計算メカノバイオロジー
京都大学再生医科学研究所 井上 康博(細胞スケールWG)
血栓シミュレーションに向けた血流解析手法の開発
東京大学工学系研究科 伊井 仁志(臓器全身スケールWG)
生命体シミュレーションのためのデータ同化技術の開発
統計数理研究所 樋口 知之(データ解析融合WG)
SPECIAL INTERVIEW
複雑な生命現象の理解と予測に向けて計算生命科学の明日を拓く
理化学研究所 HPCI計算生命科学推進プログラム プログラムディレクター 柳田 敏雄
理化学研究所 HPCI計算生命科学推進プログラム 副プログラムディレクター 木寺 詔紀
理化学研究所 HPCI計算生命科学推進プログラム 副プログラムディレクター 江口 至洋
研究報告
創薬応用シミュレーション
東京大学先端科学技術研究センター 藤谷 秀章(分野1-課題2)
次世代DNAシークエンサデータの超高速解析
東京工業大学大学院情報理工学研究科
秋山 泰 / 石田貴士 / 角田将典 / 鈴木脩司(分野1-課題4)
報告
バイオスーパーコンピューティングサマースクール2011
理化学研究所 次世代計算科学研究開発プログラム
石峯 康浩(臓器全身スケールWG)
統計数理研究所 データ同化研究開発センター
斎藤 正也(データ解析融合WG)
新潟国際情報大学
近山 英輔(細胞スケールWG)
東海大学医学部内科学系循環器内科
七澤 洋平(細胞スケール/臓器全身スケールWG)
理化学研究所 次世代計算科学研究開発プログラム
半田 高史(脳神経系WG)
理化学研究所 次世代計算科学研究開発プログラム
舛本 現(開発・高度化T)
理化学研究所 次世代計算科学研究開発プログラム
森次 圭(分子スケールWG)
「次世代生命体統合シミュレーションソフトウェアの開発(ISLiM)」開発アプリケーション紹介ページ、オープン
次世代計算科学研究開発プログラム 次世代生命体統合シミュレーション研究推進グループ
イベント情報