活用事例

理化学研究所

国立研究開発法人 理化学研究所 生命機能科学研究センター バイオインフォマティクス研究開発ユニットでは、最適なデータ解析環境の実現にNIIの「学認クラウドオンデマンド構築サービス」を活用しています。その狙いと成果について、バイオインフォマティクス研究開発ユニット ユニットリーダー 二階堂 愛氏と、同 専門技術員 石井 学氏、松嶋 明宏氏、並びにNII アーキテクチャ科学研究系 竹房 あつ子准教授にお話を伺いました。(インタビュー実施:2019年1月23日)

まず、バイオインフォマティクス研究開発ユニットの概要について教えて頂けますか。

国立研究開発法人 理化学研究所 生命機能科学研究センター
バイオインフォマティクス研究開発ユニット
ユニットリーダー 二階堂 愛氏

二階堂氏:理化学研究所(以下、理研)は日本で唯一の自然科学の総合研究所ですが、我々はその中でもライフサイエンス分野を専門とする生命機能科学研究センターに所属しています。生命や細胞の機能を解き明かす上では、生体や試薬を用いた実験も行いますが、そこから知識を得るためには計算機によるデータ解析が必要不可欠です。計算機なくしては、データも解釈できず論文も書けないのですね。そのため、現代のライフサイエンスでは、計算技術をどう取り込むかが非常に重要なテーマになっています。特に近年では、DNA配列を読み取る「DNAシーケンサー」の性能が飛躍的に向上しており、大量のデータが得られるようになっています。このデータをより有効に活用できれば、ライフサイエンス研究の発展にも大きな効果が期待できます。そこで当ユニットでは、理研内外のさまざまな研究者とも連携し、新しいシーケンス技術やデータ解析技術の開発を進めています。

研究用のデータ解析環境を構築・運用する上で、課題となる点などはありますか。

二階堂氏:我々のデータ解析業務には、他のサイエンス分野とは少々異なる特徴があります。大規模データを一つのプログラムでとにかく高速に処理するという形ではなく、いくつものプログラムを使って順番にファイルを処理していくワークフロー型のプロセスになっているんですね。これに伴って、プログラムがうまくインストールできないとか、ライブラリとの依存関係に問題が生じて正常に動作しないといった事態にしばしば直面します。計算処理の高速化はもちろん重要ですが、それ以前の準備作業や環境設定などに手間が掛かっているのが現状です。
 さらに、もう一つの課題として、必要なタイミングでタイムリーに計算機資源を手当てするのが難しいということもあります。細胞や生体を取り扱う関係上、突然スポット的に大量のデータが出て来ることも多い。そこからスパコンの利用申請をしていたのでは間に合いませんし、かといって使わずに遊ばせておくわけにもいきません。

そうした課題を解消するために、クラウドの活用を進めておられるわけですね。

二階堂氏:そういうことです。従来はハードウェアの調達に長い時間が掛かるだけでなく、環境のセットアップや運用開始後の障害対応などにも多くの工数を要していました。その点、クラウドを利用すれば、必要な時に必要なだけのリソースが得られますし、機器故障などによるトラブルの心配もありません。また、ライブラリの依存関係などの問題をクリアした環境をあらかじめ用意しておくことで、研究者が必要な環境を迅速に提供することもできます。

学認クラウドオンデマンド構築サービスを導入されたのは、どのような背景からだったのですか。

国立研究開発法人 理化学研究所 生命機能科学研究センター
バイオインフォマティクス研究開発ユニット
専門技術員 石井 学氏
国立研究開発法人 理化学研究所 生命機能科学研究センター
バイオインフォマティクス研究開発ユニット
専門技術員 松嶋 明宏氏

石井氏:クラウド活用を進めていく中でネックになっていたのが、ベンダーごとにサービスの利用方法がやや異なるという点です。どのベンダーも概ね同じような形とはいえ、実際に使ってみると細かな差異がいろいろあります。その習得に時間やコストが掛かるようだと、結局オンプレで抱えていた課題がクラウドに移っただけということになりかねません。その点、学認クラウドオンデマンド構築サービスでは、こうしたベンダーごとの違いがうまく抽象化されて隠蔽されています。設定ファイルを少し変えるだけで、どのベンダーのサービスも同じように利用できるのは、非常に大きなメリットだと感じました。



松嶋氏:加えて、もう一つ大きかったのが、運用管理プロセスの属人化を解消できるという点です。特定のサービスに精通した担当者が運用を行う形だと、その人がいないと作業ができないということになってしまいます。しかし、一つのインターフェースで作業することができれば、複数の担当者で共同作業が行えるようになります。相手がどのような変更を加えたのかもすぐ分かりますし、作業を頼んだり頼まれたりということもやりやすい。これにより、クラウド運用の標準化・効率化が図れます。

そもそもNIIでは、どのような目的でこのサービスを開発されたのですか。

大学共同利用機関法人 情報・システム研究機構 国立情報学研究所
アーキテクチャ科学研究系
准教授 竹房 あつ子

竹房:最近では調達のしやすさやリソース活用の柔軟さなどを評価し、クラウド導入に踏み切る大学・研究機関が増えています。特にSINET5が主要パブリック・クラウドとの直接接続に対応してからは、こうした傾向にもますます拍車が掛かっています。ただし、実際にクラウド活用を進めようとすると、個々のクラウドベンダーごとにインターフェースが異なっていたり、ネットワークの設定をどうすればいいのか分からないといった様々な問題に突き当たるケースも少なくありません。また、何とか環境を構築できたとしても、ノウハウの共有が進まないことには活用もなかなかうまく進みません。そこで、こうした問題を解消し、大学・研究機関がもっと容易にクラウドを利用できる仕組みを提供したいと考えたのです。

実際に利用してみての印象はいかがでしょうか。

石井氏:各種のAPIがきちんと整備されており、Pythonで簡単に制御できるのが便利ですね。クラウド利用で問題になりがちなネットワーク設定やセキュリティ、パフォーマンスなどに気を遣う必要もなくなり、作業者の負担軽減にもかなり役立っています。個人的には非常に気に入っていますので、他の人にも是非これを使うと良いよと勧めて廻っているほどです(笑)。

松嶋氏:これまでパブリック・クラウドで行っていた作業なども、すんなりJupiter Notebookのコンフィグレーションに置き換えられましたし、ほとんど苦労らしい苦労はせずに済んでいます。労力を掛けることなく、短時間で作りたい環境を作れるという印象ですので、今のところ機能や使い勝手に関する不満点なども特にありませんね。

今後の展望についてもお伺いできますか。

二階堂氏:理研内には自前のPCクラスタ環境もありますので、ハイブリッド・クラウド的な活用をさらに進めていきたいと考えています。所内の環境ももちろん使いますし、一時的に大量の計算資源が必要な時にはクラウドを使えばいい。実際に、計算のジョブをクラウド側に流す仕組みも試してみましたが、特に問題なく動作することが確認できています。こうなると、所内にはデータ保存用のファイルサーバしか置かないといった使い方も可能になります。用途や目的、予算に応じて、柔軟な環境を利用できるようになれば、研究にも大きなメリットが期待できます。また、当ユニットでは、こうして出来上がった仕組みを理研内に展開する役割も担っていますので、その研究やベンチマーキングにも力を入れていきたいですね。

竹房:サービス提供側としては、利用者のさらなる拡大に努めていきたいと考えています。当然、いろいろなご意見やご要望もあると思いますので、それも取り入れつつより良いサービスに育てていきたいと思います。

ありがとうございました。