第117号
トップ  > 科学技術トピック>  第117号 >  生物医学ビッグデータの現状と展望(その4)

生物医学ビッグデータの現状と展望(その4)

2016年 6月 8日

寧康:中国科学院青島バイオエネルギー・バイオプロセス研究所、
単細胞研究センターバイオインフォマティクスチーム

陳挺:清華大学情報科学・技術国家実験室、バイオインフォマティクス研究部、
清華大学コンピュータ科学・技術学部、
スマート技術・ス マートシステム国家重点実験室

その3よりつづき)

5 生物医学ビッグデータの保存、伝送、高性能コンピューティング分析

 既存の生物医学大型データベース(表1)の分析により、次世代の生物医学データの特性(極端なハイスループット、マルチソース、異質性(heterogeneity)など) およびこれらのデータを有効利用する方式(データ品質評価、新たに生成されたデータと過去のデータの比較、分散型の生成と集中型の比較、データのマルチアングル・マルチレベル統合分析、情報のほぼ無限のスケーラビリティなど)が、ビッグデータを使った研究方法のサポートを必要としていることがわかる。ビッグデータを使った研究方法は主に以下の3つの面に体現される。(1)ソフト・ハードウェアプラットフォーム面。クラウド・コンピューティングなどのコンピューティングシステムを利用した、迅速かつ効果的なデータ分析が必要とされる。(2)ビッグデータ保存面。スマート化された保存システムを通じて、膨大なデータを保存・検索する必要がある。(3)ビッグデータ分析・マイニング面。情報化された研究環境を通じて新たな処理アルゴリズムの開発とテストをする必要がある。生物医学ビッグデータの保存、伝送、高性能コンピューティング分析、クラウド・コンピューティングなどは、現在の生物医学ビッグデータの計算面の主なニーズであるとともにボトルネックでもあり、以下にその現状を簡単に紹介する(図4)。

図4

図 4 (カラーオンライン版)既存の生物医学ビッグデータデータ保存、伝送、高性能コンピューティング分析のプロセスと主要ツール・プラットフォーム

Figure 4 (Color online) Current data storage, data transfer and high-performance computation pipelines and platforms for big-data analysis for biomedical research

 データ保存:構造化データの処理を得意とするリレーショナルデータベース管理システムにとって、生物医学ビッグデータの処理は難しい。しかし、NoSQLなど新型データベース技術の出現によって、生物医学ビッグデータの新たな保存ソリューションが誕生した。新型データベースをいかに改良し、生物医学ビッグデータの保存をいかにスマート化するかは、現在大いに注目を集める研究の方向性となっている。

 データ伝送:高速ネットワーク技術は現在利用可能で信頼性が高く、今後長期的に生物医学ビッグデータの伝送問題を解決する数少ないソフト・ハードウェアソリューションの一つだ。このほか、高度なデータ圧縮アルゴリズムに基づくデータ伝送は、コンテンツデータの伝送効率をより高めることになるだろう。

 高性能コンピューティング:膨大な生物医学データのHPC(high performance computing、 リアルタイム処理による高性能コンピューティング)が必要とされている。近年、CUDA(compute unified device architecture)によるGPUとCPUの共同処理方法が徐々に国内外の高性能コンピューティング分野の研究の注目点となりつつある。GPUはその高い並列処理能力と異なる規模のデータへの適応性により、複数のゲノムあるいは メタゲノムデータの類似度計算や比較対照、データベース検索などの分析を行うのに適している。GPUサーバーに基づくメタゲノム配列処理は、分析の効率を大幅に高め[65]、さらなるデータマイニングに役立つだろう。

 クラウド・コンピューティング・プラットフォームシステム:既存の生物医学ビッグデータ・クラウド・プラットフォームは主に、主流のクラウド・コンピューティング技術とブロードバンド研究ネットワーク、高性能コンピューティング、大容量インフラとを組み合わせて構築されており、生物医学データの特徴に合わせた、生物医学の全分野を網羅するクラウド・コンピューティング技術を通じて、全プロセスをカバーする生物医学研究の情報技術支援環境を確立している。国内外における主な生物医学ビッグデータ分析プラットフォームおよび応用としては、米国の Amazon Elastic Compute Cloud(EC2)、Google Compute Engine、Microsoft HealthVaultおよび中国の浪潮雲海などが挙げられる。これらのクラウド・プラットフォームはいずれも、生物ビッグデータ分析の配列アラインメント、クラスタリング、アソシエーション分析といった機能にサービスを提供している。

6 ビッグデータ駆動型の生物医学研究のすう勢

 各業界と各研究分野を見渡すと、人類はすでにビッグデータ時代に入ったと言える。ビッグデータ研究によって従来の先験知識駆動型の研究がデータ駆動型の研究へと転換することは、一般的な技術イノベーション、発展、成熟の法則に合致している。具体的な生物医学ビッグデータ分野の例を見ると、ビッグデータがデータ駆動型研究で発揮する大きな力として、以下のいくつかの点が挙げられる。(図5)

図5

図 5 (カラーオンライン版)ビッグデータ駆動型の生物医学研究の方向性

Figure 5 (Color online) Major directions in big-data driven biomedical research

(1) 生物医学データの分散型の生成、高度に統合された分析、データモデリングは、異なるタイプ、異なるサイズのデータの高度な統合に関わる。サンプル表現型・遺伝子型・メタデータを統合し、異なるサンプルを統合し、最終的に全方位的データ模型を構築する。うち、ビッグデータ統合は、今後の生物ビッグデータの普遍的な難題となるとみられ、データフォーマット、データ衝突、データインデックスなどの一連の問題に関わってくる(図6)。スマート化されたデータモデリングと分析は、これらの問題の解決に役立ち、生物群への理解を深める。生物医学データ研究の大きな注目点となっている[66]

図6

図 6 (カラーオンライン版)生物医学ビッグデータの統合とモデリング

Figure 6 (Color online) Integration and modeling for biomedical big- data

(2) 生物医学データのリアルタイム分析と臨床処理は、急速かつ正確なサンプリング、データマイニング、知識発見に関わる。臨床処理あるいはその他のリアルタイムフィードバックは、生物医学データ研究のもう一つの注目点となっている[67](図7)。

図6

図 7 (カラーオンライン版)生物医学ビッグデータのリアルタイム分析とフィードバック

Figure 7 (Color online) Fast process and feedback system for biomedical big-dataa

(3) 生物医学データのオーダーメイド分析、予測、安全な保存(次世代電子カルテ)などは、その応用にきわめて大きな潜在力を持つ。「次世代電子カルテ」の構築に役立つ生物医学ビッグデータの収集・分析処理は、膨大なサンプルの遺伝子型とエピゲノムデータを収集する一方で、関連するデータの整理と分析を行い、オーダーメイド予測を提供する。また、オーダーメイドデータは膨大なデータをいかに安全に保存するかという問題にも関わる[68]

(4) 人体の微生物群研究も生物医学ビッグデータ研究の重要な方向性である。医学ビッグデータは人体の遺伝子型と表現型データだけでなく、人体の微生物群などのデータと人体の飲食・環境といったメタデータを含み、ビッグデータ・エコシステムを形成し、公共衛生と公共安全研究に役立つ[69,70]

 人体の微生物群の健康への役割として、以下のいくつかの方面が挙げられる。 (1)メタゲノムの方法を使って病原菌データベースを構築し、高感度検出の手段を組み合わせ、体内外の病原菌を検出し、患者の病気のありかを探す。(2) 定期的に体内外の微生物の状況を検査し、メタゲノム分析法を組み合わせることで、病気のリスクが存在するかどうかを患者に伝え、早めの介入により疾患の発生を予防する。(3)メタゲノムの方法を用いて有益菌を発見し、一連の改造を通じてこれを人体に取り入れ、免疫力を高める。(4)ますます厳しくなる公共衛生環境に対応するため、できるだけ早く都市環境中の有害菌を検出し、予防案を提起する。(5) 深刻化するテロ攻撃に対応するため、細菌兵器への対応マニュアルを作成する。メタゲノミクスがある程度のレベルに発展して初めて、細菌兵器の病原菌を素早く発見し、制御・治療を速やかに行うことができる。(6) メタゲノミクスの研究は、幹細胞研究、がん研究などの基礎医学研究と互いに参照し合い、共に発展する。

7 総括

 ビッグデータ研究戦略を統合した生物医学研究は今後、より幅広く、より深いレベルで人類の健康向上により大きな貢献を果たすことになる。生物医学に関連するハイスループット・デジタル化分析システムの出現と応用に伴い、膨大な規模の生物医学データがすでに生成され、そして現在も生成されつつある。これらのデータに潜む重要な生物学的法則を十分に活用するためには、ビッグデータ分析システムが不可欠だ。生物医学ビッグデータに適応するソフト・ハードウェアプラットフォーム、ビッグデータ保存、ビッグデータ分析・マイニングといった方法の提起・改善・応用は、生物医学ビッグデータの解体分析と関連する研究対象の傾向分析・予測を全方位から支え、関連する遺伝病、公共衛生、医療、医薬など幅広い生物医学応用に役立つことだろう。

謝辞

 本文の執筆にあたり、中国科学院青島バイオエネルギー・バイオプロセス研究所の荆功超氏、孫政氏らにご協力いただきました。また、匿名の査読者様の貴重なご意見に感謝します。

(おわり)

参考文献

65 Su X, Wang X, Xu J, et al. GPU-meta-storms: Computing the similarities among massive microbial communities using GPU. In: Proceedings of the 7th International Conference on Systems Biology (ISB), Huangshan, 2013, 2013: 69-74

66 Burgun A, Bodenreider O. Accessing and integrating data and knowledge for biomedical research. Yearb Med Inform, 2008: 91

67 Abenstein J P, Tompkins W J. A new data-reduction algorithm for real-time ECG analysis. IEEE Trans Biomed Eng, 1982: 43-48

68 Loukides G, Gkoulalas-Divanis A, Malin B. Privacy-preserving publication of diagnosis codes for effective biomedical analysis. In: Proceedings of the 10th IEEE International Conference on Information Technology and Applications in Biomedicine (ITAB), Corfu, 2010

69 Romero L M. Physiological stress in ecology: lessons from biomedical research. Trends Ecol Evol, 2004, 19: 249-255

70 Boinski S, Cropp S J. Disparate data sets resolve squirrel monkey (Saimiri) taxonomy: Implications for behavioral ecology and biomedical usage. Int J Primatol, 1999, 20: 237-256

※本稿は寧康, 陳挺「生物医学大数拠的現状与展望」(『科学通報』(2015年,第60巻,第5-6期,pp.534-546)を『科学通報』編集部の許可を得て日本語訳・転載したものである。記事提供:同方知網(北京)技術有限公司