第117号
トップ  > 科学技術トピック>  第117号 >  生物医学ビッグデータの現状と展望(その1)

生物医学ビッグデータの現状と展望(その1)

2016年 6月 2日

寧康:中国科学院青島バイオエネルギー・バイオプロセス研究所、
単細胞研究センターバイオインフォマティクスチーム

陳挺:清華大学情報科学・技術国家実験室、バイオインフォマティクス研究部、
清華大学コンピュータ科学・技術学部、
スマート技術・ス マートシステム国家重点実験室

概要

 生物医学は新興・最先端の学際的研究分野であり、医学、生命科学、生物学の理論とメソッドを総合して発展したものである。近年、先進的な機器や情報技術などがますます幅広く、奥深くバイオテクノロジーに活用されるに伴い、 生物医学の研究もますます頻繁にビッグデータの保存や分析といった情報技術に関わるようになってきた。ビッグデータ時代の到来は、生物医学研究に大きな影響をもたらした。中でも重要な発展のすう勢は、仮説駆動型からデータ駆動型への転換である。数十年にわたり、分子生物学の実験の目的は、結論の取得あるいは新たな仮説の提起であった。一方現在は、膨大な生物医学ビッグデータの研究を通じてその法則を探し出し、仮説を直接提起、あるいは信頼できる結論を出すことができるようになった。先進的な生物分析技術の出現と更新に伴い、 生物医学データは急速に蓄積されつつある。こうしたビッグデータにより、これまで解決できなかった問題に解決の可能性がもたらされる一方で、生物医学研究の新たな問題も絶えず出現している。生物医学に関連する主なビッグデータ技術と応用には、ハイスループット・シークエンシングに基づくオーダーメイドのゲノム・トランスクリプトーム・プロテオーム研究、単一細胞レベルの遺伝子型と表現型の研究、人類の健康に関連する微生物群の研究、生物医用画像研究などがある。生物医学ビッグデータの分析任務はいずれもデータ集約型・計算集約型という2つの集約型の特徴を持つ。これらのビッグデータを十分に活用して生物医学の一連の問題を解決するには、ハイスループット・高效率・高精度の生物情報保存・分析戦略が必要となる。本文では生物医学ビッグデータの生成、管理・分析に関連する一連の問題を総括し、回顧している。中でも人体の微生物群、単一細胞の表現型と遺伝子型、生物医用画像を含む新たな生物医学ビッグデータの形式、および関連データの分析と応用の将来性などについて、特に重点的に扱っている。生物医学ビッグデータの現状から見て、生物医学ビッグデータの研究はすでに十分な力を蓄え、機会を待っている状態にあることが分かる。生物医学ビッグデータに適したソフト・ハードウェアプラットフォーム、ビッグデータ保存、ビッグデータ分析マイニングなどの手段はまだ成熟しておらず、生物ビッグデータの研究を制約している。しかし、研究に飛躍的進展が得られ、改善と応用が実現すれば、生物医学ビッグデータの解体分析を全面的に支えるようになるだろう。これは、医学現象の傾向分析と予測に役立ち、関連する遺伝病の研究、公共衛生の監督、医療と医薬開発など幅広い生物医学の応用に役立つ。

 生物医学は応用生物医学情報、医用画像技術、遺伝子チップ、ナノ技術、新材料などの技術の学術的研究とイノベーションが入り混じる分野である。「社会-心理-生物」を代表とする大医学モデルの提起とシステム生物学の発展に伴い、現代のシステム生物医学[1,2]が形成された。生物医学に向けたシステム生物学研究は21世紀のバイオテクノロジーおよびビッグデータ技術と密切に関連する分野であり、医療・診断レベルの向上と人類の健康にかかわる重要な研究分野である。

 生物分析技術と計算技術の急速な発展に伴い、生物医学では大量のデータが生成された。21世紀に入り、ハイスループット DNAシークエンシング技術の発展と応用が段階的に進むにつれ、生命科学分野のデータ量は急激に増加しつつある。1977年には、Φ-X174ファージの全ゲノムシークエンシングが実現した。2000年には、ヒトゲノムのドラフト解析が完成した[3]。21世紀、特に2010年以降、次世代シークエンシング技術の発展に伴い、より大規模なゲノムデータの生成がますます増加した (GB、TB級からPB、EB級へ)。Illumina社が開発したHISEQ X TENシークエンシングシステムは、3日間で約1.8TBの塩基データをシークエンシングできる(http://investor.illumina.com/phoenix.zhtml?c=121127&p=irol-newsArticle&ID=1890696)。大規模なゲノムデータの分析と管理は今、生命科学のイノベーションを推進する重要な源となっている。

 同時に特筆すべきは、生物医学ビッグデータはハイスループットのゲノムとトランスクリプトームのシークエンシングのみから生成されるわけではないという点だ。現在、その他のハイスループットオミックスデータ(単一細胞の表現型データ、動的な生物医学画像など)のデータ量も急激に増加しつつある。生命科学の急速な進歩、およびバイオテクノロジーと情報技術との融合により、ビッグデータは基礎研究から医薬品開発、臨床診療、健康管理に至るまでの全ての分野に関わるようになった。基礎研究の分野では、ハイスループットのゲノム・トランスクリプトームシークエンシングからデータが生成される他、メタボローム、プロテオームなどの分野も急成長している。また、細胞の表現型、代謝プロセス、疾患遺伝子などの分析では、異なるタイプのデータを統合・解体し、そこから重要かつ見つかりにくい生物学的法則を急ぎ発掘する必要がある。

1 生物医学ビッグデータ研究の特徴

1.1 ビッグデータの重要性

 ハイスループットの研究方針とデータ生成方式の飛躍的進歩は、ビッグデータ生成の主な要素となった。ビッグデータは概念から小規模な技術的実践へと発展し、最終的には幅広く受け入れられ、新たな研究方向へと発展していく。Nature誌は2008 年 9 月、他に先駆けてHoweら[4]の論文からなる「ビッグデータ特集号」を出版、ビッグデータの影響がすでに自然科学、社会科学、工学の各分野に及んでいるとした。2009年10月には、The Fourth Paradigm: Data Intensive Scientific Discovery[5]が出版され、ビッグデータと密接に関係するデータ集約型の科学的発見というパラダイムがすでに確立され、幅広く認可されていることが示された。Science誌は2011年2月、Overpeckら[6]が発表した文章からなる「データ処理特集号」を出版。2012年5月には国連がビッグデータ白書Big Data for Development: Challenges & Opportunities[7]を発表し、ビッグデータ分野の研究計画が持つ国家戦略レベルの重要性が体現された。2014年、Science誌は「Big biological impacts from big data」[8]など一連の評論を発表し、生物学の研究がすでにビッグデータの時代に入ったことが明確かつ確実に示された。

 ビッグデータの時代、膨大かつ繁雑なデータおよびデータ研究は、社会、科学技術、経済の発展を支え、促進する役割を発揮する。ビッグデータそのものが一種の潜在的な戦略的資源であり、小規模なデータにはない傾向予測力を持つ。ビッグデータの分析と応用によって初めて、これら資源の効果と利益を真の意味で引き出すことができる。米国、EU などはすでに国家・地域レベルでビッグデータ研究と発展計画を展開しており、ビッグデータ研究を国家・国際的な重要戦略に格上げしている。2013年5月9日、オバマ米大統領は大統領命令に署名し、国民と企業が政府の保有するデータをより簡単に取得できるようにすることで、米国のイノベーションと経済成長を促進するよう要求した。習近平総書記は2013 年7月に中国科学院を視察した際、「ビッグデータは工業社会における『石油』資源に相当する」と指摘した。ビッグデータおよびビッグデータの研究技術を掌握した者が、主導権を握ることができる。特に生物医学など人類の健康や運命に関わる研究分野では、ビッグデータの研究に健康分野の未来がかかっている。

1.2 生物医学ビッグデータの特徴

 ハイスループット・シークエンシングシステム、単一細胞検出システム、リアルタイム動的画像システムを代表とする次世代生物分析プラットフォームはすでに生物医学研究に膨大な量のデータを提供している。これらのデータに隠された重要な法則を十分に活用するには、ビッグデータ駆動型の研究戦略が不可欠だ[9]。ビッグデータは「3つのV」――データ量の大きさ(volume of data)、データの処理スピードの速さ(velocity of processing the data)、データソースの変動性(variability of data sources)という側面を持つ(図1)。これは、分析と予測をビッグデータに依存する場合の重要な特徴だ[10]。具体的に生物医学ビッグデータ研究について言えば、ビッグデータ研究の「3つのV」は次の点に体現されている。まず、生物医学のデータ量は膨大である。1サンプルあたりのヒトゲノムとトランスクリプトーム (複数の組織・時間点)のシークエンシングデータ量は通常、それぞれ100GB、30 GBを超える(3 GBのヒトゲノム、10~30倍のシークエンシング深度に基づき計算)。1回の実験で数百~数万の人体サンプルが関わってくることを考慮すると、関連するデータ量はかなりの規模になる。次に、処理結果の正確性と処理スピードに対する要求が高い。例えばオーダーメイド医療[11]では、高い適時性が求められる。単一細胞シークエンシングおよび診断など[12]では、突然変異遺伝子座とファンクションモジュールの識別の正確性が求められる。さらに、データソースが変動的で、異質性が高い。また、生物医学データの分析と解釈には通常、NCBIシリーズ[13]などのユニバーサル・データベースおよびUniProt (www.uniprot.org)などの専門データベースを用いる。データソースとデータベースの異質性は、データの欠損、矛盾といった問題を招き、ビッグデータの統合・分析のボトルネックとなる。生物医学データのマイニングにビッグデータ的思考とデータ分析戦略が必要なのも、生物医学研究がこの典型的な「3つのV」という特徴を持つからだ。

図1

図1 (カラーオンライン版)生物医学ビッグデータの3つのVの側面と3つのHの特長

Figure 1 (Color online) Research in biomedical big-data bears meaning of 3V and properties 3H

 生物医学ビッグデータはその他の科学ビッグデータと同じく、高次元(high dimension)、高複雑度(high complexity)と高い不確実性(high uncertainty)(図1)という典型的な「3つのH」の特徴を持つ。具体的には、まず生物医学ビッグデータはサンプルのマルチアングル解析、マルチオミックスデータ、マルチサンプルといった面で高次元の特徴を持ち、高次元データを重ね合わせ、参照し、学習しなければならない。グーグルはこのほど、数百万人のインフルエンザ感染データを数百日間にわたってモニタリングしたデータに基づきFluTrendモデルを構築した。FluTrendはインフルエンザのまん延の様子を鮮明な画像で示し、インフルエンザ流行拡大を効果的に食い止めるのに役立つ(http://www.google.org/flutrends)。米国はこのほか、電子カルテとビッグデータ面の取り組みも進めており[14]、全米の病院数千ヵ所、患者数百万人分の各種電子カルテを集約した。これらの高次元データはデータ中に潜む重要な法則を発見する基盤となる一方で、データの統合と分析に試練を突き付けている。次に、生物医学研究の目標とプロセスの複雑性は、異なるオミックスデータの体系的な統合のニーズ、異なるサンプルの比較対照のニーズ、結果の統計・検証などに体現されており、いずれもビッグデータに基づくデータモデリングと、生物学的法則の帰納が必要だ。さらに、生物医学研究のサンプルは、ソース、処理方法、保存形式上の異質性(heterogeneity)が研究対象の高い不確実性と不一致性を招くため、スマート化されたデータモデルによる深いレベルの分析が必要だ。

 伝統的な論理的推論研究とは異なり、ビッグデータ研究は膨大なデータを統計的に参照、比較し、クラスタリング・分類することで分析・帰納し、関連性などを分析する。ビッグデータ研究の重要な発展傾向として、仮説駆動型からデータ駆動型への転換が挙げられる。具体的に生物医学ビッグデータについて言えば、過去数十年、分子生物学の実験目的は、結論の取得あるいは新たな仮説の提起だった。一方、現在は膨大な生物医学ビッグデータに基づき、データの研究からその法則を模索し、仮説を直接提起、あるいは信頼できる結論を出すことができる。生物医学ビッグデータの「3つのH」は諸刃の剣ともいえる。ビッグデータが急速に蓄積されると同時に、データの異質性がデータ統合面のボトルネックを形成してしまう。しかしこの一連のボトルネックを打破できれば、ビッグデータに隠された重要な生物学的法則が健康への理解を大きく促進することになる。

 しかし、現在研究が比較的進んでいるオンライン動画やSNSなどのフォーマットデータと比べると、生物医学のビッグデータには独特な点がある。まず、生物ビッグデータの処理には複雑な情報抽出計算が必要だ。例えば、ゲノムシークエンシングの初期データは大量の DNA断片(reads)で、シークエンシングシステムによって、100 塩基(bp)から10000塩基までの異なる長さの断片を生成できる。これらのDNA 断片が代表する生物学的情報は、データ処理によって初めて取得できる。未知の種のゲノムシークエンシングを行う場合、通常これらの断片は複雑な配列貼り合わせ(de novo assembly)をすることで初めて長いシークエンスを得ることができる。さらに、複雑な統計モデルを通じて、シークエンシング中のエラーを克服し、ゲノム中の一つ一つの塩基の信頼性を確認する(base calling)。その後、遺伝子予測(gene prediction)により、種の遺伝子を予測する。最後に配列比較(sequence comparison)により、種の遺伝子とその他の種の機能がすでに判明している遺伝子との配列比較を行うことによって、初めてこれらの遺伝子の機能注釈(function annotation)が可能になる。これらの抽出された情報により、初めてその後の生物学的機能の計算・分析が可能となる。次に、生命システムそのものが極めて複雑である。例えば、人類の疾患の研究により、ゲノム中の1つの塩基の突然変異ですら生物個体全体に深刻な影響をもたらすことが分かった。生物個体の成長プロセスにおける環境要因も、直接あるいは間接的に生物体に影響を及ぼす。単一細胞の研究でも、それぞれの生物個体がその他の個体と違うだけでなく、同じ体内の一つ一つの細胞がその他の細胞とそれぞれ異なっており、さらに同じ細胞でも時間が異なれば状態が変わってくる。ゆえに、こうした複雑な生命システムを完全に研究するとなると、膨大な量の生物医学データサンプルですらニーズを満たすことは難しい。また、生物医学データの取得は困難で、コストも高額である。ゆえに生物医学ビッグデータの分析には生命システムそのものの法則と知識を利用する必要があり、合理的な仮説と数学モデルを構築し、データの分析と解釈を進めなければならない。最後に、生物医学ビッグデータの目標は科学的発見だ。ゆえに、結果の検証と解釈は必須であり、これもその他のビッグデータとは異なる点である。

 上述の生物医学ビッグデータの側面と特徴から、現在の生物医学とビッグデータ研究は相補性を持ち、相互促進の関係にあることがわかる。これらは互いに結びつき、関連する基礎・応用研究を共に推進している。本文では以下、既存の生物医学ビッグデータ研究をけん引する応用、生物医学ビッグデータを生成する最先端のバイオテクノロジーについて紹介し、具体的な生物医学ビッグデータおよびビッグデータの保存とクラウド・コンピューティングプラットフォームなどの計算技術を紹介し、最後に生物医学ビッグデータに基づく生物医学研究の新たな傾向について紹介する。

その2へつづく)

参考文献

1 Engel G L. The need for a new medical model: A challenge for biomedicine. Science, 1977, 196: 129-136

2 Antony P, Balling R, Vlassis N. From systems biology to systems biomedicine. Curr Opin Biotechnol, 2012, 23: 604-608

3 Collins F S, Mansoura M K. The human genome project. Cancer, 2001, 91: 221-225

4 Howe D, Costanzo M, Fey P, et al. Big data: The future of biocuration. Nature, 2008, 455: 47-50

5 Hey A J, Tansley S, Tolle K M. The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: Microsoft Research, 2009

6 Overpeck J T, Meehl G A, Bony S, et al. Dealing with data: Climate data challenges in the 21st century. Science, 2011, 334: 700-702

7 Letouzé E. Big Data for Development: Challenges and Opportunities. New York: UN Global Pulse, 2012

8 LI Y, Chen L. Big biological impacts from big data. Science, 2014, 12: 187-189

9 Klauer S G, Dingus T A, Neale V L, et al. The impact of driver inattention on near-crash/crash risk: An analysis using the 100-car naturalistic driving study data. Technical Report, Highways; Safety and Human Factors; I83: Accidents and the Human Factor, US Department of Transportation, 2006

10 Dieringer D, Schlötterer C. Microsatellite analyser (MSA): A platform independent analysis tool for large microsatellite data sets. Mol Ecol Notes, 2003, 3: 167-169

11 Xu J, Wise C, Varma V, et al. Two new ArrayTrack libraries for personalized biomedical research. BMC Bioinformatics, 2010, 11: S6

12 Kogan S C, Doherty M, Gitschier J. An improved method for prenatal diagnosis of genetic diseases by analysis of amplified DNA sequences. N Engl J Med, 1987, 317: 985-990

13 Edgar R, Domrachev M, Lash A E. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res, 2002, 30: 207-210

14 Bates D W, Saria S, Ohno-Machado L, et al. Big data in health care: Using analytics to identify and manage high-risk and high-cost patients. Health Aff, 2014, 33: 1123-1131

※本稿は寧康, 陳挺「生物医学大数拠的現状与展望」(『科学通報』(2015年,第60巻,第5-6期,pp.534-546)を『科学通報』編集部の許可を得て日本語訳・転載したものである。記事提供:同方知網(北京)技術有限公司