生物医学ビッグデータの現状と展望(その3)
2016年 6月 7日
寧康:中国科学院青島バイオエネルギー・バイオプロセス研究所、
単細胞研究センターバイオインフォマティクスチーム
陳挺:清華大学情報科学・技術国家実験室、バイオインフォマティクス研究部、
清華大学コンピュータ科学・技術学部、
スマート技術・ス マートシステム国家重点実験室
(その2よりつづき)
3 大量のビッグデータを生成する最先端バイオテクノロジー
生物医学ビッグデータの研究は、ハイスループット、高品質のデータを生成するバイオテクノロジーと関連機器に依存している。現在、生物医学ビッグデータのソースには主に以下の3種類がある。 (1) DNAシークエンシングシステム (2) ハイスループット高精度質量分析計 (3) ハイスループット高精度エピゲノム解析システム(図3)。
図 3 (カラーオンライン版)膨大なビッグデータを生成する既存の最先端バイオテクノロジーおよび関連機器とデータベース
Figure 3 (Color online) Current advanced biotechnologies, equiptments and databases that have generated biomedical big-data
DNAシークエンシングシステム:454、Illumina、PacBioなど次世代シークエンシング技術の登場[36](表2)は、生物医学分野に革命をもたらした。次世代シークエンシング技術は比較的低コストでゲノムの効率的かつ正確なシークエンシングを可能とする[37]。実験技術の成熟とデータ分析アルゴリズムの開発に伴い、次世代シークエンシング技術は生物医学 データ研究に大量に活用されるようになったばかりでなく[38]、一部の複雑な医学研究プロジェクトでも実際に利用されるようになった[39]。関連するビッグデータの量はテラバイト (TB)級をはるかに上回る(表2)。
ゲノムシークエンシング プラットフォーム |
PacBio | 454 | Illumina | Illumina |
型番 | RS II | GS FLX Titanium XL+ | HiSeq 2500 (Dual Flow Cell) |
HiSeq X Ten (Dual Flow Cell) |
読取りリード(b) | 8.5 K (平均値) | 700 (中間値) | 2x150 | 2x150 |
1回のシークエンシング のシークエンス数 |
1 M | 600 million | 5.3~6 Billion | |
1回のシークエンシング の塩基数 |
375 M | 700 MB | 150~180 GB | 1.6~1.8 TB |
1回のシークエンシング にかかる時間 |
<3 h | 23 h | 40 h | <72 h |
ハイスループット高精度質量分析計:プロテオミクスはゲノムシークエンシング計画の後に台頭した新たな研究分野であり、徐々にポストゲノミクス時代の研究の最先端に、注目を集める分野に成長した。メタボロミクスはゲノミクス、プロテオミクスの後に発展した研究分野であり、主に様々な代謝経路の基質と生成物の小分子代謝物を研究し、疾患の診断、新薬研究開発、毒物学などの面で広く活用されている。近年、プロテオミクス、メタボロミクスを重要視するようになり、また質量分析技術の急速な発展に伴い、ハイスループット高精度質量分析計はますます多くの生物医学データを生成するようになった。関連するビッグデータの量は、やはりテラバイト(TB)級を上回っている(表3)。
a) データ量の取得速度は毎秒取得される質量分析データから推算したもので、RAW データの形式で保存。 | ||||||
分析方式 | 分析機器 | タイプ | 解像度(K) | 質量精度 | ダイナミック レンジ(e) |
データ量の取得 速度 (Mb/s) |
四重極型 (quadrupole) |
QQQ (triple quadrupole) QToF |
イオンフロー | 1~2 | <1 ‰ | 5~6 | >50 |
イオントラップ型 (ion trap) |
LIT | 捕獲 (電子フィールド) |
1~2 | <1 ‰ | 3~4 | >10 |
飛行時間型 (ToF) |
QToF | イオンフロー | 10~50 | 5~10 ppm | 4 | >10 |
オービトラップ型 (orbitrap) |
FT | 捕獲 (電子フィールド) |
7.5~240 | 500~10 ppm | 4 | >1 |
ハイスループット高精度エピゲノム解析システム:まず、蛍光タンパク質マーカーなどマーカーによる検出方法、赤外線やラマンなど非マーカー型の細胞検出方法、単一細胞操作などの技術の発展に伴い、FACS(fluorescence- activated cell sorter)、RACS(Raman-activated cell sorter)などの単一細胞分析・操作プラットフォームがますます成熟化した[40]。単一の種群あるいは群落中の単一細胞の数は膨大であるため、関連する単一細胞のエピゲノムデータ量も膨大であり、かつ急速に蓄積していく。次に、単一細胞操作技術の成熟により、単一細胞シークエンシングの幕が開け、関連する膨大なシークエンシングデータが急速に生成されるようになった[41]。そして最後に、高解像度顕微鏡画像の大量生成により、膨大な量の生物医学ビッグデータが急速に蓄積された[42]。
4 生物医学ビッグデータの分析
生物医学ビッグデータは、ビッグデータ保存とビッグデータ分析の2つの面に分けることができる。うち、ビッグデータ保存はビッグデータの綿密な分析に役立つ。現在の生物医学における典型的なビッグデータには、各類ゲノムデータ、メタゲノムデータ、単一細胞データ、生物医学画像データなどが含まれる。
4.1 ゲノムデータ分析
ハイスループットデータの生成と系統的データ分析の面において、現在世界ではオミックスデータのハイスループット生成と系統的分析に関するいくつかの一般的過程がすでに形成されている。ハイスループットのゲノム・トランスクリプトームデータの生成では、454、 Solexa、 PacBioといった次世代シークエンシング技術の導入と普及に加え、ハイスループット・データ分析を組み合わせることで、より詳細かつ綿密なゲノム・トランスクリプトームデータ分析が可能となった。標準化されたデータ分析プロセスの面では、ワシントン大学のTophat-Bowtie-Cufflinkシリーズ、華大基因のSOAPシリーズ[43]、および商業化されたCLCBioシリーズ(http://www.clcbio.com)などが挙げられる。これらの系統的分析プロセスは、ゲノム、トランスクリプトーム、一部のエピゲノムなどのデータ分析を統合し、生物系の急速かつ標準化された綿密な研究を大きく推進した(ここでは詳述を避ける)。ハイスループット・シークエンシングデータの急速な蓄積に伴い、よりハイレベルなゲノムデータの統合、マイニング、可視化などの要求も高まっている[44-46]。ビッグデータ分析に適応するソフト・ハードウェアシステムの改善、分析プロセスの統合、インタラクティブな可視化分析プラットフォーム構築などの手段を通じて実現する必要がある。
4.2 プロテオームデータ分析
プロテオミクスの分野では、高解像度タンデム質量分析を代表とする質量分析技術がますます安定化している。膨大な量の高解像度質量分析(MS)と二次元質量分析(MS/MS)データを集めることで、いくつかの大規模なプロテオーム特性評価と定量分析業務がすでに完了している[9-11]。現在、プロテオミクスの研究は研究対象がより全面的(全面的なデータ非依存性収集(DIA)質量分析(MS)データ研究など[47])で、より深いレベル(異なるオミックスデータを統合し、メカニズム研究を行うなど[20]に発展している(ここでは詳述しない)。特に重要なのは、ハイスループットデータの生成と系統的データ分析手段の成熟化に伴い、オミックス研究の発展における必然的要求(細胞内の全成分の多様性と相互作用に基づく「全体的」な分析要求、翻訳後修飾など重要なコントロールプロセスの解析要求、エピゲノム制御の解析要求など)が提起され、異なるレベルのオミックスデータ間の融合分析がますます重要になり、急を要している点だ。
4.3 メタゲノムデータ分析
生物医学に関連する微生物群ビッグデータ分析とデータマイニングタスク数は増加傾向にある。現在、NCBI(http://www.ncbi.nlm.nih.gov)、 MG-RAST[48]およびCAMERA[49] で公開されているメタゲノムプロジェクトは10000を超え、数百 TBのデータを含んでいる。少な目に見積もっても、2014~2015年にかけて世界では関連のデータ分析任務が毎年1万以上行われる(各任務のサンプル数は数個~数千個)と見られ、その研究・応用市場のニーズは非常に旺盛だ。次に、それぞれの微生物群ビッグデータ分析プロジェクトのデータ量も増加している。メタゲノムデータ分析プロジェクトの平均データ量は10GB~1TBレベルに達する。これほど膨大なデータ量のため、データ分析の効率と精確性にも高い要求が突き付けられる。
メタゲノム研究分野ではすでにGreen- genes[50]、SILVA[51]、RDP[52]といった大規模な特徴的配列のデータベースが初歩的に構築されている。また、微生物群の研究分野には、すべての分析ステップの一連の分析プロセス(メタゲノム向けのPhyloshop[53],QIIME[54]など)が存在している。このほか、一部の大規模な微生物群バイオインフォマティクス研究サイトも急速な発展を遂げており(MG-RAST[48]、CAMERA[49]など)、これらのサイトは大型のデータベースとデータ処理プラットフォームを有し、微生物群の研究と成果のシェアに一括式ソリューションを提供している。単一細胞法の分野では、既存の単一細胞エピゲノム検査[55]と単一細胞シークエンシングの方法[56]はすでにその実行可能性が確定されており、深い意義が明らかになっている。ソフト・ハードウェアのアーキテクチャを見ると、現在単一細胞の研究方法はまだ数が少ない単一細胞に限られているため、データ分析は互いに独立したCPUクラスタによって完了できる。しかし、この分野は急速に発展しており、数百から数千の単一細胞のデータ分析をする時代が到来する兆しもすでに見られている[57]。
大規模な微生物群データ(初期データ>1TB)の場合、1台のスーパーコンピュータでは分析任務を完了できず、CPUスーパーコンピュータ・クラスタを使う必要がある。微生物群のデータサンプル数の増加に伴い、CPUスーパーコンピュータ・クラスタも同時に複数の大規模な微生物群データを分析することはできなくなる。これらのデータを高効率に分析するには、より高い機能を持つ計算分析プラットフォームが必要だ。
4.4 単一細胞データ分析
メタゲノムデータと比べ、単一細胞ゲノムデータ分析は単一細胞の数が多いことから、関連するデータはより膨大となっている。例えば、米国の単一細胞ゲノムセンター(SCGC)はすでに40万以上の単一細胞ゲノムを測定しており、データ総量は100TBを超える。また、単一細胞ゲノムシークエンシングはMDAなどDNA増幅技術の影響を受けるため、得られるシークエンシング深度が不均等分布(uneven distribution)の特徴を呈し、関連するゲノム分析の難度が高まっている。さらに、単一細胞間の異種性と関連する性質(遺伝子構造,遺伝子発現など)の分布状況が不明であることを考慮すると、単一細胞データ分析は大きな試練に直面している。現在、単一細胞ゲノムデータの分析手段は少なく、主なものには改良版velvet[58]などのゲノムアセンブリ法、単一細胞遺伝子発現差別化分析法[59]などがあるが、単一細胞の異種性分析を行う専門的な手段はまだない。
4.5 生物医学画像データ分析
光学イメージング機器と高精度細胞操作技術の進歩に伴い、生物医学画像に関連するデータは急激に蓄積し、関連する画像処理技術も日々進歩している。米国とEUが脳科学など生物医学研究分野への投入を行うにつれ、TBレベルのハイスループット高精度2D/3D医学画像処理法が提起され[60]、応用潜在力もますます認可されつつある[61]。Nature Methodsは2012年、Baekら[62]が発表した文章からなる生物画像処理特集を発表、既存のハイスループット生物画像処理法(オープンソースのimageJ[63]や生物医学画像に特化したPhenoRipper[64]など)を系統的に総括した。BMC Bioinformatics誌は2013年、生物画像データと分析に関連する研究論文の整理と収集を開始し(http://www.biomedcentral.com/bmcbioin- formatics/series/BioimageInfo)、関連する方法論の文章が次々と集まった。生物医学画像データ処理は急速な発展を遂げているが、現時点ではまだ公認・標準化された生物医学画像保存・処理プラットフォームが存在していない。
(その4へつづく)
参考文献
9 Klauer S G, Dingus T A, Neale V L, et al. The impact of driver inattention on near-crash/crash risk: An analysis using the 100-car naturalistic driving study data. Technical Report, Highways; Safety and Human Factors; I83: Accidents and the Human Factor, US Department of Transportation, 2006
10 Dieringer D, Schlötterer C. Microsatellite analyser (MSA): A platform independent analysis tool for large microsatellite data sets. Mol Ecol Notes, 2003, 3: 167-169
11 Xu J, Wise C, Varma V, et al. Two new ArrayTrack libraries for personalized biomedical research. BMC Bioinformatics, 2010, 11: S6
20 Kolker E, Özdemir V, Martens L, et al. Toward more transparent and reproducible omics studies through a common metadata checklist and data publications. OMICS, 2014, 18: 10-14
36 Mardis E R. The impact of next-generation sequencing technology on genetics. Trends Geneti, 2008, 24: 133-141
37 Margulies M, Egholm M, Altman W E, et al. Genome sequencing in microfabricated high-density picolitre reactors. Nature, 2005, 437: 376-380
38 Warren R L, Sutton G G, Jones S J, et al. Assembling millions of short DNA sequences using SSAKE. Bioinformatics, 2007, 23: 500-501
39 Mavromatis K, Ivanova N, Barry K, et al. Use of simulated data sets to evaluate the fidelity of metagenomic processing methods. Nat Methods, 2007, 4: 495-500
40 Li M, Xu J, Romero-Gonzalez M, et al. Single cell Raman spectroscopy for cell sorting and imaging. Curr Opin Biotechnol, 2012, 23: 56-63
41 Ideker T, Galitski T, Hood L. A new approach to decoding life: systems biology. Annu Rev Genomics Hum Genet, 2001, 2: 343-372
42 Abraham J. Biomedical microanalysis--putting it to work now in diagnostic pathology. Scan Electron Microsc, 1979: 171-178
43 Li R, Li Y, Kristiansen K, et al. SOAP: Short oligonucleotide alignment program. Bioinformatics, 2008, 24: 713-714
44 Adams D J, Berger B, Harismendy O, et al. Genomics in 2011: Challenges and opportunities. Genome Biol, 2011, 12: 137
45 Floratos A, Smith K, Ji Z, et al. geWorkbench: an open source platform for integrative genomics. Bioinformatics, 2010, 26: 1779-1780
46 Ondov B D, Bergman N H, Phillippy A M. Interactive metagenomic visualization in a web browser. BMC Bioinformatics, 2011, 12: 385
47 Chapman J D, Goodlett D R, Masselon C D. Multiplexed and data-independent tandem mass spectrometry for global proteome profiling. Mass Spectrom Rev, 2013, 33: 452-470
48 Meyer F, Paarmann D, D'souza M, et al. The metagenomics RAST server-a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics, 2008, 9: 386
49 Seshadri R, Kravitz S A, Smarr L, et al. CAMERA: a community resource for metagenomics. PLoS Biol, 2007, 5: e75
50 Desantis T Z, Hugenholtz P, Larsen N, et al. Greengenes, a chimera-checked 16S rRNA gene database and workbench compatible with ARB. Appl Environ Microbiol, 2006, 72: 5069-5072
51 Pruesse E, Quast C, Knittel K, et al. SILVA: a comprehensive online resource for quality checked and aligned ribosomal RNA sequence data compatible with ARB. Nucleic Acids Res, 2007, 35: 7188-7196
52 Cole J R, Chai B, Farris R J, et al. The Ribosomal Database Project (RDP-II): Sequences and tools for high-throughput rRNA analysis. Nucleic Acids Res, 2005, 33: D294-D296
53 Shah N, Tang H, Doak T G, et al. Comparing bacterial communities inferred from 16S rRNA gene sequencing and shotgun metagenomics. Pac Symp Biocomput, 2011, 165-176
54 Caporaso J G, Kuczynski J, Stombaugh J, et al. QIIME allows analysis of high-throughput community sequencing data. Nat Methods, 2010, 7: 335-336
55 Wu H, Volponi J V, Oliver A E, et al. In vivo lipidomics using single-cell Raman spectroscopy. Proc Natl Acad Sci USA, 2011, 108: 3809-3814
56 Navin N, Kendall J, Troge J, et al. Tumour evolution inferred by single-cell sequencing. Nature, 2011, 472: 90-94
57 Hou Y, Song L, Zhu P, et al. Single-cell exome sequencing and monoclonal evolution of a JAK2-negative myeloproliferative neoplasm. Cell, 2012, 148: 873-885
58 Zerbino D R, Birney E. Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res, 2008, 18: 821-829
59 Guo G, Huss M, Tong G Q, et al. Resolution of cell fate decisions revealed by single-cell gene expression analysis from zygote to blastocyst. Dev Cell, 2010, 18: 675-685
60 Peng H, Tang J, Xiao H, et al. Virtual finger boosts three-dimensional imaging and microsurgery as well as terabyte volume image visualization and analysis. Nat Commun, 2014, 5: 4342
61 Eliceiri K W, Berthold M R, Goldberg I G, et al. Biological imaging software tools. Nat Methods, 2012, 9: 697-710
62 Baek H C, Ivan C B, Jennifer A B, et al. OMERO. searcher: Content-based image search for microscope images. Nat Methods, 2012, 9: 633-634
63 Schneider C A, Rasband W S, Eliceiri K W, et al. NIH image to imageJ: 25 years of image analysis. Nat Methods, 2012, 9
64 Rajaram S, Pavie B, Wu L F, et al. PhenoRipper: Software for rapidly profiling microscopy images. Nat Methods, 2012, 9: 635-637
※本稿は寧康, 陳挺「生物医学大数拠的現状与展望」(『科学通報』(2015年,第60巻,第5-6期,pp.534-546)を『科学通報』編集部の許可を得て日本語訳・転載したものである。記事提供:同方知網(北京)技術有限公司