ビッグデータシステムコンピューティング技術の展望（その１）

2018年8月14日

王海濤：
深圳大学計算機輿軟件学院研究助手、
大数据系統計算技術国家工程実験室弁公室主任

略歴

主な研究内容はデータマイニングとビッグデータコンピューティング・プラットフォーム。

毛叡：
深圳大学計算機輿軟件学院副院長、
大数据系統計算技術国家工程実験室教授、副主任

略歴

広東省国産高性能データコンピューティングシステム工学技術研究センター主任、広東省普及型高性能コンピュータ重点実験室常務副主任。主な研究内容は汎用ビッグデータの管理・分析方法と高性能コンピューティング。中国コンピュータ学会シニア会員、ビッグデータ専門家委員会とデータベース専門委員会常務委員、広東省コンピュータ学会クラウドコンピューティング専門委員会主任、CCF YO C SEF（深圳）主席（2016～2017年）、2016年中国データベース学術会議プログラム委員会共同議長、2017年中国コンピュータ学会ビッグデータ学術会議プログラム委員会共同副議長。様々な課題に対応するビッグデータ汎化の理念を提起したほか、距離空間をベースとする汎用ビッグデータ管理・分析理論フレームワークを打ち立てた。国際会議SISAP2010とBIBE2003の最優秀論文賞を取得。

明仲：
深圳大学計算機輿軟件学院教授、常務副院長、
大数据系統計算技術国家工程実験室実行主任

略歴

現在、「鵬城学者計画」特任教授、深圳大学二級教授、華東理工大学非常勤教授、深圳大学および中国科学院深圳先進技術研究院博士生指導教員、教育部大学コンピュータ基礎教学指導委員会委員、第８回中国コンピュータ学会（CCF）理事、広東省省部院IoT産学官連盟副理事長、CCF YO C SEF（北京）AC栄誉委員を務める。広東省優秀教学成果一等賞を２回、二等賞を2回それぞれ獲得。2009年、深圳市優秀教師に選出。「クラウドデータ交換とサービススケジューリングプラットフォームおよび応用」プロジェクトは、2013年度の広東省科学技術賞一等賞（ランキング１位）、「データ統合と情報共有に基づくESB統合プラットフォームソフトウェア」プロジェクトは2009年度深圳市科学技術革新賞（ランキング１位）を獲得したほか、2010年度の広東省科学技術賞三等賞（ランキング１位）を獲得。

摘要

本稿では、ビッグデータシステムコンピューティング技術の現状と課題に焦点を合わせ、「大数据系統計算（ビッグデータシステムコンピューティング）技術国家工程実験室」のビッグデータシステムコンピューティング技術革新プラットフォームについて系統的に紹介した。この革新プラットフォームは、自主制御可能な、汎用性の高いビッグデータコンピューティング・プラットフォームを開発することを主な目標とし、高性能ビッグデータコンピューティングにおける共通問題を解決し、ビッグデータの試験的応用・開発を実現するために取り組んでいる。革新プラットフォームの構築は、中国のビッグデータ革新能力を高め、中国のビッグデータ技術と応用に対する重要なニーズを満たし、中国のビッグデータ技術サービス産業の発展を促進し、中国のビッグデータの「大衆創業、万衆創新（大衆の起業、万人の革新）」生態環境の成熟と整備に役立つだろう。

[キーワード]　ビッグデータシステムコンピューティング・プラットフォーム；ビッグデータ基礎技術；ビッグデータ応用；国家工程実験室

1 はじめに

　ビッグデータは次世代情報技術の核心的な方向性であり、競争の最先端である一方、ビッグデータ産業の急速な発展を制約する重要なボトルネックともなっている。ポスト情報時代の今、ビッグデータ技術の革新力は、一国の競争力を判断するための重要な指標となっている。伝統的な情報産業の発展過程と同じく、ビッグデータも今後、相対的に独立した、体系が完備された産業形態を徐々に形成し、伝統的な情報産業からのアップグレード・モデルチェンジを果たすだろう。インターネットとクラウドコンピューティングの発展の過程と趨勢が証明するように、ビッグデータの将来の産業形態もサービスを中心とする新たな産業形態となるとみられ、ビッグデータ産業体系の各段階において、極めて豊富な種類のサービスが提供されるだろう。

　ビッグデータはポスト情報時代における国・社会・産業の戦略的資源である。ビッグデータをコア・支柱とする次世代情報技術と応用（インターネットプラス、モノのインターネット（IoT）、スマートシティ、スマート製造など）は、ビッグデータ資源を活用する手段とツールにより、社会に向け情報サービスを提供している。その最終目的は、科学研究・社会管理・産業発展などにおける一連の問題をビッグデータによって解決し、戦略的な意思決定や運営管理、ターミナルサービスなど様々なレベルと段階において性能と利益を高め、新たなコア競争力を形成することである。現在、社会全体におけるデータの生成スピードはますます速く、蓄積はますます多くなり、ビッグデータ資源がますます豊富になっている。一方で、既存の情報技術はすでにデータの発展に追い付かなくなってきており、特にビッグデータの処理・分析・応用は今や世界的な課題となり、各国政府や産業界からも高く重視されている。

　大規模かつ非常に複雑なビッグデータは、その処理時間や反応速度などに対して明確かつ具体的な要求があるため、コンピューティング・プラットフォームのアーキテクチャ、コンピューティングモデルのフレームワーク、基礎技術などに高い要求が突きつけられている。計算スピードを優先する従来型の設計理念では、今のビッグデータ時代の処理ニーズを満たすことができなくなった。新たなコンピューティング・プラットフォームの開発、フレームワーク設計、基礎技術の開発にあたっては、効率とパフォーマンスという２つの基準に配慮する必要があり、また、種類が多く、変化が速く、価値が希薄というビッグデータの特性にも配慮する必要がある。

2 ビッグデータシステムコンピューティング技術の現状と課題

　ビッグデータコンピューティング・プラットフォームは、ビッグデータのハードウェアとシステムの基盤であり、ビッグデータの分析・処理は全て高性能のコンピューティング・プラットフォーム上で行う必要がある。基礎技術は、ビッグデータの分析・処理に関する知識と技術の基盤であり、全てのビッグデータシステムはデータ収集、伝送、ストレージ、処理、分析の過程における複数の基礎技術に関わる。典型的な応用は、コンピューティング・プラットフォームと基礎技術の実行可能性や実行効率の検証に用いることができるほか、同じような応用の開発に向けた参考情報を提供できる。

　ビッグデータはここ数年の急速な発展により、すでにデータ収集からデータ処理、データ分析にいたるまでの完備された産業体系が形成され、社会経済の発展に向け強力なデータサポートを提供している。しかし、技術の発展はデータの量と形式の変化のスピードにまだ追い付いていないため、ビッグデータの開発に携わる研究者は新たな状況に適応するために絶えず努力し続けなければならない。以下、コンピューティング・プラットフォーム、基礎技術、応用という３つの面から、ビッグデータ技術の現状および課題について論述する。

2.1 ビッグデータコンピューティング・プラットフォームの現状および課題

　ビッグデータコンピューティング・プラットフォームは、ビッグデータ製品体系の核である。クラウドコンピューティングを基本的な環境とし、サービスモードを全体的なアーキテクチャとするビッグデータコンピューティング・プラットフォームは、ビッグデータ応用の全過程をカバーし、膨大なマルチソース・異種データの収集やストレージ、集積、処理、分析、視覚化表示、インタラクティブな応用に対応し、企業のビッグデータ製品体系の様々なレベルに関わり、各レベルの製品のためにキーテクノロジーを提供している。

　現在のところ、情報サービス向けのビッグデータコンピューティング・プラットフォームはまだまだ成熟しておらず、プラットフォームの最適化や省エネなどのキーテクノロジーでさらなる進展が待たれる。主に以下のいくつかの課題が挙げられる。

プラットフォームの開発には学際的な知識が必要である。ビッグデータコンピューティング・プラットフォームの環境は複雑であるため、プラットフォームの処理能力を高め、性能を最適化し、エネルギー消費を削減し、プラットフォームの安全性とプライバシー保護を向上させるためには、多学科・多専攻の専門知識をバックグラウンドに持つ研究者が協力してイノベーションに取り組み、共同で難関を突破する必要があり、このようにすることで初めて技術のブレークスルーを実現できる。プラットフォームの開発には学際的な知識が必要だ。
プラットフォームの開発人材が不足している。ビッグデータの応用は多くの業界にとって新しい取り組みであるため、ビッグデータの潜在的な価値を認識している企業管理者は多いものの、まだ傍観者であり、リスクを犯してまでトップランナーになるつもりがないのが現状だ。また多くの企業ではビッグデータ技術や応用の人材が不足しており、ビッグデータ応用の技術プラットフォームもなく、実質的な応用プロジェクトを実施することができない。ビッグデータ技術はまだ成熟しておらず、多くはオープンソースのソフトウェアであり、応用プロジェクトのコストは高く、リスクも大きい。企業・研究機関・大学が協力して革新に取り組むことは、業界における試験的応用の障害を突破する効果的な手段である。
プラットフォームのフレームワークに改良が必要。ビッグデータコンピューティング・プラットフォームの処理・分析能力は主に分散コンピューティング・フレームワークに依存している。分散コンピューティング・フレームワークは高効率の計算モデルと、簡単なプログラミングインターフェースを提供するだけでなく、フォールトトレランス（過失許容性）能力と高いスケーラビリティを備え持つ。ビッグデータコンピューティング・プラットフォームの計算フレームワークは、バッチ処理とストリーム処理の２種類に分けられる。バッチ処理の計算フレームワークは主に静的データのオフライン計算を対象としており、処理量は多いが、リアルタイム性は保証できない。ストリーム処理の計算フレームワークは主に動的データのオンライン・リアルタイム計算を対象としており、適時性が高いが、データの全貌を取得するのは難しい。
技術的環境が統一されていない。現在、ビッグデータの最先端の計算フレームワークおよび派生した生態系はいずれもGitHubを中心とするオープンソースコミュニティ内に存在しており、そこではビッグデータのインフラとビッグデータ分析・処理技術群が形成されている。こうした技術的環境はユーザーに豊富な技術の選択肢を提供したが、一方で、ユーザーにとって多様性にあふれるビッグデータ技術を把握し使用することが困難となり、応用コストも高まってしまった。

2.2 ビッグデータ基礎技術の現状および課題

　ビッグデータ技術は処理プロセスの違いに基づき、ビッグデータインフラのサポート、データ収集、データストレージ、データ計算、表示とインタラクティブの数種類に分けることができる。具体的に見ていくと、インフラに関わる技術には、クラウドコンピューティング・プラットフォーム、クラウドストレージ、仮想化、インターネットおよびリソース監視などがある。データ収集に関わる技術には、データバス、抽出--変換・加工--ロード（extract-transform-load，ETL）ツールなどがある。データストレージに関わる技術には、分散ファイルシステム、リレーショナルデータベース、NoSQLデータベース、メモリデータベースなどがある。データ計算に関わる技術には、データクエリ、統計と分析、データ予測とマイニング、グラフマイニング、ビジネスインテリジェンス（business intelligence，BI）などがある。表示・インタラクティブ技術には、図形とレポート、視覚化ツール、拡張現実（AR）技術などがある。このほか、ビッグデータ技術にはビッグデータのセキュリティとプライバシー保護に関連する技術も含まれる。

　現在、ビッグデータのストレージ、処理、分析、表示などのキーテクノロジーにはさらなる進歩が待たれる。ビッグデータの処理・分析能力、およびアルゴリズムのデータ処理能力は、実際の応用における要求を満たすにはまだ程遠い状態である。既存の情報技術ではビッグデータの問題を解決することができず、豊富かつ複雑なビッグデータの応用シーンに対応するには、多学科・多分野の学際的な協力による解決が必要だ。これにより、伝統的な情報技術に以下のような課題がもたらされた。▽マルチソース・マルチモードのビッグデータの取得と融合▽データ品質と低品質データに対する耐性▽ビッグデータアルゴリズムおよび理論のさらなる研究▽既存のスケーラブルなストレージ・処理ができる計算アーキテクチャの更新設計▽ビッグデータ並列処理および分析・マイニング技術の適応設計――など。

2.3 ビッグデータ応用の現状および課題

　国の政策による支援が強まり、産業資本が持続的に投入されるに伴い、中国内外におけるビッグデータ発展の積極性も高まり、業界における応用も急速に普及した。ビッグデータの応用は、企業に技術と応用モデルのブレークスルーをもたらしただけでなく、ビジネスモデルの革新および企業のモデルチェンジ・発展に向けた原動力をもたらした。公共サービス機関にとって、ビッグデータの潜在的な価値を掘り起こすことは、都市発展の問題解決、社会メカニズムの整備、市民へのより良いサービスなどに関わる重要な意義を持つ。

　ビッグデータの応用は徐々に人々の生活に浸透しはじめてきたが、技術がまだ成熟していないため、実際の問題解決に向けたニーズとは、ある程度かけ離れている場合がある。以下にその例を挙げる。

時空間ビッグデータは、膨大なデータ管理、時空間データの融合、時空間ビッグデータの理論的枠組み、時空間推論とデータマイニングの深いレベルでの結合という課題に直面している。時空間ビッグデータのパターン発見と価値抽出の問題に関しては、大規模事件の進化論的推論メカニズムの解明、大規模な安全事件の理解と限界の突破という課題に直面している。
メディアビッグデータは容量が大きく、データソースが多く、成分がそれぞれ全く異なるという特徴を持つため、メディアビッグデータのコンピューティング理論と関連アルゴリズムの研究は大きな課題に直面している。このほか、現時点では科学研究においても新技術開発においても、コンピュータにコンテンツに基づき動画メディアを自動的に検索させる問題を解決する実現可能なプランが存在しない。
モノのインターネットの多様性にあふれた膨大なビッグデータを効果的に活用し、その価値を掘り起こすためには、インターネットを最適化し、将来的なモノのインターネットの実現に必要なビッグデータの負荷に耐える能力をつけなければならない。また、ユーザーへのサービスを分析・マイニングし、モノのインターネットの潜在的な価値を十分に実現する必要がある。
物流分野におけるビッグデータの応用は、ビッグデータ技術活用による電子商取引と物流の相乗的な発展推進の問題に直面している。これは物流分野におけるビッグデータ応用の大きな課題である。

（その２へつづく）

※本稿は王海濤，毛叡，明仲「大数据系统计算技术展望」（『大数据』2018年第2期、pp.97-104）を『大数据』編集部の許可を得て日本語訳／転載したものである。記事提供：同方知網（北京）技術有限公司