第105号
トップ  > 科学技術トピック>  第105号 >  中国のビッグデータ発展の現状と趨勢(その1)

中国のビッグデータ発展の現状と趨勢(その1)

2015年 6月30日

程 学旗:中国科学院計算技術研究所

楊 婧:中国科学院ネットワークデータ科学・技術重点実験室

靳 小竜:中国科学院ネットワークデータ科学・技術重点実験室

要旨

 ビッグデータはここ数年、世界を席巻しており、ビッグデータの急速な発展は、科学技術界や工業界、ひいては世界各国の政府からも高い注目を集めている。ビッグデータはクラウドコンピューティング、モノのインターネット、モバイルインターネットに続く、新たな国家戦略的意義を持つ新興産業である。

 ビッグデータは今や、全ての業界とビジネス分野に浸透しており、徐々に重要な生産要素になりつつある。本稿では、中国のビッグデータの動向を概説し、インターネット、金融、電気通信、医療・健康の4つの代表的業界におけるビッグデータ活用の現状を紹介し、ビッグデータ技術と産業発展の趨勢について総括する。

[キーワード] :ビッグデータ;ビッグデータ産業

一、序文

 人(Man)、機械(Machine)、物(Material)の高度な融合は、データ規模の爆発的な増加とデータパターンの複雑化をもたらした。世界はすでにビッグデータ(Big Data)時代に突入したのだ[1,2]。ビッグデータとは一般的に、従来型のIT技術とソフト・ハードウェアツールでは、許容時間内に感知、取得、管理、処理、サービスを実現することが不可能なデータを指す。

 ビッグデータにはいくつかの特徴がある。まず、ビッグデータはサイズが膨大で、データ規模が絶えず拡大しており、すでにGBからTB、PB、さらにはEB、ZBといった単位も使われ始めている。国際的なデータ会社IDCの研究報告書によると、今後10年で、世界のビッグデータの規模は50倍に増加し、データウェアハウスを管理するサーバーの数も10倍に増えるという[3]

 次に、ビッグデータのタイプは極めて多く、構造化データ、半構造化データ、非構造化データが含まれる。現代のインターネットアプリケーションは、非構造化データの大幅増という特徴を呈しており、2012年末の時点で非構造化データの割合が全データ量の75%以上に達している。また、データは明示的または黙示的なネットワーク上の存在であるため、データ間の複雑な関係がいたるところに存在する。さらに、ビッグデータは往々にしてデータストリームの形で動的かつ急速に発生し、高い適時性を持つ。ユーザーはデータストリームをしっかりと制御しないとこれらのデータを有効活用できない。このほか、データそのものの状態と価値も時間の経過と共に変化しやすく、創発的という特徴が際立っている。

 最後に、ビッグデータは高い価値を持つが、従来型の考え方と技術に基づくと、実際の環境において、情報は多いが知識に欠けるという状況に陥りやすく、ビッグデータの価値の利用密度が低い。ビッグデータは情報技術を超越するものであり、人々が新たな国家競争の中心地を定義し、政府のガバナンスレベルを見直し、科学研究の認識を新たにするための新しいパラダイムであり、産業の移り変わりを見直すきっかけの要素となる。

1.1 政府

 膨大かつ動的で多様なビッグデータは、従来型の考え方と行動様式に大きな試練を突きつけた。特に公共サービス分野の課題は大きい。情報資源を効果的に統合する能力は、将来的な政府の管理理念とガバナンスモデルの転換に向けた、力強い技術的支援となるだろう。

 現在、ますます多くの国家が戦略的レベルからビッグデータに取り組み、政府のガバナンスにビッグデータの考え方や技術を取り入れ、ビッグデータの発展を推進している。英国は2006年に「情報権(right to data)」運動を開始、韓国は2011年に「ソウルオープンデータ広場」を開設、米国は2012年に「ビッグデータ研究開発イニシアティブ」[4]を公表、2013年には「プリズム計画」[5]の存在を認めている。国連は2012年にビッグデータプロジェクト「国連グローバルパルス」を始動、日本は2013年にビッグデータを中心とする新IT国家戦略を打ち出した。こうした背景があり、中国政府も国家ガバナンス能力の現代化という時代のニーズに合わせ、ビッグデータの発展を推進している。政府・企業・科学研究機関が全面的な取り組みを進めており、ビッグデータを十分に活用しながら国家ガバナンス能力を高めている。ビッグデータ時代は、政府のガバナンスにチャンスをもたらすと同時に、試練ももたらす。

 ビッグデータは、政府のガバナンス能力の向上にチャンスをもたらす。第一に、政府のガバナンス理念・モデルの変化にチャンスがもたらされる。政府のガバナンスにおいて、膨大かつ動的で多様なデータを効果的に統括して価値のある情報資源とすれば、政府の管理理念とガバナンスモデルの転換を推し進め、ガバナンスシステム・能力の現代化を加速できる。第二に、政府の意思決定の精密化・科学化にチャンスがもたらされる。ビッグデータ時代、インターネットデータの価値には膨大な蓄積と共に質的変化が生じる。経済社会の運行法則を直感的に示すことで、政府のガバナンスに間違いが生じる確率を引き下げ、ガバナンスの精密化と科学化を実現できる。第三に、ガバナンスの高効率化とコスト削減にチャンスがもたらされる。ビッグデータを活用すれば、ガバナンスの根拠となるデータ資料がより全面的になり、異なる部門や機関間の協調がよりスムーズになり、作業効率が高まり、ガバナンスコストを引き下げることができる。

 政府のガバナンス能力にとってのビッグデータの重要性は言うまでもないが、実際の業務で具体的にビッグデータを活用するまでには、長い道のりが必要だ。現時点で、ビッグデータは政府のガバナンスにおいて十分に重視されていない。

 中国政府は現在、ビッグデータ技術をほとんど活用していない。多くの政府部門はビッグデータ活用による業務能力の向上を重視しておらず、ビッグデータ資源管理の構想が確立されていない。ガバナンスにおけるビッグデータの技術運用は今、まだ模索状態にある。中国の情報化技術が発展するに伴い、国家および企業レベルで膨大なビッグデータが生まれているが、これらのデータの全面的な集積、把握、統合、分析には成熟した技術が必要であり、いかにビッグデータを活用して詳細な分析を行うかについては、模索段階にある。ビッグデータそのものの管理も改善が必要だ。ビッグデータをいかに管理するかについて、中国の各部門にはまだ統一的な基準がなく、異種のデータソース、アーキテクチャ、管理システムが効果的に統合されていないため、データの使用効率がある程度引き下げられている[6]

 国家レベルのデータの安全性は、データの開放を基礎とする。開放は一種の態度であると同時に能力でもある。重要な基礎データを開放することで、社会のデータの基礎を築くことができる。ビッグデータの法則の1つである、「データの総和の価値は、データ価値の総和を大きく上回る」から推測するに、異なる分野のデータをひとつにまとめ、社会に開放することで、核融合にも似た価値発見効果を生み出すことができる。

 現在、電子商取引、SNS、基礎通信などが生み出すデータおよび国家関連部・委員会のデータは、凝集効果と価値の核融合的反応をもたらす基盤を備えている。国家統計局はすでに検索大手の百度、ネット通販大手の阿里巴巴(アリババ)と提携して模索的な試みを行っているが、これは良い取り組みと言える。同時に、「データ各機関の群雄割拠」という現象も普遍的に存在している。例えば気象観測データは大気の変化や気候の変化、農業の指導などにとって非常に重要な科学的意義を持つ。しかし現時点で、こうしたデータの活用範囲にはまだ拡大の余地がある。また、住宅・都市農村建設部の住宅購入データは、汚職の予防や経済動向、人口の移り変わりの研究、ひいては国家政策の制定にとって極めて重要だ。もしこれらのデータが社会各界に開放されれば、分野を跨ぐ学際的な研究が進み、中国の各方面における進歩が推進されるかもしれない。

 開放的なデータが基礎となり、情報産業の繁栄を促すことによって、真の意味でのデータ駆動の企業が誕生し、これらの企業がデータ分野の技術的進歩を実現する。これこそが、国家のデータ安全を保障するための長期的かつ安定的なプランだ。もし、GoogleやMicrosoft、Facebookのような企業がこの世に存在しなければ、米国政府だけの力では、大掛かりな「プリズム」計画の実現が困難なことは想像に難くない。このため、国家ビッグデータ戦略を制定する上で、伝統的な、いわゆる「国家機密」と国家安全の関係性について見直す必要がある。部門間のデータが各地に勢力を張り、互いに覇を競い合う状況を改善し、公開・透明・共有型のデータ公共プラットフォームを確立することを長期的な戦略目標とすべきだ。

1.2 科学研究

 学術界はビッグデータ時代、より幅広い活躍の舞台を手にした。ある意味において、ここ数年のコンピュータ分野の発展はGoogle、Amazonなどの大手インターネット企業が推進してきたと言える。ただ、学術界はアルゴリズムの分野で他には無い強みを持つが、アルゴリズムの工学的応用の分野では、実践のチャンスに欠けることから、なかなか前進できないでいる。

 ビッグデータの時代、多くの学科の研究の方向性は表面的には大きく異なるが、データという角度から見ると、実は相通じる部分がある。例えば、自然言語処理と生体高分子モデルでは、いずれもマルコフ過程と動的計画法が使われる。その根本的な原因として、これらの処理はいずれも一次元のランダム信号であることが挙げられる。このほか、画像処理アルゴリズムと圧縮センシングアルゴリズムも多くの共通点を持つ[7]

 データ的視点は多くの学科に、新たな研究構想をもたらした。例えば自然言語の機械翻訳研究では、研究者は初め、コンピュータのために一連の文法規則を確立しようと試みた。文法と語彙に基づき、翻訳を完成させるという方法だ。この発想は非常に直感的だ。なぜなら、人間もこのようにして言語を理解し学習しているためだ。しかしこの方法は実践において様々な困難に直面し、文法規則に基づく翻訳機は、商用化したものがほとんどない。そこで、研究者は方針を変え、1単語、1フレーズごとの「合理的な確率」を計算した。こうして、複雑な機械翻訳が文字の確率計算に簡素化された。

 こうした研究構想は、マクロ的な天体情報学、社会行動学から、ミクロ的なヒトゲノム解析、物理学者が追い求める「神の粒子(ヒッグス粒子)」の研究にいたるまで、ますます多くの分野で応用されている。社会のデジタル化の程度が深まるにつれ、ますます多くの学科がデータレベルでは一致した方向に向かっている。このため、似たような構想を用いて統一的に研究ができる。これは数学者の得意分野でもある。つまり、データ科学は数学と実際の応用との間に直接的な架け橋を築いた。実際の応用とは、現代産業において最も活発な情報サービスなどの分野だ。

 ビッグデータの共有実験プラットフォームと国家級のビッグデータ研究実験室を建設することで、産業界と学術界の架け橋を築き、学術界の優秀なアルゴリズムのために活躍の舞台を提供し、産業界の難題に解決のチャンスを提供することができる。こうして、データ科学分野の学科建設と人材育成を間接的に推進できる。

1.3 産業

 産業は変革を、業界には相互結合・融合を必要としている。いわゆる「ビッグデータ+」とは、ビッグデータの考え方を異なる産業に当てはめ、各業界でビッグデータの推進を図るというものだ。

 ビッグデータは、IT業界のみに関わる問題ではない。各業界のリーディングカンパニーは皆、ビッグデータの大きな影響力を意識し始めている。特に企業家に衝撃をもたらしたのは、ビッグデータそのものではなく、一部の新興企業が見せた驚異的な多角的経営能力だ。業界間の垣根はますます曖昧になり、これらの新興企業は新たな技術・モデルを採用し、データを大規模に収集し、迅速に予測・判断を行い、関連の業界に進出している。例えば中国動画サイトの楽視網は今、テレビ販売、映画撮影に進出している。スマホメーカーの小米科技(シャオミ)も、スマホだけでなく、テレビも販売し始めている。百度、セキュリティーソフトを手がける360などの企業もそれぞれハードウェア(百度影棒、360随身WiFiなど)を生産している。

 急速な発展を見せるインターネット金融業界は、従来型の金融業界に大きな衝撃をもたらし、一夜にしてライバルとなった。アリババ傘下のファンド投資サービス・余額宝は、わずか5カ月あまりで資金額が累計1000億元を突破した。

 実際のところ、インターネット金融はまだ発展の初期段階にあり、オフラインの金融資源をオンラインの手段で結びつけたに過ぎない。しかし、この「結合」が、業界を大きく揺るがせた。次なる方向性として、このオンラインの手段がスマート化する。ビッグデータが役に立つのはこの段階だ。ちなみにアリババグループは、プラットフォーム、金融、データの順序で戦略に取り組んできた。データは金融に続く、3つ目の戦略となった。

 こうした例は各業界で見られる。情報化の程度が高い業界ほど、ビッグデータの影響を受ける可能性が高く、既存の概念を覆される可能性も高い。ゆえに、ビッグデータの視点から見ると、データ資産はいかなる産業においても核心的な競争力となりえる。

 ビッグデータとモバイルインターネットの時代、従来型の産業・各業界はいずれも、いかに徹底的にモデルチェンジ・再編を行うかという問題に直面している。業界再編は、ビッグデータ時代に新たな再編の論理と実現のきっかけをもたらす。従来型の産業・各業界は皆、ビッグデータとモバイルインターネット時代に活気を取り戻し、若返りを実現できる可能性があるが、時代についていけない企業と業界は、過去に永久に留まるか、未来の舞台から去ることになる。

その2へつづく)

参考文献:

[1]李国傑. ビッグデータ研究の科学的価値 [J]. 中国コンピュータ学会通訊、 2012、 8(9): 8-15.

[2]Steve Lohr. The Age of Big Data [N]. New York Times、 February 11、 2012.

[3]The 2011 Digital Universe Study: Extracting Value from Chaos [R]. International Data Corporation and EMC、 June 2011.

[4]Tom Kalil. Big Data is a Big Deal、 March 29、 2012 [EB/OL]. http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.

[5]趙国棟、 《ビッグデータ思想》[R].

[6]呉建樹、 《ビッグデータ時代の政府ガバナンス能力の向上》[N]. 光明日報、 2014.

[7]Big Data: Building the next business platform for telecoms operators [J]、 Informa Telecoms & Media.