第136号
トップ  > 科学技術トピック>  第136号 >  高可用性クラウドコンピューティングに基づく中国インテリジェント林業ビッグデータシステムの探究(その1)

高可用性クラウドコンピューティングに基づく中国インテリジェント林業ビッグデータシステムの探究(その1)

2018年1月30日

李 清鋒: 東北林業大学数字化校園建設弁公室

アシスタント・エンジニア。主要研究テーマはインテリジェント林業とビッグデータ。

孔 明茹: 牡丹江医学院紅旗医院信息中心

黄 英来: 東北林業大学信息・計算機工程学院副教授

主要研究テーマはインテリジェント林業とモノのインターネットシステムの開発応用。

概要:

 中国内外における林業インテリジェント化構築は現在、摸索の段階にある。中国の林業情報化は、長年の構築の蓄積を経て、すでに初期的な成果を上げている。国家林業局は2013年、情報技術と林業との深い融合の推進をはかるため、「インテリジェント林業発展指導意見」を打ち出した。林業の各業務系統のデータは類型がさまざまで、マルチディメンションやマルチスケール、マルチシーケンス、多元性といった特性を備え、林業ビッグデータシステムの分析と探究はまだ概念段階にある。本稿は、高可用性林業クラウドコンピューティングプラットフォームと中国インテリジェント林業を紹介し、高可用性クラウドコンピューティングに基づく中国インテリジェント林業ビッグデータシステムのアーキテクチャーを提起し、その特徴を概説し、中国の林業ビッグデータの発展の今後を展望するものである。そのねらいは、信頼できるスマートで科学的な政策決定サービス系統を林業従事者に提供し、林業のマクロ政策決定に科学的な根拠を与え、林業の情報サービスを支え、中国のインテリジェント林業の未来に向けて堅固な土台を築くことにある。

キーワード:インテリジェント林業、高可用性クラウドコンピューティング、ビッグデータシステム、中国

 各国の林業情報化は近年、日増しに成熟しつつある。日本は、林業の持続可能で健全な発展に向けた新たなモデルを提唱し、2011年には「森林法」を改正し、林業にかかわる専門的で高度な知識を持つ「森林官」の養成を打ち出した。これは同時に、機能分類や経営理念、管理モデル、木材産業などの面でも細かい内容を盛り込んだものだった[1]。ドイツは近代林業科学の発祥地である。ドイツ政府は自然に近い林業という経営管理理念を推奨し、林業の充実した教育と訓練を展開し、林業の機械化発展と林業エンジニアの革新メカニズム、発展と養成を重視している[2]。ドイツや日本などの先進国の林業の発展はすでにいずれも、まったく新しい発展段階に入っている。中国では2013年以降、インテリジェント林業の概念や林業のモノのインターネット(IoT)システムの探究など新興技術が次々と打ち出された。国家林業局も、「中国インテリジェント林業発展指導意見」「林業第13次5カ年(2016~20年)発展計画」「中国林業のIoT発展の推進に関する指導意見」などの政策文書を相次いで通達し、インテリジェント林業の発展の基本的な内容と発展の筋道を指し示し、中国林業のIoTの体系的な構築に発展の青写真を描き出し、林業のスマート化の持続的な急速発展を推進した。

 クラウドコンピューティングやモバイルインターネットなどの技術は、インテリジェント林業実現のカギとなるインフラ設備であり、統一的な計画と集中的な配置を通じて、統一的なクラウドコンピューティング管理プラットフォームを構築する必要がある。林業生態系における動植物の種類は多く、林業生態資源には主に、森林資源や湿地資源、砂漠資源、野生動植物資源などが含まれる。IoTに代表される新世代の情報技術を林業資源の保護と監督管理に導入することは、監督管理の手段を改良し、監督管理モデルを革新し、林業資源の量と質を高めるのに益する[3]

 クラウドコンピューティングにおける高可用性技術の応用は、記憶の高可用性やネットワークの高可用性、システムの高可用性などとして表現され、クラウドコンピューティングサービスの高度な可用性を保障する働きをする。高可用性クラウドコンピューティング技術を生かすことにより、林業資源のコンピューティングクラウドの建設コストと運営コストを引き下げることができる。IoT技術は、伝統的な林業のデジタル林業への移行、デジタル林業のインテリジェント林業への発展の過程で欠かすことのできない重要な役割を果たしている。本稿は、高可用性クラウドコンピューティングに基づくインテリジェント林業ビッグデータシステムの建設の構想を打ち出し、中国のインテリジェント林業の発展と実施推進、統一的な林業クラウドプラットフォームの早期の完成、林業科学の政策決定作用・予見性・方向性・スマート化の水準のさらなる向上をはかったものである。

1 高可用性林業クラウドコンピューティングプラットフォーム

 クラウドコンピューティング技術はすでに、各業界ですでに幅広く応用され、各業界の急速な発展にコンピューティングの強力な下支えを提供している。林業情報化の発展プロセスと結びつけ、「アーキテクチャーの一致、資源の共有」という原則を守り、技術プラットフォーム構築の重複を回避し、分散ストレージ技術を利用して、統一的な高可用性林業クラウドコンピューティングプラットフォームを構築することができる。

1.1 クラウドコンピューティングプラットフォーム

 1961年、「人工知能の父」と呼ばれるジョン・マッカーシーは早くも、計算資源は工業の新たな基盤となり、水や電気、通信のように不可欠ななると論じた[4]。近年、クラウドコンピューティングは概念から実施へと移行し、初期の不統一な概念にすぎないものから、各産業の基本的な計算を支える重要な基盤へと発展した。2015年、世界のクラウドコンピューティングサービス市場の規模は1750億ドルに達している。2016年には、中国のクラウドサービス市場の規模が500億元を超え、516億6千万元に達した。2017年には、中国クラウドコンピューティング市場のシェアが690億以上に達する見通しで[5]、クラウドコンピューティング産業はまだまだ急成長の段階にある。世界的に見ても、世界のクラウドコンピューティングサービスの市場規模は2021年には3912億2千万ドルに達するとされる。近年、中国のクラウドコンピューティングサービス市場は勢いがあり、アリクラウドECSや騰訊(テンセント)CVMクラウドサーバーなどのサービスプロバイダーがいずれも、簡単で効率的な、処理が柔軟で伸縮可能な計算サービスを提供しており、これらは、より安定した安全なアプリケーションのスピーディーな構築や運用効率の向上にも用いられる。中国国外のクラウドコンピューティングサービスとしては、Google Compute EngineやAmazon EC2などが提供されており、需要に応じた支払いを実現し、コスト決済の方式を変えた。中国内外のクラウドコンピューティング企業の積極的な模索と革新は、各業界の計算コストを引き下げ、インテリジェント林業のアプリケーション層の構築と発展に最も有効な計算サポートを提供している。

 クラウドコンピューティングは、時間や場所を問わず、柔軟に拡張し、ニーズに応じて、基礎的な計算資源を提供することができる。伝統的な「サーバー+ミドルウェア+アプリケーション配置」のアーキテクチャーは現在、新型の「クラウドサーバー+クラウドミドルウェア+クラウドアプリケーション配置」のアーキテクチャーへと転換している。このうちクラウドサーバーは、ソフトウェア定義ストレージとソフトウェア定義コンピューティング、ソフトウェア定義ネットワークの3つの集合によって構成されている。クラウドミドルウェアは、ソフトウェア開発モデルを新たに形成し、分散アーキテクチャーの開発と運用のコストを引き下げた。クラウドアプリケーション配置方式は、業務の集中した便利なサービスを実現し、業界間の新型アプリケーションの形成を促した。

 クラウドコンピューティングプラットフォームによる統一的な計画と配置は、コストを引き下げ、柔軟性と弾性を高め、資源利用を最適化することにより、林業の産業発展の競争力を高めている。クラウドは、複雑な基盤アーキテクチャーの抽象であり、クラウドコンピューティングプラットフォームIaaS(サービスとしてのインフラストラクチャ)の建設は、上層の計算のPaaS(サービスとしてのプラットフォーム)とSaaS(サービスとしてのソフトウェア)に統一的なインターフェイスを提供し、情報一体化建設を実現するものとなった。安全性と安定性は、クラウドコンピューティングプラットフォームが確保しなければならない第一の課題である。これには、データの完全性や、権限のないユーザーへのデータ隔離、有効な制御、伝送が含まれる。トップレベルでのデザインを確保・強化し、林業クラウドコンピューティングプラットフォームを統一的に計画・配置・研究する必要がある。林業クラウドコンピューティングプラットフォームには、物理的なハードウェアに基づくIaaS、データベースミドルウェアとアプリケーションミドルウェアによって構成されるPaaS、各種のP政策決定などのアプリケーションによって構成されるSaaSが含まれる。その構造は図1の通りである。

図1

図1 林業クラウドコンピューティングプラットフォームの構造

1.2 分散ストレージ

 分散ストレージ技術は、高可用性プラットフォームの運用の核心技術である。近年、世界のデータ保存量は爆発的に増えている。Gartnerの予測によると、2020年までに世界のデータ量は35ZB(ゼタバイト)に達し、4TBのハードディスク80億個に相当するものとなる[6]。データ構造の多様性もストレージに新たな挑戦を投げかけている。例えば、ドキュメントや画像、XMLなどの非構造化データの記憶がこれにあたる。伝統的な集中型の記憶管理は便利だったが、データの安定性を有効に保障することはできず、単一障害点などの問題がよくあった。林業情報系統の各種のデータは、収集プロセスの地域が分散しており、衛星画像で収集されるデータ量が大きく、比較的大きな専用ストレージが必要となり、同時に、データの安定した記憶に対する要求も比較的高い。伝統的な集中型のストレージとは異なり、分散ストレージは、データを多くの物理設備上に分散して記憶させ、拡張可能なシステム構造を採用し、ストレージの可用性と安全性を高めている。マルチチャンネルの業務系統のデータ共有のニーズを満たすため、分散ストレージシステムアーキテクチャーに基づく林業クラウド記憶サービスが打ち出された。分散ストレージシステムを通じて、記憶容量が大きく、スループットが高く、データの信頼性を高め、運用効率が高い林業情報データストレージサポート層を最終的に実現する。

 分散ストレージシステムは、オブジェクトストレージやファイルストレージ、ブロックストレージなどに分かれ、GlusterFSやHDFS、Ceph、Swiftなどさまざまなオープンソースプロジェクトがある。ソフトウェア定義ストレージの概念はまず、VMware社によって2012年にVMworldで打ち出され、ソフトウェア定義データセンターを構成する5大要素の一つとして、その後、徐々に幅広く承認され、応用されていった。Vmwareのソフトウェア定義のストレージソリューションVirtual SAN(仮想ストレージエリアネットワーク)は、オールフラッシュストレージ性能を最適化したハイパーコンバージドインフラストラクチャであり、物理的な基盤ハードウェア上のソリッドステートドライブ(SSD)と普通のハードディスクを、分散型の共有データストレージを作成する方式で、上層のアプリケーションに渡すものである[7]

 現在、主要な分散ストレージ技術の特徴としては次のものが挙げられる。

 安全性。データが安全で信頼できることは最重要となる。分散ストレージシステムは、データの傍受やリークなど、データの潜在的なセキュリティ脅威を考慮する必要がある。魏青松[8]は、P2Pモデルに基づくダイナミックルーティングメカニズムを打ち出し、大規模分散ストレージのセキュリティ技術を探究した。朱鋭[9]は、セキュリティネットワークコーディング理論の方向から出発し、この種の分散ストレージシステムに存在するセキュリティ問題を研究した。分散ストレージのプライマリーとスタンドバイの間のデータの同期には多くのセキュリティーメカニズムがあり、データ消失のリスクはなく、同時にエンドツーエンドの権限制御もサポートできる。

 安定性。分散ストレージはフォールトトレラント性が高く、ユーザーのデータの安定性と可用性の保障は、分散ストレージの基本的要求となっている。ストレージシステムは、マルチレプリケーションストラテジーの方式でデータを保存し、メモリユニットの損壊や単一障害点などの原因でデータが消失しないようにしなければならない。IBMの報告によると[10]、4000個のノードを持つデータストレージセンターでは、平均で6時間に一つのストレージユニットが無効となったこのほかAmazonのS3システムやGoogleのGoogle Docsでも、ストレージノードの故障によるシステムダウンが起こり、ユーザーに巨大な損失を与えたことがある。

 拡張可能性。林業情報データの産出と事前収集は複雑なプロセスであり、構造化データと非構造化データのストレージが含まれる。データ量の激増に伴い、データストレージの空間容量の拡張可能性には新たな要求が加わっている。ストレージシステムの拡張可能性は、ノードとメモリユニットの増加によっては影響を受けない。データストレージの拡張可能性には、データのロードバランスを考慮する必要もある[11]。ダイナミックに拡張可能なストレージノードユニットは、分散ストレージの重要な特性である。

その2へつづく)

参考文献:

[1] 劉峰.日本林業管理経営模式的経験與啓示[J]. 安徽農学通報,2015,21(14):133-134.

[2] 鍾少偉,楊逸廷,何賢勤,等.徳国林業概况及其可借鑑的経験[J]. 湖南林業科技,2014,41(2):69-70.

[3] 国家林業局. 関于推進中国林業物聯網発展的指導意見[EB/OL]. (2016-06-17)[2017-02-16]. http:// www.forestry.gov.cn/main/72/content-880883.html.

[4] 孫偉.林業資源信息雲計算服務体系研究[D]. 北京:中国林業科学研究院,2012.

[5] 運営商世界網.2016年中国雲服務及雲存儲市場分析報告[EB/OL]. (2017-03-14)[2017-04-12]. http:// www.telworld.com.cn/show-list-6679.html.

[6] 中国存儲網.分布式存儲和集中式存儲的優缺点及選択[EB/OL]. (2014-03-04)[2016-12-28]. http://ww w.chinastor.org/SANCunChuQuYuWangLuo/1922.html.

[7] VMware. VMware Virtual SAN産品特性[EB/OL]. (2016-05-17)[2017-04-25]. http://www.vmware.com/ cn/products/virtual-san.html.

[8] 魏青松.大規模分布式存儲技術研究[D]. 成都:電子科技大学,2004.

[9] 朱鋭.基于網絡編碼的分布式存儲系統安全性研究[D]. 西安:西安電子科技大学,2014.

[10] DEAN J.Experience with MapReduce:an abstraction for large-scale computation[R]. Seattle:ACM Press,2006:16-20.

[11] LIU J, LI B, SONG M N. The optimization of HDFS based on small files[C]. 2010 3rd IEEE International Conference on Broadband Network and Multimedia Technology,2010: 912-915.

※本稿は李清鋒 孔明茹 黄英来「基于高可用雲計算的中国智慧林業大数拠系統探究」(『世界林業研究』2017年第6期、pp.63-68)を『世界林業研究』編集部の許可を得て日本語訳/転載したものである。記事提供:同方知網(北京)技術有限公司