アーバンコンピューティング概論(その4)
2016年 6月29日
鄭宇:マイクロソフトリサーチアジア(MSRA)、
上海交通大学致遠学院、西南交通大学情報科学・技術学院
博士、マイクロソフトリサーチアジア(MSRA)主管研究員。主な研究テーマはアーバンコンピューティング、時空間データマイニング及びユビキタス・コンピューティング。『MIT Technology Review』のMIT TR35に選出、イノベーターの代表としてアメリカTime誌に掲載。2014年、主導的な役割を果たしたアーバンコンピューティングは、ビジネス的将来性と業界構成変革の潜在力が高いとして、フォーチュン誌の「40歳以下の中国ビジネス界のトップスター40人」に選出。
(その3よりつづき)
3 アーバンコンピューティングの主な技術
アーバンコンピューティングは学際的な領域であり、一定の業界知識と結びつける必要があるため、使用できる手法は数多く存在する。コンピューター科学の視点から見れば、アーバンコンピューティングの主な技術は以下5つの分野に跨る。
3.1 センシング技術
1) センサーネットワーク技術:すでに設置されている専門のセンサー間(温度センサーや位置センサー、交通流センサー、大気質観測器等)の相互接続を行い、データのスピーディな収集を実現する。
2) 参加型センシング技術[59]。ユーザーが自ら入手したデータをシェアすることで複雑なミッションを実現するもの。例えば、全てのユーザーがスマートフォンのセンサーを用いて周辺の気温や湿度を提供すれば、粒度の細かい気象情報を構築することができる。
3) 受動的集団センシング:都市における発達した各種情報インフラ(セルラー移動通信システム及び公共交通のカードシステム等)は、アーバンコンピューティングに良好なセンシング・プラットフォームを提供する。これらのインフラはアーバンコンピューティングのために特に設置されたものではないかもしれないが、ユーザーがこれらのインフラを使用すると大量のデータが発生するため、これらのデータを融合すれば都市の持つ規則性が非常に良く表現される。例えば、大量のユーザーの地下鉄におけるカード使用データを分析することで、都市の人口流動リズムを把握することができ、大規模なタクシーの走行軌跡データを分析することで都市道路の交通流を知ることができる。2つ目のセンシング技術と異なり、受動的集団センシングでは、ユーザーは自分のデータが何に使われているかを全く知らないばかりか、自分がデータを生じさせていることさえ知らない。
3.2 データ管理技術
1) データ流の管理技術:大量のセンシングデータはデータ流の形式で入力されるため、データ流の効率的なデータベース管理技術は、アーバンコンピューティングにおけるデータ管理層の基本である。
2) 軌跡管理技術:交通流や人の移動、位置情報を持つソーシャルメディアはいずれも軌跡データ(すなわち、タイムスタンプを持ち、かつ、時系列で配列される点列)として表示される。軌跡処理技術[60]はアーバンコンピューティングでよく用いられる手法であり、例としては、マップマッチングアルゴリズム[61-62]や軌跡圧縮[63-64]、軌跡検索[65-67]、軌跡頻出パターンマイニング[68-71]等がある。
3) グラフィカルデータ管理技術:ソーシャルネットワークにおける人間関係や異なる地区間の人口流動、道路上の交通流等は、いずれもグラフィカルモデルとして表現される。このため、グラフィカルデータの管理とモデル識別技術は特に重要である。アーバンコンピューティングの実用においては、時空間属性を有するグラフィカルモデルがより多く利用され、すなわち全てのノードに空間座標情報があり、図の辺と点の属性(ひいては図の構造でさえも)が時間に伴い変化する。前述の最短路線の設計[5,6や、道路網における非合理的計画の調査[2]、地区ごとの都市機能の識別[3]、交通流の異常調査[56]は、いずれも時空間的属性を持つ図を研究モデルとしている。
4) 時空間データインデックス技術:効果的なインデックスによって、データ抽出は大幅に効率的になる。空間と時間はアーバンコンピューティングで最もよく使われるデータ次元であるため、各種空間インデックス[72,73]及び時空間インデックス技術[74]はいずれも良く使用される。さらに重要なのは、時空間インデックス技術を利用して異なる種類のデータ(例えば文書、自動車の流量等)を関連付けてオーガナイズすることであり、これはその後の効率的なデータマイニングと分析の良い準備となる。
3.3 データマイニング技術
アーバンコンピューティングに使用できるデータマイニング及び機械学習アルゴリズムは広範にわたっており、かつ、厳密には限定されていない。各種モデルや統計的学習、人工知能等の手法はいずれもこの領域に応用できる。しかし、これら技術の選択の際は、以下2つの要素を重点的に考慮する必要がある。
3.3.1 異種データから相互を増強する知識を学習する
この目標を実現するには3つの方法がある。1つ目は、異なるデータからそれぞれの特徴を抽出した後に、これら特徴を繋ぎ合わせ、かつ、一つの固有値に正規化して機械学習モデルに入力するものである。しかし、ここでは異なるデータの特性を区分しないため、この方法が最も有効なわけではないことが証明されている。2つ目は、計算モデルの異なる段階において、異なるデータを使用するものである。例えば、文献[2]では、まず道路データを用いて都市を多くの区域に分割し、それから走行軌跡データをこれら区域上にマッピングして図を構築し、最終的にグラフィカルモデルの分析によって非合理的な道路計画を探し出す。3つ目の方法は、異なるデータをそれぞれ同一の計算モデルの異なる部分に入力するものである。図15で示すように、文献[3]では人の移動データとPOIデータを同じテーマのモデルにおける2つの異なる部分にそれぞれ入力することで、都市機能の異なる区域を分析しようとしている。
図15 グラフィカルモデルに基づく都市機能地区の識別
Fig. 15 Identify Functional Regions Based on a Topic Model
図16で示すように、文献[15]では交通流、人の移動データ及び気象データ等の時間変化情報を1つの条件付確率場に入力することで、ある地点の大気における時系列の相関性をシミュレーションしようとしており、道路構造やPOI分布等の空間情報(非時間変化情報)をニューラルネットワークに入力することで異なる地区間の大気質の相関性もシミュレートしようとしている。そして、最終的に、これら2つのモデルは半教師あり学習(SSL)のフレームワーク内で相互に反復し、増強し合い、ある地点の大気質を協調して推測する。もし、単純なあらゆるデータを一つの分類器に入力するに過ぎないなら、データは無視され、予測効果は悪いものとなるだろう。
図 16半教師あり学習モデルに基づく異種データの融合
Fig. 16 Fusion Heterogeneous Data Sources in a Co-training-based Framework
3.3.2 データのスパース性への対応
ビッグデータとデータのスパース性は相矛盾しない。粒度の細かい都市大気質の予測を例にすれば、観測可能な交通流、人の流れ、道路及びPOIデータのいずれもビッグデータであるが、わずかなモニタリング拠点しか大気質の正確なデータを観測できないため、訓練データは非常にスパース性が高い(特徴データが大きいとは言え)。タクシーを利用した都市のガソリン消費予測[22]がその一例である。総じて、タクシーのGPS走行軌跡データは膨大だが、一定の時間内にタクシーの走行のない道路区間が相当部分存在する。これら道路区間の速度とガソリン消費を如何に推算するかが、データのスパース性に対応する問題である。データのスパース性に対応するには、一般に以下の3つの方法を採用する。
1)マトリックス(またはテンソル)分解アルゴリズム及び協調フィルタリングの採用。図17で示すように、文献[17]においては、テンソル分解に協調フィルタリングを結びつけた方法で都市騒音の分析プロセスで直面するデータのスパース性問題に対応している。中間の3次元テンソルモデルは異なる時間帯を表現しており、任意の地理的地区における様々な騒音タイプに対するユーザーのクレーム状況が示されている。周辺の3つのマトリックスはその他3つのデータソースに基づいて構築されており、それぞれ地区間の地理的特性によってもたらされる相似性と、人の移動の間の相似性(並びに異なる時間帯の間の相似性)、騒音タイプ間の相関性を表現している。この方法も、実際にはデータ融合の一種である。都市のガソリン消費推算[22,23]と道路区間の通行時間推算[4]においても類似技術が使われている。
図17 テンソル分解と協調フィルタリングに基づく都市騒音分析
Fig. 17 Diagnose Urban Noises Through Context-Aware Tensor Decompositio
2) 半教師あり学習アルゴリズム又は転移学習アルゴリズムの使用。文献[15]では、半教師あり学習アルゴリズムを使用して大気モニタリング拠点の少なさによる訓練データのスパース性問題を埋め合わせようとしている。半教師あり学習では、様々な分布のその他のデータソースから知識を獲得することで、機械学習ミッションにおける訓練データ不足問題を解決しようとしている。例としては、道路網におけるタクシーの分布に基づいた他の車両の分布状況の学習がある。
3) 相似性に基づくクラスタリング手法。地中に埋設した磁気センサーによって道路上の車両数を推算しなければならないと仮定された場合に、全ての道路に磁気が埋設されているわけではないため、多くの道路上の流量は推算できないとする。この場合は、道路のトポロジー結果や周辺のPOI分布等の情報によって、様々な道路間の相似性を推算し、道路についてクラスタリングを行うことができる。こうすれば、同じタイプに分類された道路は同様の自動車流モデルである可能性が高い。そこで、同じタイプの道路では、センサー設置道路のデータをセンサーが設置されていない道路に付与することができる。
3.4 最適化技術
アーバンコンピューティングにおいても各種最適化技術はよく使用されている。例えば、文献[10,11]は、時空間捜索技術と経路の最適化を結合させて、乗客を乗せるのに最適なタクシーを探し出す。文献[56]は、線形計画によって交通異常の発生確率の最も高い自動車流を分析する。文献[8,9]は、タクシー運転手に対して乗客を探すのに最も良い路線をアドバイスする。また、文献[4]は、動的計画法アルゴリズムを利用して組合せの異なる軌跡における演算の複雑度を最適化する。
3.5 プールド・データによる可視化技術
可視化技術においては、直感的な方法によって我々が取得した知識やモデルを理解するのを助ける。単一データの可視化と異なり、アーバンコンピューティングにおける可視化技術では、複数の次元について同時に考慮する必要があり、中でも、空間と時間は2つの重要な次元である。
図18は、営業日の午後12~14時の間にタクシーに乗ってそれぞれの地区に到着した人数のヒートマップである(色が濃いほど、人が多いことを示す)。異なる時間帯のヒートマップを連続して発信することで、都市全体の人口流動規則を動態的に反映することができる。比較すると、北京市東部に位置する北京ビジネス中心地区(北京CBD)は人気が高い。
図4は、都市機能の異なる地区の空間分布を示している。図8は、粒度の細かい都市大気質データを示している。また、図9と図10はニューヨーク市の騒音汚染時間と空間分布の状況を表している。図12は、都市道路上のガソリン消費と汚染物質排出を可視化したものである。このような可視化は、我々がデータ及び結果を展開する上で助けになるだけでなく、より高い次元の知識に気づき、都市の直面する問題に対する解決策を決める上で役に立つ。
図18 北京市街地の人口到達ヒートマップ
Fig. 18 Heat Map of Beijing Urban Areas in Terms of People'S Arrivals
4 最後に
アーバンコンピューティングは、新興かつ重要な学際的分野であり、コンピューター科学と既存の都市計画、交通、エネルギー、経済、環境及び社会学等の様々な分野と都市空間が交錯したものである。そしてこれは、人類の将来のQOLと持続可能な発展に関係してくる。本稿では、アーバンコンピューティングの概念と基本的なフレームワークを紹介し、主な研究テーマとよく使われる技術や実用例の分類を概括し、かつ、典型的な事例を紹介した。ビッグデータ時代の到来によって、アーバンコンピューティングにさらなるチャンスとより大きな将来性がもたらされている。
(おわり)
参考文献
[2] Zheng Y, Liu Y, Yuan J, et al.Urban Computing with Taxicabs[C]. UbiComp,Beijing, 2011
[3] Yuan J, Zheng Y, Xie X. Discovering Regions of Different Functions in a City Using Human Mobility and POIs[C]. KDD, Beijing,2012
[4] Wang Y, Zheng Y, Xue Y. Travel Time Estimation of a Path Using Sparse Trajectories[C]. KDD, New York, 2014
[5] Yuan J, Zheng Y, Zhang C, et al.T-Drive: Driving Directions Based on Taxi Trajectories[C]. SIGSPATIAL GIS,San Jose, California, 2010
[6] Yuan J, Zheng Y, Xie X, et al. Driving with Knowledge from the Physical World[C]. KDD,San Diego, California, 2011
[8] Yuan J, Zheng Y, Zhang L, et al.Where to Find My Next Passenger?[C]. UbiComp,Beijing ,2011
[9] Yuan J, Zheng Y, Zhang L, et al. T-Finder: A Recommender System for Finding Passengers and Vacant Taxis[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(10):2 390-2 403
[10] Ma S, Zheng Y, Wolfson O. T-Share: A Large-Scale Dynamic Taxi Ridesharing Service[C]. ICDE,Brisbane, Australia,2013
[11] Ma S, Zheng Y, Wolfson O. Real-Time City-Scale Taxi Ridesharing[J]. IEEE Transactions on Knowledge and Data Engineering, 2014,DOI:10.1109/TKDE.2014.2334313
[15] Zheng Y, Liu F, Hsieh H P. U-Air: When Urban Air Quality Inference Meets Big Data[C]. KDD,Chicago, IL, USA ,2013
[17] Zheng Y, Liu T, Wang Y, et al. Diagnosing New York City's Noises with Ubiquitous Data[C]. UbiComp,Seattle, WA, USA, 2014
[22] Shang J, Zheng Y, Tong W, et al. Inferring Gas Consumption and Pollution Emission of Vehicles throughout a City[C]. KDD, New York, 2014
[23] Momtazpour M, Butler P, Hossain M S, et al. Coordinated Clustering Algorithms to Support Charging Infrastructure Design for Electric Vehicles[C]. UrbComp,Beijing, 2012
[56] Chawla S, Zheng Y, Hu J. Inferring the Root Cause in Road Traffic Anomalies[C].ICDM,Brussels, Belgium, 2012
[59] Goldman J, Shilton K, Burke J, et al. Participatory Sensing:A Citizen-Powered Approach to Illuminating the Patterns that Shape our World[EB/OL]. http://www.mobilizingcs.org/wp-content/uploads/Participatory_Sensing.pdf,2014
[60] Zheng Y, Zhou X. Computing with Spatial Trajectories[M]. New York: Springer 2011
[61] Lou Y, Zhang C, Zheng Y, et al. Map-Matching for Low-Sampling-Rate GPS Trajectories[C]. ACM SIGSPATIAL GIS,Seattle, Washington, 2009
[62] Yuan J, Zheng Y, Zhang C,et al. An Interactive-Voting Based Map Matching Algorithm[C]. MDM,Kansan City, Missouri, USA, 2010
[63] Chen Y, Jiang K, Zheng Y, et al. Trajectory Simplification Method for Location-Based Social Networking Services[C]. LBSN,Seattle, WA, USA, 2009
[64] Song R, Sun W, Zheng B , et al. PRESS: A Novel Framework of Trajectory Compression in Road Networks[C]. VLDB,Hangzhou, China, 2014
[65] Wang L, Zheng Y, Xie X, et al. A Flexible Spatio-Temporal Indexing Scheme for Large-Scale GPS Track Retrieval[C].MDM,Beijing,China,2008
[66] Chen Z, Shen H T, Zhou X, et al. Searching Trajectories by Locations: An Efficiency Study[C].SIGMOD,Indianapolis, Indiana, USA, 2010
[67] Tang L, Zheng Y, Xie X, et al. Retrieving k-Nearest Neighboring Trajectories by a Set of Point Locations[C]. SSTD,Minneapolis, MN, USA, 2011
[68] Xue A Y, Zhang R, Zheng Y, et al. Destination Prediction by Sub-Trajectory Synthesis and Privacy Protection against Such Prediction[C]. ICDE, Brisbane, China,2013
[69] Tang L, Zheng Y, Yuan J, et al. Discovery of Traveling Companions from Streaming Trajectories[C]. ICDE, Washington DC, USA ,2012
[70] Tang L, Zheng Y, Yuan J, et al. A Framework of Traveling Companion Discovery on Trajectory Data Streams[J]. ACM TIST, 2013,DOI:10.1145/2542182.2542185
[71] Zheng K, Zheng Y, Yuan N J, et al. On Discovery of Gathering Patterns from Trajectories[C]. ICDE, Brisbane,China,2013
[72] Sheng C, Zheng Y, Hsu W, et al. Answering Top-k Similar Region Queries[C].DASFAA,Tsukuba,Japan,2010
[73] Shekhar S, Chawla S. Spatial Databases: A Tour[M].New Jersey : Prentice Hall, 2003
[74] Güting R H, Schneider M. Moving Objects Databases[M]. Massachusetts : Academic Press, 2005
※本稿は鄭宇「城市計算概述」『武漢大学学報(信息科学版)』第40巻 第1期、2015年1月,pp.1-13)を『武漢大学学報(信息科学版)』編集部の許可を得て日本語訳・転載したものである。
記事提供:同方知網(北京)技術有限公司