第129号
トップ  > 科学技術トピック>  第129号 >  知的対話に向けた画像認識技術の概要と展望(その3)

知的対話に向けた画像認識技術の概要と展望(その3)

2017年 6月30日

蒋樹強,閔巍慶,王樹徽:
中国科学院智能信息処理重点実験室(中国科学院計算技術研究所)

その2よりつづき)

5 モバイル端末に向けた画像認識技術

 近年、モバイルデバイス(携帯電話、タブレットPCなど)はますます普及しつつある。これらのデバイスの多くにはカメラとグラフィックスチップが搭載されており、さらにGPSやワイヤレスネットワーキングなどの機能を持つ。こうした原因により、モバイル端末の画像認識方面の応用はますます増えつつある。良く見られるものとして、ランドマーク認識[45-46]、商品認識[47-48]、食品認識[49-50]、芸術作品認識[51]などが挙げられる。リリースされているアプリにはGoggles[52]などがある。

 モバイル端末向けであるため、伝送速度の向上やメモリのオーバーヘッド減少など、モバイルデバイス資源の合理的な利用に焦点を当てている手法もある。Tsaiら[47]は低ビットレートのCHoG 特徴[53]を抽出し、さらにポジションヒストグラムコーディングを用い特徴記述子の位置を圧縮、最後に幾何学的検証を用いて検索結果を並び替えた。Heら[48]はビジュアルワーズ(VW)を定量化するのではなく、画像の局所特徴をコーディングしビット数の比較的少ないハッシュコードにすることで、画像をバッグ・オブ・ワーズ型のハッシュコードとして表示し、さらに境界素性を採用して検索結果を並び替えた。

 モバイルデバイスには様々なセンサーが搭載されており、GPSが取得した位置情報や撮影日時、カメラのパラメータといった撮影時のコンテキスト情報を画像に添付することができる。これらの情報を利用して画像中の目標を認識する取り組みもみられる。Rungeら[54]は画像のジオタグ、時間、画像のメインカラー、天気といった様々な情報と画像の視覚的特徴を組み合わせて一つの特徴ベクトルとし、分類器を利用して画像の概念タグを予測した。Chenら[45]はSIFT記述子の訓練で得られたボキャブラリーツリーに基づき、データベース中の画像とクエリ画像との類似度を計算、地理的に非常に遠く離れたランドマークを排除した後、特徴空間で近似最近傍探索(ANN)の手法を用い、クエリ画像の認識を行った。DhirajとLuo[55]は視覚と地理検出器をそれぞれ訓練し、同じ重みを使用して予測段階で融合した。Liら[56]はさらに、異なる概念に対してそれぞれ異なる検出器の重みを学習させた。Xuら[49]は地理情報を補助的に利用して料理のカテゴリを視覚的に認識する問題について研究した。分類モデルに対して地理的な制約を行うため、同論文ではジオローカライズドモデルを提起、地理コンテキスト情報を分類モデルの訓練プロセスに用いることで、根本的に地理情報にターゲットを絞ったモデルを実現した。最後にクエリ画像の地理座標に基づきこれらの分類モデルを自己適応的に組み合わせ、料理のカテゴリの予測を実現した。この手法で使用した画像特徴こそ、訓練された深さ特性である。

 近年、高い特徴学習能力を持つディープラーニングは、すでに様々なモバイル画像認識のタスクに応用されている。Teradeep[57]社はすでにモバイルおよび組み込みデバイスのためにディープラーニングに基づくアルゴリズムを開発し、モバイル端末によるシーン理解、物体検出、認識などを実現している。百度などの検索エンジン企業[58]も、DNN[5]などのディープラーニング技術をモバイル端末に基づく顔認識、靴認識、検索などのビジュアルタスクに応用している。

6 ロボットに向けた画像認識技術

 画像認識技術はロボット分野においても非常に大きな影響力を持ち、ロボットが外部環境の情報を感知するうえで重要な入力チャンネルの一つとして、ロボットのシーン理解と特定タスク遂行の補助において極めて重要な役割を果たしている。現在、画像識別技術のロボット分野における応用には主に環境理解[59-62]、自己学習物体認識[63-64]と知的対話[63]、ナビゲーションと障害物回避[65]などがある。

 ロボットに向けた画像認識技術はその他のシンプルな画像認識とは違い、ある程度の対話能力(言語、動作など)と多くの感知能力(深さ情報センサー、測位装置など)を備え、ロボットの視覚能力に対してある程度の補助の役割を果たしている。ロボットの視覚感知は、2D画像に基づく認識と3D視覚情報に基づく認識の2種類に分けられる。

 1)2D画像の認識では主に取得した画像に対して物体検出と全体的なシーン認識を行う。2D画像に基づく画像の認識では、画像から直接特徴を抽出、あるいは画像の領域特徴を抽出し、モデルを使ってタグ予測を行う。Rouanetら[63]の手法は、対話プロセスにおいてユーザーが指定した領域を使い画像領域を縮小し、その領域に対して特徴を抽出し、物体を認識する。ここで、インクリメンタル学習を行うため、生成モデルを用いて物体認識を行った。Wangら[61]は一種のインスタンスレベルの物体認識法を提起した。これは画像検索を利用して入力画像とデータベース中の画像のマッチングを行い、さらに空間整合性検証と投票メカニズムを経て物体を認識するというものだ。この手法の認識精度は比較的高いが、認識する物体に対する一般化能力に乏しいという欠点がある。

 2)3D画像認識は主に、Kinectのような深さ情報を取得できるセンサー、あるいはレーザー距離測定を用いて環境内の物体の深さを感知する。余分に得られた深さ情報は、ロボットが物体の位置および大きさを感知する上で役に立つ。Lvら[62]は Kinectを使って収集した深さ情報と人の骨格情報を使ってハンドヘルド・オブジェクトのセグメンテーションを行った。また、さまざまな状態の特徴を抽出して分類モデルを訓練し、人が手に持った物体への理解を実現した。Filliatら[59]は主に室内の物体の認識に取り組んだ。PCL[66]を利用して取得した3Dデータをポイントクラウドスペースにマッピングし、検出により床や壁などのノイズを除去すると同時にオブジェクトセグメンテーションを行い、さらに様々な特徴を結合してフィードフォワードニューラルネットワークの入力とし、総合的な特徴表現を学習した。

 画像認識技術はロボットが外部情報を感知するうえで重要なチャンネルである。ゆえに、今後の対話プロセスにおいて、画像認識技術を用いてロボットの理解能力を向上させ、ユーザーの対話エクスペリエンスを向上させる上で非常に重要な研究価値を持っており、取り組みがいのある方向性である。例えば、画像認識技術を用いて人の顔と物体を同時に認識することで、ユーザーの意図や趣味を関連付けて理解することができる。現在幅広く研究され、注目を集めている画像記述と質問応答技術も、まもなくロボットの視覚対話応用と融合し、新たな研究内容と応用シーンが生み出され、画像認識技術の更なる発展と進歩が促進されるであろう。

7 総括と展望

 関連理論と技術の大幅な発展により、画像認識と知的対話技術は過去20年間で日進月歩の変化を遂げた。スモールデータからビッグデータへ、手動による特徴設計からディープラーニングを代表とする視覚特徴学習へ、シンプルな内容から自然シーンへ、シンプルなモデルから複雑なモデルへ、単一の出力から複雑な出力へ、画像認識から画像理解、そして画像記述と質問応答へ。画像認識と知的対話技術はすでに実験室段階から現実的な応用シーンへと徐々に進みつつある。関連する手法、特にディープラーニング、視覚、自然言語処理といった技術の深い融合は急速に発展し、多くの技術が更新されている。視覚対話の主な形式は一般設備から徐々にスマート端末やロボットへと移り、視覚情報処理能力はますます向上し、マンマシン対話の体験もますますリアルになりつつある。

 以上の分析と論述から、画像認識と知的対話技術には以下の4つの発展趨勢がみられることが分かる。1)突出した一般化能力と視覚特徴キャプチャ能力を持つディープラーニングは、今後より深層的、多角的な画像認識・理解の各技術に応用されるとみられる。 2)画像認識と理解は言語、認識技術とより深く全面的に融合し、より高級な視覚理解と記述性のセマンティクスの出力がシンプルな物体やシーンの認識に取って代わるようになり、次の10年の研究の焦点となるとみられる。3)画像認識と理解は、特定の内容を持つ画像や動画の認識など、具体的な応用においてより深層的な融合と適応が進むとみられる。4)画像記述と画像質問応答の台頭に伴い、スマート端末とロボットの視覚能力がマンマシン知的対話においてますます重要な役割を果たすようになり、比較的限られたマンマシン対話モデルから、マルチチャネル・インテリジェント情報処理に基づく自然な対話へと進化を遂げるとみられる。

 一方で、画像認識と知的対話技術はその発展において、多くの課題に直面しており、主に以下の3つの方面が挙げられる。1)ディープラーニング技術による性能向上の主な手法の一つに、ネットワークの層数を増やすことで認識の精度を高めるというものが挙げられるが、より深いネットワークにはより多くのパラメータ訓練が必要になる。つまりより多くのサンプルと時間が必要になる。ゆえに、ネットワークの深度、畳み込みカーネルの数、畳み込みカーネルの大小などを含むネットワークモデルをいかにして設計するか、またいかにして迅速に高性能モデルを訓練するかが、今後ディープラーニング技術が直面する重要な課題となる。2)画像認識と理解技術は大きく進展したものの、既存の画像認識技術は依然としてシンプルなシーンしか理解できない。複雑なシーンを理解できる技術を設計することは、今後の視覚技術発展における難題である。3)現在の画像認識技術は依然として視覚情報が主だが、様々なセンサーの迅速な発展に伴い、様々なコンテキスト情報を得ることができるようになる。視覚情報とこれらのコンテキスト情報を効率的かつ有機的に結合できれば、特にロボットによる画像認識の応用において、その性能を大きく改善させることができる。今後、これらの技術的問題を解決することができたならば、画像認識と知的対話技術は将来ますます多くの分野で人類社会に福をもたらし、人々の生産、生活、消費、娯楽といった面により深く入り込み、インテリジェントで個性的かつ全面的なサービスを提供することができるであろう。

(おわり)

[5] Krizhevsky A,Sutskever I, Hinton G E.ImageNetclassification with deep convolutional neural networks[C]// Proc of the 26th Annual Conf on Neural InformationProcessing Systems.Cambridge,MA:MIT Press,2012: 1097-1105

[45] Chen D,Baatz G,Koser K,et al.City-scale landmarkidentification on mobile devices[C]//Proc of the IEEE Confon Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE,2011:737-744

[46] Lim J H,Li Yiqun,You Yilun,et al.Scene recognition withcamera phones for tourist information access[C]//Proc ofthe IEEE Int Conf on Multimedia &Expo.Piscataway,NJ: IEEE,2007:100-103

[47] Tsai S S,Chen D,Chandrasekhar V,et al.Mobile product recognition[C]//Proc of the Int Conf on Multimedia.New York:ACM,2010:1587-1590

[48] He Junfeng,Feng Jinyuan,Liu Xianglong,et al.Mobileproduct search with Bag of Hash Bits and boundary reranking [C]//Proc the IEEE Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2012:16-21

[49] Xu Ruihan,Herranz L,Jiang Shuqiang,et al.Geolocalized modeling for dish recognition [J].IEEE Trans on Multimedia,2015,17(8):1187-1199

[50] Kawano Y,Yanai K.Foodcam:A real-time food recognition system on a smartphone [J]. Multimedia Tools and Applications,2015,74(14):5263-5287

[51] Kurz D,Himane S B.Inertial sensor-aligned visual featuredescriptors [C]//Proc of the IEEE Conf on Computer Visionand Pattern Recognition. Piscataway, NJ:IEEE,2011: 161-166

[52] Google.Google Goggles [EB/OL]. [2015-07-05]. http://www.google.com/mobile/goggles

[53] Chandrasekhar V,Takacs G,Chen D,et al.CHoG:Compressed histogram of gradients[C]//Proc of the IEEEConf on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE,2009:2504-2511

[54] Runge N,Wenig D,Malaka R.Keep an eye on your photos:Automatic image tagging on mobile devices[C]//Proc of theInt Conf on Human-Computer Interaction with Mobile Devices &Services.New York:ACM,2014:513-518

[55] Dhiraj J,Luo Jiebo.Inferring generic activities and events from image content and bags of geo-tags[C]//Proc of the IntConf on Content-Based Image and Video Retrieval.New York:ACM,2008:37-46

[56] Li Xirong,Snoek C G M,Worring M,et al.Fusing conceptdetection and geo context for visual search[C]//Proc of theInt Conf on Multimedia Retrieval.New York:ACM,2012: 1-8

[57] TeraDeep Inc.Teradeep [EB/OL].[2015-07-05].http://www.teradeep.com

[58] LLRXcom.Chips [EB/OL]. [2015-06-06]. http://www.llrx.com/features/new-chips-are-using-deep-learning-to-enhance-mobile-camera-and-auto-image-processing-capabilities.htm

[59] Filliat D,Battesti E,Bazeille S,et al.Rgbd objectrecognition and visual texture classification for indoorsemantic mapping [C]//Proc of the IEEE Int Conf onTechnologies for Practical Robot Applications(TePRA). Piscataway, NJ:IEEE, 2012:127-132

[60] Lai K,Bo Liefeng,Ren Xiaofeng,et al.RGB-D Object Recognition:Features, Algorithms, and a Large ScaleBenchmark in Consumer Depth Cameras for Computer Vision [M].Berlin:Springer, 2013:167-192

[61] Wang Shuang,Jiang Shuqiang.INSTRE:A new benchmarkfor instance-level object retrieval and recognition[J]. ACMTrans on Multimedia Computing, Communications, and Applications, 2015,11(3):37:1-37:20

[62] Lv Xiong,Jiang Shuqiang,Herranz L,et al.RGB-D hand-held object recognition based on heterogeneous feature fusion [J].Journal of Computer Science and Technology, 2015,30 (2):340-352

[63] Rouanet P,Oudeyer P,Danieau Y,et al.The impact ofhuman-robot interfaces on the learning of visual objects[J]. IEEE Trans on Robotics, 2013, 29(2):525-541

[64] Matuszek C,Bo Liefeng,Zettlemoyer L,et al.Learningfrom unscripted deictic gesture and language for human-robotinteractions [C]//Proc of the 28th Conf on Artificial Intelligence. Menlo Park,CA:AAAI,2014:2556-2563

[65] Moubarak P M,Ben-Tzvi P.Adaptive manipulation of ahybrid mechanism mobile robot[C]//Proc of the IEEE IntSymp on Robotic and Sensors Environments.Piscataway, NJ:IEEE,2011:113-118

[66] Rusu R B,Cousins S.3Dis here:Point cloud library(PCL) [C]//Proc of the IEEE Int Conf on Robotics and Automation(ICRA).Piscataway,NJ:IEEE,2011:9-13

※本稿は蒋樹強,閔巍慶,王樹徽「面向智能交互的図像識別技術綜述与展望」(『計算機研究与発展』第53卷第1期、2016年、pp.113-122)を(『計算機研究与発展』編集部の許可を得て日本語訳・転載したものである。記事提供:同方知網(北京)技術有限公司