第129号
トップ  > 科学技術トピック>  第129号 >  知的対話に向けた画像認識技術の概要と展望(その1)

知的対話に向けた画像認識技術の概要と展望(その1)

2017年 6月30日

蒋樹強,閔巍慶,王樹徽:
中国科学院智能信息処理重点実験室(中国科学院計算技術研究所)

要旨:

 視覚は人と人の対話および人と自然界の対話のプロセスにおいて非常に重要な役割を果たしている。端末機器にインテリジェントな画像認識と対話の能力を持たせることは、人工知能とコンピュータ技術の核心的な挑戦であり、遠大な目標の一つでもある。画像認識技術は近年急速に発展しており、新たな革新的技術が次々と出現し、新たな研究課題も絶えず提起されている。知的対話に向けた応用にはいくつかの新たな動きがみられ、この分野に対する人々の認識は常に新たになりつつある。本稿では画像認識、画像記述、画像質問応答の3つの角度から画像認識技術について総括的に論じ、ディープラーニングに基づく画像認識およびシーン分類技術について具体的に紹介し、画像記述と質問応答技術の最新技術について分析と考察を行い、またモバイル端末とロボットの画像認識および対話の応用について紹介し、最後に当該分野の研究の今後の趨勢について分析を行った。

【キーワード】画像認識;インテリジェントな画像認識;知的対話;画像記述;画像質問応答;ディープラーニング

 人類が自然界において長期的に生存することができる大きな要因のひとつとして、周りの環境を迅速に認識し、理解する能力を持つことが挙げられる。中でも特に重要なのは、人類が視覚システムを利用してターゲットを測位し認識すると同時に、シーンの理解と記述を実現する点だ。もしコンピュータが自動的に画像認識を実現できるならば、人類の生活は必ずより一層豊かに、便利になるであろう。このため、画像認識技術は現在の人工知能分野における重要な研究方向の一つとなった。画像認識とは、コンピュータビジョン、パターン認識、機械学習などの技術や手法を駆使し、画像中に存在する一つ、あるいは複数のセマンティック概念を自動的に認識することを指す。広義の画像認識にはこのほか、認識する概念に対する画像領域の測位なども含まれる。画像認識技術は、各シーンにおける視覚的応用のユーザーニーズを満たすことができる。これには主に、インターネットに向けた画像検索とマイニング、モバイルデバイスやロボットといったスマート端末に向けたマンマシン対話や情報サービスなどが含まれる。

 最も初期の画像認識技術は、1960年代[1]にまでさかのぼることができる。1990年代以降、コンピュータの処理能力がますます高まるにつれて画像認識技術は大きく進歩、発展した。最初は数字認識、手書き文字認識から始まり、その後顔認識、物体認識、シーン認識、属性認識、詳細なターゲット認識へと徐々に発展し、採用される技術も初期のテンプレートマッチングや線形分類から現在幅広く使われているディープニューラルネットワーク、サポートベクターマシン分類へと発展した。特に2010年代に入るとコンピューティング能力が大きく向上し、新たな計算方法が絶えず提起され、利用可能なデータ資源が大幅に増加し、新たな応用モデルが次々と現れたことにより、画像認識およびその応用技術は研究の幅広さ、深さ、認識の効果性能、技術および応用の拡大などすべての面において、新たな趨勢がみられるようになった。中でも以下の4つの特徴は際立っている。1)画像の特徴表現が従来の手動設定から現在の自動学習へと変化した。これは主にディープニューラルネットワーク技術の幅広い応用によるものである。 2)画像認識の概念が初期の個々の概念(特定の概念、十数の概念の認識など)から何百あるいは数千の概念へと変化した。これは主に、ImageNet[2]、Places[3]、SUN397[4]といった大規模画像データセットの発展によって推進された。3)画像認識技術は今、自然言語理解技術と融合し、画像記述技術を構成している。画像認識が画像に対して個々の概念のタグ付けを行うだけであるのとは異なり、画像記述は一つの画像に対して一文、あるいは短い一節からなる記述を自動的に行うことができ、画像の内容をより全面的に記述することができる。4)応用モデルに関しては、従来の画像認識技術は監視や検索といった特定の応用シーンのみを目的とするものであったり、あるいはコンピュータビジョン分野の難題を突破するためだけのものであったため、技術の研究を行う上で、画像認識技術の応用シーンについては全面的に考慮されていなかった。技術の発展に伴い、知的対話とサービスに向けた応用モデルも徐々に研究者から注目されるようになった。これにより、画像認識技術の発展がより一層促進されることになった。

 本稿では、画像認識と応用技術の最新の進展について紹介する。手法に関しては、まずディープラーニングに基づく画像認識技術について論じ、主に物体認識とシーン認識の2つの角度から関連技術の特徴にアプローチする。Image Netはよく用いられる最新のデータセットで、物体概念の画像が主であるが、シーン概念の画像も少量ながら含まれる。同データセットは現在、様々なディープラーニングモデルの訓練用データソースとなっており、またアルゴリズム性能の主なテストサイトともなっている。また、SUN397やPlacesなどの大規模シーンデータセットの出現と普及に伴い、シーン分類技術は今や画像認識の重要研究課題となり、分類手法とモデル訓練のいずれにおいても新たな前進があった。これについても本稿で紹介する。このほか、ここ数年で盛んに研究されている画像記述と質問応答技術についても紹介する。これらは最新の研究方向である。視覚対話に向けた画像認識応用に関しては、主にモバイル端末向けとロボット向けの画像認識技術について論じる。また、画像理解に基づく知的対話の各応用モデルについても分析を行う。最後に、今後の研究の趨勢について展望と考察を行う。

1 ディープラーニングに基づく画像認識技術

 Krizhevskyら[5]がImageNet上で8層からなる深層モデルを訓練し、ImageNetコンペティションで高い効果を示したことをきっかけに、畳み込みニューラルネットワーク(convolutional neural network,CNN)は画像分類と認識分野において幅広く注目されるようになり、大きな成功を収めた。その後、画像認識の多くの応用シーンにおいて、畳み込みニューラルネットワークの性能は大幅に改良された。畳み込みニューラルネットワークは層ごとに画像の特徴を学習することができる。うち、低層部は画像のエッジ、コーナー、テクスチャなど一般的な(general)特徴を持つ。高層部の特徴は低層部の特徴を組み合わせたもので、特定のタスクに焦点を合わせた特定の(specific)特徴[6-7]である。層ごとの特徴学習は、人の脳の階層的情報処理メカニズムを模しており、オリジナルの画素から直接画像の特徴を得ることができる。畳み込みニューラルネットワークの画像認識と分類への利用は、以下の3種類の方法に集約できる。

 1)分類が必要なデータセット上に直接深層のネットワークを訓練する。CNNの深度と幅の増加に伴い、CNNの分類性能は顕著に向上した。Simonyanら[8]は19層からなるCNNモデル(VGG - 19)を提起、同モデルはKrizhevsky [5]が提起したモデルをふまえ、畳み込み層を追加することでモデルの深度を深めている。全ての層で比較的小さな畳み込みフィルタカーネル(3×3)を採用しているため、実現が可能となった。一方、Szegedyら[9]はヘッブの法則とマルチスケール処理にヒントを得て22層からなるディープラーニングモデルGoogLeNet[9]を提起した。これは複数のインセプションモデルを積み重ねたものである。同モジュールでは、サイズが異なる畳み込みカーネルを利用して前の層の出力を畳み込み、統合し、最後に後の層の入力を形成する。サイズの違う畳み込みカーネルは様々なスケールの視覚的特徴を捉えることができる。これらの特徴を融合することで、マルチスケールな見かけを持つという画像物体の特徴に、ネットワーク全体をより良く適応させることができる。また、シーン分類や物体分類といった様々な分類タスクに合わせて各データセット上に訓練されたモデルにもそれぞれ特性がある。例えばZhouらがPlaces[3]に訓練した深層モデルは、シーンの分類において高い効果を持つ。

 2)訓練されたネットワークから直接特徴を抽出する。訓練されたCNNモデルは直接特徴抽出器として使用でき、抽出した特徴はその他の後続操作に用いることができる。Donahueら[10]はKrizhevskyが提起したモデルを利用し、CNNの全結合層の特徴とSVM 分類器を結び付け、多くのデータセットにおいて効果的な分類を実現した。これにより、CNN の高層全結合層の特徴を一般的な視覚的特徴とすることができることが示された。一方、Liuら[11]は交差畳み込み層プーリング(cross-convolutional-layer pooling)技術を用いて畳み込み層の特徴を一般的特徴とし、MIT – 67などのデータベース上でより高い分類効果を実現した。Gongら[12]は複数のスケールにおいて画像ブロックに基づきCNN 特徴を抽出し、その後主成分分析( principal component analysis,PCA)による次元削減、およびVLAD(vector of locally aggregated descriptors)[13]符号化などを通じて画像の特徴を形成した。画像全体からCNN特徴を直接抽出するのと異なり、この方法で抽出された特徴は幾何学的不変性を持つ。Liら[14]は、画像のブロックレベルの特徴を複数抽出した上で、相関ルールを通じてこれらの特徴に隠されたパターンを発見することにより、画像の分類と認識を実現した。

 3)ターゲットデータセット上において、既存の深度モデルに対して「微調整」(ファインチューニング)を行う。特定のデータセット上で訓練されたモデルは高い汎化性能を持つが、ファインチューニングを行うことでより一層分類性能を高めることができる[15]。ファインチューニングは、ターゲットデータセット上でネットワークパラメータを再調整することで、深層モデルがターゲットタスクに焦点を合わせたより弁別的な特徴をキャプチャーできるようにするというものだ[16-17]

 表1は、各データセット上におけるCNNに基づく分類方法の最高の分類精度を示している。Krizhevskyらによる8層のCNN-S[5]ネットワークからSimonyan らによる22層のネットワークGoogLeNet[9]に至るまで、ネットワーク層の増加に伴い、CNN の性能は大きく向上した。表2は、2014年に行われたImageNet Large Scale Visual Recognition Challenge(ILSVRC 2014)[2,18]において上位7位にランクインした結果を示している。これらのチームはいずれもディープラーニングモデルを用いてテスト結果を得ている。表2で示されるように、GoogLeNetは最も多い22層のネットワークを採用し、最も高い性能を示した。2位につけたのは19層のネットワークを採用したVGGだった。SPPNet[18]はディープラーニングモデルの層数を増やすのではなく、空間ピラミッドモデルをディープラーニングモデルに導入することで入力画像のスケールの制限をなくしたため、ネットワーク層数が最多でもわずか7層という条件下で多くのディープラーニングモデルを組み合わせ、テスト結果で第3位につけた。表2からわかるように、これらディープラーニングモデルの構造にほぼ違いはなく、1)ネットワークの層数を増やすことで、より抽象的な表現を学習する。2)入力画像スケールの制限など、ディープラーニングにおけるいくつかの制限やボトルネックを解消する――といった方法で、ディープラーニングモデルを通じて引き続き認識性能を向上させることが可能だ。

Table 1 Object Classification Accuracy on Different Datasets
表1 各データセットの物体分類精度
Datasets Classes Total
Samples
Best
Methods
Accuracy/%
Caltech101 101 9 144 SPPNet 93.42
Caltech256 256 30 607 CNN-S 77.61
VOC2007 20 9 963 HCP[19] 85.20
ImageNet 10 000 1 281 167 GoogLeNet 93.33
Table 2 Results of ILSVRC 2014 Classification[18]
表2 ILSVRC 2014における各ディープラーニングモデルの物体分類結果[18]
Rank Methods Top-5Test
1 GoogLeNet 6.66
2 VGG 7.32
3 SPPNet 8.06
4 Howard 8.11
5 DeeperVision 9.50
6 NUS-BST 9.79
7 TTIC ECP 10.22

その2へつづく)

[1] Andreopoulos A, Tsotsos J K.50 years of objectrecognition:Directions forward[J]. Computer Vision and Image Understanding, 2013,117(8):827-891

[2] Russakovsky O,Deng Jia,Su Hao,et al.ImageNet:Largescale visual recognition challenge[J].International Journalof Computer Vision,2015,115(3):211-252

[3] Zhou Bolei,Lapedriza A,Xiao Jianxiong,et al.Learningdeep features for scene recognition using Places database[C] //Proc of the 28th Annual Conf on Neural InformationProcessing Systems.Cambridge,MA:MIT Press,2014:487-495

[4] Xiao Jianxiong,Hays J,Ehinger K,et al.Sun database:Large-scale scene recognition from abbey to zoo[C]//Proc ofthe IEEE Conf on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE,2015:3485-3492

[5] Krizhevsky A,Sutskever I, Hinton G E.ImageNetclassification with deep convolutional neural networks[C]// Proc of the 26th Annual Conf on Neural InformationProcessing Systems.Cambridge,MA:MIT Press,2012: 1097-1105

[6] Yosinski J,Clune J,Bengio Y,et al.How transferable features in deep neural networks[C]//Proc of the 28thAnnual Conf on Neural Information Processing Systems. Cambridge,MA:MIT Press,2014:3320-3328

[7] Zeiler M D,Fergus R.Visualizing and understandingconvolutional networks[C]//Proc of the 16th European Confon Computer Vision. Berlin:Springer, 2014:297-312

[8] Simonyan K, Zisserman A. Very deep convolutionalnetworks for large-scale image recognition[J].CoRR abs/1409.1556,2014

[9] Szegedy C,Liu Wei,Jia Yangqing,et al.Going deeper with convolutions[C]//Proc of the IEEE Conf on ComputerVision and Pattern Recognition. Piscataway, NJ:IEEE,2015:1-9

[10] Donahue J,Jia Yangqing,Vinyals O,et al.DeCAF:A deepconvolutional activation feature for generic visual recognition [C]//Proc of the 31st Int Conf on Machine Learning.New York:ACM,2014:647-655

[11] Liu Lingqiao,Shen Chunhua,Hengel A.The treasurebeneath convolutional layers: Cross-convolutional-layerpooling for image classification[C]//Proc of the IEEE Confon Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE, 2015:4749-4757

[12] Gong Yunchao,Wang Liwei,Guo Ruiqi,et al.Multi-scaleorderless pooling of deep convolutional activation feature[C] //Proc of the 16th European Conf on Computer Vision. Berlin:Springer,2014:392-407

[13] Jegou H,Douze M,Schmid C,et al.Aggregating localdescriptors into a compact image representation[C]//Proc ofthe IEEE Conf on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE,2010:3304-3311

[14] Li Yao,Liu Lingqiao,Shen Chunhua.Mid-level deep patternmining[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE,2015:971-980

[15] Chatfield K,Simonyan K,Vedaldi A,et al.Return of thedevil in the details:Delving deep into convolutional nets[C]//Proc of the British Machine Vision Conf.Nottingham,UK: British Machine Vision Association,2014

[16] Agrawal P,Girshick R,Malik J.Analyzing the performance of multilayer neural networks for object recognition[C]// Proc of the 16th European Conf on Computer Vision.Berlin: Springer,2014:329-344

[17] Azizpour H,Razavian A S,Sullivan J,et al.From Generic to specific deep representation for visual recognition [C]// Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE,2015:36-45

[18] He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Spatialpyramid pooling in deep convolutional networks for visualrecognition [J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916

[19] Wei Yunchao,Xia Wei,Huang Junshi,et al.CNN:Single-label to multi-label[J].CoRR abs/1406.5726,2014

※本稿は蒋樹強,閔巍慶,王樹徽「面向智能交互的図像識別技術綜述与展望」(『計算機研究与発展』第53卷第1期、2016年、pp.113-122)を(『計算機研究与発展』編集部の許可を得て日本語訳・転載したものである。記事提供:同方知網(北京)技術有限公司