第129号
トップ  > 科学技術トピック>  第129号 >  知的対話に向けた画像認識技術の概要と展望(その2)

知的対話に向けた画像認識技術の概要と展望(その2)

2017年 6月30日

蒋樹強,閔巍慶,王樹徽:
中国科学院智能信息処理重点実験室(中国科学院計算技術研究所)

その1よりつづき)

2 シーン分類技術

 シーン分類技術は通常、以下の2ステップから構成される。1)画像の中間層の特徴記述を抽出する。2)中間層の特徴記述に基づき分類器を訓練し、シーン分類を行う。過去10年間のシーン分類技術の発展は主に、この中間層特徴記述能力の不断の進歩に体現されてきた。典型的な中間層特徴記述として、バッグ・オブ・ワーズ(Bag-of-Words)[20]が挙げられる。これはクラスタリングによって視覚的特徴のコードブックを取得し、コードブックに基づいてコーディングを行い、バッグ・オブ・ワーズの特徴を取得し、さらにSVMを使って分類を行うというものだ。Liら[21]は物体に基づいた中間層の特徴記述を提起した。これは、あらかじめ物体検出器を学習し、検出器の反応がすなわちその物体の特徴記述となるというものだ。Rasiwasiaら[22]はシーンカテゴリの確率分布を中間層記述とし、それぞれのシーンカテゴリに対してディリクレ混合モデルを学習することで、未知の画像がそのシーンカテゴリに属する確率を予測した。すべてのシーンカテゴリの確率分布が、その画像の中間層特徴記述となる。具体的には、各意味空間のそれぞれのシーンカテゴリは以下のディリクレ混合分布によって表される。

image

 このモデルパラメータはパラメータはである。この取り組みは大局的な共生モデルのみを考慮したものだ。画像の特徴表現能力を高めるため、Songら[23]は局所空間と多くの特徴のコンテキスト情報を利用して文献[22]の中間層記述を最適化し、特徴記述能力を高めた。上述の方法と比較して、現在最も効果的なシーン分類方法はディープラーニングである。すなわち、CNNを訓練し、末端層の意思決定層を利用して分類するというものだ。CNNは従来の2ステップによる分類とは異なり、はっきりとした中間層特徴記述がないが、ネットワークの中間層の結果も一種の中間層特徴記述とみなされ、しかもSVM分類器と結合して分類に用いることができる。ここ数年におけるCNNの発展は主に以下の2方面に体現されている。 1)VGG-NET[8]やGoogLeNetといったさらなる深層ネットワーク。 2)Placesのような、より豊富な訓練画像データ。ネットワークの深さが増すにつれ、認識の精度も大幅に高まっている。また同時に、データセットが豊富化し、トレーニングセットがより多くのシーンカテゴリを包括できるようになったことから、シーン分類技術の実質的な応用が見えてきた。例えばマサチューセッツ工科大学がこのほど発表したシーン認識に関するデモンストレーション[24]は、すでに室内外および自然シーンの大部分を正確に認識できるレベルに達している。表3は、各データセットの現時点で最高のシーン分類性能を示している。

Table 3 Scene Classification Accuracy on Different Datasets
表3 各データセットのシーン分類性能
Datasets Total Classes
Samples
Best
Methods
Accuracy
/%
Scene15

15

4 485

CNN-Places[3] 90.2
MIT67

67

1 520

CNN+Fisher[25] 79.2
SUN397

397

108 762

CNN+Fisher[25] 61.7
Places

205

2 448 873

CNN-Places[3] 66.2

3 画像記述技術

 ターゲット検出および分類技術によって、画像中のユーザーが興味を持つ部分を複雑な背景から分離し、それを分類することができる。これをふまえ、ターゲット記述技術を駆使することにより、より豊富な情報を使ってさらなる結果を生み出すことができる。すなわち、自然言語を自動的に生成し、視覚ターゲットの記述を行うことが可能だ。

 コンピュータビジョンと自然言語理解分野の関連技術の発展に伴い、画像記述[26-33]技術は2014—2015年に飛躍的な発展を遂げた。2015年のMicrosoft COCO image captioning challengeにおいて、Microsoft[26-27]、Google[28]、モントリオール大学、トロント大学[29]、カリフォルニア大学バークレー校[30-31]などの研究機関の最新結果が、手動テストおよびチューリングテストにおいて驚くべき成果をあげた。Google(CNN視覚特徴とRNN(recurrent neural network)言語モデルに基づく)とMicrosoft(領域の単語検出と最大エントロピー言語モデルに基づく)は現在、技術および性能の面で他をリードしている。

 現在、ターゲット記述分野の主なソリューションはいずれもエンコーダ・デコーダ(encoder - decoder)という考え方に基づくものであり、最も代表的な手法には以下の2種類がある。

 1)Fangら[26]が用いたプロセス化の手法に類似したもの。画像に基づいて単語を取得し、さらに単語を組み合わせて文にし、最後に文を評価する。Fangら[26]はまず、マルチプル・インスタンス・ラーニング(MIL)という手法を用い、画像の各部分に対応する名詞、動詞、形容詞を生成した。次に最大エントロピー言語モデル (MELM)により、抽出した単語を含む文を生成し、最後に誤り率最小化学習(MERT)を使い、生成したすべての文を評価し、並び替えを行った。

 2)Vinyalsら[28]とKarpathyら[30]が用いたエンド・ツー・エンド(end–to-end)の手法に類似したもの。これは機械翻訳技術にヒントを得たもので、画像全体を特徴に転化し、さらに特徴を完全な文へと転化させるというものだ。Karpathyら[30]はCNNモデルを利用し、画像全体を一つの特徴に転化、さらにRNNモデルを用いて生成した単語に基づき文中の次の単語を予測、最終的に完全な記述を生成した。

 各手法の中のそれぞれのステップの研究にも大きな進展がみられている。プロセス化の手法では、Kirosら[34]がSC - NLM(structure–content neural language model)を提起した。SC-MLMはがほかのモデルと異なる点は、生成された単語に基づき次の単語を予測するのではなく、後に続く文の構造を予測するという点だ。エンド・ツー・エンドの手法では、Maoら[35]がm-RNN(multimodal recurrent neural network)モデルを提起した。これはマルチモーダルの部分を通じてCNNとLMを結び付けるというものだ。Donahueら[31]が提起したLRCNs(long-term recurrent convolutional networks)モデルは、可変長の入力と可変長の出力の間に直接マッピングを確立することができる。Chenら[36]が画像と記述のマッピングに関して提起した手法はこれと類似している。この手法は、画像と記述を同一の空間にマッピングするのではなく、画像と記述の間に直接双方向のマッピングを確立するというものだ。Jiaら[37]はgLSTM(guiding long–short term memory)モデルを採用した。これは図1に示されるように、LSTM モデル[28]をふまえ、外部のセマンティック情報を導入して画像キャプションを作成する。具体的には、gLSTMブロックのメモリセルとゲートは以下のように定義される。

 このうち、⊙は各項の相乗を、σ(·)はS字型関数を、h(·)は双曲線正接関数を、i’、f’、o’、c’、m’はそれぞれ入力ゲート、忘却ゲート、 LSTMセルの出力ゲート、メモリユニットセルの状態ゲートと隠れ状態を、xlは時間lの配列要素を表す。W[·][·]はモデルパラメータを代表する。gは導入されたセマンティック情報である。標準的なLSTM構造と比べ、gLSTMは新たなセマンティック項を導入した。同項は視覚とテキストフィールドをつなぐ架け橋となる。

FIg.1 Image caption generation using LSTM and the proposed gLSTM[37]

図1 LSTMとgLSTMを駆使した画像キャプションの生成[37]

 表4は各手法による画像キャプション生成性能の結果を示している。評価指標にはBLEU[38]を採用した。表4から、最新の手法であるHard-AttentionとgLSTMの性能が最も優れていることが分かる。

Table 4 Comparison of Different Methods on MS COCO
表4 MS COCOにおける各画像キャプチャ生成モデルの性能比較
Methods B@1 B@2 B@3 B@4
Multimodal RNN[30] 62.5 45.0 32.1 23.0
Google NIC[28] 66.6 46.1 32.9 24.6
LRCN-CaffeNet[31] 62.8 44.2 30.4  
m_RNN[38] 67.0 49.0 35.0 25.0
Soft-Attention[29] 70.7 49.2 34.4 24.3
Hard-Attention[29] 71.8 50.4 35.7 25.0
gLSTM 67.0 49.1 35.8 26.4

4 画像質問応答技術

 画像コンテンツ認識と分類のもう一つの新しい応用シーンとして、画像質問応答が挙げられる。これも近頃研究者の注目を集める新たな分野である。同技術は自然言語理解と画像コンテンツ記述を結び付け、画像コンテンツに基づきユーザーの質問への応答を生成することができる。現在の画像質問応答には主に、推論とエンド・ツー・エンドのディープラーニングという2種類の方法がある。

 推論の手法で比較的代表的なのは、Malinowskiら[39]が提起した不確定入力に基づくマルチワールド(multi-world)を用いて、現実世界のシーン質問応答を実現するというものだ。同手法では、深さ情報を持つデータセット NVU-Depth V2データセットを用い、シーンに対してセマンティック・セグメンテーションアルゴリズム[40]を使用しワールドを構築すると同時に、物体のカテゴリ、3D位置や色など、物体に関する認識情報を収集する。そして、一つのシーンに対する複数のワールド解釈を利用する。ここでのワールド解釈とは、セマンティック・セグメンテーションによって生成されるものだ。最後に確率モデルを通じて事後確率が最も高い応答を取得する。

 エンド・ツー・エンドのディープラーニングの手法は主に、自由形式の入力による質問テキストである。応答の出力は主に 1)Malinowskiら[41]とGaoら[42]によるRNNに基づく枠組みで、自由形式の応答を生成できる。2)Gemanら[43]と Maら[44]が提起した、分類方式に基づき応答を生成する枠組み――の2種類に分けられる。Gaoら[42]はlong-short term memory(LSTM)を採用し入力した質問表現を抽出すると同時に、CNNを利用して視覚画像表現を抽出し、さらにLSTMの応答ストレージ中の言語環境情報を利用した。最後にフュージョンコンポーネントを利用して3つの成分を融合させ、応答を生成した。Maら[44]は入力質問に対してCNNを使用して入力質問表現を生成し、同時にCNNを利用して画像のビジュアル表現を生成、さらにマッピング行列によってそれを質問表現と同じベクトル長にマッピングし、最後に2つの表現ベクトルを混合し、さらに畳み込みとsoftmaxを利用して分類を行い、対応する応答を出力した。図2を参照のこと。

FIg.2 The proposed CNN model for image QA[44].

図2 画像質問応答のCNNモデル[44]

 現在、画像質問応答に焦点を合わせた取り組みはまだ多くはないが、この分野においてディープラーニングがすでに比較的高い効果を上げていることが分かっている。これは主に、ディープラーニングがビジュアル表現と自然言語理解などの分野において大きな発展を遂げたことによる。

その3へつづく)

[3] Zhou Bolei,Lapedriza A,Xiao Jianxiong,et al.Learningdeep features for scene recognition using Places database[C] //Proc of the 28th Annual Conf on Neural InformationProcessing Systems.Cambridge,MA:MIT Press,2014:487-495

[8] Simonyan K, Zisserman A. Very deep convolutionalnetworks for large-scale image recognition[J].CoRR abs/1409.1556,2014

[20] Dixit M,Chen Si,Gao Dashan et al.Scene classification with semantic Fisher Vectors[C]//Proc of the IEEE Conf onComputer Vision and Pattern Recognition.Piscataway,NJ: IEEE,2015:3485-3492

[21] Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scenecategories [C]//Proc of the IEEE Conf on Computer Visionand Pattern Recognition.Piscataway,NJ:IEEE,2006:2169-2178

[22] Li Lijia,Su Hao,Xing E,et al.Object bank:A high-level image representation for scene classification and semanticfeature sparsification[C]//Proc of the 24th Annual Conf onNeural Information Processing Systems.Cambridge,MA: MIT Press, 2010:1378-1386

[23] Rasiwasia N,Vasconcelos N.Holistic context models for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2012,34(5):902-917

[24] Song Xinhang,Jiang Shuqiang,Herranz L.Joint multi-feature spatial context for scene recognition in the semanticmanifold[C]//Proc of the IEEE Conf on Computer Visionand Pattern Recognition.Piscataway,NJ:IEEE,2015: 1312-1320

[25] MIT.Places[EB/OL].[2015-07-10].http://places.csail.mit.edu/demo.html

[26] Fang Hao,Gupta S,Iandola F,et al.From captions to visual concepts and back[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE,2015:1473-1482

[27] Devlin J,Cheng Hao,Fang Hao,et al.Language models for image captioning:The quirks and what works[C]//Proc ofthe 2015 Conf of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2015:100-105

[28] Vinyals O,Toshev A,Bengio S,et al.Show and tell:Aneural image caption generator[C]//Proc of the IEEE Confon Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE,2015:3156-3164

[29] Xu K,Ba J,Kiros R,et al.Show,attend and tell:Neural image caption generation with visual attention[J].CoRRabs/1502.03044,2015

[30] Karpathy A,Li F.Deep visual-semantic alignments forgenerating image descriptions[C]//Proc of the IEEE Conf onComputer Vision and Pattern Recognition.Piscataway,NJ: IEEE,2015:3128-3137

[31] Donahue J,Hendricks L,Guadarrama S,et al.Long-termrecurrent convolutional networks for visual recognition anddescription[C]//Proc of the IEEE Conf on Computer Visionand Pattern Recognition.Piscataway,NJ:IEEE,2015: 2625-2634

[32] Vedantam R,Zitnick C L,Parikh D.CIDEr:Consensus-based image description evaluation[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE,2015:4566-4575

[33] Chen Xinlei,Zitnick C L.Mind's eye:A recurrent visualrepresentation for image caption generation[C]//Proc of theIEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE,2015:2422-2431

[34] Kiros R,Salakhutdinov R,Zemel R.Unifying visual-semantic embeddings with multimodal neural language models [J].CoRR abs/1411.2539,2014

[35] Mao Junhua,Xu Wei,Yang Yi,et al.Explain images withmultimodal recurrent neural networks[J].CoRR abs/1410. 1090,2014

[36] Chen Xinlei,Zitnick C L.Mind's eye:A recurrent visualrepresentation for image caption generation[C]//Proc of theIEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2015:2422-2431

[37] Jia Xu,Gavves E,Fernando B,et al.Guiding long-short term memory for image caption generation[J]. CoRR, abs/ 1509.04942,2015

[38] Mao Junhua,Xu Wei,Yang Yi,et al.Deep captioning with multimodal recurrent neural networks(m-RNN)[J].CoRR, abs/1412.6632,2014

[39] Malinowski M,Fritz M.A multi-world approach to question answering about real-world scenes based on uncertain input [J].CoRR,abs/1410.0210,2014

[40] Gupta S,Arbelaez P,Malik J.Perceptual organization and recognition of indoor scenes from RGB-D images[C]//Procof the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2013:564-571

[41] Malinowski M,Rohrbach M,Fritz M.Ask your neurons:A neural-based approach to answering questions about images [J].CoRR,abs/1505.01121,2015

[42] Gao Haoyuan,Mao Junhua,Zhou Jie,et al. Are you talking to a machine/Dataset and methods for multilingual image question answering[J]. CoRR, abs/1505. 05612,2015

[43] Geman D,Geman S,Hallonquist N,et al.Visual turing test for computer vision systems[J].Proceedings of the NationalAcademy of Sciences of the United States of America,2015, 112(12):3618-3623

[44] Ma Lin,Lu Zhengdong,Li Hang.Learning to answerquestions from image using convolutional neural network [J]. CoRR, abs/1506.00333,2015

※本稿は蒋樹強,閔巍慶,王樹徽「面向智能交互的図像識別技術綜述与展望」(『計算機研究与発展』第53卷第1期、2016年、pp.113-122)を(『計算機研究与発展』編集部の許可を得て日本語訳・転載したものである。記事提供:同方知網(北京)技術有限公司