画像アノテーション技術

近年のデジタルカメラの普及により、建築業、製造業、保険業など数多くの業務現場で写真が用いられるようになっていますが、日々蓄積される写真の量は膨大であるため、その分類・整理に時間がかかっています。また訴求力のあるドキュメントを作成するために画像素材を用いるシーンも増えており、所望の画像を短時間で検索することが求められています。富士ゼロックスでは、画像にその内容を表す“ラベル”を自動的に付与する画像アノテーション技術の研究を行っています。この技術により、画像を自動的に分類したり、所望の画像を検索したりすることが可能となります。

画像アノテーション技術は、一般的には学習とラベル付与の2つのプロセスから成り、前者は大量の画像とラベルの組からなる学習コーパスを用意し、画像特徴とラベルの関連を学習させる統計的画像認識の手法を用いるアプローチが主流です。しかしながら、顧客それぞれで必要とされるラベルは異なり、顧客毎に大量の学習画像を用意することは現実的でないと考えています。この課題を解決するため、より少ない画像で学習可能な技術を目指しています。具体的な学習プロセスは、図1中の学習コーパスのようにいくつかの画像を用意し、各画像を複数の領域に分割(図では4×7)し、各領域画像から一つの画像特徴を抽出します。そして抽出された画像特徴をラベルごとに収集し統計的に分布を分析することにより、ラベル毎の画像特徴の分布をモデル化します。1枚の画像の中にはラベルに関連する画像特徴だけでなく背景などのノイズも多く含まれますが、統計的に分析することによりノイズの影響が軽減され、少ない画像による効率よい学習が可能となります。

図1:アノテーションモデルの学習プロセス

さらに、学習アルゴリズムに関して独自技術の開発を行っています。学習データが少ない場合、モデルが学習データに過剰に適合し、未知のデータに対して予測性能が劣化する過学習という現象があります。これに対し、各ラベルの確率モデル間にクロスエントロピー注1に基づいた制約を加えることで過学習を低減することに成功しました(注釈1)(文献1)。また、顧客毎のカスタマイズを容易にするためには、学習時間の短縮が重要ですが、画像特徴の分布のモデル化にランダムフォレストアルゴリズム注2を用いることで従来の約1/100の学習時間を実現しました(文献2)。

一方、ラベルを付与するプロセスは図2のようになります。こちらも学習プロセスと同様に入力画像を複数の領域に分割し、学習されたモデルを用いて各領域のラベル生成確率を計算します。そして各領域の確率を統合することにより、画像全体に対するアノテーションスコアを計算し、閾値(0ゼロ)以上のスコアのモデルをラベルとして画像に付与します(図2では、tigerとwaterがラベルとなります)。このようにして付与したラベル(たとえばflower)を用いて、図3のように画像の検索が可能となります。

図2:ラベル付与プロセス

図3:Flower画像検索例

画像アノテーション技術の難しさは対象画像によって大きく変わります。例えば、画像に背景が多く含まれるほど難度は高くなります。富士ゼロックスではさらなる研究開発を続け、業務で発生するすべての画像を分類・検索可能とすることを目指していきます。

  • 注記 東京大学新領域創成科学研究科 岡田研究室との共同研究
  • 文献1 Yukihiro Tsuboshita and Noriji Kato (Fuji Xerox, Co., Ltd.), Masato Okada (Graduate School of Frontier Sciences, University of Tokyo) ”Image Annotation Using Adapted Gaussian Mixture Model,” International Conference on Pattern Recognition (ICPR), pp.1346 – 1350(2012)
  • 文献2 Fukui, M., Kato, N., Qi, W., “Multi-Class Labeling Improved by Random Forest for Automatic Image Annotation”, Proc. IAPR Conf. Machine Visual Application, pp.202-205, 2011
  • 注1 クロスエントロピー:2つの確率分布の間に定義される尺度。
  • 注2 ランダムフォレストアルゴリズム:木構造の分類器である決定木を弱学習器とする集団学習アルゴリズムで、学習および分類を短時間で行うことが期待できる。