ホーム > 企業情報 > 技術開発への取り組み > 卓越した商品、ソリューション、サービスを支える技術 > マルチメディア・コンテンツ・マネジメント・システム > 文字・画像・音声を活用した動画インデキシング技術

文字・画像・音声を活用した動画インデキシング技術

近年、ビデオカメラやスマートフォン、デジタルカメラなどの機器が普及し、手軽に動画を記録できるようになってきています。また、動画を扱うサービスやインフラ等も充実し、ネットワークを介した動画の利用が広がり、検索エンジンで簡単に動画を検索して楽しむことが出来ます。しかし、動画を検索するには、あらかじめ日付や作者、検索用キーワード、ディスクリプション(説明文章)などのメタデータの付与が必要であり、メタデータが付与されていない動画は、一般の検索エンジンでは検索できません。また、通常メタデータの付与は手作業で行われるため、工数がかかります。さらに検索が行えても、ある動画の見たいシーンのみを検索することは、一般的な検索エンジンでは対応していません。

そこで、米国カリフォルニア・シリコンバレーにある富士ゼロックス・パロアルト研究所(FX Palo Alto Laboratory, Inc.)では、動画に含まれるテキスト(文字列)に着目し、動画のシーンをテキストで簡単に検索できる「動画インデキシング技術」を開発しました。この技術は、講演を撮影したWeb上の動画や講義ビデオを対象として、キーワードをテキストボックスに入力し検索ボタンを押すだけで、そのキーワードを映像中に含む動画や、キーワードが出現する動画の中のシーンを検索できます。またこの技術は、自動で動画内にあるスライド部分からテキストを抽出してインデックス化を行うため、メタデータの付与がない動画についても検索が可能です。

図1:テキスト(文字)を活用した動画インデキシング技術解析フロー図

図1において、講演ビデオを例にしてテキスト(文字)を活用した動画インデキシング技術の解析フローを説明します。まず画像処理により解析を行い、一定時間動かないビデオセグメントをスライドとして認識し、講演ビデオ内からスライド画像を抽出します。次に抽出されたスライド画像について、OCRによる文字認識処理を行い、テキスト(文字列)を抽出します。その後、テキストとスライド画像を自動で紐付けてインデックス化し、データベースに保存します。そして利用者は、検索ブラウズ用のウェブインターフェイスからデータベースにアクセスし、必要な画像を検索する事ができます。
また 、富士ゼロックスが研究を行っている自動画像アノテーション技術と組み合わせることにより、ビデオコンテンツから抽出した画像に自動でインデキングすることも可能です。現在、講演者の音声を活用してインデックス化を行う研究も進めています。

関連情報