国/地域:
近年、ビデオカメラや携帯電話、デジタルカメラが普及し、手軽に動画を記録できるようになってきています。また、動画を扱うサービスやインフラ等も充実し、ネットワークを介した動画の利用が広がり、検索エンジンで簡単に動画を検索して楽しむことが出来ます。しかし、動画を検索するには、あらかじめ日付や作者、検索用キーワード、ディスクリプション(説明文章)などのメタデータの付与が必要であり、メタデータが付与されていない動画は、一般の検索エンジンでは検索できません。また、通常、メタデータの付与は手作業で行われるため、工数がかかります。さらに検索が行えても、ある動画の見たいシーンのみを検索することは、一般的な検索エンジンでは対応していません。
そこで、米国カリフォルニア・シリコンバレーにあるFX パロアルトラボラトリー(FX Palo Alto Laboratory, Inc.)では、動画に含まれるテキスト(文字列)に着目し、動画のシーンをテキストで簡単に検索できる技術「TalkMiner(トークマイナー)」を開発しました。TalkMinerは、Web上の講演を撮影した動画や講義ビデオを対象として、キーワードをテキストボックスに入力し検索ボタンを押すだけで、そのキーワードを映像中に含む動画や、キーワードが出現する動画の中のシーンを検索できます。また、この技術は自動で動画内に撮影されたスライドからテキストを抽出してインデックス化を行うため、メタデータの付与がない動画についても検索が可能です。

図1:TalkMiner解析フロー図
図1において、TalkMinerの解析フローを講演ビデオを例にして解説します。まず、画像処理により解析を行い、一定時間動かないビデオセグメントをスライドとして認識し、講演ビデオ内からスライド画像を抽出します。次に抽出されたスライド画像について、OCRによる文字認識処理を行い、テキスト(文字列)を抽出します。その後、テキストとスライド画像を自動でひも付け、インデックス化し、データベースに保存します。
そして、利用者は、検索ブラウズ用のウェブインターフェイスからデータベースにアクセスし、必要な画像を検索する事ができます。
動画からスライド画像を正しく抽出するために、TalkMinerでは、図2に示すように空間フィルタリング技術や、視覚的モデル化技術、スライド領域同定技術を開発し、解析フローに組み込んでいます。
また、TalkMinerはクロール機能を備えているため、ネットワーク上にアップロードされた動画を定期的に検索し、自動でインデキシングを行うことも可能です。

図2:組み込まれている画像処理技術例