人間の視覚情報処理の仕組みを利用した文字認識技術

ホワイトボードやノートに自由に手書きされた文字を、機械で認識することは現在も困難な状況にあります。またきれいに整った形で書かれた文字であっても、文字認識技術は1言語ごとに開発されているため、日本語、英語、中国語など複数の言語が混在した文書では、認識することが難しい状況にあります。

富士ゼロックスはこのような課題を解決するため、自由に手書きされた文字や複数の言語が混在した文書でも認識できる、文字認識技術の開発に取り組んでいます。開発した文字認識技術は、脳神経科学が解明しつつある人間の視覚の仕組みをとりいれています。

図1(a):方位選択性を模式的に表した図
V1細胞が特異的に反応する線分の方向を最適方向とする。これと異なる方向を持つ線分の刺激を入力しても反応はおこらない。

図1(b):位置不変性を模式的に表した図
V1細胞は最適な傾きをもった線分であれば受容野内のどの場所であっても反応する。両方の領域にまたがる大きなパターンに対しては全く反応しない。

図1(c):方位交差抑制性を表した模式図
V1細胞は最適方向と大きく異なる方向の刺激を重ね合わせると最適刺激に対する反応が抑制される。

視覚情報は、網膜をとおり、大脳第1次視覚野(V1)と呼ばれる部位に伝わります。V1では特定の傾きを持つ線分に選択的に応答する方位選択性(図1(a))、入力線分の位置がずれた時も応答する位置不変性(図1(b))、最適方向と大きく異なる方向の線分が重ね合わさると反応が抑制される方位交差抑制性(図1(c))を持っています。視覚情報はV1の後、二本の線分を組み合わせた十字、コーナー等に反応する第2次視覚野(V2)、より複雑な形状を認識する第4次視覚野(V4)を経て、Inferior Temporal(IT)野に到達します(図2)。このように、人間の脳は階層的な処理を通じて、線分などの単純な形状から文字や顔などの複雑な形状まで認識していると考えられています。

図2:視覚情報処理の概要
網膜で受容された視覚情報は大脳第1次視覚野(V1)、
第2次視覚野(V2)、第4次視覚野(V4)をとおりIT野に到達し、
単純な形状から複雑な形状まで認識していると考えられている。

視覚情報処理の仕組みを利用した文字認識の全体構成を図3に示します。畳込み演算部とサブサンプリング部を階層的に接続し、V1,V2といった脳の処理を模擬し、文字の特徴を抽出しています。最後の文字種判定部で文字を判定し、IT野までの脳の処理を模擬しています。文字が書かれた入力画像は、まず畳込み演算部に入力され、畳み込み演算によって特徴を抽出します。畳込み演算で用いられるフィルターは、学習を繰り返すことでいろいろな文字に対応できるように変化していきます。たとえばV1に相当する畳み込み演算部1では、線分を抽出するフィルターが、学習によりいろいろな線分に対応できるように変化していきます。

図3:人間の視覚情報処理の仕組みを利用した文字認識全体構成図

次のサブサンプリング部では、図4に示しますように、最初の視覚エネルギーモデルで小さなずれも同一とみなす位置不変性を実現し、後段の興奮性入力と抑制性入力を導入した方位交差抑制モデルで、最適な方位交差抑制性を実現しています。畳込み演算部とサブサンプリング部を階層的に繰り返すことで、V1,V2といった脳の処理を模擬し、線分のような簡単な形状からより複雑な形状まで抽出するようにしています。最後の文字種判定部では抽出した特徴から文字を判定します。ここでも学習を繰り返すことにより文字の認識率を高めていくようにしています。このように、脳の働きと同じように、学習することでどんどん認識率を高め、自由に手書きされた文字や多言語を認識することを可能にしています。

図4:サブサンプリング部構成

実現した視覚情報処理の仕組みを利用した文字認識装置と、一般の文字認識装置を比較した結果を図5に示します。図5(a)のように自由に手書きされた文字を認識した結果を図5(b)に示しています。きれいに整った形の文字グレード4~5に対してはどちらも高い認識率を示していますが、読みにくい文字グレード2~3になりますと、一般の認識装置に比べ高い認識率を示しています。

数字は「文字」の読みやすさを表すグレード値 [「文字」読みやすさグレード値: 官能評価評語][5: 非常に読みやすい][4: 読みやすい][3: 普通][2: 読みにくい][1: 非常に読みにくい] 図5(a):評価に使用した文字群

図5(b):文字読みやすさグレード別認識率測定結果
「文字」の読みやすさグレード4~5および2~3のテストチャートに対して、認識率を測定。

図5:視覚情報処理の仕組みを利用した文字認識装置と一般の文字認識装置を比較した結果