ページ内移動用のリンクです
サイト内共通メニューへ移動します
ローカルメニューへ移動します
本文へ移動します

国/地域:

品質工学によるテキスト分類精度向上技術

富士ゼロックスでは、大量の文書を自然言語処理を用いて分類する研究に取り組んでいます。ここでは、お客様から頂いたさまざまなご意見(VOC:Voice of Customers)を、自然言語処理の中に品質工学を組み込み高精度で効率的に分類する手法を紹介します。自然言語処理を使ってVOCを分類する場合、分類基準を定めた「語テーブル」を用います(表1)。例えばVOCのテキスト中に「年間保守」という語が出現すると、表1で「年間保守」は「保守」に分類されているため、そのVOCの分類は「保守」になります。

従来この「語テーブル」は、担当者が実際のVOCの記述内容を確認し、分類に相応しい語を選択して作成していました。その結果テーブル作成に時間がかかる上に、担当者の感覚と経験により決定されるため分類精度にバラツキが生じ、また語が適切に選択されず分類誤りを引き起こすリスクもありました。

表1:語テーブル(分類基準表)
表1:語テーブル(分類基準表)

富士ゼロックスでは、デジタルの標準SN比(信号量signalと雑音量noiseの比)で評価を行う品質工学(タグチメソッド)の手法を用いて、分類精度が高い語の組み合わせの「語テーブル」を効率的に作成する手法を開発しました。表1の担当者が作成した「保守」に分類するための語テーブル(年間保守、定期、エンジニア、…、wordN)を例に、その手法を説明します。

表3のように、2水準の直交表に、水準1はその語を分類に使用する場合、水準0はその語を分類に使用しない場合として、分類「保守」の候補となる語を割り付けます。割り付けられた「語テーブル」で実際のVOCを分類し、正しいVOC分類データ(真値)と比較し、trial_Noごとに図1中のベン図に従って、正しくに分類できた数、誤って分類した数を計算します。それを基に、デジタルの標準SN比を表2の計算式に従って求めます。

各語がどの程度分類に役立っているのか(語の分類貢献度)は、水準1のデジタルの標準SN比と、水準0のデジタルの標準SN比の差から算出します。差の大きい語は語の分類貢献度が大きいと判断し、差の大きい語の順番で語を選択し語テーブルを作成すると、分類精度の高い語の組み合わせによる語テーブルを作成できます。

図1:語テーブルによる分類の正しさを示したベン図表2:デジタルの標準SN比の計算方法 表3:2水準直交表の割り付け
表3:2水準直交表の割り付け

このようにデジタルの標準SN比で評価することにより、語の分類貢献度を定量的に把握することが可能となります。その結果、従来は検討出来なかった、複数の語を使って分類するときの最適な組み合わせを、即座に選択できるようになりました。さらに担当者が作成した語テーブルで行った分類と比較して、分類間違えを1/2~2/3に削減できました。また語テーブルを作成・更新する時間を1/4に短縮でき、増大するVOCに対しても効率的に分類を行うことができます。

このページのトップへ