ページ内移動用のリンクです
サイト内共通メニューへ移動します
ローカルメニューへ移動します
本文へ移動します

大規模ドキュメント集合に適用可能な木構造 マイニング技術

林 千登 研究技術開発本部 システム要素技術研究所
吉岡 健 研究技術開発本部 基盤技術研究所

近年、報告書や帳票などのオフィス文書に加えて、ウェブページやXML(eXtended Markup Language)ドキュメントが企業内に爆発的に増加している。文書管理システムにドキュメントが基本的に木構造で格納されること、XMLのタグセットや報告書の構成などドキュメント内容も木構造で表現されることから、ドキュメント集合中に埋もれている共通の木構造パターンをマイニングする技術の研究開発を進めている。本稿ではわれわれが開発した2種類のembedded subtree mining(先祖子孫の木構造抽出)技術についてアルゴリズムの概略と実験評価結果を示し、各技術の適用例を紹介する。評価実験の結果、われわれが開発した技術は、速度およびメモリー使用量において従来技術に対して飛躍的な性能を示すことができた.また、ドキュメントヒストリーなど実ドキュメントデータを用いた実験でも有効な抽出パターンが得ることができた。今後、応用に向けた技術開発を更に進め、企業などに価値の高いドキュメントサービスを提供していく。

XDW(DocuWorks)形式の文書をご覧になるには、DocuWorks Viewer Lightが必要になります。
DocuWorks Viewer LightDocuWorks ダウンロードページ

PDFをご覧になるためには、Adobe® Reader®が必要になります。
Get ADOBE® READER®Adobe® Reader®ダウンロードページ  [外部サイト]

目次へ戻る

このページのトップへ