言語処理による情報抽出技術

近年、自然言語処理の研究が盛んに行われ、医療分野においても大量に存在する電子カルテから有用な情報を抽出することを目的としてさまざまなツールが開発されています。富士ゼロックスでは、従来からビジネスにおけるドキュメント活用による知識共有を促進するため、大量のテキストデータから有用な情報を抽出し、集約分析する自然言語処理の研究開発に取り組んでいます。これまで培ってきた言語処理技術を医療現場へ適用するため、東京大学医学部附属病院注1との共同研究に2007年から取組み、現在は、入院治療経過全体をまとめた退院時サマリー注2のテキストから医薬品投与とそれに関連する副作用症状を抽出する技術を開発し、その結果に基づいて医薬品別、副作用症状別の集計表を自動作成するシステムの研究開発を進めています。
本研究では、用語抽出、関係抽出、表記ゆれ解消、辞書拡張など複数の異なる言語処理の要素技術を統合して、医薬品における副作用出現状況の調査を支援する副作用関係集計システム(図1)を構築しました。このシステムは、退院時サマリーから、副作用に関して記述される箇所を特定し、さらに、医薬品や副作用症状ごとに集計する機能を備えています

  • 注1 東京大学医学部附属病院 大江研究室、東京大学知の構造化センター荒牧研究室との共同研究
  • 注2 患者の入院以前の経緯や入院中の経過が簡潔に書かれた文章。プライバシー保護のため病院側で全て匿名化したデータを使用。

図1:副作用関係集計システム構成図

副作用関係集計システムは、下記に示す大きく3つの機能から構成されます。

関連技術

テクニカルレポート