文書差分情報抽出ツール DEXdocs

文書差分情報抽出ツール DEXdocs は,PDF文書ファイル間の差分を抽出し,その結果をWebブラウザを用いて確認できるようにするためのツールです。

概要

DEXdocs は,文書ファイル間でそれらに記述されている文章の差分を抽出し,その結果をWebブラウザを用いて確認できるようにするためのユーティリティです。

次のいずれかの種類の2つのファイルを入力として,各ファイルに記述されている文章の差分抽出処理を行い,差分情報をXMLファイルに出力することができます:

  • PDF化された文書ファイル,あるいはPDF文書ファイルから別途テキスト要素を抽出して作成したテキストファイル
  • テキストファイル形式の文書ファイル

さらに,提供するスタイルシートにより,差分情報として出力されたXMLファイルをWebブラウザで開くことにより,差分抽出の結果を確認することができます。

なお,現在のリリース・バージョンでは,

  • 各入力ファイルの物理行単位での比較による差分情報抽出
  • 句読点の有無,空白およびタブの数の違いは無視(すなわち,差分には含めない)

となっています。

また,バージョン1.0.0からバージョン1.1.1への主な変更点は,

  • PDFファイルからテキスト要素を抜き出すための外部ツールを変更
  • 差分情報抽出アルゴリズムの刷新(これにより,差分情報の正確性が向上)
  • PDF文書を比較対象とした場合,PDF文書における頁番号を差分情報に付加

です。

【差分抽出結果表示例】

<<全文モード>>

比較先ファイルの全文をベースに,一致,削除,追加,移動の情報を種別記号および色分けで表示します:

<<差分モード>>

変更箇所のみを比較元と比較先の対比形式で表示するとともに,削除,追加,移動の情報を色分け表示します:

添付ファイル