ここは「芋づる的」情報発見ツールを開発するための開発者向けサイトです。
「芋づる的」情報発見とは、タグ付け,テキストマイニング等の技術により,非定型データ間の関連性を見出すというものです。
まだデザイン段階ですので皆様のご意見を頂戴しつつ育てて行きたいと考えております。
考え方
tPod, SSDB, 開発案件カルテ等から蓄積された情報をもとに、情報間の関連やキーワードをテキストマイニングの手法やベイズ理論などにより抽出し、「関心事」、「行動分析」、「行動予測」などを行ないます。
アプローチ
- 直近アプローチ
ある送信者のメール事にキーワード抽出を行い、関心事を抽出する(ただし、単純な TF-IDF のため、精度は高くない)。
- 次期アプローチ
時間情報との関連付け、専用辞書とキーワードの重み付け(営業週報分析で使用しているツールを利用)を行なう。
- 既アプローチ
メーリングリスト等に送信されたメールをもとに、関心事、メール間の関連を手動で導く(アルゴリズムを考える上での下準備の意味あいが強いため手動とした)
結果
→あるメールスレッドにおける情報の連鎖は見えるが、メール間の関連は見えない。
→次期・期間との相関が強いことは類推できる(ある特定のスレッドが集中する、スレッドに対する反応期間が短縮しているなど)
問題
・対象が少ないため関連が見えない(メーリングリスト以外に送信された情報が対象外のため類推が困難)
・手動のため時間がかかる
・アルゴリズム仮説なしに作業しているため精度が低い
→「直近アプローチ」では仮説をたてるとともに既存ツールを組み合わせて効率化を図る。
添付ファイル
-
3プロジェクト連携図.jpg
(90.5 KB) - 登録者 kazu
5 年 前.
tPod, SSDB, vine(仮称)の関連を示した図
-
モジュール構成-その1.jpg
(29.5 KB) - 登録者 kazu
5 年 前.
各処理工程においてモジュールがどう構成されるかのラフ-その1
