やってみようテキストマイニング 増訂版 の商品レビュー
■まとめ - テキストマイニングは、テキストデータを定量的に分析すること。 - ポイントは、分析対象となる言葉をいかに適切に抽出できるか。つまりデータの読み込みと前処理をうまくこなすことが重要。 - 最も重要な指標は共起性の尺度(2つの言葉の関連性を測る尺度、通常のデータ分析に...
■まとめ - テキストマイニングは、テキストデータを定量的に分析すること。 - ポイントは、分析対象となる言葉をいかに適切に抽出できるか。つまりデータの読み込みと前処理をうまくこなすことが重要。 - 最も重要な指標は共起性の尺度(2つの言葉の関連性を測る尺度、通常のデータ分析における相関係数に相当)。多変量解析のベースとなる。 ■感想 KH Coder を使ったテキストマイニングの流れがわかる良書。 抽出語同士の共起性を定量的に出力できるのはわかったけど、出力されたデータをどう解釈するかはけっきょく分析者しだいなのでけっこう職人技な気はする。一語一語の羅列をざっと見回した際に「おや、これは?」と気づくだけのセンスが要りそう。またそもそもの前提として、分析対象のデータをどうやって集めてExcelやテキストファイルに落とし込むか、という手始めのサンプリングの段階がけっこうボトルネックになりそう。 なお肝心の KH Coder は有償化された。
Posted by
- 1