手を動かしながら学ぶ ビジネスに活かすデータマイニング の商品レビュー
今まで読んだRのデータ分析の本の中で最も易しい本。 他の本で挫折したことがある人でも、この本であれば挫折しないんじゃないだろうか、というぐらい易しい。 関数にデータを入れてみてどう動くか体験して、解釈してみましょう、という感じの本。
Posted by
文字通り、一通り手を動かしながら様々なデータマイニングを試せます。テーマがビジネス向けであることと、手を動かせる工夫がされていることが、非常に価値があるように思えます。 ただし、全体的に入り口の部分の案内となっているので、深めるには別の書籍などが必要です。
Posted by
秋に購入したにも関わらず、全く読めてなかった著書。 銀座のデータサイエンティストというブログを投稿されている著者が、 R言語を使いながらデータ分析とはなんぞや? を初心者でも分かるように書いてくれています。 仮説検証以外は、それほど難しい内容ではないので、 取っ掛かりとして読ん...
秋に購入したにも関わらず、全く読めてなかった著書。 銀座のデータサイエンティストというブログを投稿されている著者が、 R言語を使いながらデータ分析とはなんぞや? を初心者でも分かるように書いてくれています。 仮説検証以外は、それほど難しい内容ではないので、 取っ掛かりとして読んでみるのは良いと思います。 また、R言語自体フリーなので、実際に手を動かしながら 読み進められるのは良いと思う。 前処理部分については触れていないので、 こんな手法があるんだってのを理解するにはお勧めです。 【勉強になったこと】 ・R言語は内部構造的にif文、for文の実行が遅い。 そのため、出来る限りapply関数など直接ベクトルや マトリックスに一括して同じ処理を当てはめるような R固有の処理を用いるべき。 ・ばらつきの重なり具合を考慮したうえで、お互いの大小を 比べて判定するというメソッドを「仮説検定」という。 ・対立仮説が全くの偶然から正しいと判定されてしまう確率を 「有意確率」という。 有意確率が0.05(5%)を下回っていたら、統計的に意味があると言われている。 ・順位データのばらつきは生データの分布と無関係に どれも似たような分布になる。 この性質を使った仮説検定をノンパラメトリック検定という。 ・カイ二乗検定は外れ値に弱い。 何故なら、正規分布に従っているという前提があるから。 それを超越するのがノンパラメトリック検定(順位和検定)。 ・回帰とは、 ある「目的となるデータ」(売上高・利益・来客数・クリック数etc.)を さまざまな「独立な周辺データ」(気温・曜日・月・景況・キャンペーン ・サイト導線・クリエイティブ広告etc.)から「説明」すること。 前提として、 ①「独立な周辺データ」は基本的にはお互いに影響を 及ぼすことができない ②「独立な周辺データ」→「目的となるデータ」なる因果関係がある ・一般的には重回帰分析が用いられるが、 Yes/No, パーセンテージのような上限・下限が決まっている場合、 得られる結果が歪んでしまう。 そのような制約のあるデータに対しても重回帰分析を行えるようにしたのが、 「一般化線形モデル(Generalized Linear Model:GLM)」 ・教師あり学習の種類 ①識別モデル 単純パーセプトロン、ニューラルネットワーク、 SVM、Passive-Aggressive法 ②生成モデル ナイーブベイズ分類器、ベイジアンモデリング ③樹木モデル 決定木、回帰木 ・SVMの特徴といえば、 「マージン最大化」と「カーネルトリック」 Rでは、e1071を使うのがお勧め。 理由としては、e1071パッケージには、 SVMのオープンライブラリとして有名なLIBSVMが実装されており、 実はPython/Java/C++といった他のプログラミング言語と 全く同じ内部アルゴリズムで動くようになっているから。 ・アソシエーション分析の代表的な評価指標3つ ①Support(支持度) 全体の中における出現率(XもYも購入) ②Confidence(信頼度) Xを購入した人がYも購入する確率 ③Lift(リフト) Xを購入した人がYだけを購入した場合に比べて、 どれくらいYを購入してもらうことに貢献しているか? ・Aprioriアルゴリズムは米Amazon社を初め、 さまざまなWebサービス基盤において急速に普及している レコメンデーションシステムの基礎アルゴリズムとして 用いられている。 ・モデルなしで、多くの変数を少ない変数に集約するのが 主成分分析。 モデルありで、多くの変数を共通因子にまとめるのが 因子分析。 ・一般にニューラルネットワークはさまざまなパラメータを チューニングすることでいかようにも分類性能を変えることが 出来る一方で、容易にオーバーフィッティングを起こすことから 「職人芸」的な機械学習メソッドとされていた。 これを覆したのがDeep Learning。
Posted by
本書はデータマイニングの概略本である。Rの操作方法も一部載っている。本書はあくまで概略本であるため、この本一冊でデータマイニングの各論やRの操作方法がマスターできるわけでは到底ないので注意が必要。しかしながら、概略本としては現在のマーケティングで使用される分析手法などが掲載されて...
本書はデータマイニングの概略本である。Rの操作方法も一部載っている。本書はあくまで概略本であるため、この本一冊でデータマイニングの各論やRの操作方法がマスターできるわけでは到底ないので注意が必要。しかしながら、概略本としては現在のマーケティングで使用される分析手法などが掲載されている数少ない本であるという意味で良書だと思う。
Posted by
他のレビューにあるようのに基本的な内容から上級者向け内容が混在してしまっているのかもしれない。 個人的には各種方法論が網羅されていて便利ではあると評価しますが、個別に興味のある統計学の本にて掘り下げる必要があるか。
Posted by
微妙な本です。買う価値はないでしょう Rであれば他の専門書のほうが良いですし、分析事例も微妙で他のデータ分析本で十分です。つまり、この本の「売り」が分かりません 少なくとも、Rを実務で使っている私はそのように感じました 読んでいて本当に知りたいことは「他の本に譲る、、、」的...
微妙な本です。買う価値はないでしょう Rであれば他の専門書のほうが良いですし、分析事例も微妙で他のデータ分析本で十分です。つまり、この本の「売り」が分かりません 少なくとも、Rを実務で使っている私はそのように感じました 読んでいて本当に知りたいことは「他の本に譲る、、、」的なことが連発し、どうでも良いことを「自慢げにたらたら語る、、、」という感じで配慮の無さが随所に感じられます(ちょっと残念) 他の本に譲っていてばかりなら、この本の価値はありません 著書のことは知りませんが、おそらくビジネス経験が少ないのだと思います ビジネス経験がつけば、すごいことになるかもしれませんが、、、
Posted by
2014年8月22日発売予定、 http://gihyo.jp/book/2014/978-4-7741-6674-2 銀座で働くデータサイエンティストのブログ』ではてなブックマーク1000以上を獲得した人気記事,「Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分...
2014年8月22日発売予定、 http://gihyo.jp/book/2014/978-4-7741-6674-2 銀座で働くデータサイエンティストのブログ』ではてなブックマーク1000以上を獲得した人気記事,「Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選」(http://tjo.hatenablog.com/entry/2013/06/10/190508)をベースに,単行本として全面的に書き下ろしたもの。 2014年8月12日Amazonへ予約注文した。 2014年8月26日1日かけて、読了した。 機械学習の概要をつかめた気がするが、自力で行うには相当な勉強と訓練が必要となるだろう。
Posted by
- 1