- 中古
- 書籍
- 書籍
手を動かしながら学ぶ ビジネスに活かすデータマイニング
定価 ¥2,178
198円 定価より1,980円(90%)おトク
獲得ポイント1P
在庫なし
発送時期 1~5日以内に発送
商品詳細
内容紹介 | |
---|---|
販売会社/発売会社 | 技術評論社 |
発売年月日 | 2014/08/01 |
JAN | 9784774166742 |
- 書籍
- 書籍
手を動かしながら学ぶ ビジネスに活かすデータマイニング
商品が入荷した店舗:0店
店頭で購入可能な商品の入荷情報となります
ご来店の際には売り切れの場合もございます
オンラインストア上の価格と店頭価格は異なります
お電話やお問い合わせフォームでの在庫確認、お客様宅への発送やお取り置き・お取り寄せは行っておりません
手を動かしながら学ぶ ビジネスに活かすデータマイニング
¥198
在庫なし
商品レビュー
3.9
7件のお客様レビュー
今まで読んだRのデータ分析の本の中で最も易しい本。 他の本で挫折したことがある人でも、この本であれば挫折しないんじゃないだろうか、というぐらい易しい。 関数にデータを入れてみてどう動くか体験して、解釈してみましょう、という感じの本。
Posted by
文字通り、一通り手を動かしながら様々なデータマイニングを試せます。テーマがビジネス向けであることと、手を動かせる工夫がされていることが、非常に価値があるように思えます。 ただし、全体的に入り口の部分の案内となっているので、深めるには別の書籍などが必要です。
Posted by
秋に購入したにも関わらず、全く読めてなかった著書。 銀座のデータサイエンティストというブログを投稿されている著者が、 R言語を使いながらデータ分析とはなんぞや? を初心者でも分かるように書いてくれています。 仮説検証以外は、それほど難しい内容ではないので、 取っ掛かりとして読ん...
秋に購入したにも関わらず、全く読めてなかった著書。 銀座のデータサイエンティストというブログを投稿されている著者が、 R言語を使いながらデータ分析とはなんぞや? を初心者でも分かるように書いてくれています。 仮説検証以外は、それほど難しい内容ではないので、 取っ掛かりとして読んでみるのは良いと思います。 また、R言語自体フリーなので、実際に手を動かしながら 読み進められるのは良いと思う。 前処理部分については触れていないので、 こんな手法があるんだってのを理解するにはお勧めです。 【勉強になったこと】 ・R言語は内部構造的にif文、for文の実行が遅い。 そのため、出来る限りapply関数など直接ベクトルや マトリックスに一括して同じ処理を当てはめるような R固有の処理を用いるべき。 ・ばらつきの重なり具合を考慮したうえで、お互いの大小を 比べて判定するというメソッドを「仮説検定」という。 ・対立仮説が全くの偶然から正しいと判定されてしまう確率を 「有意確率」という。 有意確率が0.05(5%)を下回っていたら、統計的に意味があると言われている。 ・順位データのばらつきは生データの分布と無関係に どれも似たような分布になる。 この性質を使った仮説検定をノンパラメトリック検定という。 ・カイ二乗検定は外れ値に弱い。 何故なら、正規分布に従っているという前提があるから。 それを超越するのがノンパラメトリック検定(順位和検定)。 ・回帰とは、 ある「目的となるデータ」(売上高・利益・来客数・クリック数etc.)を さまざまな「独立な周辺データ」(気温・曜日・月・景況・キャンペーン ・サイト導線・クリエイティブ広告etc.)から「説明」すること。 前提として、 ①「独立な周辺データ」は基本的にはお互いに影響を 及ぼすことができない ②「独立な周辺データ」→「目的となるデータ」なる因果関係がある ・一般的には重回帰分析が用いられるが、 Yes/No, パーセンテージのような上限・下限が決まっている場合、 得られる結果が歪んでしまう。 そのような制約のあるデータに対しても重回帰分析を行えるようにしたのが、 「一般化線形モデル(Generalized Linear Model:GLM)」 ・教師あり学習の種類 ①識別モデル 単純パーセプトロン、ニューラルネットワーク、 SVM、Passive-Aggressive法 ②生成モデル ナイーブベイズ分類器、ベイジアンモデリング ③樹木モデル 決定木、回帰木 ・SVMの特徴といえば、 「マージン最大化」と「カーネルトリック」 Rでは、e1071を使うのがお勧め。 理由としては、e1071パッケージには、 SVMのオープンライブラリとして有名なLIBSVMが実装されており、 実はPython/Java/C++といった他のプログラミング言語と 全く同じ内部アルゴリズムで動くようになっているから。 ・アソシエーション分析の代表的な評価指標3つ ①Support(支持度) 全体の中における出現率(XもYも購入) ②Confidence(信頼度) Xを購入した人がYも購入する確率 ③Lift(リフト) Xを購入した人がYだけを購入した場合に比べて、 どれくらいYを購入してもらうことに貢献しているか? ・Aprioriアルゴリズムは米Amazon社を初め、 さまざまなWebサービス基盤において急速に普及している レコメンデーションシステムの基礎アルゴリズムとして 用いられている。 ・モデルなしで、多くの変数を少ない変数に集約するのが 主成分分析。 モデルありで、多くの変数を共通因子にまとめるのが 因子分析。 ・一般にニューラルネットワークはさまざまなパラメータを チューニングすることでいかようにも分類性能を変えることが 出来る一方で、容易にオーバーフィッティングを起こすことから 「職人芸」的な機械学習メソッドとされていた。 これを覆したのがDeep Learning。
Posted by