ビジネス活用事例で学ぶ データサイエンス入門 の商品レビュー
サービス商材の拡販を想定した章立てになっていて活用方法のイメージが何となく掴めた。(事例はR言語が使用されている。)大きく3つの領域からデータサイエンティストを目指すアプローチも興味深い点だった。一度では理解しきれないため、要再読。
Posted by
こちらは具体の話で、こんな目的でなんかデータなんちゃら分析したい場合、どう考え実務を行うか、という実例がいくつか。
Posted by
データサイエンスの実践ステップとそれに従った事例数ケース、という仕立てがイメージつきやすいです。また、きちんと加工を扱っている点も評価します。なお、扱っている事例はWeb系のもののみでした。
Posted by
ドリコムでの実際のサービス実例を交えて実務フローの説明で理解のイメージがしやすい。 珍しいのは各フローの時間負荷が書いてあるところ。 問題(事実)確認 → 仮説、解決策構築 → データ収集、整理 → 分析 → アクション
Posted by
▼データサイエンティストの必要要件 ①そのビジネスに関する経験・知識(ユーザーの気持ちがわかる) ーグラフ化、クロス集計、バスケット分析、クラスタリング ②設計手法に関する経験・知識(学者、研究者) ー統計的仮設検定、各種回帰分析、ベイズ統計、ネットワーク分析...
▼データサイエンティストの必要要件 ①そのビジネスに関する経験・知識(ユーザーの気持ちがわかる) ーグラフ化、クロス集計、バスケット分析、クラスタリング ②設計手法に関する経験・知識(学者、研究者) ー統計的仮設検定、各種回帰分析、ベイズ統計、ネットワーク分析、決定木分析 ③データ処理に関するコーディング経験・知識(エンジニア) ーhagoop、pig、mahout、hive、sql、数量化理論、強化学習、機械学習 ▼データ分析の5つのフロー 現状とあるべき姿 ↓ 問題発見 ↓ データの収集と加工 ↓ データ分析 ↓ アクション データ分析とは、現状からあるべき姿に最短ルートで近づくように、問題を抽出するということが主眼におかれ、上記フレームワークで問題解決を実施ていくこと ▼データ収集するときの検討事項 ・問題を検証するために、どんなデータが必要なのか? ・必要なデータは、分析者が使えるところに保存されているか? ・必要なデータは、分析者が申請すれば使えるようになるのか? ・必要なデータが保存されていない場合、新たに取得することは可能か? ・必要なデータが保存されておらず、かつ、新たに取得するのに手間が費用がかかる場合、代用できる他のデータはないか? ▼データ分析は大きく2つに分類される ①意思決定支援 問題解決のためのアクションを人間が決定、実行するのを支援することを目的としている。そのため人間が理解して適切な判断ができることが重要 ②自動化・最適化 問題解決のためのアクションをコンピュータに実行させるためのアルゴリズム(アマゾンの〇〇を買った人はこんな商品も購入してますなどが代表的)構築が目的となる。そのため、理解しやすさよりも、アルゴリズムの計算量と精度が重要とされる。 ▼クロス種系 ▼重回帰分析 クロス集計の拡張版。横軸、縦軸にデータを散布したズで、1つひとつのデータはズにプロットされていきます。このそれぞれのプロットに一番当てはまりが良くなるような直線をひきます。そして、その直線で縦軸の値から横軸の値を予測していくのが回帰分析。
Posted by
- ネタバレ
※このレビューにはネタバレを含みます
【Summary】 本書では、ソーシャルアプリ等を事例とした、データ分析の方法について記載されている。データ分析の第一線で活躍されている著者の内容はわかりやすく、私自身の担当している小売業界のデータ分析にも通じる部分が多かった。 各章で、「分析の背景、仮説設計、データ抽出、データ加工、アウトプット作成」…といった手順が丁寧に書かれており、分析の背景を読んだ時点で、読み進める前に自分なりに考えてから内容を読むとさらに理解度が上がると思われる。 Rの説明や分析の際に行うソースについても記載されており、Rの勉強を始める際には早い段階からおすすめできる本。
Posted by
実際にコードを書きながら進めていける本。 探索型分析と目的型(説明型)分析でアプローチが異なるため、 興味のある分野だけ読めばよいと思う。 かつ、探索型分析になると、 急に難しくなるのでチンプンカンプンになるかも。 ちゃんと勉強しないといけないですね。 k-meansくらいまで...
実際にコードを書きながら進めていける本。 探索型分析と目的型(説明型)分析でアプローチが異なるため、 興味のある分野だけ読めばよいと思う。 かつ、探索型分析になると、 急に難しくなるのでチンプンカンプンになるかも。 ちゃんと勉強しないといけないですね。 k-meansくらいまでは分かったけど、 ランダムフォレストとかになると使ったことないから、 正直よく分からなかった。 【参考になった内容】 ・データサイエンティスト=コードがかけるマーケター ・分析の大まかな手順 ①現状とあるべき姿のギャップ理解 ②問題発見・定義 ③データ収集、加工 ④データ分析 ⑤考察、アクション 当たり前だが、問題と収集(何を取るか)が重要。 あとはやれそうか?という感覚も大切。 上記を進めるにはユーザの協力が必須。 ディスカッションしながら進められない場合、 かなりの確率で役に立たない分析で終わる。 ・意思決定支援で使う分析としては、 単純集計(可視化、ヒストグラム、時系列) クロス集計 クロス集計の軸を決めるところがポイント。 ・仮説検定は、サンプルサイズが多い場合には、 ほぼ確実に「統計的に有意な差がある」と出てしまう。 ・予測モデルを作成するとは、 規則性があって、まとまりがある と分かっているから出来ること。 上記が無いのであれば、いくら学習させても何も出ない。
Posted by
巷間過熱気味の分野だが、実際に近いデータを加工しながら検証する様子を追体験できる点で貴重。 R言語の専門書でないのは承知しているが、願わくばせめて各関数の概要と引数の説明くらいつけておいていただけると尚ありがたく。appendixでよいので。
Posted by
2014年6月25日予約した、書店には既に昨日より並んでいるらしいが、ネットではAmazonも含めて予約の段階。 Rを使ってビジネスのビッグデータをどう処理するか?かな? 2014年6月28日職場に到着しているが、手元にはまだ。 評判はいいらしい。 2014年6月30日手元に到着...
2014年6月25日予約した、書店には既に昨日より並んでいるらしいが、ネットではAmazonも含めて予約の段階。 Rを使ってビジネスのビッグデータをどう処理するか?かな? 2014年6月28日職場に到着しているが、手元にはまだ。 評判はいいらしい。 2014年6月30日手元に到着。
Posted by
- 1