データサイエンス入門 の商品レビュー
データサイエンスという言葉は最近良く耳にするようになりました。人々の行動に関する様々なビッグデータを解析してマーケティングなどに役立てる、というようなとらえ方をしていました。 この本では、データサイエンスがコンピュータ、インターネット分野と機械学習の発展により重要性を増している...
データサイエンスという言葉は最近良く耳にするようになりました。人々の行動に関する様々なビッグデータを解析してマーケティングなどに役立てる、というようなとらえ方をしていました。 この本では、データサイエンスがコンピュータ、インターネット分野と機械学習の発展により重要性を増していることを強調していますが、質の良いデータが提供される状態にあることが前提になっています。 米国のみならず、日本でも政府が種々データの公開をWebで行っていることを知りました。参考:(http://www.data.go.jp/?lang=japanese)。 統計学やデータサイエンスに関連して、ウェブデザインのA/Bテストや、自動車保険のテレマティクス, 平均への回帰、交絡因子、確証バイアスと後知恵バイアス、といった事項も紹介され、自分の蒙が啓かれた感じがしました。 筆者は日本における無料のオンライン口座MOOCであるgacco.orgで、統計学やデータサイエンスに関する講座にも携わっていると記しており、早速同サイトに登録してみました。 データサイエンスや統計には仕事で関わることも少なく、あまり馴染みがありませんでした、本書で現在の動きを大雑把に把握することができとても役に立ちました。
Posted by
1.この本を一言で表すと? ・数学など専門的な話にはあまり立ち入らず、データ分析の重要性や分析手法などを一般の人にもわかりやすく説明 した本 2.よかった点を 3〜5 つ ・公表バイアス、確証バイアス、後知恵バイアスの話 →よくある話なので読み手が注意すべき所 ・エビデンスに基づ...
1.この本を一言で表すと? ・数学など専門的な話にはあまり立ち入らず、データ分析の重要性や分析手法などを一般の人にもわかりやすく説明 した本 2.よかった点を 3〜5 つ ・公表バイアス、確証バイアス、後知恵バイアスの話 →よくある話なので読み手が注意すべき所 ・エビデンスに基づく意思決定 →「学力の経済学」という本で教育に関する EB を論じていたが、この考え方は日本にもっと取り入れられるべき だと思う。 ・データ処理と可視化 →SQL とはどういうものかよくわかった。 ・現在の人工知能技術はビッグデータと表裏一体であり、データに基づく適切な意思決定を支えるという意味でのデ ータサイエンスは今後もしばらくは重要な分野(p135) →データサイエンスはあくまでも意思決定のサポートであるということが重要なこと 3.参考にならなかった所(つっこみ所) ・「人工知能」=「深層学習」という呼び方は適切ではない(p132) →違うのか? 5.全体の感想・その他 ・現代のデータサイエンスについてバランスよく書かれているのがよい
Posted by
著者もあとがきで書いてますが本書は全然「データサイエンス」入門じゃない、数理統計の歴史と今、な本 言い訳するくらいなら引き受けなければいいし、引き受けたなら部下も学生も知り合いの学者もいるはずだからそれ相応に書けたはず 岩波新書の魅力は、タイトルで釣ることなくそのものズバリのタイ...
著者もあとがきで書いてますが本書は全然「データサイエンス」入門じゃない、数理統計の歴史と今、な本 言い訳するくらいなら引き受けなければいいし、引き受けたなら部下も学生も知り合いの学者もいるはずだからそれ相応に書けたはず 岩波新書の魅力は、タイトルで釣ることなくそのものズバリのタイトルで内容もそのものズバリ、なところなのにこれ明らかにバズった用語を借りた釣りじゃんか まずは伝統的なやり方で大学で学ぶのがよいってデータサイエンスが学べる大学なんて数えるほどしかないよ
Posted by
データとどう向き合っていくかを考える入門書。ただし、データがこれまでどのように使われてきたのかリアルタイムで過ごしてきた世代と、smart phoneがすでに発達した世代では、読んだ時の印象が違うかもしれない。
Posted by
ほんとうに入門のための本です。概括的な紹介に留まり深堀はしてないのですが、専門外のひとに概要を理解してもらうために紹介するのはありかもと思いました。
Posted by
大雑把な概説で、なんとなく理解できたが、著者の文体や項目だての粗さもあって、読んでいてさっくり頭に入ってこない。特に統計学とデータサイエンスの扱う領域があまり明確にされていないのは致命的である。「おわりに」の最後にようやく図による整理がされているので、この図をまず参照してから読み...
大雑把な概説で、なんとなく理解できたが、著者の文体や項目だての粗さもあって、読んでいてさっくり頭に入ってこない。特に統計学とデータサイエンスの扱う領域があまり明確にされていないのは致命的である。「おわりに」の最後にようやく図による整理がされているので、この図をまず参照してから読み進めるとよい。ただし、この図の項目すべてを網羅していないので、本当の意味での「入門」にすぎない。
Posted by
総合研究大学院大学 複合科学研究科統計科学専攻 滋賀大学が日本初のデータサイエンス学部を開設 横浜市大も2018年4月に開設。 中心極限定理を実感できるゴルトンボード 深い穴は掘れない。地殻は30キロ程度、穴はせいぜい10キロ程度。それ以上は熱と圧力で掘れない。飛行機は1万メ...
総合研究大学院大学 複合科学研究科統計科学専攻 滋賀大学が日本初のデータサイエンス学部を開設 横浜市大も2018年4月に開設。 中心極限定理を実感できるゴルトンボード 深い穴は掘れない。地殻は30キロ程度、穴はせいぜい10キロ程度。それ以上は熱と圧力で掘れない。飛行機は1万メートルは普通の高さ。 データマインニング=何か有用な知見が得られないか探索すること。 オンライン講座MOOCのgacco.orgの統計学1,2 日本統計学会 統計学3 総務省統計局のデータサイエンスの3つの講座、 滋賀大学 高校生のためのデータサイエンス入門 統計検定2級と準1級。 データ解析コンペディション 英語ではkaggle.com オプトホールディング社 RSTUDIO、 プログラミング言語Python
Posted by
本書は表題のとおり、データサイエンスの入門書である。とても読みやすい文体でそう時間をかけずに一読することができた。洋の東西を問わず膨大な知が蓄積され、体系化され、ディシプリンとして確立し、欧米の大学のケースを参照し、日本の大学にも学部・学科という教育組織が誕生し、教育内容も整理さ...
本書は表題のとおり、データサイエンスの入門書である。とても読みやすい文体でそう時間をかけずに一読することができた。洋の東西を問わず膨大な知が蓄積され、体系化され、ディシプリンとして確立し、欧米の大学のケースを参照し、日本の大学にも学部・学科という教育組織が誕生し、教育内容も整理され、この本のような教科書されるまでに形成されたのが、近年のデータサイエンス分野といえる。この分野では、データ処理には情報学(コンピュータ科学)、データの分析には統計学、またデータから価値を引き出すためにはそれぞれの応用分野といった領域を理解・習熟することが求められる。この3方向からのスキル習得や知識の理解を気に留めたい。 またエビデンスに基づく意思決定という考え方は、わりと一般化している印象があるが、対する事例・エピソードに基づくそれを意識することも、一つの仕事や研究に対するアプローチ方法として有用だと思った。ただし「一部の成功例が強調され過ぎたり、失敗例が報告されないようなバイアスが生じ得る」(p.83)可能性もあるので、報告者の倫理感が必須となろう。「データに基づく判断をベースとして、人間の経験と勘に基づく判断も活かす」(p.90)ことが、実務の場での理想的な判断の仕方だと思った。
Posted by
2017年7月22日のNHKスペシャルで「健康になりたければ病院を減らせ」とAIが提言し、著者は全く根拠がないとしているが、財政破綻して病院を減らした旭川市で根拠があると思う。
Posted by
データを取り扱う上での倫理として、改ざんや捏造という明らかな不正だけではなく、不正かどうか難しいケースが紹介されている(p.95f) 公表バイアス(出版バイアス paubulication bias) 主張したい仮説について、仮説が成り立たない場合でもそれを支持するデータがたまた...
データを取り扱う上での倫理として、改ざんや捏造という明らかな不正だけではなく、不正かどうか難しいケースが紹介されている(p.95f) 公表バイアス(出版バイアス paubulication bias) 主張したい仮説について、仮説が成り立たない場合でもそれを支持するデータがたまたま得られることがある。実験の母数がわかれば公表バイアスの問題は生じないが、優位にならなかった研究は公表されないことが多いから、公表バイアスの大きさも評価できない。 「後知恵」のケース 事前に結論はなく、データを見てからそれに合う結論を探す場合に生じる。例えば様々な地域の児童の学習環境や家庭環境など様々な項目を調査した。地域により食習慣が異なるとすると、学力試験の結果との相関を見て、食習慣と学力には関係があると結論づけてしまうかもしれない。 これらを避けるためには、データを取る項目、評価対象にする項目、有効/無効の判断の境界を事前に決める必要がある。しかしビッグデータの解析では探索型データ解析がほとんどであり、「後知恵型」になりやすい。
Posted by