Hadoop徹底入門 の商品レビュー
よくまとまっていてわかりやすい。 Hadoopがどんなものかぼんやりしていたし、設定がうまくいかず困っていたが、この一冊でかなり進んだ。
Posted by
非常に分かり易く、Hadoopのアーキテクチャを解説している良書。 詳細な実装はともかく、大枠のアーキテクチャを理解したい人にはうってつけ。 ネット等の情報は断片的で、かつ、整理されていないために体系的に理解し難いが、本書なら1日もかからず理解できる。オススメです。
Posted by
Hadoopを学ぶにはまず最初に読むべき本。さすが、NTTデータさんはHadoop関連で色々と検証されているだけあり、実践に基づいたノウハウが詰め込まれています。
Posted by
情報量が爆発的に増えていく中、大規模データの分散処理は非常に重要な技術であると思うので、読んで置いて損はない本。 個人的にはオライリージャパンより出版されているHadoopよりも理解しやすいと感じた。 概念を把握するだけならば1~5章、実際に構築、運用などする場合は6章以降を読む...
情報量が爆発的に増えていく中、大規模データの分散処理は非常に重要な技術であると思うので、読んで置いて損はない本。 個人的にはオライリージャパンより出版されているHadoopよりも理解しやすいと感じた。 概念を把握するだけならば1~5章、実際に構築、運用などする場合は6章以降を読むと良い。
Posted by
分散処理技術の一つ。最近の技術として理解しておきたいと思っていたので、本書を本棚に入れてみた。「徹底」と「入門」が成り立つのか、興味深いところ。w
Posted by
- ネタバレ
※このレビューにはネタバレを含みます
Hadoopとは「オープンソースの大規模データを処理するための並列分散処理基盤」であり、HDFSとMapReduceから構成され他の周辺プロジェクトとしては、Hive、Pig、Sqoop、Hbase、ZooKeeperがある。 HDFSとは基本的にはWindowsのNTFSあるいはLinuxのext3のようなローカルファイルシステムを複数サーバーに展開し、更にファイルシステムの中でレプリケーション機能を持ちRAIDを使ったような信頼性を内包している。 MapReduceは、巨大なデータを処理するための並列処理のフレームワークで、データからKeyとValueの組を抽出するMap処理、そして抽出されたKeyとValueから目的の結果(KeyとValue)を得るための処理に大別される。 HBaseはHDFS上に構築されるデータベースでありKey-Value型データストア、HDFSに出来ないランダム書き込み/読み込みが対応可能になる。用途は細かい大量データとあるが、普通にファイルのまま保存するかデータベースに格納するかで考えれば良いでしょう。他の周辺プロジェクトは省略。 インストールや設定、プログラミング等を飛ばして読んでも、概要は分かりやすくて良かったかと思います。実際にはアクセスログ等をHDFSに放り込んで解析処理などを実装してみるとより深く理解できそうです。I
Posted by
- 1