Spidering Hacks の商品レビュー
PerlにてWeb上にある情報をスクレーピングする方法、マナーにつて解説してある。2004年初版 1章 ウォーミングアップ #1~7 スクレイピングをする上での注意事項 2章 道具をそろえる #8~32 Perlの使い方。インストール、Perlモジュールのインストールの方...
PerlにてWeb上にある情報をスクレーピングする方法、マナーにつて解説してある。2004年初版 1章 ウォーミングアップ #1~7 スクレイピングをする上での注意事項 2章 道具をそろえる #8~32 Perlの使い方。インストール、Perlモジュールのインストールの方法。認証、クッキー、プロキシ。robots.txtの取り扱い。wgetの使い方。 3章 メディアファイルの収集 #33~42 ファイル、動画、画像、音楽ファイルをDLする方法 4章 データベースからのデータ収集 #43~89 省略 5章 コレクションを維持管理する #90~93 作ったスクリプトを定期的に実行したりする方法。CRON、Windowのタスク、PerlのSleep関数を使う。 6章 世の中に還元する #94~100 APIを使って楽に、サイトに負担をかけずに情報を取得する。RESTインターフエイスによるリソースの公開。 付録 日本語処理[訳者補] Perlを使う上で注意する必要のある(文字化けを起こさない)方法を紹介 すでにここに乗っている情報は役に立たないものが多いかもしれない。なつかしい。
Posted by
少し内容が古い為に,サンプルコードが動かないことも. Perlにある程度精通してから読むと,よく理解できるかも. しかし,アルゴリズムは比較的参考になるものが多い.
Posted by
完全に読み通したわけではまったくないが、パラパラと読んで全体の感じを抱けたので、いったん読了とする。 正直言って、買わなくてもよかったかもしれない。。 読んである程度参考になるのは、1章のSpideringのこころ得に関するところだけだと思う。ほかは、いかにもHow-toリスト...
完全に読み通したわけではまったくないが、パラパラと読んで全体の感じを抱けたので、いったん読了とする。 正直言って、買わなくてもよかったかもしれない。。 読んである程度参考になるのは、1章のSpideringのこころ得に関するところだけだと思う。ほかは、いかにもHow-toリストである。コードサンプルがPerlなので、Perlになじみがない自分にとっては余計そう感じたのかもしれない。
Posted by
- ネタバレ
※このレビューにはネタバレを含みます
このHacksシリーズのよさは、テクニック100選にあるかもしれない。 技術を体系的に教えようとしたり、解説しようとすると、書きたいことが多すぎて、整理しきれないことがある。本書のように、100という制約を設けると、じゃ、何を書いて、何を削ろうという選択がしやすい。そのため、内容も厳選され、質も揃うことになるのではないかと推測できる。 ただ、本書だけは101になっている本当の理由はなんだろうかは興味がある。 Spideringという情報検索(収集)ロボットに関する技術紹介である。 自分のPCに取得した方がよいか、常にネットにつながるところで作業するかは、仕事の仕方によるかもしれない。 情報の機密性、価値などに対する考え方で、集めてくるのがいいかどうか。 情報の整理の仕方についても考えさせられる。
Posted by
スパイダリングとはWebサイトなどから、情報を収集することを指し、その際にはルール、マナーといったものが存在。そういうマナーから、実際に収集するテクニック方法などについて書かれているので、そういうプログラムを作る場合には加害者にならないためにも読んでおいたほうがよい。
Posted by
スパイダリングの基礎から徹底解説してある本。 内容が若干古い感は否めないけど、ノウハウとしては十分に役に立ちます。
Posted by
WEBスクレーピング本。これは面白い! 世界中のWEBサイトから情報を集約して、新しい価値を持ったコンテンツを作り出すためのテクニック満載。
Posted by
株価情報などをあちこちのサイトを解析して、データベースにほっぽりこんだりしてますが、その足がかりになりました。
Posted by
毎日欠かさずチェックしているウェブページがありますか?ウェブ上のデータを二次利用したくありませんか?ウェブサービスを駆使してみたくないですか?そう思ったことがあるのなら、この本を読むべきです。本書は、ウェブを横断して情報を自動収集するプログラム、スパイダを自由自在に操り、目的の情...
毎日欠かさずチェックしているウェブページがありますか?ウェブ上のデータを二次利用したくありませんか?ウェブサービスを駆使してみたくないですか?そう思ったことがあるのなら、この本を読むべきです。本書は、ウェブを横断して情報を自動収集するプログラム、スパイダを自由自在に操り、目的の情報を取り出す方法を詳しく解説しています。また、各Hackを積極的に日本語化し、訳書版独自のHackや日本語処理の注意点(付録)を収録するなど、至れり尽くせりの内容です。スパイダ通のテクニックが満載
Posted by
- 1