1,800円以上の注文で送料無料

クローリングハック あらゆるWebサイトをクロールするための実践テクニック
  • 中古
  • 書籍
  • 書籍

クローリングハック あらゆるWebサイトをクロールするための実践テクニック

竹添直樹(著者), 島本多可子(著者), 田所駿佑(著者), 萩野貴拓(著者), 川上桃子(著者)

追加する に追加する

クローリングハック あらゆるWebサイトをクロールするための実践テクニック

定価 ¥2,948

220 定価より2,728円(92%)おトク

獲得ポイント2P

在庫なし

発送時期 1~5日以内に発送

商品詳細

内容紹介
販売会社/発売会社 翔泳社
発売年月日 2017/09/01
JAN 9784798150512

クローリングハック

¥220

商品レビュー

4

2件のお客様レビュー

レビューを投稿

2018/10/19

クローリングだけでなく、Webサイトを作るのに役立つ深い内容になっている。 文字化けの説明は特に。

Posted by ブクログ

2017/10/01

主に、Javaを使ったクローリングとスクレイピングについての本。クローリングに関するテクニック等がまとまっていたように思う。 クローリングする側ではなく、Webサイト制作者向きにかかれてそうな記述もあったけど、それはそれで勉強になった。SEOとか考えてサイト制作している人にもいい...

主に、Javaを使ったクローリングとスクレイピングについての本。クローリングに関するテクニック等がまとまっていたように思う。 クローリングする側ではなく、Webサイト制作者向きにかかれてそうな記述もあったけど、それはそれで勉強になった。SEOとか考えてサイト制作している人にもいいかもしれない。 サイトの文字コードについて判断するには、Content-TypeヘッダとHTML内のmetaタグの二種類があるそうだけど、どちらも記載があったらContent-Typeのほうを優先するらしい。仕組み考えたらそりゃそうかと思うけど、どっちかというと書かれてる文字コードが違う場合は、metaタグのほうが正しいことのほうが多いような気がする。特に静的なHTMLページの場合。 後、Javaのライブラリだけど、Normalizerという文字をうまい具合に正規化してくれるAPIがあるのがいいなと思った。他の言語にもあるんだろうか。Javaで標準になってるぐらいだからありそうだけど。ちょっと探してみようと思う。 それと、MySQLは文字コードの対応がいろいろ必要になってくるんだなと思った。Charsetが4バイト文字の場合、区別しなくなるらしい。それを、「寿司ビール問題」と呼ぶのだとか。こういう問題があるというのはどこか頭の片隅にでもおいておきたい。 後、Google検索で表示されるファクトチェックという機能をはじめて知った。コンテンツの情報が正しいかどうかチェックした結果を表示してくれるらしい。何をもって正しいと判断してるかは気になるけど、日本でも普及してもらえないだろうか(人力だろうから大変だろうけど)。 後、Chromeにヘッドレスモードが追加されてるというのも初めて知った。それを受けて、WebDriverで使われていたヘッドレスブラウザのPhantomJSがメンテナンスを終了したらしい。それなら、Chromeの利用例を書いてくれよと思った(利用例はPhantomJSで書かれている)。 クローリングについては前からいろいろ興味はあって調べたりすることはあるけど、活用したことはないので、何か作ってみたいと思う。もちろん、迷惑がかからない程度に。

Posted by ブクログ

関連商品

同じジャンルのおすすめ商品

最近チェックした商品