Webアプリケーション、Webサービスを開発/運用するエンジニアは、HTML/HTTPやWebサーバなどWeb技術の仕組みや基礎的な知識をおさえておかなければなりません。

本書では、実サービスでの大規模なWebクローラーの開発/運用経験をもとに、Webクローラーを支える、HTTP、文字コード、HTML、認証、Ajax/JSONなど、Webエンジニアがおさえておくべきポイントやテクニックを学びます。

クローラーから見たWebサイトの仕組みとその実情に加えて、現実に即した実践的かつ効率的なクローリングの方法論についても解説します。

  • 実例をもとにHTTPやHTMLなどWebの仕組みを深く知ることができる
  • 大規模なWebクローラーの開発/運用ノウハウを知ることができる
  • Webサイトの運営者(クロールされる側)もクローラーに関する知見を得ることができる

『クローリングハック』

著者: 竹添直樹 , 島本多可子 , 田所駿佑 , 萩野貴拓, 川上桃子
ページ数:368
発売日:2017年09月14日
価格:2,894円(税込)
形式:紙書籍、電子書籍、SEshop限定PDF

Chapter 1 クローラーを支える技術

1-1 そもそもクローラーってなに?
1-2 クローラーの仕組み
1-3 クローラーとWeb技術
1-4 クローラーを作ってみよう
1-5 開発をサポートするツール

Chapter 2 HTTPをより深く理解する

2-1 HTTPの概要
2-2 HTTPメソッドの使い分け
2-3 信用できないレスポンスステータス
2-4 HTTPヘッダの調整
2-5 プロキシ経由でのクロール
2-6 SSL通信時のエラー
2-7 HTTP/2 2-8 まとめ

Chapter 3 文字化けと戦う

3-1 クローリングと文字コード
3-2 どうして文字は化けるのか?
3-3 クライアントとサーバと文字化け
3-4 文字コードを適切に扱う
3-5 代表的な文字コード
3-6 文字コードにまつわる落とし穴
3-7 文字コードを推定するには?
3-8 まとめ

Chapter 4 スクレイピングの極意

4-1 HTMLからデータを取得する
4-2 CSSセレクタを使いこなす
4-3 スクレイピングしたデータの加工
4-4 メタデータを活用しよう
4-5 まとめ

Chapter 5 認証を突破せよ!

5-1 認証が必要なページをクロールする理由
5-2 様々な認証方式とクローリング方法
5-3 Web APIを使って情報を取得しよう
5-4 まとめ

Chapter 6 クローリングの応用テクニック

6-1 クローラーが守るべきマナー
6-2 必要なページのみクロールしよう
6-3 削除されたコンテンツを判定する
6-4 Webサイトの更新日時、更新頻度を学習する
6-5 究極の効率化=クロールしない
6-6 まとめ

Chapter 7 JavaScriptと戯れる

7-1 AjaxやSPAの流行による苦悩
7-2 JavaScriptとの戦いを避ける
7-3 ブラウザを操作するツールを活用する
7-4 まとめ

竹添 直樹(たけぞえ なおき)

株式会社ビズリーチ所属。Scalaを愛するプログラマ。業務の傍らOSS活動や書籍などの執筆を行っており、GitBucket、Apache PredictionIO、Scalatraなどのコミッタを務める一方、『Scalaパズル』を翻訳、『Java逆引きレシピ』『Scala逆引きレシピ』『Seasar2徹底入門 SAStruts/S2JDBC 対応』などを執筆(いずれも翔泳社刊)。

島本 多可子(しまもと たかこ)

株式会社ビズリーチに勤務中。技術者でいたいと思い現職へ。ここ数年は「Scala」「オープンソース」をキーワードに、Webアプリケーションの開発に携わってきたが、最近はもっぱらApache Spark StreamingとAWS Kinesisのお世話に追われている。オープンソースのGitHubクローン「GitBucket」の開発も行う。『Scalaパズル』を翻訳、『Java 逆引きレシピ』『Scala逆引きレシピ』『現場で使えるJavaライブラリ』を執筆(いずれも翔泳社刊)。

田所 駿佑(たどころ しゅんすけ)

株式会社ビズリーチ所属のScalaエンジニア。求人検索エンジン「スタンバイ」の文字化け求人データ撲滅プロジェクトをきっかけに文字コード、そして絵文字の魅力に開眼。Scala絵文字ライブラリの開発や世界初の国際的絵文字カンファレンスへの参加など、アマチュア絵文字研究家としてWebエンジニアの道を順調に踏み外し、上司や同僚らに将来を心配される日々を送っている。

萩野 貴拓(はぎの たかひろ)

株式会社ビズリーチ AI室所属。求人検索エンジン「スタンバイ」のクローラ運用や検索品質の最適化、データマイニングなどを担当した後、現在は機械学習のシステム基盤構築に従事。オープンソースの機械学習サーバApache PredictionIOのコミッタとして同プロダクトの日本ユーザ会を起ち上げ、国内での普及に取り組んでいる。

川上 桃子(かわかみ ももこ)

株式会社ビズリーチ、スタンバイ事業部で業務委託として勤務中。求人検索エンジン「スタンバイ」のクローリング定義のメンテナンスを行っている。日々様々な求人サイトをクローリングするために奮闘している。

購入者特典「curlの極意」
(PDF形式 A4・12ページ)

『クローリングハック――あらゆるWebサイトをクロールするための実践テクニック』をお買い上げいただいた方に、著者執筆「curlの極意」を謹呈いたします。
curlコマンドを使うと、コンピュータ上からサーバに対してリクエストを送信し、その結果を確認できます。この特典では、Webサイトの状況確認やクローラーのテストなどに便利なcurlコマンドの使い方を詳しく説明します。ぜひ開発にお役立てください。

キャンペーン対象者

『クローリングハック』の書籍をご購入いただいた方全員。予約済みの場合でも特典を受取ることができます。

応募の決まり

特典を希望される方は、書籍を購入後、下記の応募フォームにアクセスし、画面に従って必要項目を入力してください。 ご応募いただいた方全員に、上記特典を差し上げます。

特典の配付

特典はデータファイルとなりますので、応募時のメールアドレスにダウンロード方法をお送りいたします。

特典に応募する

本キャンペーンまたは特典配付についてのお問い合わせは、下記のアドレスまでご連絡ください。

【SE Book事務局】