Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク(株式会社NTTデータ 猿田浩輔 土橋昌 吉田耕陽 佐々木徹 都築正宜 下垣徹)|翔泳社の本
  1. ホーム >
  2. 書籍 >
  3. Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク







監修

形式:
書籍
発売日:
ISBN:
9784798142661
価格:
本体3,200円+税
仕様:
B5変・320ページ
分類:
データベース

本書籍の他の形式を確認する

  • このエントリーをはてなブックマークに追加

Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理や機械学習など、ビッグデータの分野での活用が期待されるOSS(Open Source Software)です。

Apache SparkはUCバークレイで提唱されたRDD(Resilient Distributed Dataset)というデータモデルを採用し、メモリを上手に活用した効率的な処理を実現します。これにより、並列分散処理において高いパフォーマンスが期待できます。また、分散処理フレームワークHadoopとの高い親和性を有しており、YARNやHDFSなどのHadoopシステムの枠組が利用できます。

本書はApache Sparkの概要からRDDによる処理の仕組み、導入やアプリケーション開発までを解説します。また、「SQLインターフェイス」「機械学習」「ストリーム処理」「グラフ」などApache Spark周辺のライブラリの活用についても説明します。

話題のApache Sparkの仕組みとその利用方法を理解することにより、データ処理の新しい潮流を知ることができます。


第1章:Apache Sparkとは
第2章:Sparkの処理モデル
第3章:Sparkの導入
第4章:Sparkアプリケーションの開発と実行
第5章:基本的なAPIを用いたプログラミング
第6章:構造化データセットを処理する - Spark SQL -
第7章:ストリームデータを処理する - Spark Streaming -
第8章:機械学習を行う - MLlib -
Appendix
A. GraphXによるグラフ処理
B. SparkRを使ってみる
C. 機械学習とストリーム処理の連携
D. Web UIの活用

付属データはこちら

書籍への問い合わせ

正誤表、追加情報をご確認の上、こちらよりお問い合わせください

書影の利用許諾について

本書籍に関する利用許諾申請はこちらになります

追加情報はありません。
正誤表の登録はありません。