Apache Spark徹底入門（Jules S. Damji Brooke Wenig Tathagata Das Denny Lee 長谷川亮弥生隆明北村匡彦竹下俊一郎小谷尚太郎北岡早紀市村幸一郎永里洋野上将嗣）

Apache Sparkの仕組みとビッグデータ向けの大規模処理とML開発を徹底解説

本書は、ビッグデータを主な対象としたデータ分析フレームワークであるApache Spark、MLflow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データAIの実装者がApache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。

本書では、単純なデータ分析と複雑なデータ分析を実行し、どのように機械学習アルゴリズムを採用していくか、解説していきます。Apache Sparkの導入から解説をはじめ、Spark SQLとデータフレーム、データセットを紹介していきます。そこから、Apache Sparkを利用した実践的な機械学習の方法を解説していきます。本書での学習を通じて、次のことが学習できます。

・Python、SQL、Scala、またはJavaの高レベルの構造化APIの学習
・Spark の操作とSQLエンジンの理解
・Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ
・JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソースへの接続
・構造化ストリーミングを使用してバッチデータとストリーミングデータの分析を実行
・オープンソースのDelta LakeとSparkを使用して信頼性の高いデータパイプラインを構築
・MLlibを使用する機械学習パイプラインの開発、MLflowを使用するモデルの管理、本番化
・［日本語版オリジナルコンテンツ］pandas DataFrame、SparkDataFrameに関する各種データフレームの使い分け
・［日本語版オリジナルコンテンツ］LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、LLMの利用方法の実践
※本書は『Learning Spark: Lightning-Fast Data Analytics 2nd Edition』の邦訳です。

第1章　Apache Spark入門：統合型アナリティクスエンジン
第2章　Apache Sparkのダウンロードとスタートアップ
第3章　Apache Sparkの構造化 API
第4章　Spark SQLとデータフレーム：組み込みのデータソースの紹介
第5章　Spark SQLとデータフレーム：外部データソースとのインタラクション
第6章　Spark SQLとデータセット
第7章　Sparkアプリケーションの最適化およびチューニング
第8章　構造化ストリーミング
第9章　Apache Sparkによる信頼性の高いデータレイクの構築
第10章　MLlibによる機械学習
第11章　Apache Sparkによる機械学習パイプラインの管理、デプロイ、スケーリング
第12章　エピローグApache Spark 3.x

本書は付属データの提供はございません。

書籍の購入や、商用利用・教育利用を検討されている法人のお客様はこちら

図書館での貸し出しに関するお問い合わせはよくあるお問い合わせをご確認ください。

利用許諾に関するお問い合わせ

本書の書影（表紙画像）をご利用になりたい場合は書影許諾申請フォームから申請をお願いいたします。
書影（表紙画像）以外のご利用については、こちらからお問い合わせください。

お問い合わせ

内容についてのお問い合わせは、正誤表、追加情報をご確認後に、お送りいただくようお願いいたします。

正誤表、追加情報に掲載されていない書籍内容へのお問い合わせや
その他書籍に関するお問い合わせは、書籍のお問い合わせフォームからお送りください。

追加情報はありません。

この商品の「よくある質問」はありません。

正誤表の登録はありません。

Apache Spark徹底入門

購入はこちら

Apache Sparkの仕組みとビッグデータ向けの大規模処理とML開発を徹底解説

利用許諾に関するお問い合わせ

お問い合わせ

このページを見ている方におすすめ