Pythonによるあたらしいデータ分析の教科書(寺田 学 辻 真吾 鈴木 たかのり 福島 真太朗)|翔泳社の本
  1. ホーム >
  2. 書籍 >
  3. Pythonによるあたらしいデータ分析の教科書

Pythonによるあたらしいデータ分析の教科書





形式:
書籍
発売日:
ISBN:
9784798158341
定価:
2,728(本体2,480円+税10%)
仕様:
A5・328ページ
カテゴリ:
プログラミング・開発
キーワード:
#プログラミング,#開発環境,#開発手法,#Web・アプリ開発
紙の書籍
本書籍には新版があります
Pythonによるあたらしいデータ分析の教科書 第2版

データ分析エンジニアに求められる技術の基礎が最短で身に付く

ビッグデータの時代といわれ始めて数年が経過しました。
デバイスの進化により多くの情報がデジタル化され、
それらのデータを活用しようとデータ分析エンジニアに注目が集まっています。

この書籍では、データ分析において、
デファクトスタンダードになりつつあるプログラミング言語Pythonを活用し、
データ分析エンジニアになるための基礎を身に付けることができます。

書籍ではデータ分析エンジニアになるために必須となる技術を身につけていきます。
・データの入手や加工などのハンドリング
・データの可視化
・プログラミング
・基礎的な数学の知識
・機械学習の流れや実行方法

本書で学べること
・Pythonの基本的な文法
・データフォーマットについて
・データの前処理技術
・データの可視化技術
・既存アルゴリズムでの機械学習の実装

対象読者
データ分析エンジニアを目指す方

目次(抜粋)
第1章 データ分析とは
第2章 Pythonと環境
第3章 数学の基礎
第4章 ツールの基礎
第5章 応用:データ収集と加工

はじめに
謝辞
本書の対象読者と構成について

Chapter 1 データ分析エンジニアの役割
 1.1 データ分析の世界
 1.2 機械学習の位置づけと流れ
 1.3 データ分析に使う主なパッケージ

Chapter 2 Pythonと環境
 2.1 実行環境構築
 2.2 Pythonの基礎
 2.3 Jupyter Notebook

Chapter 3 数学の基礎
 3.1 数式を読むための基礎知識
 3.2 線形代数
 3.3 基礎解析
 3.4 確率と統計

Chapter 4 ライブラリによる分析の実践
 4.1 NumPy
 4.2 pandas
 4.3 Matplotlib
 4.4 scikit-learn

Chapter 5 応用:データ収集と加工
 5.1 スクレイピング
 5.2 自然言語の処理
 5.3 画像データの処理

付属データはこちら

会員特典はこちら

お問い合わせ

内容についてのお問い合わせは、正誤表、追加情報をご確認後に、お送りいただくようお願いいたします。

正誤表、追加情報に掲載されていない書籍内容へのお問い合わせや
その他書籍に関するお問い合わせは、書籍のお問い合わせフォームからお送りください。

利用許諾に関するお問い合わせ

本書の書影(表紙画像)をご利用になりたい場合は書影許諾申請フォームから申請をお願いいたします。
書影(表紙画像)以外のご利用については、こちらからお問い合わせください。

追加情報はありません。

ご購入いただいた書籍の種類を選択してください。

書籍の刷数を選択してください。

刷数は奥付(書籍の最終ページ)に記載されています。

現在表示されている正誤表の対象書籍

書籍の種類:

書籍の刷数:

本書に誤りまたは不十分な記述がありました。下記のとおり訂正し、お詫び申し上げます。

対象の書籍は正誤表がありません。

最終更新日:2021年10月11日
発生刷 ページ数 書籍改訂刷 電子書籍訂正 内容 登録日
1刷 065
「3.2.2 行列とその演算」の式3.39
3刷

(画像クリックで拡大)

(画像クリックで拡大)
2019.09.02
1刷 076
式3.60、および「●最頻値(mode)」の6行目
3刷
「●中央値(median)」の数式
「●最頻値(mode)」6行目 (25パーセンタイル、1/4分位数)
「●中央値(median)」の数式
「●最頻値(mode)」6行目 (25パーセンタイル、1/4分位数)

※リフローEPUBの場合、式3.60、およびその下の小見出し「3.2.2 行列とその演算」の2つ目の段落が該当箇所になります。
2020.05.26
1刷 077
「●ばらつきの指標」下から5~6行目
4刷
これを不偏分散または、標本分散と呼び、標本分散の平方根を標本標準偏差と呼びます。
これを不偏分散または、不偏標本分散と呼び、不偏分散の平方根を標本標準偏差と呼びます。

※リフローEPUBの場合、式3.61の下にある2つ目の段落が該当箇所になります。
2020.10.07
1刷 100
「●深いコピー〔copy〕」上から3つ目の「Out」の下の文 2行目
3刷
a1=aという操作では、aを参照するオブジェクトとしてa1は生成されます。
a1=aという操作では、aを参照するオブジェクト※1としてa1は生成されます。

以下の文章を脚注に追加します。

※1  aとa1は同じ配列に別の変数名が割り当てられているので、aを通じてa1を変更することもできます。

※リフローEPUBの場合、「 4.1.2 NumPyでデータを扱う」の7つ目の小見出し「●深いコピー〔copy〕」の3つ目の「Out」の下の段落が該当箇所になります。
2020.05.26
1刷 103
上から2行目
3刷
Flattenメソッドはコピーとなっていることが確認できました。
Flattenメソッドはコピーとなっていることが確認できました※2

以下の文章を脚注に追加します。

※2  ここでは、ravelとflattenの違いを理解してもらうことを目的に説明しています。「参照」「浅いコピー」「深いコピー」については公式ドキュメントを確認してください。
    https://docs.python.org/ja/3/library/copy.html

※リフローEPUBの場合、「 4.1.2 NumPyでデータを扱う」の7つ目の小見出し「●深いコピー〔copy〕」の10個目の「Out」の下の段落が該当箇所になります。
2019.09.18
1刷 103
1つ目の「Out」の下の文
3刷
次に、NumPyのadarrayの場合を示します。
次に、NumPyのndarrayの場合を示します。

※リフローEPUBの場合、「 4.1.2 NumPyでデータを扱う」の7つ目の小見出し「●深いコピー〔copy〕」の11個目の「Out」の下の段落が該当箇所になります。
2021.04.07
1刷 143
「●データ読み込み:CSVファイル」本文3行目
4刷
(P.iv))。
(P.v))。

ページ数の記載に誤りがありました。

※リフローEPUBの場合、参照先ページは、巻頭の「本書の対象読者と構成について」となります。
2020.07.03
1刷 170
一番上の「In」の1行目
6刷
import pands as pd
import pandas as pd

※リフローEPUBの場合、「4.2.7 統計データの扱い」の最初の「In」の1行目が該当箇所になります。
2021.07.20
1刷 174
図4.1のキャプション
4刷
図4.1 散布図行列
図4.1 散布図行列※1 脚注に以下を追加します。 ※1 グラフのラベルが日本語で表示されない場合は、P.210を参照してください。

※リフローEPUBの場合、注番号は「※3」となります。図4.1の下にある「※3」のリンクをクリックすると追加された注の文章が表示されます。
2020.10.07
1刷 209
図4.43
2刷
2018.11.09
1刷 209
図4.44
2刷
2018.11.09
1刷 215
「欠損値の補完」のINとOUTの間
5刷
以下を追記します。
(画像クリックで拡大)

※リフローEPUBの場合、「4.4.1 前処理」の「●欠損値への対応」における、2つ目の小見出し「欠損値の補完」の「In」と「Out」の枠の間が該当箇所になります。
2021.05.19
1刷 219
「In」のコードと「Out」のコードの間
5刷
以下の内容を追記します。
(画像クリックで拡大)

※リフローEPUBの場合、「4.4.1 前処理」の「●カテゴリ変数のエンコーディング」における2つ目の小見出し「One-hotエンコーディング」の「In」と「Out」の枠の間が該当箇所になります。
2021.05.21
1刷 232
Inのコード 上から5~8行目
5刷
ax.scatter(X[y == 0, 0], X[y == 0, 1], marker='x', ➡ label='class 0') ax.scatter(X[y == 1, 0], X[y == 1, 1], marker='o', ➡ label='class 1')
ax.scatter(X[y == 0, 0], X[y == 0, 1], marker='o', ➡ label='class 0') ax.scatter(X[y == 1, 0], X[y == 1, 1], marker='x', ➡ label='class 1')

※リフローEPUBの場合、図4.53の後にある最初の「In」のコードの5~8行目が該当箇所になります。
2021.05.21
1刷 233
図4.55の下の段落3行目
6刷
以上の例ではIrisデータセットの特徴量をそのまま使用していました。
以上の例では、0以上1以下の乱数を生成して特徴量としていました。
2021.04.02
1刷 233
図4.54
5刷

(画像クリックで拡大)

(画像クリックで拡大)
2021.05.21
1刷 233
図4.55
5刷

(画像クリックで拡大)

(画像クリックで拡大)
2021.05.21
1刷 240
「ランダムフォレスト」2行目
サンプル特微量(説明変数)を
サンプルと特徴量(説明変数)を

※リフローEPUBの場合、図4.58のすぐ上の段落が該当箇所になります。
2021.10.11
1刷 250
図4.66のキャプション
2刷
混同行列
混同行列(scikit-learnで混同行列を出力するconfusion_matrix関数で出力される順番が異なります)※1

以下の文章も脚注に追加します。

※1  scikit-learnで混同行列を計算するconfusion_matrix関数の引数labelsを指定しない場合、第1・2引数の要素の昇順でソートされます。そのため、図4.66とは異なり左上から時計回りにtn、fn、tp、fpとなることに注意してください。

※リフローEPUBの場合、注番号は「※4」となります。図4.66の下にある「※4」のリンクをクリックすると、追加された注の文章が表示されます。
2018.11.09
1刷 250
脚注※1の2行目
3刷
左上から時計回りにtn、fn、tp、fpとなることに注意してください。
左上から時計回りにtn、fn、tp、fpとなることに注意してください。

※リフローEPUBの場合、図4.66のキャプションに付いている「※4」が該当箇所になります。図4.66の下にある「※4」のリンクをクリックすると表示される注の文章をご確認ください。
2020.05.26
1刷 251
上から7行目
2刷
1:Cersicolorの2種類を使用するためです。
1:Versicolorの2種類を使用するためです。

※リフローEPUBの場合、図4.66の後にある「In」のすぐ上の段落が該当箇所になります。
2018.11.09
1刷 255
上から6行目
6刷
それぞれ横軸、縦軸に
それぞれ縦軸、横軸に

※リフローEPUBの場合、表4.5のすぐ下の段落が該当箇所になります。
2021.08.24
1刷 256
表4.6 10行目
3刷

(画像クリックで拡大)

(画像クリックで拡大)
2020.05.26
1刷 268
図4.73の下の段落 2行目
3刷
これを見ると縦軸が小さい値(おおよそ5~10)で結ばれているクラスタは比較的早く結合し、
これを見ると縦軸が小さい値で結ばれているクラスタは比較的早く結合し、
2020.05.26
1刷 287
「5.2.3 Bag of Words(BoW)」本ページ2つめの「In」のコード 2行目
3刷
pd.DataFrame(bow, columns=list(word2int)
pd.DataFrame(bow, columns=list(word2int))

末尾に「)」を追加します。

※リフローEPUBの場合、「5.2.3 Bag of Words(BoW)」の4つ目の「In」のコードが該当箇所になります。
2020.05.26
1刷 288
本文、上から5行目
2刷
上記で作成した変数word2intを引数に指定します。
上記で作成した変数words_listを引数に指定します。

※リフローEPUBの場合、「5.2.3 Bag of Words(BoW)」の5つ目の「In」のすぐ上の段落が該当箇所になります。
2018.10.09
1刷 296
箇条書きの末尾に文章追加
3刷
●1行目の文書で「子供」のTF-IDFが相対的に高いのは、元の文を見ると妥当な結果であると考えられる。
●1行目の文書で「子供」のTF-IDFが相対的に高いのは、元の文を見ると妥当な結果であると考えられる。これは「子供」は1行目と3行目の文書で1回ずつしか出現しないため、相対的にTF-IDFの値が大きくなったためである。

※リフローEPUBの場合、「5.2.4 TF-IDF」の4つ目の「Out」の後にある箇条書きのうち、2つ目の項目の「妥当な結果であると考えられる。」の後ろに上記文章を追加します。
2020.05.26
1刷 299
本文3行目「日本語評価極性辞書」に注を追加
2刷
「日本語評価極性辞書」
「日本語評価極性辞書」※1 ※ 1  日本語評価極性辞書(用言編)ver.1.0(2008年12月版)/ Japanese Sentiment Dictionary(Volume of Verbs and Adjectives)ver. 1.0 著作者:東北大学 乾・岡崎研究室 / Author(s):Inui-Okazaki Laboratory, Tohoku University 参考文献:小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一.意見抽出のための評価表現の収 集. 自然言語処理,Vol.12, No.3, pp.203-222, 2005. / Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto, Kenji Tateishi. Collecting Evaluative Expressions for Opinion Extraction, Journal of Natural Language Processing 12(3), 203-222, 2005.

※リフローEPUBの場合、「5.2.5 極性判定」の2つ目の「Out」の下の段落が該当箇所になります。
2018.11.09
1刷 317
INDEX 「四分位数」の読み
5刷
よんぶんいすう
しぶんいすう

位置は、「ジニ不純度」と「重回帰」の間に移動します。

※リフローEPUBの場合、巻末の「検索キーワード」をご覧ください。
2020.12.18
1刷 317
INDEX「最小最大正規化」と「分散正規化」のページ数
5刷
219
220

219ページに「注意」を追加した影響で、ページがズレました。

※リフローEPUBの場合、ページ数の記載はありません。
2021.05.21
1刷 317
INDEX 3列目下から5行目
2刷
ユニバーサルファンクション……119
ユニバーサルファンクション……120

※リフローEPUBの場合、ページ数の記載はありません。
2018.11.09
1刷 318
「参考文献」の上から3行目
2刷
『線形代数入門』
『線代数入門』
2018.11.09

感想・レビュー

MATSUDA, Shougo さん

2019-05-12

numpy, scipyなどライブラリによる分析、およびスクレイピングなどしっかり丁寧に説明してくれている良書。本書と本シリーズの統計学版で、一通りのpython基礎はしっかり固められそうです。

ピコピコ さん

2021-05-07

本格的なデータ分析の本を読むために必要な知識を揃える本といった印象。データ分析に必要なライブラリであるNumpy,pandas,matplotlib,scikit-learnの基礎文法と基本的な使い方がわかるようになる。私のようなデータ分析初心者には有用だったけど、もうすでにある程度データ分析の知識がある人には物足りない内容かもしれない。 紙の本を購入したのだが索引をもっと充実させてほしかった。メソッドは全部載せるくらいはしてほしい。索引が貧弱なので買うならリーダーで検索ができる電子書籍の方をお薦めする。

Kyu_zae_mon さん

2021-08-24

試験の教科書だったので読んだけど、少し簡潔すぎるか。