Pythonによるあたらしいデータ分析の教科書(寺田 学 辻 真吾 鈴木 たかのり 福島 真太朗)|翔泳社の本
  1. ホーム >
  2. 書籍 >
  3. Pythonによるあたらしいデータ分析の教科書

Pythonによるあたらしいデータ分析の教科書





形式:
書籍
発売日:
ISBN:
9784798158341
定価:
2,728(本体2,480円+税10%)
仕様:
A5・328ページ
分類:
プログラミング・開発

本書籍の他の形式を確認する

  • このエントリーをはてなブックマークに追加

データ分析エンジニアに求められる技術の基礎が最短で身に付く

ビッグデータの時代といわれ始めて数年が経過しました。
デバイスの進化により多くの情報がデジタル化され、
それらのデータを活用しようとデータ分析エンジニアに注目が集まっています。

この書籍では、データ分析において、
デファクトスタンダードになりつつあるプログラミング言語Pythonを活用し、
データ分析エンジニアになるための基礎を身に付けることができます。

書籍ではデータ分析エンジニアになるために必須となる技術を身につけていきます。
・データの入手や加工などのハンドリング
・データの可視化
・プログラミング
・基礎的な数学の知識
・機械学習の流れや実行方法

本書で学べること
・Pythonの基本的な文法
・データフォーマットについて
・データの前処理技術
・データの可視化技術
・既存アルゴリズムでの機械学習の実装

対象読者
データ分析エンジニアを目指す方

目次(抜粋)
第1章 データ分析とは
第2章 Pythonと環境
第3章 数学の基礎
第4章 ツールの基礎
第5章 応用:データ収集と加工


はじめに
謝辞
本書の対象読者と構成について

Chapter 1 データ分析エンジニアの役割
 1.1 データ分析の世界
 1.2 機械学習の位置づけと流れ
 1.3 データ分析に使う主なパッケージ

Chapter 2 Pythonと環境
 2.1 実行環境構築
 2.2 Pythonの基礎
 2.3 Jupyter Notebook

Chapter 3 数学の基礎
 3.1 数式を読むための基礎知識
 3.2 線形代数
 3.3 基礎解析
 3.4 確率と統計

Chapter 4 ライブラリによる分析の実践
 4.1 NumPy
 4.2 pandas
 4.3 Matplotlib
 4.4 scikit-learn

Chapter 5 応用:データ収集と加工
 5.1 スクレイピング
 5.2 自然言語の処理
 5.3 画像データの処理

付属データはこちら

会員特典はこちら

書籍への問い合わせ

正誤表、追加情報をご確認の上、こちらよりお問い合わせください

書影の利用許諾について

本書籍に関する利用許諾申請はこちらになります

追加情報はありません。

ご購入いただいた書籍の種類を選択してください。

書籍の刷数を選択してください。

刷数は奥付(書籍の最終ページ)に記載されています。

現在表示されている正誤表の対象書籍

書籍の種類:

書籍の刷数:

本書に誤りまたは不十分な記述がありました。下記のとおり訂正し、お詫び申し上げます。

対象の書籍は正誤表がありません。

最終更新日:2021年10月11日
発生刷 ページ数 書籍改訂刷 電子書籍訂正 内容 登録日
1刷 065
3.2 線形代数 ●行列の演算 真ん中の数式
3刷

(画像クリックで拡大)

(画像クリックで拡大)
2019.09.02
1刷 076
「●中央値(median)」の数式 と「●最頻値(mode)」の6行目
3刷
「●中央値(median)」の数式
「●最頻値(mode)」6行目 (25パーセントタイル、1/4分位数)
「●中央値(median)」の数式
「●最頻値(mode)」6行目 (25パーセンタイル、1/4分位数)
2020.05.26
1刷 077
「●ばらつきの指標」下から5~6行目
4刷
これを不偏分散または、標本分散と呼び、標本分散の平方根を標本標準偏差と呼びます。
これを不偏分散または、不偏標本分散と呼び、不偏分散の平方根を標本標準偏差と呼びます。
2020.10.07
1刷 100
「●深いコピー〔copy〕」上から3つ目の「Out」の下の文 2行目
3刷
a1=aという操作では、aを参照するオブジェクトとしてa1は生成されます。
a1=aという操作では、aを参照するオブジェクトとしてa1は生成されます。

以下の文章を脚注に追加します。

※1  aとa1は同じ配列に別の変数名が割り当てられているので、aを通じてa1を変更することもできます。
2020.05.26
1刷 103
上から2行目
3刷
Flattenメソッドはコピーとなっていることが確認できました。
Flattenメソッドはコピーとなっていることが確認できました※2

以下の文章を脚注に追加します。

※2  ここでは、ravelとflattenの違いを理解してもらうことを目的に説明しています。「参照」「浅いコピー」「深いコピー」については公式ドキュメントを確認してください。
    https://docs.python.org/ja/3/library/copy.html
2019.09.18
1刷 103
1つ目の「Out」の下の文
3刷
次に、NumPyのadarrayの場合を示します。
次に、NumPyのndarrayの場合を示します。
2021.04.07
1刷 143
「●データ読み込み:CSVファイル」本文3行目
4刷
(P.iv))。
(P.v))。

ページ数の記載に誤りがありました。
2020.07.03
1刷 170
一番上の「In」の1行目
6刷
import pands as pd
import pandas as pd
2021.07.20
1刷 174
図4.1のキャプション
4刷
図4.1 散布図行列
図4.1 散布図行列※1

脚注に以下を追加します。

※1 グラフのラベルが日本語で表示されない場合は、P.210を参照してください。
2020.10.07
1刷 209
図4.43 DataFrameから棒グラフを描画
2刷
2018.11.09
1刷 209
図4.44 DataFrameから積み上げ棒グラフを描画
2刷
2018.11.09
1刷 215
「欠損値の補完」のINとOUTの間
5刷
以下を追記します。
(画像クリックで拡大)
2021.05.19
1刷 219
「In」のコードと「Out」のコードの間
5刷
以下の内容を追記します。
(画像クリックで拡大)
2021.05.21
1刷 232
Inのコード 上から5~8行目
5刷
ax.scatter(X[y == 0, 0], X[y == 0, 1], marker='x', ➡ label='class 0') ax.scatter(X[y == 1, 0], X[y == 1, 1], marker='o', ➡ label='class 1')
ax.scatter(X[y == 0, 0], X[y == 0, 1], marker='o', ➡ label='class 0') ax.scatter(X[y == 1, 0], X[y == 1, 1], marker='x', ➡ label='class 1')
2021.05.21
1刷 233
「図4.55 カーネルとして動径基底関数をもちいて2つのクラスを分離」の下の文 3行目
6刷
以上の例ではIrisデータセットの特徴量をそのまま使用していました。
以上の例では、0以上1以下の乱数を生成して特徴量としていました。
2021.04.02
1刷 233
図4.54 直線で分離できないデータ
5刷

(画像クリックで拡大)

(画像クリックで拡大)
2021.05.21
1刷 233
図4.55 カーネルとして動径基底関数をもちいて2つのクラスを分離
5刷

(画像クリックで拡大)

(画像クリックで拡大)
2021.05.21
1刷 240
「ランダムフォレスト」2行目
サンプル特微量(説明変数)を
サンプルと特徴量(説明変数)を
2021.10.11
1刷 250
図4.66 混同行列
2刷
混同行列
混同行列(scikit-learnで混同行列を出力するconfusion_matrix関数で出力される順番が異なります)※1

以下の文章も脚注に追加します。

※1  scikit-learnで混同行列を計算するconfusion_matrix関数の引数labelsを指定しない場合、第1・2引数の要素の昇順でソートされます。そのため、図4.66とは異なり左上から時計回りにtn、fn、tp、fpとなることに注意してください。
2018.11.09
1刷 250
脚注※1の2行目
3刷
左上から時計回りにtn、fn、tp、fpとなることに注意してください。
左上から反時計回りにtn、fn、tp、fpとなることに注意してください。
2020.05.26
1刷 251
上から7行目
2刷
1:Cersicolorの2種類を使用するためです。
1:Versicolorの2種類を使用するためです。
2018.11.09
1刷 255
上から6行目
6刷
それぞれ横軸、縦軸に
それぞれ縦軸、横軸に
2021.08.24
1刷 256
「表4.6各ユーザにおける偽陽性率と真陽性率」表内 8項目め
3刷

(画像クリックで拡大)

(画像クリックで拡大)
2020.05.26
1刷 268
「図4.73 階層的クラスタリングの樹形図」の下の本文 上から2行目
3刷
これを見ると縦軸が小さい値(おおよそ5~10)で結ばれているクラスタは比較的早く結合し、
これを見ると縦軸が小さい値で結ばれているクラスタは比較的早く結合し、
2020.05.26
1刷 287
「5.2.3 Bag of Words(BoW)」本ページ2つめの「In」のコード 2行目
3刷
pd.DataFrame(bow, columns=list(word2int)
pd.DataFrame(bow, columns=list(word2int))

末尾に「)」を追加します。
2020.05.26
1刷 288
本文、上から5行目
2刷
上記で作成した変数word2intを引数に指定します。
上記で作成した変数words_listを引数に指定します。
2018.10.09
1刷 296
箇条書きの末尾に追加
3刷
●1行目の文書で「子供」のTF-IDFが相対的に高いのは、元の文を見ると妥当な結果であると考えられる。
これは「子供」は1行目と3行目の文書で1回ずつしか出現しないため、相対的にTF-IDFの値が大きくなったためである。

妥当な結果であると考えられる。」の後ろに上記文章を追加します。
2020.05.26
1刷 299
本文下から3行目「日本語評価極性辞書」
2刷
「日本語評価極性辞書」
「日本語評価極性辞書」※1 ※ 1  日本語評価極性辞書(用言編)ver.1.0(2008年12月版)/ Japanese Sentiment Dictionary(Volume of Verbs and Adjectives)ver. 1.0 著作者:東北大学 乾・岡崎研究室 / Author(s):Inui-Okazaki Laboratory, Tohoku University 参考文献:小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一.意見抽出のための評価表現の収 集. 自然言語処理,Vol.12, No.3, pp.203-222, 2005. / Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto, Kenji Tateishi. Collecting Evaluative Expressions for Opinion Extraction, Journal of Natural Language Processing 12(3), 203-222, 2005.

注を追加します
2018.11.09
1刷 317
INDEX 「四分位数」の読み
5刷
よんぶんいすう
しぶんいすう

位置は、ジニ不純度と重回帰の間に移動します。
2020.12.18
1刷 317
INDEX「最小最大正規化」と「分散正規化」のページ数
5刷
219
220

219ページに「注意」を追加した影響で、ページがズレました。
2021.05.21
1刷 317
INDEX 3列目下から5行目
2刷
ユニバーサルファンクション……119
ユニバーサルファンクション……120
2018.11.09
1刷 318
「参考文献」の上から3行目
2刷
『線形代数入門』
『線代数入門』
2018.11.09