現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法 電子書籍|翔泳社の本
  1. ホーム >
  2. 電子書籍 >
  3. 現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法

現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法 発売予定


形式:
電子書籍
発売日:
ISBN:
9784798161440
価格:
本体3,800円+税

本書籍の他の形式を確認する

購入はこちら

各ストアの電子書籍は準備中

  • このエントリーをはてなブックマークに追加

機械学習エンジニア&テータサイエンティスト必携!
初学者でもpandasによる前処理手法がわかる

【本書の背景】
機械学習やデータサイエンスでは、いかに「きれいなデータ」を用意できるかが非常に重要です。データクレンジングともいわれますが、現実は、機械学習やデータ分析にすぐ利用できるデータは皆無に等しく、データの前処理が必須となってきています。

【本書の概要】
本書は、機械学習やデータサイエンスの現場では、データ処理に必要な定番のライブラリ「pandas」を用いて、前処理の基本と様々な前処理手法について、あますところなく解説した書籍です。
初学者向けにシンプルでわかりやすいサンプルを用いていますので、pandasの基本操作方法やデータ構造、さらに前処理の基本の理解についてもしっかり学ぶことができます。
pandasを理解することで、様々な機械学習・データ分析タスクがスムーズに行えるようになります。

【本書の対象読者】
・機械学習エンジニア(初学者)
・データサイエンティスト(初学者)

【著書からひとこと】
機械学習では「Garbage In, Garbage Out(略、GIGO)」と言う概念があります。これは「無意味な(ゴミのような)データを入力すると無意味な結果が戻される」の意味です。
GIGOの概念でもわかる通り、機械学習エンジニアは様々な手法で収集された膨大なデータの分析を行い、意味のある結果を得るために、多種多様な手法の前処理/分析を行います。
機械学習において約7割の時間はデータの前処理に費やされると言われていますが、その多くは「pandas」を使ったものです。
CSVファイルの読み込みから始まり、要約統計量や欠損値・外れ値・重複データの確認、さらにデータのマージやグループ化などの様々なタスクをpandasで行います。
本書では機械学習「初学者向け」にpandasの基本的な操作を解説しています。初歩的な要約統計量の算出やグループ化やダミー変数、さらに文字列や時系列データの基本操作など、幅広い範囲をカバーしています。
日々、データを業務で取り扱う機械学習エンジニアやKaggle等のデータ分析競技をやられている方に向けて、pandasを使ったデータ前処理のお役に立てばと思い執筆いたしました。


※本電子書籍は同名出版物を底本として作成しました。記載内容は印刷出版当時のものです。
※印刷出版再現のため電子書籍としては不要な情報を含んでいる場合があります。
※印刷出版とは異なる表記・表現の場合があります。予めご了承ください。
※プレビューにてお手持ちの電子端末での表示状態をご確認の上、商品をお買い求めください。

(翔泳社)

目次の登録はありません。
付属データは、まだ公開されておりません。今しばらくお待ちくださいますようお願い申し上げます。

書籍への問い合わせ

正誤表、追加情報をご確認の上、こちらよりお問い合わせください

書影の利用許諾について

本書籍に関する利用許諾申請はこちらになります

追加情報はありません。
正誤表の登録はありません。