Rではじめるビジネス統計分析（末吉正成里洋平酒巻隆治小林雄一郎大城信晃）

御社のビッグデータから　隠れた“X（宝）”を見つけ出せ！

2013年以降、企業内部で肥大化したビッグデータ（構造化されてない大量のデータ）を利用する動きが活発になってきています。大量のデータを分析することで、ビジネスで言えば商品の売れ筋やトレンド情報の把握、予測などに役立てることができます。

本書は無料で利用できるRという統計ソフトを用いて、ビジネスの現場で役立つ専門的な統計分析について解説した書籍です。Part1では、Rの使い方の基本について、Part2では統計分析の基本を、Part3ではサンプルを元にした本格的なビジネス統計データ分析手法について解説します。全体を通して、入門的な要素を押さえつつ、本格的な分析手法まで丁寧に解説しています。

これ1冊で、ビジネスの現場で活用できる本格的な統計分析を行うことができます。またどの業界の方でも入りやすいように身近なサンプルを元に解説します。数式や分析手法など、つまづきやすい部分については適時コラムなどで解説します。なおRは最新の3.Xに対応しています。

Part1　R の基本

Chapter 01　R の基本操作

01-1 R とビジネス統計分析
01-2 R でビジネス統計分析を行うメリット
01-3 R とRStudio の導入
INSTALL 01 R（Windows 版）をインストールする
INSTALL 02 R（Mac OS 版）をインストールする
INSTALL 03 RStudio のインストール
　TECHNIQUE 01 RStudio の画面構成
　TECHNIQUE 02 R の基本操作：算術演算子
　TECHNIQUE 03 R の基本操作：比較演算子
　TECHNIQUE 04 R の基本操作：論理演算子
　TECHNIQUE 05 R の基本操作：データの集計
01-4 R のデータ構造
　TECHNIQUE 01 数値ベクトルの作成
　TECHNIQUE 02 論理ベクトルの作成
　TECHNIQUE 03 文字列ベクトルの作成
　TECHNIQUE 04 ベクトルの部分集合の取得
　TECHNIQUE 05 行列の作成
　TECHNIQUE 06 パッケージの利用
　TECHNIQUE 07 作業ディレクトリの指定

Part2　ビジネス統計分析の基本

Chapter 02　データを視覚化する

02-1 データの視覚化とは
02-2 数字のタイプはいろいろある
　TECHNIQUE 01 R によるデータの視覚化：散布図
　TECHNIQUE 02 R によるデータの視覚化：ヒストグラム
　TECHNIQUE 03 R によるデータの視覚化：円グラフ
02-3 R 言語のグラフィックス機能を拡張する
INSTALL 01 ggplot2 をインストールする
02-4 ggplot2 で視覚化するフロー
　TECHNIQUE 01 基本的な散布図の作成
　TECHNIQUE 02 グラフの背景色を白にする
　TECHNIQUE 03 散布図にタイトルとラベルを設定する
　TECHNIQUE 04 数値のフォーマットを変更する
02-5 分析の視点を変える
　TECHNIQUE 01 折れ線グラフ（原因が時間）で見せる
　TECHNIQUE 02 棒グラフ（原因が時間）で見せる
　TECHNIQUE 03 比率の棒グラフの作成
　TECHNIQUE 04 比率の棒グラフに数値を付ける
02-6 離散値の原因を元に連続値の変化を見る
　TECHNIQUE 01 箱ひげ図で見せる
　TECHNIQUE 02 散布図で見せる
　TECHNIQUE 03 バイオリンプロットで見せる
02-7 離散値の原因を元に離散値の変化を見る
　TECHNIQUE 01 離散値の変化を棒グラフで見る
　TECHNIQUE 02 色セットを変更する
　TECHNIQUE 03 比率による棒グラフを作成する
02-8 Excel ではなくR を利用するメリット

Chapter 03　データを要約する

03-1 社内にある膨大なデータ
03-2 データを分析する
　TECHNIQUE 01 R で数値を求める
03-3 データのちらばりを把握する
　TECHNIQUE 01 30 日分の売上データの平均を求める
03-4 R で求めた結果をもとに考察する
　TECHNIQUE 01 もう1 つのばらつきの指標である標準偏差を求める
03-5 売上高の標準偏差からわかること

Chapter 04　データの関連性を見る

04-1 相関分析とは
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 散布図を描画する
　TECHNIQUE 03 相関係数を算出する
　TECHNIQUE 04 出力結果について考察する
04-2 クロス集計表とは
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 全体の傾向を確認する
　TECHNIQUE 03 さまざまな切り口でクロス集計を行う
　TECHNIQUE 04 出力結果を考察する
04-3 アソシエーション分析とは
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 アイテムの出現頻度を表示する
　TECHNIQUE 03 アソシエーションルールを抽出する
　TECHNIQUE 04 各指標同士の関係を可視化する
　TECHNIQUE 05 出力結果について考察する

Chapter 05　未知のデータを予測する

05-1 単回帰分析とは
05-2 単回帰分析の考え方
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 単回帰式を求めることの妥当性を確認する
　TECHNIQUE 03 単回帰式（y=a+bx）を求める
　TECHNIQUE 04 実行結果を分析する
　TECHNIQUE 05 回帰関係を求める意義を考察する
　TECHNIQUE 06 回帰式の精度の確認（寄与率）
　TECHNIQUE 07 mreg 関数を使う方法
05-3 重回帰分析の考え方
　TECHNIQUE 01 散布図を描いてデータを視覚的に捉える
　TECHNIQUE 02 回帰式（偏回帰係数と切片）を求める
05-4 重回帰分析の考え方
　TECHNIQUE 01 データを基準化してからlm関数を適用する
　TECHNIQUE 02 mreg 関数を利用する
　TECHNIQUE 03 12 番目の物件の賃料を予測する
05-5 最適な回帰モデルで予測精度をあげる
　TECHNIQUE 01 変数増減法で分析する
05-6 多重共線性を疑う
　TECHNIQUE 01 多重共線性を見つける別の方法
05-7 重共線性の見極め方と対処方法
　TECHNIQUE 01 Excel で回帰分析を行う
　TECHNIQUE 02 Excel で相関係数を求める
　TECHNIQUE 03 説明変数間の相関を求める
　TECHNIQUE 04 多重共線性への対処法

Chapter 06　データを分類する

06-1 主成分分析とは
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 散布図を描く
　TECHNIQUE 03 主成分分析を実行する
　TECHNIQUE 04 どの主成分まで見るかを決める
　TECHNIQUE 05 バイプロットを描く
06-2 因子分析とは
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 散布図を描く
　TECHNIQUE 03 因子の数を決める
　TECHNIQUE 04 因子分析を実行する
　TECHNIQUE 05 バイプロットを描く
06-3 コレスポンデンス分析とは
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 クロス集計を行う
　TECHNIQUE 03 バイプロットを描く
06-4 多次元尺度構成法（MDS）とは
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 距離行列を作成する
　TECHNIQUE 03 散布図を描く
06-5 決定木とは
　TECHNIQUE 01 データを読み込む
　TECHNIQUE 02 決定木を実行する
　TECHNIQUE 03 シンプルな形で決定木を実行する
　TECHNIQUE 04 見やすい決定木にする
　TECHNIQUE 05 ほかの要因を調べる

Part3　本格的なビジネス統計分析

Chapter 07　テキストマイニングを行う

07-1 形態素解析を行う
　TECHNIQUE 01 文章を形態素解析する
07-2 ワードクラウドを作成する
　TECHNIQUE 01 ワードクラウドを作る
07-3 ワードリストを作成する
　TECHNIQUE 01 頻度集計を行う
　TECHNIQUE 02 集計結果を確認する
07-4 N-gram分析を行う
　TECHNIQUE 01 N-gramを集計する
　TECHNIQUE 02 集計結果を確認する
07-5 共起語分析を行う
　TECHNIQUE 01 共起語を集計する
　TECHNIQUE 02 集計結果を確認する
07-6 文書分類を行う
　TECHNIQUE 01 頻度行列を作成する
　TECHNIQUE 02 文書を分類する

Chapter 08　ログデータからクラスタ分析を行う

08-1 どのような顧客をターゲットにすべきか考える
08-2 「ゲームA」を利用しているユーザーを把握する
08-3 ユーザーログに基づきユーザーを分類する
08-4 主成分を説明変数として使う
TECHINIQUE 01 専用の関数を作成してデータを出力する
TECHINIQUE 02 セグメントごとのKPI を調べる
08-5 データを加工する
TECHINIQUE 01 DAU データとDPU データを紐付ける
08-6 分析手法の検討
TECHINIQUE 01 ランキング帯を分類する
TECHINIQUE 02 ランキングポイントとクラスタの視覚化をする
TECHINIQUE 03 ランキングを上位に絞る
TECHINIQUE 04 ほとんどゼロの変数と相関が高い変数を除外する
08-7 主成分分析で直交変換を行う
TECHINIQUE 01 主成分分析を行う
08-8 クラスタリングを行う
TECHINIQUE 01 最適なクラスタ数を求める
08-9 レーダーチャートによるクラスタの特徴の可視化
TECHINIQUE 01 クラスタごとに平均を算出する
TECHINIQUE 02 レーダーチャート用のデータの作成
TECHINIQUE 03 クラスタごとのKPI を調べる
08-10 データに基づくサービスの企画
08-11 まとめ：データの前処理の重要性

付属データはこちら

お問い合わせ

内容についてのお問い合わせは、正誤表、追加情報をご確認後に、お送りいただくようお願いいたします。

正誤表、追加情報に掲載されていない書籍内容へのお問い合わせや
その他書籍に関するお問い合わせは、書籍のお問い合わせフォームからお送りください。

利用許諾に関するお問い合わせ

本書の書影（表紙画像）をご利用になりたい場合は書影許諾申請フォームから申請をお願いいたします。
書影（表紙画像）以外のご利用については、こちらからお問い合わせください。

有意確率
有意確率とは、回帰の分散の大きさを統計的に判断した結果を示す数値になります。
確率分布（F分布）上での確率値を示しており、この数値が小さいほど回帰の分散が残差の分散に対して大きい、つまり回帰分析で求めた回帰式に意味があることを示します。

はじめの設定次第ですが、有意水準が一般的に5%（0.05）以下であれば、回帰の分散が十分大きいと判断します。

説明変数が1つの単回帰分析の場合、lm関数で求めた説明変数のp値と同じ値になりますので、より重要になってくるのは、重回帰分析のときによく利用します。

ご購入いただいた書籍の種類を選択してください。

書籍の刷数を選択してください。

刷数は奥付（書籍の最終ページ）に記載されています。

現在表示されている正誤表の対象書籍

書籍の種類:

書籍の刷数:

本書に誤りまたは不十分な記述がありました。下記のとおり訂正し、お詫び申し上げます。

対象の書籍は正誤表がありません。

最終更新日:2016年04月28日

発生刷

ページ数

書籍改訂刷

電子書籍訂正

内容

登録日

1刷

102
本文上から４行目

2刷

未

誤	・・・as.afctor という入力をしています。
正	・・・as.factor という入力をしています。

2016.04.28

1刷

108
本文下から2行目

2刷

未

誤	・・・のように原因が離散値、結果が連続値となる場合、・・・
正	・・・このように原因が離散値、結果が離散値となる場合、・・・

2016.04.28

1刷

164
dplyrパッケージのバージョンアップにより「%.%」が「%>%」に変更

2刷

未

誤	> device.dau.summary <- + dau %.% …
正	> device.dau.summary <- + dau %>% …

2014.11.25

1刷

167
上から2つ目と3つ目表の項目（左から）

2刷

未

誤	前提　前提　支持度・・・・
正	前提　結論　支持度・・・・

2016.04.28

1刷

181
リスト　上から2行目

2刷

未

誤	> summary(recipe)
正	> summary(regice)

2016.04.28

1刷

186
MEMO　説明変数

2刷

未

誤	…、a は「偏回帰係数」、b は「定数項」と呼ばれており、…
正	…、a は「定数項」、b は「偏回帰係数」と呼ばれており、…

2016.04.28

1刷

196
本文上から8～9行目、下から1行目

2刷

未

誤	• t 値：決定係数（Excel の出力では「重決定R2」） • p 値：自由度修正済み決定係数（Excel の出力では「補正R2」）・・・計算式 y=30.21+11.76x
正	• t 値 • p 値・・・計算式 y=11.76+30.21x

2016.04.28

1刷

197
本文上から9行目

2刷

未

誤	・・・自由度をk、n-k-1（k は説明変数の数）のF 分布にしたがうことを利用したものです。
正	・・・自由度をｎ-k-1（nはサンプル数、kは説明変数の数）の有意確率（P値）にしたがうことを利用したものです。

2016.04.28

1刷

211
コードの４行目

2刷

未

誤	dmal <- scale(dmal)
正	sdmal <- scale(dmal)

2016.04.28

1刷

306
本文1行目

2刷

未

誤	MeCabパッケージをインストールする
正	RMeCabパッケージをインストールする

2014.09.18

1刷

328
本文下から2行目

2刷

未

誤	T を基準に集計結果を並び替える
正	共起尺度を計算する

2014.09.18

1刷

328
本文下から1行目、リスト1行目

2刷

未

誤	なお、Tを基準に集計結果を並び替えるには・・・ > # Tで集計結果を並び替え
正	なお、個々の共起語に関して、TとMIを計算するには・・・ > # 共起尺度の計算

2014.09.18

1刷

333
手順1の2～3行目

2刷

未

誤	以下の例では、キャンベラ距離と群平均法に基づくクラスタ分析を行っています（クラスタ分析の詳細に関しては、本書の第6 章を参照）。
正	以下の例では、キャンベラ距離と群平均法に基づくクラスタ分析を行っています。

2014.09.18

Rではじめるビジネス統計分析

購入はこちら

御社のビッグデータから　隠れた“X（宝）”を見つけ出せ！

Part1　R の基本

Part2　ビジネス統計分析の基本

Part3　本格的なビジネス統計分析

お問い合わせ

利用許諾に関するお問い合わせ

有意確率

ご購入いただいた書籍の種類を選択してください。

書籍の刷数を選択してください。

現在表示されている正誤表の対象書籍

感想・レビュー

おすすめ書籍

Rではじめるビジネス統計分析

購入はこちら

御社のビッグデータから 隠れた“X（宝）”を見つけ出せ！

Part1 R の基本

Part2 ビジネス統計分析の基本

Part3 本格的なビジネス統計分析

お問い合わせ

利用許諾に関するお問い合わせ

有意確率

ご購入いただいた書籍の種類を選択してください。

書籍の刷数を選択してください。

現在表示されている正誤表の対象書籍

感想・レビュー

おすすめ書籍

御社のビッグデータから　隠れた“X（宝）”を見つけ出せ！

Part1　R の基本

Part2　ビジネス統計分析の基本

Part3　本格的なビジネス統計分析