現場で使える！Python深層強化学習入門強化学習と深層学習による探索と制御（伊藤多一今津義充須藤広大仁ノ平将人川﨑悠介酒井裕企魏崇哲）

注目の最新AI技術！深層強化学習の開発手法がわかる！
第一線で活躍する著者陣の書下ろしによる待望の1冊！

【本書の目的】
AlphaGo（アルファ碁）でも利用されている深層強化学習。
AIサービスのみならずロボティクス分野でもその応用が期待されています。
本書は、AI開発に携わる第一線の著者陣が深層強化学習の開発手法について書き下ろした注目の1冊です。

【本書の特徴】
第1部では、まず、深層強化学習の概要について説明します。
次いで、強化学習の基礎（Q学習、方策勾配法、Actor-Critic法）と深層学習の基礎（CNN、RNN、LSTM）を解説します。
さらに、簡単な例題として倒立振子制御を取り上げ、DQNとActor-Critic法による実装例を紹介します。
第2部では、具体的な応用例として3つのアプローチを実装込みで解説します。
1つ目は、連続動作制御です。ヒューマノイドシミュレータの2足歩行制御を試みます。
2つ目は、パズル問題の解法です。巡回セールスマン問題（TSP）やルービックキューブの解探索について説明します。
3つ目は、系列データ生成です。文書生成（SeqGAN）やニューラルネットワークのアーキテクチャ探索（ENAS）を解説します。

全体を通して、行動の制御を担うエージェントのモデル化と、方策ベースの強化学習によるエージェントの学習法について学ぶことができます。

【読者が得られること】
深層強化学習による開発手法を学ぶことができます。

【対象読者】
深層強化学習を学びたい理工学生・エンジニア

本書は２部構成で深層強化学習による開発手法を学ぶことができます。

Part1では、深層強化学習の基礎となるアルゴリズムを解説し、簡単な事例（倒立振子制御）について実装例と検証結果を紹介します。

Part1で紹介されたアルゴリズムを具体的な課題に適用します。特に強化学習の数ある手法の中でも幅広い応用が期待される方策ベースの手法を取り上げ、制御を担うエージェントの実装と学習について詳しく解説します。

本書で使用するサンプルは翔泳社のサイトでダウンロードできます。

■Part 1　基礎編

CHAPTER 1　強化学習の有用性
　1.1　機械学習の分類
　1.2　強化学習でできること
　1.3　深層強化学習とは

CHAPTER 2　強化学習のアルゴリズム
　2.1　強化学習の基本概念
　2.2　マルコフ決定過程とベルマン方程式
　2.3　ベルマン方程式の解法
　2.4　モデルフリーな制御

CHAPTER 3　深層学習による特徴抽出
　3.1　深層学習
　3.2　畳み込みニューラルネットワーク（CNN）
　3.3　再帰型ニューラルネットワーク（RNN）

CHAPTER 4　深層強化学習の実装
　4.1　深層強化学習の発展
　4.2　行動価値関数のネットワーク表現
　4.3　方策関数のネットワーク表現

■Part 2　応用編

CHAPTER 5　連続制御問題への応用
　5.1　方策勾配法による連続制御
　5.2　学習アルゴリズムと方策モデル
　5.3　連続動作シミュレータ
　5.4　アルゴリズムの実装
　5.5　学習結果と予測制御

CHAPTER 6　組合せ最適化への応用
　6.1　組合せ最適化への応用について
　6.2　巡回セールスマン問題
　6.3　ルービックキューブ問題
　6.4　まとめ

CHAPTER 7　系列データ生成への応用
　7.1　SeqGANによる文章生成
　7.2　ネットワークアーキテクチャの探索

APPENDIX　開発環境の構築
　AP1　ColaboratoryによるGPUの環境構築
　AP2　DockerによるWindowsでの環境構築

付属データはこちら

会員特典はこちら

お問い合わせ

内容についてのお問い合わせは、正誤表、追加情報をご確認後に、お送りいただくようお願いいたします。

正誤表、追加情報に掲載されていない書籍内容へのお問い合わせや
その他書籍に関するお問い合わせは、書籍のお問い合わせフォームからお送りください。

利用許諾に関するお問い合わせ

本書の書影（表紙画像）をご利用になりたい場合は書影許諾申請フォームから申請をお願いいたします。
書影（表紙画像）以外のご利用については、こちらからお問い合わせください。

Docker ToolBoxの利用にあたっての注意事項
　Docker ToolBoxの更新にともない、ソースコードのフォルダをコンテナにマウントできなくなるバグが生じております（下記URL参照）。

https://github.com/docker/toolbox/issues/844

　この状況になった場合、問題を解決するには、以下の手順にしたがってください。

手順1.書籍のAP2.2（P.287～294）にしたがい、DockerToolbox-18.09.3 をインストールしてください。

手順2.「Docker Quickstart Terminal」をダブルクリックして Docker ターミナルを起動してください[*1][*2]。

手順3.インストール先のフォルダ C:\Program Files\Docker Toolbox の下にあるイメージファイル boot2docker.iso をコピーして C:\Users\ユーザ名\.docker\machine\machines\default の下にある同名のファイルを上書き保存してください。

手順4.Dockerターミナルを終了してPCを再起動してください[*3]。

手順5.再度、Docker Quickstart Terminal をダブルクリックして Docker ターミナルを起動してください。

手順6.その後は、書籍のAP2.3およびAP2.4（P.294～301）にしたがって下さい[*4]。

[*1]: 途中でVirtual Boxの変更を問うウィンドウが何度か開きます。すべて「はい」をクリックしてください。

[*2]: しばらくしてもプロンプトが戻ってこない場合は、Enterキーを押してください。

[*3]: PCをシャットダウンする際、Virtual Boxを強制的に終了してください。

[*4]: Jupyter Notebook および Colaboratory を起動するブラウザとしては、Google Chrome または Internet Explorer を使用してください。

この商品の「よくある質問」はありません。

現在表示されている正誤表の対象書籍

書籍の種類:紙書籍

書籍の刷数:全刷

※重版をした際に、内容が修正されている場合があります。「刷数の確認方法（例）」の図を参考に、お手元の書籍の刷数をご確認ください。下の「書籍の刷数」の欄で刷数を選択すると、お持ちの書籍の刷数に合わせて、正誤情報を絞り込むことができます。

書籍によっては表記が異なる場合がございます

本書に誤りまたは不十分な記述がありました。下記のとおり訂正し、お詫び申し上げます。

対象の書籍は正誤表がありません。

　書籍の刷数で正誤情報を絞り込みたい場合は選択してください。

　書籍の種類:

　書籍の刷数:

最終更新日:2022年12月21日

ページ数

内容

書籍修正刷

電子書籍訂正

発生刷

登録日

カバー、表紙、大扉の著者名

誤	川崎悠介
正	川﨑悠介

2刷

済

1刷

2019.07.31

0-iv
「はじめに」の謝辞に記載しているお名前

誤	山崎裕一
正	山崎裕市

3刷

済

1刷

2021.04.09

005
下から7行目

誤	関数出力という回答（予測）に対し
正	関数出力という解答（予測）に対し
備考	※リフローEPUBの場合、「1.1.1　教師あり学習」の最初の段落が該当箇所になります。

2刷

済

1刷

2019.09.11

025
式2.3、および本文の下から8行目

誤	・式2.3 ・本文・・・矢の先にある行動を選択する確率（方策確率）と・・・
正	・式2.3 ・本文・・・矢の先にある状態に遷移する確率と・・・

2刷

済

1刷

2019.10.09

061
上から12行目

誤	次元数のべき乗で
正	次元数をべき数として
備考	※リフローEPUBの場合、「2.4.4　Actor-Critic法」の最初の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

066
上から3行目、上から10行目

誤
正
備考	※リフローEPUBの場合、CHAPTER 2の「MEMO 2.4　方策勾配定理の証明」の式m.4の1行目、および同MEMO内の「ここでs=s₀として」で始まる段落が該当箇所になります。

2刷

済

1刷

2019.09.04

066
式の修正および本文の補足の追加（3か所）

誤
正
備考	リフローEPUBの場合、「2.4.3　方策ベースの手法」の「MEMO 2.4 方策勾配定理の証明」が該当箇所になります。

3刷

済

1刷

2022.12.21

104
上から5～8行目の下付き添え字の書体を斜体から正体にする

誤
正
備考	※リフローEPUBの場合、図3.24のすぐ下の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

105
上から1行目　下付き添え字の"1"のみ斜体から正体にする

誤
正
備考	※リフローEPUBの場合、式3.5のすぐ下の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

114
最下行

誤	Actor Critic
正	Actor-Critic
備考	※リフローEPUBの場合、図3.33のすぐ下の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

122
下から3～5行目

誤	DQNでは、行動価値関数を深層ニューラルネットワークによって近似しますが、単純に適用しても様々な問題により学習が安定せず、ネットワークのパラメータが収束しません。　DQNアルゴリズムでは、それらの問題に対していくつかの工夫が考えられており、その中でも基本となるものを以下に紹介します。
正	DQNはQ学習をベースとしているため、Q学習と同様に以下の更新式にしたがって行動価値関数の予測を更新します。
備考	※リフローEPUBの場合、「4.2.1　DQNアルゴリズム」の4つ目の段落が該当箇所になります。

2刷

済

1刷

2019.08.29

123
上から1～2行目

誤	DQNでは、行動価値関数をうまく近似するために様々な工夫がされていますが、その中で基本となるものを紹介します。
正	DQNでは、行動価値関数を深層ニューラルネットワークによって近似しますが、単純に適用しても様々な問題により学習が安定せず、ネットワークのパラメータが収束しません。　DQNアルゴリズムでは、それらの問題に対していくつかの工夫が考えられており、その中でも基本となるものを以下に紹介します。
備考	※リフローEPUBの場合、「4.2.1　DQNアルゴリズム」の5～6つ目の段落が該当箇所になります。

2刷

済

1刷

2019.08.29

137
下から3行目

誤	2値化された行動変数θ
正	2値化された行動変数a
備考	※リフローEPUBの場合、「4.3.1　Actor の実装」の最初の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

138
下から4行目

誤	srcディレクトリには
正	ルートディレクトリには
備考	※リフローEPUBの場合、「4.3.3　サンプルコードの解説」の最初の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

141
リスト4.8 上から24行目（空行含む）

誤	self.leaning_rate)
正	self.learning_rate)
備考	※リフローEPUBの場合、リスト4.8の「 # Actor の計算グラフをコンパイルする」のブロックの14行目（空行含まず）が該当箇所になります。

2刷

済

1刷

2019.09.04

147
下から2行目

誤	スコア平均が10以上の場合
正	スコアが10以上の場合
備考	※リフローEPUBの場合、図4.14のすぐ下の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

160
下から7行目

誤	モンテカルと近似
正	モンテカルロ近似
備考	※リフローEPUBの場合、「5.2.3　ベースラインの導入」の5つ目の段落が該当箇所になります。

2刷

済

1刷

2019.07.31

162
式5.9の最下行第2項の係数

誤
正
備考	＋を－に修正しました。

2刷

済

1刷

2020.02.18

170
図5.7のすぐ下の行

誤	各Pythonのファイル
正	各Pythonファイル

2刷

済

1刷

2019.10.24

173
上から1行目

誤	で示されように、
正	に示されるように、
備考	※リフローEPUBの場合、図5.8のすぐ上の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

174,175
P.174の式5.10の第2式の右辺先頭、および、P.175 式5.11の先頭に挿入する

誤
正

2刷

済

1刷

2019.10.24

184
図5.13

誤	（画像クリックで拡大） ※図5.13の背景と線の色が違う
正	（画像クリックで拡大） ※P.183の図5.12と同じようになる（モノクロ）

2刷

済

1刷

2019.07.31

185
上から7行目

誤	に置いて
正	において
備考	※リフローEPUBの場合、図5.14の下にある枠付きの箇条書きの2つ目の項目が該当箇所になります。

2刷

済

1刷

2019.10.24

190
下から2行目

誤	ヒューリスティクス解放（URL・・・
正	ヒューリスティクス解法（URL・・・
備考	※リフローEPUBの場合、「6.1.1　組合せ最適化について」の5つ目の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

211
下から2行目

誤	MCST
正	MCTS
備考	309ページ　INDEX「M/N/O」の1行目 MCSTも同様に「MCTS」に修正します。 ※リフローEPUBの場合、「COLUMN 6.2　強化学習アルゴリズムの分類について」の最初の段落が該当箇所になります。上記にもあるように、巻末の「検索キーワード」の「M」の項目も修正しています。

2刷

済

1刷

2019.10.24

245
下から2行目

誤	SeqGAN
正	7-1_seqgan
備考	※リフローEPUBの場合、図7.7のすぐ下の段落が該当箇所になります。

2刷

済

1刷

2019.10.24

264
リスト7.8のキャプション

誤	結果のベクトル
正	ラベル画像の処理

2刷

済

1刷

2019.10.24

276
「●報酬（Reward）」の番号付き箇条書きの2、3、4

誤	2. 偽陽性：予測は偽、ラベルは真 3. 偽陰性：予測は真、ラベルは偽 4. 真陰性：予測はラベルとも偽
正	2. 偽陽性：予測は真、ラベルは偽 3. 偽陰性：予測は偽、ラベルは真 4. 真陰性：予測、ラベルとも偽
備考	※リフローEPUBの場合、リスト7.17の下にある小見出し「●報酬（Reward）」の番号付き箇条書きが該当箇所になります。

2刷

済

1刷

2019.10.24

288
図AP.10

誤	（画像クリックで拡大）
正	（画像クリックで拡大）

2刷

済

1刷

2022.01.04

289
本文　上から1,2行目、図 AP.11、図 AP.12

誤	・本文　上から1,2行目ページをスクロールして「v18.03.0-ce」をクリックし、ダウンロードページに移動します。インストーラー（DockerToolbox-18.03.0-ce.exe）をダウンロードします・図 AP.11 ・図 AP.12
正	・本文　上から1,2行目ページをスクロールして「v19.03.1」をクリックし、ダウンロードページに移動します。インストーラー（DockerToolbox-19.03.1.exe）をダウンロードします。・図 AP.11 ・図 AP.12
備考	内容を更新いたしました。 ※リフローEPUBの場合、以下が該当箇所になります。・図AP.11の上の段落・図AP.11 ・図AP.12

2刷

済

1刷

2019.08.22

294
脚注9

誤	hhttp
正	http
備考	※リフローEPUBの場合、「AP2.3　Dockerイメージの作成」の最初の段落の注「※9」のリンクをクリックすると表示されるURLが該当箇所になります。

2刷

済

1刷

2019.08.20

296
「リストAP.1」# pybullet-gymのインストール

誤	（画像クリックで拡大）
正	（画像クリックで拡大）

2刷

済

1刷

2022.01.04

298
「ATTENTION　AP.1」を「COLUMN AP.1」に差し替え

誤
正	以下のコラムに差し替えます。（画像クリックで拡大）

2刷

済

1刷

2022.01.05

307
参考文献　№8～13

誤
正	8. 小川雄太郎（著）『つくりながら学ぶ! 深層強化学習〜PyTorch による実践　　プログラミング〜』マイナビ出版 2018. №8に上記を追加し、№8～13のナンバリングを№9～14に変更します。

2刷

済

1刷

2022.01.05

現場で使える！Python深層強化学習入門強化学習と深層学習による探索と制御

購入はこちら

注目の最新AI技術！深層強化学習の開発手法がわかる！
第一線で活躍する著者陣の書下ろしによる待望の1冊！

本書は２部構成で深層強化学習による開発手法を学ぶことができます。

お問い合わせ

利用許諾に関するお問い合わせ

Docker ToolBoxの利用にあたっての注意事項

現在表示されている正誤表の対象書籍

感想・レビュー

おすすめ書籍

現場で使える！Python深層強化学習入門 強化学習と深層学習による探索と制御

購入はこちら

注目の最新AI技術！深層強化学習の開発手法がわかる！ 第一線で活躍する著者陣の書下ろしによる待望の1冊！

本書は２部構成で深層強化学習による開発手法を学ぶことができます。

お問い合わせ

利用許諾に関するお問い合わせ

Docker ToolBoxの利用にあたっての注意事項

現在表示されている正誤表の対象書籍

感想・レビュー

おすすめ書籍

現場で使える！Python深層強化学習入門強化学習と深層学習による探索と制御

注目の最新AI技術！深層強化学習の開発手法がわかる！
第一線で活躍する著者陣の書下ろしによる待望の1冊！