現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御(伊藤 多一 今津 義充 須藤 広大 仁ノ平 将人 川﨑 悠介 酒井 裕企 魏 崇哲)|翔泳社の本
  1. ホーム >
  2. 書籍 >
  3. 現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御

現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御








形式:
書籍
発売日:
ISBN:
9784798159928
定価:
3,740(本体3,400円+税10%)
仕様:
A5・328ページ
分類:
人工知能・機械学習
シリーズ:
AI & TECHNOLOGY

本書籍の他の形式を確認する

  • このエントリーをはてなブックマークに追加

注目の最新AI技術!深層強化学習の開発手法がわかる!
第一線で活躍する著者陣の書下ろしによる待望の1冊!

【本書の目的】
AlphaGo(アルファ碁)でも利用されている深層強化学習。
AIサービスのみならずロボティクス分野でもその応用が期待されています。
本書は、AI開発に携わる第一線の著者陣が深層強化学習の開発手法について書き下ろした注目の1冊です。

【本書の特徴】
第1部では、まず、深層強化学習の概要について説明します。
次いで、強化学習の基礎(Q学習、方策勾配法、Actor-Critic法)と深層学習の基礎(CNN、RNN、LSTM)を解説します。
さらに、簡単な例題として倒立振子制御を取り上げ、DQNとActor-Critic法による実装例を紹介します。
第2部では、具体的な応用例として3つのアプローチを実装込みで解説します。
1つ目は、連続動作制御です。ヒューマノイドシミュレータの2足歩行制御を試みます。
2つ目は、パズル問題の解法です。巡回セールスマン問題(TSP)やルービックキューブの解探索について説明します。
3つ目は、系列データ生成です。文書生成(SeqGAN)やニューラルネットワークのアーキテクチャ探索(ENAS)を解説します。

全体を通して、行動の制御を担うエージェントのモデル化と、方策ベースの強化学習によるエージェントの学習法について学ぶことができます。

【読者が得られること】
深層強化学習による開発手法を学ぶことができます。

【対象読者】
深層強化学習を学びたい理工学生・エンジニア


深層強化学習のアルゴリズムからAI開発手法を徹底解説!

本書は2部構成で深層強化学習による開発手法を学ぶことができます。

Part1基礎編

Part1では、深層強化学習の基礎となるアルゴリズムを解説し、簡単な事例(倒立振子制御)について実装例と検証結果を紹介します。

Part2応用編

Part1で紹介されたアルゴリズムを具体的な課題に適用します。特に強化学習の数ある手法の中でも幅広い応用が期待される方策ベースの手法を取り上げ、制御を担うエージェントの実装と学習について詳しく解説します。

サンプルはダウンロード提供

本書で使用するサンプルは翔泳社のサイトでダウンロードできます。

■Part 1 基礎編

CHAPTER 1 強化学習の有用性
 1.1 機械学習の分類
 1.2 強化学習でできること
 1.3 深層強化学習とは

CHAPTER 2 強化学習のアルゴリズム
 2.1 強化学習の基本概念
 2.2 マルコフ決定過程とベルマン方程式
 2.3 ベルマン方程式の解法
 2.4 モデルフリーな制御

CHAPTER 3 深層学習による特徴抽出
 3.1 深層学習
 3.2 畳み込みニューラルネットワーク(CNN)
 3.3 再帰型ニューラルネットワーク(RNN)

CHAPTER 4 深層強化学習の実装
 4.1 深層強化学習の発展
 4.2 行動価値関数のネットワーク表現
 4.3 方策関数のネットワーク表現

■Part 2 応用編

CHAPTER 5 連続制御問題への応用
 5.1 方策勾配法による連続制御
 5.2 学習アルゴリズムと方策モデル
 5.3 連続動作シミュレータ
 5.4 アルゴリズムの実装
 5.5 学習結果と予測制御

CHAPTER 6 組合せ最適化への応用
 6.1 組合せ最適化への応用について
 6.2 巡回セールスマン問題
 6.3 ルービックキューブ問題
 6.4 まとめ

CHAPTER 7 系列データ生成への応用
 7.1 SeqGANによる文章生成
 7.2 ネットワークアーキテクチャの探索

APPENDIX 開発環境の構築
 AP1 ColaboratoryによるGPUの環境構築
 AP2 DockerによるWindowsでの環境構築

付属データはこちら

会員特典はこちら

書籍への問い合わせ

正誤表、追加情報をご確認の上、こちらよりお問い合わせください

書影の利用許諾について

本書籍に関する利用許諾申請はこちらになります

  • Docker ToolBoxの利用にあたっての注意事項

     Docker ToolBoxの更新にともない、ソースコードのフォルダをコンテナにマウントできなくなるバグが生じております(下記URL参照)。

    https://github.com/docker/toolbox/issues/844


     この状況になった場合、問題を解決するには、以下の手順にしたがってください。


    手順1.書籍のAP2.2(P.287~294)にしたがい、DockerToolbox-18.09.3 をインストールしてください。

    手順2.「Docker Quickstart Terminal」をダブルクリックして Docker ターミナルを起動してください[*1][*2]。

    手順3.インストール先のフォルダ C:\Program Files\Docker Toolbox の下にあるイメージファイル boot2docker.iso をコピーして C:\Users\ユーザ名\.docker\machine\machines\default の下にある同名のファイルを上書き保存してください。

    手順4.Dockerターミナルを終了してPCを再起動してください[*3]。

    手順5.再度、Docker Quickstart Terminal をダブルクリックして Docker ターミナルを起動してください。

    手順6.その後は、書籍のAP2.3およびAP2.4(P.294~301)にしたがって下さい[*4]。

    [*1]: 途中でVirtual Boxの変更を問うウィンドウが何度か開きます。すべて「はい」をクリックしてください。

    [*2]: しばらくしてもプロンプトが戻ってこない場合は、Enterキーを押してください。

    [*3]: PCをシャットダウンする際、Virtual Boxを強制的に終了してください。

    [*4]: Jupyter Notebook および Colaboratory を起動するブラウザとしては、Google Chrome または Internet Explorer を使用してください。

ご購入いただいた書籍の種類を選択してください。

書籍の刷数を選択してください。

刷数は奥付(書籍の最終ページ)に記載されています。

現在表示されている正誤表の対象書籍

書籍の種類:

書籍の刷数:

本書に誤りまたは不十分な記述がありました。下記のとおり訂正し、お詫び申し上げます。

対象の書籍は正誤表がありません。

最終更新日:2022年01月05日
発生刷 ページ数 書籍改訂刷 電子書籍訂正 内容 登録日
1刷
カバー、表紙、大扉の著者名
2刷
川崎悠介
悠介
2019.07.31
1刷 0-iv
「はじめに」の謝辞に記載しているお名前
山崎裕一
山崎裕市
2021.04.09
1刷 005
下から7行目
2刷
関数出力という回答(予測)に対し
関数出力という解答(予測)に対し

※リフローEPUBの場合、「1.1.1 教師あり学習」の最初の段落が該当箇所になります。
2019.09.11
1刷 025
式2.3、および本文の下から8行目
2刷
・式2.3 ・本文 ・・・矢の先にある行動を選択する確率(方策確率)と・・・
・式2.3 ・本文 ・・・矢の先にある状態に遷移する確率と・・・
2019.10.09
1刷 061
上から12行目
2刷
次元数のべき乗で
次元数をべき数として

※リフローEPUBの場合、「2.4.4 Actor-Critic法」の最初の段落が該当箇所になります。
2019.10.24
1刷 066
上から3行目、上から10行目
2刷





※リフローEPUBの場合、CHAPTER 2の「MEMO 2.4 方策勾配定理の証明」の式m.4の1行目、および同MEMO内の「ここでs=s0として」で始まる段落が該当箇所になります。
2019.09.04
1刷 104
上から5~8行目の下付き添え字の書体を斜体から正体にする
2刷

※リフローEPUBの場合、図3.24のすぐ下の段落が該当箇所になります。
2019.10.24
1刷 105
上から1行目 下付き添え字の"1"のみ斜体から正体にする
2刷

※リフローEPUBの場合、式3.5のすぐ下の段落が該当箇所になります。
2019.10.24
1刷 114
最下行
2刷
Actor Critic
Actor-Critic

※リフローEPUBの場合、図3.33のすぐ下の段落が該当箇所になります。
2019.10.24
1刷 122
下から3~5行目
2刷
 DQNでは、行動価値関数を深層ニューラルネットワークによって近似しますが、単純に適用しても様々な問題により学習が安定せず、ネットワークのパラメータが収束しません。  DQNアルゴリズムでは、それらの問題に対していくつかの工夫が考えられており、その中でも基本となるものを以下に紹介します。
 DQNはQ学習をベースとしているため、Q学習と同様に以下の更新式にしたがって行動価値関数の予測 を更新します。

※リフローEPUBの場合、「4.2.1 DQNアルゴリズム」の4つ目の段落が該当箇所になります。
2019.08.29
1刷 123
上から1~2行目
2刷
 DQNでは、行動価値関数をうまく近似するために様々な工夫がされていますが、その中で基本となるものを紹介します。
 DQNでは、行動価値関数を深層ニューラルネットワークによって近似しますが、単純に適用しても様々な問題により学習が安定せず、ネットワークのパラメータが収束しません。  DQNアルゴリズムでは、それらの問題に対していくつかの工夫が考えられており、その中でも基本となるものを以下に紹介します。

※リフローEPUBの場合、「4.2.1 DQNアルゴリズム」の5~6つ目の段落が該当箇所になります。
2019.08.29
1刷 137
下から3行目
2刷
2値化された行動変数θ
2値化された行動変数a

※リフローEPUBの場合、「4.3.1 Actor の実装」の最初の段落が該当箇所になります。
2019.10.24
1刷 138
下から4行目
2刷
srcディレクトリには
ルートディレクトリには

※リフローEPUBの場合、「4.3.3 サンプルコードの解説」の最初の段落が該当箇所になります。
2019.10.24
1刷 141
リスト4.8 上から24行目(空行含む)
2刷
self.leaning_rate)
self.learning_rate)

※リフローEPUBの場合、リスト4.8の「 # Actor の計算グラフをコンパイルする」のブロックの14行目(空行含まず)が該当箇所になります。
2019.09.04
1刷 147
下から2行目
2刷
スコア平均が10以上の場合
スコアが10以上の場合

※リフローEPUBの場合、図4.14のすぐ下の段落が該当箇所になります。
2019.10.24
1刷 160
下から7行目
2刷
モンテカルと近似
モンテカルロ近似

※リフローEPUBの場合、「5.2.3 ベースラインの導入」の5つ目の段落が該当箇所になります。
2019.07.31
1刷 162
式5.9の最下行 第2項の係数
2刷

+を-に修正しました。
2020.02.18
1刷 170
図5.7のすぐ下の行
2刷
各Pythonのファイル
各Pythonファイル
2019.10.24
1刷 173
上から1行目
2刷
で示されように、
に示されるように、

※リフローEPUBの場合、図5.8のすぐ上の段落が該当箇所になります。
2019.10.24
1刷 174,175
P.174の式5.10の第2式の右辺先頭、および、P.175 式5.11の先頭に挿入する
2刷
2019.10.24
1刷 184
図5.13
2刷

(画像クリックで拡大) ※図5.13の背景と線の色が違う

(画像クリックで拡大) ※P.183の図5.12と同じようになる(モノクロ)
2019.07.31
1刷 185
上から7行目
2刷
に置いて
において

※リフローEPUBの場合、図5.14の下にある枠付きの箇条書きの2つ目の項目が該当箇所になります。
2019.10.24
1刷 190
下から2行目
2刷
ヒューリスティクス解(URL・・・
ヒューリスティクス解(URL・・・

※リフローEPUBの場合、「6.1.1 組合せ最適化について」の5つ目の段落が該当箇所になります。
2019.10.24
1刷 211
下から2行目
2刷
MCST
MCTS

309ページ INDEX「M/N/O」の1行目
MCSTも同様に「MCTS」に修正します。

※リフローEPUBの場合、「COLUMN 6.2 強化学習アルゴリズムの分類について」の最初の段落が該当箇所になります。上記にもあるように、巻末の「検索キーワード」の「M」の項目も修正しています。
2019.10.24
1刷 245
下から2行目
2刷
SeqGAN
7-1_seqgan

※リフローEPUBの場合、図7.7のすぐ下の段落が該当箇所になります。
2019.10.24
1刷 264
リスト7.8のキャプション
2刷
結果のベクトル
ラベル画像の処理
2019.10.24
1刷 276
「●報酬(Reward)」の番号付き箇条書きの2、3、4
2刷
2. 偽陽性:予測は、ラベルは 3. 偽陰性:予測は、ラベルは 4. 真陰性:予測はラベルとも
2. 偽陽性:予測は、ラベルは 3. 偽陰性:予測は、ラベルは 4. 真陰性:予測、ラベルとも

※リフローEPUBの場合、リスト7.17の下にある小見出し「●報酬(Reward)」の番号付き箇条書きが該当箇所になります。
2019.10.24
1刷 288
図AP.10
2刷

(画像クリックで拡大)

(画像クリックで拡大)
2022.01.04
1刷 289
本文 上から1,2行目、図 AP.11、図 AP.12
2刷
・本文 上から1,2行目 ページをスクロールして「v18.03.0-ce」をクリックし、ダウンロードページに移動します。インストーラー(DockerToolbox-18.03.0-ce.exe)をダウンロードします ・図 AP.11
・図 AP.12
・本文 上から1,2行目 ページをスクロールして「v19.03.1」をクリックし、ダウンロードページに移動します。インストーラー(DockerToolbox-19.03.1.exe)をダウンロードします。 ・図 AP.11
・図 AP.12

内容を更新いたしました。

※リフローEPUBの場合、以下が該当箇所になります。
・図AP.11の上の段落
・図AP.11
・図AP.12
2019.08.22
1刷 294
脚注9
2刷
hhttp
http

※リフローEPUBの場合、「AP2.3 Dockerイメージの作成」の最初の段落の注「※9」のリンクをクリックすると表示されるURLが該当箇所になります。
2019.08.20
1刷 296
「リストAP.1」# pybullet-gymのインストール
2刷

(画像クリックで拡大)

(画像クリックで拡大)
2022.01.04
1刷 298
「ATTENTION AP.1」を「COLUMN AP.1」に差し替え
2刷
以下のコラムに差し替えます。
(画像クリックで拡大)
2022.01.05
1刷 307
参考文献 №8~13
2刷
8. 小川雄太郎(著)『つくりながら学ぶ! 深層強化学習 〜PyTorch による実践   プログラミング〜』マイナビ出版 2018. №8に上記を追加し、№8~13のナンバリングを№9~14に変更します。
2022.01.05

感想・レビュー

kaida6213 さん

2021-11-06

入門と冠しているが中々難しい内容。他の本で基礎を学んでから読んでみると、非常にコンパクトに情報がまとまっていて良書だと感じた。後半半分以上最近の事例や応用事例なのも新しい知識を得られてマル。

アボカド さん

2019-11-30

第2章の理論が難解だが,コピー用紙にメモしながら理解すれば何とかなるが,それでも結構難しい。強化学習を始めて学ぶひとは,”ロボットインテリジェンス”という本をお勧めする。これはExcelVBAを使った強化学習解説本で基本のQ学習を理解できる。