現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御(伊藤多一 今津義充 須藤広大 仁ノ平将人 川﨑悠介 酒井裕企 魏崇哲)|翔泳社の本
  1. ホーム >
  2. 書籍 >
  3. 現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御

現場で使える!Python深層強化学習入門 強化学習と深層学習による探索と制御








形式:
書籍
発売日:
ISBN:
9784798159928
価格:
本体3,400円+税
仕様:
A5・328ページ
分類:
人工知能・機械学習

本書籍の他の形式を確認する

  • このエントリーをはてなブックマークに追加

注目の最新AI技術!深層強化学習の開発手法がわかる!
第一線で活躍する著者陣の書下ろしによる待望の1冊!

【本書の目的】
AlphaGo(アルファ碁)でも利用されている深層強化学習。
AIサービスのみならずロボティクス分野でもその応用が期待されています。
本書は、AI開発に携わる第一線の著者陣が深層強化学習の開発手法について書き下ろした注目の1冊です。

【本書の特徴】
第1部では、まず、深層強化学習の概要について説明します。
次いで、強化学習の基礎(Q学習、方策勾配法、Actor-Critic法)と深層学習の基礎(CNN、RNN、LSTM)を解説します。
さらに、簡単な例題として倒立振子制御を取り上げ、DQNとActor-Critic法による実装例を紹介します。
第2部では、具体的な応用例として3つのアプローチを実装込みで解説します。
1つ目は、連続動作制御です。ヒューマノイドシミュレータの2足歩行制御を試みます。
2つ目は、パズル問題の解法です。巡回セールスマン問題(TSP)やルービックキューブの解探索について説明します。
3つ目は、系列データ生成です。文書生成(SeqGAN)やニューラルネットワークのアーキテクチャ探索(ENAS)を解説します。

全体を通して、行動の制御を担うエージェントのモデル化と、方策ベースの強化学習によるエージェントの学習法について学ぶことができます。

【読者が得られること】
深層強化学習による開発手法を学ぶことができます。

【対象読者】
深層強化学習を学びたい理工学生・エンジニア


■Part 1 基礎編

CHAPTER 1 強化学習の有用性
 1.1 機械学習の分類
 1.2 強化学習でできること
 1.3 深層強化学習とは

CHAPTER 2 強化学習のアルゴリズム
 2.1 強化学習の基本概念
 2.2 マルコフ決定過程とベルマン方程式
 2.3 ベルマン方程式の解法
 2.4 モデルフリーな制御

CHAPTER 3 深層学習による特徴抽出
 3.1 深層学習
 3.2 畳み込みニューラルネットワーク(CNN)
 3.3 再帰型ニューラルネットワーク(RNN)

CHAPTER 4 深層強化学習の実装
 4.1 深層強化学習の発展
 4.2 行動価値関数のネットワーク表現
 4.3 方策関数のネットワーク表現

■Part 2 応用編

CHAPTER 5 連続制御問題への応用
 5.1 方策勾配法による連続制御
 5.2 学習アルゴリズムと方策モデル
 5.3 連続動作シミュレータ
 5.4 アルゴリズムの実装
 5.5 学習結果と予測制御

CHAPTER 6 組合せ最適化への応用
 6.1 組合せ最適化への応用について
 6.2 巡回セールスマン問題
 6.3 ルービックキューブ問題
 6.4 まとめ

CHAPTER 7 系列データ生成への応用
 7.1 SeqGANによる文章生成
 7.2 ネットワークアーキテクチャの探索

APPENDIX 開発環境の構築
 AP1 ColaboratoryによるGPUの環境構築
 AP2 DockerによるWindowsでの環境構築

付属データはこちら

会員特典はこちら

書籍への問い合わせ

正誤表、追加情報をご確認の上、こちらよりお問い合わせください

書影の利用許諾について

本書籍に関する利用許諾申請はこちらになります

  • Docker ToolBoxの利用にあたっての注意事項

     Docker ToolBoxの更新にともない、ソースコードのフォルダをコンテナにマウントできなくなるバグが生じております(下記URL参照)。

    https://github.com/docker/toolbox/issues/844


     この状況になった場合、問題を解決するには、以下の手順にしたがってください。


    手順1.書籍のAP2.2(P.287~294)にしたがい、DockerToolbox-18.09.3 をインストールしてください。

    手順2.「Docker Quickstart Terminal」をダブルクリックして Docker ターミナルを起動してください[*1][*2]。

    手順3.インストール先のフォルダ C:\Program Files\Docker Toolbox の下にあるイメージファイル boot2docker.iso をコピーして C:\Users\ユーザ名\.docker\machine\machines\default の下にある同名のファイルを上書き保存してください。

    手順4.Dockerターミナルを終了してPCを再起動してください[*3]。

    手順5.再度、Docker Quickstart Terminal をダブルクリックして Docker ターミナルを起動してください。

    手順6.その後は、書籍のAP2.3およびAP2.4(P.294~301)にしたがって下さい[*4]。

    [*1]: 途中でVirtual Boxの変更を問うウィンドウが何度か開きます。すべて「はい」をクリックしてください。

    [*2]: しばらくしてもプロンプトが戻ってこない場合は、Enterキーを押してください。

    [*3]: PCをシャットダウンする際、Virtual Boxを強制的に終了してください。

    [*4]: Jupyter Notebook および Colaboratory を起動するブラウザとしては、Google Chrome または Internet Explorer を使用してください。

ご購入いただいた書籍の種類を選択してください。

書籍の刷数を選択してください。

刷数は奥付(書籍の最終ページ)に記載されています。

現在表示されている正誤表の対象書籍

書籍の種類:

書籍の刷数:

本書に誤りまたは不十分な記述がありました。下記のとおり訂正し、お詫び申し上げます。

対象の書籍は正誤表がありません。

最終更新日:2019年09月11日
発生刷 ページ数 書籍改訂刷 電子書籍訂正 内容 登録日
1刷
カバー、表紙、大扉の著者名
川崎悠介
悠介
2019.07.31
1刷 005
下から7行目
関数出力という回答(予測)に対し
関数出力という解答(予測)に対し
2019.09.11
1刷 066
上から3行目、上から10行目




2019.09.04
1刷 122
下から3~5行目
 DQNでは、行動価値関数を深層ニューラルネットワークによって近似しますが、単純に適用しても様々な問題により学習が安定せず、ネットワークのパラメータが収束しません。  DQNアルゴリズムでは、それらの問題に対していくつかの工夫が考えられており、その中でも基本となるものを以下に紹介します。
 DQNはQ学習をベースとしているため、Q学習と同様に以下の更新式にしたがって行動価値関数の予測 を更新します。
2019.08.29
1刷 123
上から1~2行目
 DQNでは、行動価値関数をうまく近似するために様々な工夫がされていますが、その中で基本となるものを紹介します。
 DQNでは、行動価値関数を深層ニューラルネットワークによって近似しますが、単純に適用しても様々な問題により学習が安定せず、ネットワークのパラメータが収束しません。  DQNアルゴリズムでは、それらの問題に対していくつかの工夫が考えられており、その中でも基本となるものを以下に紹介します。
2019.08.29
1刷 141
リスト4.8 上から24行目
self.leaning_rate)
self.learning_rate)
2019.09.04
1刷 160
下から7行目
モンテカルと近似
モンテカルロ近似
2019.07.31
1刷 184
図5.13
※図5.13の背景と線の色が違う
※P.183の図5.12と同じようになる(モノクロ)
2019.07.31
1刷 289
本文 上から1,2行目、図 AP.11、図 AP.12
・本文 上から1,2行目 ページをスクロールして「v18.03.0-ce」をクリックし、ダウンロードページに移動します。インストーラー(DockerToolbox-18.03.0-ce.exe)をダウンロードします ・図 AP.11
・図 AP.12
・本文 上から1,2行目 ページをスクロールして「v18.09.3」をクリックし、ダウンロードページに移動します。インストーラー(DockerToolbox-18.09.3.exe)をダウンロードします ・図 AP.11
・図 AP.12
2019.08.22
1刷 294
脚注9
hhttp
http
2019.08.20