1. ホーム >
  2. 書籍 >
  3. 最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み

最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み


監修

形式:
書籍
発売日:
ISBN:
9784798152561
価格:
本体2,600円+税
仕様:
A5・272ページ
分類:
PC書その他

本書籍の他の形式を確認する

  • このエントリーをはてなブックマークに追加

「神の一手」の謎にせまる!

【概要】
2017年5月にアルファ碁(AlphaGo)と柯潔(カ・ケツ)九段の最終決戦が行われ、
アルファ碁の3連勝となりました。アルファ碁は今回の対戦で
さらに進化をとげました。

このようにAIの技術進化は日進月歩で進んでおり、国内でも
企業や研究開発が進んています。中でも注目されているのは、
機械学習・深層学習・強化学習です。

本書はネイチャー誌で提供されているアルファ碁に関する
難解な学術論文を著者のほうで読み解き、アルファ碁で
利用されている深層学習や強化学習、モンテカルロ木探索の
仕組みについて、実際の囲碁の画面も参照しながら、
わかりやすく解説した書籍です。

本書を読むことで、最新のAIに深層学習、強化学習、
モンテカルロ木探索がどのように利用されているかを
知ることができ、実際の研究開発の参考にすることができます。

【読者対象】
・人工知能関連の開発に携わる開発者、研究者
・ゲームAI開発者

【著者】
大槻 知史(おおつき・ともし)
2001年東京大学工学部計数工学科卒業。2003年同大学院新領域創成科学研究科複雑理工学専攻修士課程修了。
以降、機械学習・最適化などの研究開発に取り組む。
ゲームAIプログラマーとしては、2001年より、囲碁・将棋プログラムの開発に従事。
著者の開発した将棋プログラム「大槻将棋」は、2009年世界コンピュータ将棋選手権にて第2位。博士(情報理工学)。

【監修者】
三宅 陽一郎(みやけ・よういちろう)
デジタルゲームの人工知能の開発者。京都大学で数学を専攻、大阪大学大学院物理学修士課程、
東京大学大学院工学系研究科博士課程を経て、人工知能研究の道へ。
ゲームAI開発者としてデジタルゲームにおける人工知能技術の発展に従事。
国際ゲーム開発者協会日本ゲームAI専門部会設立(チェア)、日本デジタルゲーム学会理事、芸術科学会理事、人工知能学会編集委員。
共著『デジタルゲームの教科書』『デジタルゲームの技術』『絵でわかる人工知能』(SBCr) 、
著書『人工知能のための哲学塾』(BNN新社)、『人工知能の作り方』(技術評論社)、
『ゲーム、人工知能、環世界』(現代思想、青土社、2015/12)、最新の論文は
『デジタルゲームにおける人工知能技術の応用の現在』(人工知能学会誌 2015年、学会Webにて公開)。


Chapter1 アルファ碁の登場
Chapter2 ディープラーニング ~囲碁AIは瞬時にひらめく~
Chapter3 強化学習 ~囲碁AIは経験に学ぶ~
Chapter4 探索 ~囲碁AIはいかにして先読みするか~
Chapter5 アルファ碁の完成
Appendix1 数式について
Appendix2 囲碁プログラム用のUIソフト「GoGui」およびGoGui用プログラム「DeltaGo」の利用方法
ダウンロードファイルは、まだ公開されておりません。今しばらくお待ちくださいますようお願い申し上げます。

書籍への問い合わせ

正誤表、追加情報をご確認の上、こちらよりお問い合わせください

書影の利用許諾について

本書籍に関する利用許諾申請はこちらになります

追加情報はありません。

本書に誤りまたは不十分な記述がありました。下記のとおり訂正し、お詫び申し上げます。

書籍:ご購入刷数  電子書籍 最終更新日:2017年08月08日
発生刷 ページ数 書籍改訂刷 電子書籍訂正 内容 登録日
1刷 006
下から9行目
2刷
誰かしも
誰しも
2017.08.08
1刷 068
図2.9の一番上の記述
2刷
第1層の16個のフィルタ重みの例
学習の結果得られた第1層の16個のフィルタ重みの例
2017.08.08
1刷 073
2.2.6の見出し
2刷
2.2.6 誤差逆伝搬法に基づくCNNの学習
2.2.6 誤差逆伝搬法に基づくCNNのフィルタ重みの学習
2017.08.08
1刷 087
下から2行目
2刷
強いプレイヤと一致した例となっています。
確率最大の手であり、この場合正解である強いプレイヤの手と一致した例となっています。
2017.08.08
1刷 088
図2.18(a)
2刷

元の図は、ここに白石がなく、(b)と対応していませんでした。
2017.08.08
1刷 105
上から8行目
2刷
Step 4 SGDのパラメータの更新
Step 4 SGDによるパラメータの更新
2017.08.08
1刷 106
下から5行目
2刷
・・・(略)・・・ です。  結果として、・・・(略)・・・
・・・(略)・・・ です。

学習結果
 結果として、・・・(略)・・・

※「結果として」の段落の直上に、直前の「汎化と過学習」と同レベルの小見出しを追加
※小見出し「学習結果」
2017.08.08
1刷 107
MEMOの中、上から2行目
2刷
回転反転対象パターン
回転反転対称パターン
2017.08.08
1刷 108
図2.25のキャプション
2刷
SLポリシーネットワークの学習結果。 ・・・
SLポリシーネットワークのフィルタ重みの学習結果。 ・・・
2017.08.08
1刷 139
上から5行目
2刷
図3.6の迷路では、p142の図8に示すように、16の各マスに対しそれぞれ4つの行動選択肢があるため、行動価値関数(MEMO参照)は16×4のテーブルで表せます。
図3.6(a)の迷路では、16の各マスで「上」「下」「左」「右」の最大4つの行動選択肢があるため、行動価値関数(MEMO参照)は16×4のテーブルで表せます(p142の図3.8(c))。
2017.08.08
1刷 141
MEMO ステップ数の中
2刷
迷路の例では、最小ステップ数は「1→5→6→7→11→15→16」となり、移動する場合の7となります。
図3.6(a)の迷路の例では、最短経路は「1→5→6→7→11→15→16」なので、最小ステップ数は7となります。
2017.08.08
1刷 143
上から7〜8行目
2刷
16×4のテーブルとして表されますが(図3.8(d))
16×4のテーブルとして表されますが(図3.8(c))
2017.08.08
1刷 152
表3.1のATARI×エピソードのセル
2刷
開始からボールを落とす
開始からボールを落とすまで
2017.08.08
1刷 153
Step 4の見出し
2刷
Step 4 相手モデルと味方モデルで終局まで手を進める
Step 4 方策勾配法により、ポリシーネットワークのパラメータを更新する
2017.08.08
1刷 159
上から1〜2行目
2刷
 それではこの3000万個の学習をどのように得ると・・・(略)・・・。  第1に・・・(略)・・・16万個(3000万個の棋譜)・・(略)・・・。
 それでは3000万個の学習データをどのように得ると・・・(略)・・・。  第1に・・・(略)・・・16万個の棋譜(3000万個の局面)・・(略)・・・。
2017.08.08
1刷 160
図3.16フローチャートの一番上の□の中
2刷
Φ
2017.08.08
1刷 262
下から2行目
2刷
2017年6月吉日
2017年7月吉日
2017.08.08
1刷 264
INDEXの「Compute Unifi ed Device Architecture」
2刷
Compute Unifi ed Device Architecture
Compute Unified Device Architecture

・Unified中のスペースを削除
・最後にeを追加
2017.08.08
2刷 229
図5.10の横軸の文字列
モンテカルロ木探索  (・・・略・・・) ポリシーネットワーク  (・・・略・・・) バリューネットワーク  (・・・略・・・)
バリューネットワーク  (・・・略・・・) ポリシーネットワーク  (・・・略・・・) モンテカルロ木探索 (・・・略・・・)
2017.08.08

関連書籍

関連記事