No.181 - アルファ碁の着手決定ロジック(2)
(前回から続く)
前回の No.180「アルファ碁の着手決定ロジック(1)」の続きです。以下に出てくる policy network、SL policy network、RL policy network、ロールアウト、UCB については前回の説明を参照ください。
モンテカルロ木検索(MCTS)の一般論
モンテカルロ木検索(Monte Carlo Tree Search : MCTS)は、現代のコンピュータ囲碁プログラムのほとんどで使われている手法です。以下にMCTSの最も基本的なアルゴリズムを書きますが、もちろんこのような話はディープマインド社の研究報告には書かれていません。MCTSは既知のものとしてあります。しかしアルファ碁の検索はMCTSに則のっとっているので、このアルゴリズムが分かると、アルファ碁の検索手法も理解できます。
余談ですが、モンテカルロという言葉は数学において「確率的なアルゴリズム」である場合に使われます。たとえば「モンテカルロ法で円周率を計算する」としたら、円周率は半径 1 の円の面積なので、0 以上 1 以下の実数の乱数を2つ発生させ、そのペアを平面上の座標値として原点からの距離を計算する。そして、距離が 1 以下かどうかを判定する。この計算を大量にやって 1 以下の個数の割合を計算すると、その割合の 4 倍が円周率ということになります。
余談の余談ですが、こういった問題は中高校生にプログラミングを教えるのには最適ではないかと思います。…