No.181 - アルファ碁の着手決定ロジック(2)

(前回から続く) 前回の No.180「アルファ碁の着手決定ロジック(1)」の続きです。以下に出てくる policy network、SL policy network、RL policy network、ロールアウト、UCB については前回の説明を参照ください。 モンテカルロ木検索(MCTS)の一般論 モンテカルロ木検索(Monte Carlo Tree Search : MCTS)は、現代のコンピュータ囲碁プログラムのほとんどで使われている手法です。以下にMCTSの最も基本的なアルゴリズムを書きますが、もちろんこのような話はディープマインド社の研究報告には書かれていません。MCTSは既知のものとしてあります。しかしアルファ碁の検索はMCTSに則のっとっているので、このアルゴリズムが分かると、アルファ碁の検索手法も理解できます。  余談ですが、モンテカルロという言葉は数学において「確率的なアルゴリズム」である場合に使われます。たとえば「モンテカルロ法で円周率を計算する」としたら、円周率は半径 1 の円の面積なので、0 以上 1 以下の実数の乱数を2つ発生させ、そのペアを平面上の座標値として原点からの距離を計算する。そして、距離が 1 以下かどうかを判定する。この計算を大量にやって 1 以下の個数の割合を計算すると、その割合の 4 倍が円周率ということになります。 余談の余談ですが、こういった問題は中高校生にプログラミングを教えるのには最適ではないかと思います。…

続きを読む

No.180 - アルファ碁の着手決定ロジック(1)

アルファ碁(AlphaGo) No.174「ディープマインド」で、英国・ディープマインド社(DeepMind)のコンピュータ囲碁プログラム、アルファ碁が、世界最強レベルの囲碁棋士である韓国の李世乭(イ・セドル)九段に勝利した話を書きました(2016年3月。アルファ碁の4勝1敗)。 AlphaGo vs イ・セドル9段(右)第1局 (YouTube) このアルファ碁に盛り込まれた技術について、No.174 では「Nature ダイジェスト 2016年3月号」に従って紹介しました。要約すると、ディープマインド社のやったことは、 ◆次に打つ手を選択して碁盤を読む能力をもったニューラルネットワークを、深層学習と強化学習によって作った。 ◆このニューラルネットワークを、手筋のシミュレーションによって最良の手を選択する市販の囲碁プログラムの探索アプローチと組み合わせた。 となります。非常に簡単な説明ですが、そもそも「Nature ダイジェスト」の解説が簡素に書いてあるのです(それが "ダイジェスト" の意義です)。 もうちょっと詳しく言うとどういうことなのか、どこに技術のポイントがあるのか、大変気になったので「Nature 本誌」の記事を読んでみました。ディープマインド社が投稿した「ディープ・ニューラルネットワークと木検索で囲碁を習得した - Mastering the game of Go with deep neural network and tr…

続きを読む

No.179 - 中島みゆきの詩(9)春の出会い

今回は、No.168「中島みゆきの詩(8)春なのに」の続きです。No.168では中島みゆき作詞・作曲の、  春なのに柏原芳恵への提供曲(1983)  少年たちのように三田寛子への提供曲(1986) をとりあげました。2曲とも "春の別れ" をテーマとした詩です。そのときに別の中島作品を連想したのですが、今回はそれを書きます。2曲とは全く対照的な "春の出会い" をテーマとする曲、  ふたりはアルバム『夜を往け』1990 です。 ふたりは 「ふたりは」は、1990年に発売されたアルバム『夜を往け』に収録されている曲です。また、その年の暮れの第2回目の「夜会」で最後に歌われました。その詩を引用すると以下の通りです。 《ふたりは》 「ごらんよ あれがつまり遊び女めって奴さ 声をかけてみなよ すぐについて来るぜ 掃除が必要なのさ この街はいつでも 人並みに生きていく働き者たちの ためにあるのだから」 街を歩けば人がみんな振り返る そんな望みを夢みたことなかったかしら子供の頃 街じゅうにある街灯に私あたしのポスター 小さな子でさえ私のこと知っていて呼びかけるの 「バ・イ・タ」 「ごらんよ子供たちよ ああなっちゃ終わりさ 奔放な暮らしの末路を見るがいい 近づくんじゃないよ 病気かもしれない 耳を貸すんじゃない 呪いをかけられるよ」 緑為す春の夜に 私は ひとりぽっちさまよってた 愛だ…

続きを読む