悩みを打ち明けて、核心に迫るコメントをされたときには動揺した
と書かれていました。そして、全体として次のような評価をしています。
|
臨床心理士である東畑氏は、心の相談相手としての AI の「安全感、安心感」を大いに評価しています。これは AI と人間社会の関わりを考える上で示唆に富む発言だと思います。「感情を持たない AI」は、感情が無いからこそ、特定の人の深刻なシチュエーションで役割が果たせる。
もちろん、あらゆる道具は悪用することができます。心の相談相手としての AI も、たとえば反社会的宗教集団に入会するように誘導することが(AI の作り方によっては)できるだろうし、自殺教唆のようなこともできるでしょう(実際、そういう事件が起こった)。従って、ポジティブな面だけを見るのは絶対にまずいのですが、ネガティブな面、ダークサイドの排除を見据えつつ、AI をうまく利用するべきでしょう。
今回の記事では「感情を持たない AI」が非常に役立つのではないかという、別の例を取り上げます。感情を持たないがゆえのメリットです。それは、人が無意識に、暗黙に抱いているジェンダー・バイアス(= ジェンダーについての偏った見方)が AI によって暴かれた例です。
AIが明らかにした無意識のバイアス
2024年12月23日の日本経済新聞に東京大学の山口教授の「AIが解く無意識バイアス」と題したコラムが掲載されました。以下に引用します。
|
「男性優位の世界」は中国の囲碁界に限りません。日本の囲碁界もそうだし、将棋にいたっては今だに女性の棋士("女流棋士制度" ではなく、性別無関係の "棋士" になった女性)は皆無です。
囲碁・将棋だけでなく「男性優位」は、今の日本では社会のさまざまなところにあります。政治家がそうだし、学問の世界もそうでしょう。山口教授の東京大学もそのはずです。先生は圧倒的に男性だし、学生も特に理系は女性が少数です。ちなみに、私が卒業した大学は、工学部の定員が1学年で約900人でしたが、私の学年は女性がわずかに2人でした(だいぶ前の話ですが)。
数において「男性優位」の分野においては、才能ある女性は当然、数において少なくなります。大学の理系学部にいく女性が少なければ、女性科学者が少なくなる。これは当然の帰結です。ところがです。日経新聞の山口教授のコラムが主張しているのは、
部下・生徒を教える上司・教師の側に暗黙のバイアスがあり(「女性は囲碁には向かないだろう」「女性は理系に弱いだろう」・・・)、そのバイアスが正当な評価を阻害し、それが部下・生徒の成長を阻害している(のでないか)
ということなのです。それを、中国の囲碁教室の事例を引いて説明されている。そうであれば、これは大変ゆゆしきことです。
実は、このコラムにある「中国の囲碁教室での取り組み」は、その論文がネットに公表されています。気になったので、論文を読んでみました。以下はその内容です。
AI は男女平等を改善できるか
論文のタイトルは、
Can Artificial Intelligence Improve Gender Equality ? Evidence from a Natural Experiment AI は男女平等を改善できるか ? 自然実験から得られた証拠 (2024年 10月 11日) |
で、執筆者は次の3人の学者です。
Leo Bao(レオ・バオ)
モナシュ大学:オーストラリア
Difang Huang(黄迪方)
中国科学院
Chen Lin(チェン・リン)
香港大学
ちなみに論文のタイトルにある "Natural Experiment(自然実験)" とは、「あらかじめ計画して実験したものではないが、計画したとの同様の状況が現出し、その状況を分析してまとめた "実験"」の意味です。論文ではまず、次のような状況と問題意識が述べられています。
科学、技術、工学、数学(STEM)分野や戦略的ボードゲーム(チェスや囲碁など)の分野では、女性の割合が非常に少ない。 | |
囲碁界でも男女格差が依然としてあり、女性のアマチュアおよびプロ棋士は男性に比べて大幅に少ない。国際囲碁連盟の調査によると、ほとんどの国で囲碁プレーヤーに占める女性の割合は20%に満たない。 | |
囲碁の男女格差は棋士のレーティングにも明らかで、2022年 5月時点で、世界のトップ 400人の棋士のうち、女性は 26人のみである。 | |
囲碁のみならず、教育における男女平等の改善は長い間の重要な社会目標である。にもかかわらず、教師や指導者がジェンダーに偏った信念を抱くことがあり、その考え方がなかなか変わらないことがある。 | |
AI技術の発展は、教師や指導者側のジェンダー・バイアス問題に解決策をもたらす可能性がある。しかしAI技術がどの程度有効なのか、今まで実証データはなかった。 |
この最後の問題意識に対応し、「ジェンダー・バイアス問題の解決にAI技術がどの程度有効なのか(囲碁のトレーニングという範囲ではあるが)その実証データを得た」のが論文の眼目です。
中国の囲碁教室と新型コロナウイルス
実験の舞台は中国最大の囲碁トレーニング教室です。この教室は過去に1万人以上の生徒を訓練し、プロ棋士も20人以上出すという実績のある教室です。生徒はほとんどが学童です。この教室の生徒は、棋力によって25級(入門時)から1級に振り分けられ、それを超すと段位が与えられます。今回の実験の対象は段位をもつ生徒です。
新型コロナウイルスの期間中、トレーニングはすべてオンラインで行われました。段位をもつ生徒の場合、トレーニングはオンラインでの
・対戦
・学習(=対戦の振り返り)
の2つからなります。「オンライン対戦」は、毎週2回、同程度の棋力をもつ生徒同士のオンラインでの対戦です。「オンライン学習」は、対戦が終わったあとに教師と生徒がオンラインで振り返り、生徒の着手のそれぞれについて教師が評価し、悪手の場合はその代替策を提示します。この学習は、一部の生徒について、人間の教師が行うのではなく「AIの教師による学習システム」が使われました。「一部の生徒」と「AIの教師」がポイントです。
オンライン対戦 |
オンライン対戦のポイントは「成績の定量化」です。対戦はすべて記録され、囲碁AI である KataGO で分析されました。
KataGO は、David Wu 氏(アメリカ)が開発したオープンソースの囲碁AI です(2019年初版)。ディープマインド社の AlphaGo Zero と AlphaZero の論文をべースに開発され、独自の強化もされています。
KataGo は、対戦の着手ごとに「KataGo が推奨する最善手」と「実際に生徒が打った手」のそれぞれについて、最終的に(最善手で)ヨセまで打ったとしたら何目勝ち(ないしは何目負け)になるかを計算します。その計算結果(石の数の差異)にもとづいて勝率を計算します。石の数の差異を勝率に換算する式は論文には書いてないのですが、このあたりは日本のTV囲碁番組でもおなじみのところです。
この計算にもとづき、着手ごとに「手の品質」を決めます。品質は 0(最悪)~ 10(最善)の数値です。そして、対戦における生徒のすべての「手の品質」を平均したものが「手の平均品質」です。
また KataGO は着手による勝率の変化をもとに、それぞれの着手を「完璧・優れた・良い・悪い・エラー・重大エラー」の6段階に分類します。勝率を 10%~20% 下げる手が「エラー」で、20% 以上下げる手が「重大エラー」です。これらのエラーの数は成績の定量化に使われます。
さらに「エラーの程度」も計測されます。これは「エラー」または「重大エラー」と判定した手で、KataGo の推奨手による最終的な石の数と、実際の着手による最終的な石の数を計算し、その差異を求めて対局全体で平均したものです。
オンライン学習 |
対戦が終わったあと、教師と生徒がオンラインで会話し、着手のそれぞれについて教師が評価し、悪手の場合はその代替案を提示します。通常、教師は人間ですが、今回は AI教師によるオンライン学習も行われました。
AI教師は、アニメーションを使った人の姿の "教師" で、KataGo が組み込まれており、人間の教師と同じように生徒の手を評価し、悪手の場合は代替案を提示します。代替案に沿って生徒と打ち進めることもできます。つまり対話型で囲碁AIと対戦の復習をするシステムです。
今回のケースでユニークなのは、オンライン復習での人間の教師と AI教師の両方の動画データと音声データが保存され、それにもとづいて教師の感情分析を行ったことです。これは3つの分析から成ります。
まず、顔認識システムを用いて、教師の表情がポジティブか(幸福感など)、ネガティブか(嫌悪感など)、ニュートラルか、その変化が測定されました(=視覚データ)。
2番目に、音声認識アルゴリズムを使い、発話のイントネーションやトーンを分析して、教師の感情をポジティブ・ニュートラル・ネガティブに時系列に分析します(=音声データ)。
3番目は、音声から単語認識をし、あらかじめ作ってある中国語・約1万語の単語リストをもとに教師の感情を分析します。リストの各単語には、否定的感情の単語か肯定的感情の単語かに従って 1~9の数値が割り当ててあり、これによって教師の感情を分析します(=言語データ)。
これらの3つの分析はすべて時系列に行いますが、それらを総合して人間の教師と AI 教師の感情が3つの指標で数値化されました。
自然実験 |
一般に科学では、原因(X)によって結果(Y)が起きるという因果関係を証明するために、ランダム化比較試験(RCT : Randomized Controlled Trial)を行います。これは実験対象者を無作為に2つの集団に分け、一方だけにXを与え、それ以外の条件は同じにして、集団間でYを比較します。無作為に2つの集団に分けることによって集団が同質になることが重要です(No.223「因果関係を見極める」参照)。新薬の治験の場合には、X以外の条件を同質にするため、集団の一方に新薬を投与し、もう一方の集団には偽薬を投与します。
この X の条件を与えた集団を「介入群(Intervention Group)」と呼び、与えなかった集団を「対照群(Control Group)」と呼びます。介入群については「処置群(Treatment Group)」という言い方もあります(論文では Treated Group と書かれている)。
新型コロナウイルスの流行で、囲碁教室はすべてオンラインでの「対戦」と「学習」になりました。さらに、ウイルスの局地的な流行のため一部の教師が流行の途中でコロナウイルスに感染し隔離されるという事態が発生しました。隔離された教師はオンライン学習ができなかったので(そういう隔離状況だったようです)、AI教師に置き換えられました。これにより、意図せずしてランダム化比較試験と類似の状況になったわけです。これが自然実験です。この場合、生徒は次の2つの集団に分けられました。
人間教師により学習をしていたが、途中から AI教師に代わった生徒 | |
ずっと人間教師によって学習した生徒 |
どの教師が新型コロナウイルスに感染するかはランダムに決まりました。従ってどの生徒が介入群・対照群になるかもランダムに決まります。ここがポイントです。
介入群と対照群 |
2021年1月、新型コロナウイルスの局地的な蔓延により、囲碁教室の教師 36人中の16人が隔離され、教育が不可能になりました。そこで先進的な試みとして、隔離された教師を「AI教師」で代替する試みが成されました。この状況のもとに、以下の数の生徒の成績が分析されました。分析の対象となったのはすべて段位を持つ生徒です。
82名 | 54名 | 136名 | |
92名 | 59名 | 151名 | |
174名 | 113名 | 287名 |
分析された期間は次の通りです。
第1期間(コロナによる隔離発生以前)
2020年 9月 ~ 2021年 1月(4ヶ月)
第2期間(コロナによる隔離発生以降)
2021年 3月 ~ 2021年 7月(5ヶ月)
2月は旧正月があるため、分析期間からは省いてあります。
生徒の成績と教師の感情分析
論文から生徒の成績の変化と教師の感情を分析した結果の一部を掲げます。
生徒の成績 |
成績の変化 |
(論文より) |
表には4つのグラフがあります。いずれも横軸は時間で、0 がコロナ禍による教師の隔離直前、マイナスはそれからさかのぼること4ヶ月の1ヶ月おきのデータです(第1期間)。また 1から 5は、2021年 3月から 7月までの1ヶ月おきのデータです(第2期間)。
赤が女子生徒、青は男子生徒です。また白抜きの丸は対照群(Control Group : 全データが人間教師)、塗りつぶした丸が介入群(Treated Group : -4 ~ 0 が人間教師で、1 ~ 5 が AI教師)です。4つのグラフの意味はそれぞれ次の通りです。
左上:手の平均品質
右上:エラーの数
左下:重大エラーの数
右下:エラーの程度
右上:エラーの数
左下:重大エラーの数
右下:エラーの程度
このグラフの 1 ~ 5(一部教師の隔離以降)から分かることは、次の2点です。
いずれのデータも、人間教師より AI教師の方が成績向上の程度が大きい(赤青とも、白抜き丸より塗った丸の方が好成績)。つまり、AI教師の有効性が示された。 | |
AI教師による女子生徒の成績向上がめざましく、5 の時点(2021年 7月)では男子生徒と同等の成績までになった。 |
教師の感情 |
動画データと音声データから分析された「教師の感情」について、論文では以下のようにまとめられています。
視覚データ
人間の教師は高段位の生徒や男子生徒にポジティブな感情を示すことが多く、ネガティブな感情を示すことは少ない。一方、 AI教師は生徒の特性によって感情を変えることはない。
音声データ
人間の教師は男子生徒や高段の生徒を好む傾向があるが、AI教師の感情は生徒に対して公平である。
言語データ
人間の教師は男子に対してよりポジティブな感情を示し、ネガティブな感情はあまり見らないが、AI教師にはそのような男女差はない。AI教師の感情は生徒の特性とは独立している。
さらに論文では、オンライン学習における教師の感情が、生徒の次回以降の対戦にどう影響するかが分析されています。それによると、
人間の教師のポジティブな感情が次の対戦での生徒のパフォーマンスを向上させ、人間の教師のネガティブな感情は次の後の試合での生徒のパフォーマンスを妨げる。これは男子生徒についても女子生徒についても同じである
とのことです。論文では、以上のような結論が統計上で有意であると分析されていますが、その内容は省略します。さらに論文では、生徒にアンケートをとった結果も分析し、次のように結論づけています。
人間の教師のポジティブな感情は、生徒の自信、注意力、アドバイスに従う意欲、授業への関心を高め、それによって学習成果を向上させる。教師のネガティブな感情は生徒を緊張させ、学習を妨げる。 |
まとめと感想
この論文のまとめと感想を以下に書きます。囲碁教室における "自然実験論文" の重要な点は、以下の3点でしょう。
教師・指導者のポジティブな感情は、生徒の学習意欲を高め、その結果として学習効果を高める。 |
これは一般によく言われることです。「褒めることが大切」「褒めて伸ばす」という文脈で言われることもある。子供の教育に即していうと「子供が頑張れば達成可能な課題を与え、達成できれば褒めることが大切。また、達成可能な課題が与えられる環境に子供をおくことが重要」と言えるでしょう。蛇足ですが、益子直美さんが主催するバレーボールの「監督が怒ってはいけない大会」を思い出しました。
教師は(ジェンダー・バイアスにより)男子生徒に対してよりポジティブな感情を示し、女子生徒にはよりネガティブな感情を示す。このことにより女子生徒の成績向上が阻害される。このことは、ニュートラルな感情の AI教師に指導を受けた女子生徒が、5ヶ月後に男子生徒なみの成績に向上したことで裏付けられた。 |
人間の教師は、男子生徒に対しても女子生徒に対しても成績向上を目指して指導するのは確かなのでしょう。しかし人間には「囲碁は女性に向かない」という無意識のジェンダー・バイアスがあると考えられます。これは、たとえば生徒が悪手を打ったときの教師の感情に影響するはずです。なぜそれが悪手かを説明して正しい着手を示すにしても、それを肯定的な感情で言うか("失敗・修正の積み重ねが上達の近道")、否定的な感情のもとに言うか("そんな手を打っていて強くなれない")は、生徒に大いに影響するはずです。人は対話相手の微妙な感情を鋭く認識するものです。だからこそ対話の意味があるのだけれど、ジェンダー・バイアスがあるとそれが裏目に出るのです。
ジェンダー・バイアスとは無関係に、AI教師は人間教師よりも優れている。これは、男子生徒に対しても、女子生徒に対しても言える。 |
ニュートラルな感情しか示せない(従って、ポジティブな感情を示して生徒のモチベーションを上げることはできない)AI教師が人間教師より優秀な理由は、おそらく手の優劣の程度をデジタル値で示せることでしょう。これは大きいと思います。定石となっている手でも、盤面の全体状況によっては最善で無くなることもあります。囲碁AI はそういうことを含めて、デジタル値で候補手の評価ができる。現代の囲碁・将棋の棋士にとって AI研究が欠かせないのもそこにあると思います。
この論文の特徴は、次の2つ、
ジェンダー・バイアスの存在を AI で確かめた | |
AI の有効性を AI で確かめた |
ことにあるでしょう。囲碁AI は、まさに現代の AI の大進歩の嚆矢となったものだし(2016年のディープマインド社のアルファ碁)、教師の感情分析に使われている顔認識やイントネーションからの感情分析、声からの単語抽出は AI技術です。まさに AI時代ならではの論文と言えるでしょう。
東京大学 山口教授の指摘した「無意識のバイアス」に戻ると、論文はあくまで囲碁というボードゲームの世界だけの話、またジェンダー・バイアスに限定した話です。これをほかの世界に単純に一般化できない面もあるかもしません。ただし、囲碁というボードゲームの世界に限定しているからこそ、AI技術を駆使してバイアスの存在を明らかにしたと言えます。そこにこの論文の意義があると思いました。