東ロボくんは、"MARCH"、"関関同立" の特定学部に合格できるレベル | |
ただし、東大合格は無理 |
というものでした(MARCH = 明治、青山学院、立教、中央、法政。関関同立 = 関西、関西学院、同志社、立命館)。つまりこのプロジェクトは「AIの可能性と限界を実証的に示したもの」と言えるでしょう。あくまで大学入試という限られた範囲です。しかし大学入試は10代後半の人間の知的活動の成果を試す重要な場であり、その結果で人生が左右されることもあるわけです。"人工知能" の実力を試すにはうってつけのテーマだったと思います。
では、なぜ東大合格は無理なのか。それは東ロボくんには得意科目もあるが、不得意科目があるからです。たとえば数学では、東大理科3類を受験する子なみの偏差値を出しました。しかし不得意もあって、その典型が英語のリスニング、「バースデーケーキの問題」でした(No.196 の「補記」参照)。この問題において東ロボくんは、英語を聞くことは完璧にできました(=音声認識技術)。しかし質問が「できあがったケーキはどれか、4つのイラストから選びなさい」だったため、そこが全くできなかった。国立情報学研究所の方の「絶対に無理」とのコメントがありました。「今のAIの方法論では今後とも絶対に無理」の意味です。要するに No.196 の「バースデーケーキ問題は」、
英語のリスニング | |
イラストを見て答える常識推論 |
の複合問題であり、東ロボくんは ① が完璧、② が手も足も出ないという状況だったわけです。AIの可能性と限界を示す象徴的な例です。
そこで次の段階として、疑問が出てきます。
AIが人間と同等にできる、あるいは人間以上にできることについて、AIと人間の違いがあるのか、あるとしたらそれは何か
という疑問です。AIを "人工知能" と言うなら、その "知能" は "人間の知能" と似たようなものか、あるいは異質なものなのか ・・・・・・。
No.196 で東ロボ・プロジェクトのリーダの新井教授は「AIは意味を理解しない」と言っていました。人間が無意識にやっている「意味を理解する」とは非常に広範囲なことですが、たとえば、ある内容の記述を読んだり、発言を聞いたりしたときに、
何を言っているのかが理解できることを前提として | |
その記述や発言に至った理由や背景、意図、目的が理解できる。 | |
内容の価値判断ができる。重要か、自分に関係あるか、一般的なことか、意義があるのか、本当のことか、正しいことか、応用できるか ・・・・・ 等々。 |
などでしょう。もっとあると思います。もちろんその全部ではないでしょうが、人は多かれ少なかれ、そういうことを暗黙に想定しつつ記述を読み、発言を聞き、コミュニケーションをしています。意味を理解することこそ人間の価値であり、逆に言うと「意味を理解しないで過ごしているばかりだと、いずれ AI に取って代わられる」という警告でした。
では、「AIは意味を理解しない」こと以外に、AIの "知能" が人間と違うところはあるのでしょうか。そのことについて、理化学研究所・上級研究員の瀧 雅人氏が最近の雑誌に大変わかりやすい解説を書かれていましたので、是非、それを紹介したいと思います。「騙されるAI」(日経サイエンス 2020年1月号)という記事で、「騙す・騙される」という切り口から人間とAIの相違、人間にとってのAIの意味を明らかにしたものです。
以降の話は、AIに使われる各種の手法(ないしは数学モデル、アルゴリズム)のうち、ディープラーニングに話を絞ります。ディープラーニングは、2010年代の「AIブーム」の火付け役となったものです。まず、瀧 雅人氏の解説を紹介する前に、ディープラーニングの概要を振り返ってみたいと思います。各種メディアで大量に流されている情報ですが、あとの瀧氏の解説に関係する部分を要約します。
なお、No.180「アルファ碁の着手決定ロジック(1)」で、英国・ディープマインド社の「アルファ碁」(2015年末当時)で使われているディープラーニングの内部構造(アーキテクチャ)を解説しました。これは、画像認識によく使われる「畳み込みニューラルネットワーク(Convolutional Neural Network。CNN)」と呼ばれるタイプのものです。ただし碁のゲーム用に特化したCNNです。
深層学習(ディープラーニング)の発展
AIに使われる手法は各種ありますが、現在のAIのブレークのきっかけになったのは深層学習(ディープラーニング)の実用化に成功したことでした。この技術革新をもたらしたのが、業界では "カナディアン・マフィア" と呼ばれるモントリオール大学教授のヨシュア・ベンジオ、トロント大学名誉教授のジェフリー・ヒントン、現フェイスブックのチーフAIサイエンティストのヤン・ルカンでした。彼らは "AIの冬の時代" にも地道に研究を重ね、ディープラーニングに関する数々の技術的困難を克服してきました。
【画像認識】 業界が衝撃を受けたのは2012年のILSVRC(Image-net Large-scale Visual Recognition Challenge)です。これは与えられた画像に何が写っているかを1000種の中から答えるというものです(= 一般物体認識)。このコンテストに参加したトロント大学のヒントン教授のチームは、ディープラーニングを使い、それまでの誤認識率を一挙に10ポイントも改善する 16% という値を達成しました。それまでは数年で1~2%の改善だったことを思うと、これは革新的です。その後も精度は急激に向上し、2015年あたりでは 5% 程度にまで低下しました。これは人間の画像認識能力の平均値を越えています。
【音声認識】 画像認識とともにディープラーニングの成果が最初に現れたのは音声認識です。これについては瀧 雅人氏の解説を引用します。
|
【自動翻訳】 ディープラーニングが発展したもう一つが自然言語処理(Natural Language Processing。NLP)の分野で、その典型的な例は自動翻訳です。自動翻訳にディープラーニングを取り入れたのはグーグル翻訳が最初ですが、その精度は年々向上し、多くの自動翻訳システムがディープラーニングを取り入れるようになりました。
【読解力】 その自動翻訳のための基礎技術の一つが読解力です。No.234「教科書が読めない子どもたち」で、国立情報学研究所の新井教授が主導した RST(Reading Skill Test)を紹介しましたが、RSTは読解力(基礎的読解力)判定するものです。RSTは基礎的読解力を「係り受け」「照応解決」「同義文判定」「推論」「イメージ同定」「具体例同定」にわけて測定するものですが、「推論」「イメージ同定」「具体例同定」の3つはまだまだAIにとって困難な問題です。しかし「係り受け」「照応解決」についてはAIが好成績をあげています。
読解力をテストするベンチマーク問題に SQuAD(Stanford Question and Answer Dataset)があります。これはスタンフォード大学が整備しているデータベースで、Wikipediaの例文をもとに、例文に関する質問と答(すべて英文のテキスト)が集積されています。RSTの基礎的読解力で言うと「係り受け」と「照応解決」に相当しますが、ある程度の「推論」が必要な問題もあるようです。
2018年1月、マイクロソフト・リサーチのディープラーニング・システムが、SQuADのベンチマークで(その当時の)人間の平均値(82.3点)を初めて上回りました。その後、2019年に至って90点に迫るディープラーニング・システムも出現しています。あくまで基礎的読解力の一部の範囲ですが、AIはそういう実力だということです。
以上の画像認識、音声認識、自動翻訳だけでなく、ディープラーニングは多くの分野で突出した成果をあげています。それは商用だけでなく、医療、創薬、新素材開発、天文学などの研究開発分野にも広がっています。
ディープラーニングは説明可能ではない
ディープラーニングで重要なことは、問題から正解を導く方法や筋道、アルゴリズムを人間が教えたのではないことです。あくまで「問題と正解のデータ」を大量に集め、それをディープラーニングを実装したコンピュータ・システムに学習させたものです。
ここから言えることは、ディープラーニングが答えを出したとしても、なぜそうなるのかの理由が説明できないということです。その例として、No.180「アルファ碁の着手決定ロジック」で取り上げた英国・ディープマインド社のアルファ碁(=2015年末当時のアルファ碁)で言いますと、policy newtwork によって碁のエキスパートが次に打つだろう点の確率を計算し、A点が 0.6、その1路横のB点が 0.2 になったとき、なぜA点の方が有力かの説明をアルファ碁はしないわけです。人間ならたとえば「B点は相手の厚みに近寄り過ぎているので、ここは1路控えたA点が正解」というように理由を説明するわけです。さらには「敗勢なら一歩踏み込んだB点で勝負をかけるのもありだが、今は状勢が拮抗しているのでA点に打つべき」と付け加えるかも知れません。そういった「説明」がAIはできない。
これは、ディープラーニングはブラックボックスだから、というのではありません。アルファ碁のアーキテクチャは明確であり、そこでどういうパラメータが使われているのか、(アルファ碁の開発者なら)調べようと思えばいくらでも調べられるからです。しかしアルファ碁のパラメータは No.180 で試算したように約388万個もあります。それがどのように影響し合って答えを導くのか、膨大すぎて人間には理解しがたいのです。
要するにディープラーニングは「なぜだか明確には説明できないが、答は結構正確」なのです。もちろんそれで有益な場合があることは確かです。人間が思いつかないような(ないしは見落としているような)答を出し、それを人間が検証して有効活用できればよい。しかしこのままでは真に重要な決定をディープラーニングに任せてしまうことはできません。この点を克服するため、現在「説明可能なAI」が世界の研究者の間でのホットな研究テーマになっています。
ディープラーニングを騙す
|
瀧氏の解説ではまず、一般物体認識を行うディープラーニングを "騙せる" ことが述べられています。意図的に作ったデータでディープラーニングを騙すことを「敵対的攻撃」と言い、騙されたデータを「敵対的事例」と言います。瀧氏はそれを、自ら中国で撮影したパンダの画像とオックスフォード大学が開発したディープラーニングでやってみました。
まず、元の画像をディープラーニングに入力すると「パンダである確率が99.997%」が出力されました。これは妥当な結果です。
次に、元の画像にディープラーニングを騙す目的で作った「敵対的ノイズ」を薄くかぶせると「81.576%の確率で雄羊」と判断されました(敵対的事例 ①)。
さらに、画像の一部に別の画像を張り付けても「89.445%の確率で雄羊」と判断しました(敵対的事例 ②)。
画像全体の色調を変化させるという敵対的攻撃もあります。この例では「51.0706%の確率でテディベア」と判断するようになりました(敵対的事例 ③)。
![]() |
元の画像 AIの判定 = パンダ(99.997%) |
(日経サイエンス 2020.1 より。以下同様) |
![]() |
敵対的ノイズ |
敵対的事例 ① を作り出すためのノイズ。このノイズを薄く元の画像にかぶせる。 |
![]() |
敵対的事例 ① AIの判定 = 雄羊(81.576%) |
元の画像に上の敵対的ノイズを薄くかぶせた画像。人間の目では元の画像との違いが全くわからないが、AIは高い確率で雄羊と判定した。 |
![]() |
敵対的事例 ② AIの判定 = 雄羊(89.445%) |
画像の一部に、AIを騙す目的で作った別の画像を張り付けたもの。他の部分は元の画像と変わらないが、AIはこれも高い確率で雄羊と判定した。 |
![]() |
敵対的事例 ③ AIの判定 = テディベア(51.0706%) |
画像全体の色調を変化させたもの。人間の目にはパンダであることに変わりがないが、AIが最も確率的に高いとしたのはテディベアであった。 |
もし人間が「敵対的事例 ① ② ③」の画像を見たとしたら、たとえ保育園児であっても全員が口をそろえて「パンダ!!」と答えるに違いありません。ここから類推できることは、
ディープラーニングは人間のように "考えて" いるのではない
ということです。保育園児でも簡単に答えられることに間違ってしまうのだから ・・・・・・。
ディープラーニングは、いかにも人間がモノを認識しているように認識するように見えます。しかも人間より優れている面も多いわけです。たとえば自動車の運転を考えると、人間が 0.1 秒で障害物を認識できたとして、ディープラーニングが 0.01 秒だと、この差は事故回避行動の観点からクリティカルになるでしょう。さらにディープラーニングは疲れないし、意識レベルが下がることもないし、意識が一瞬飛ぶこともない。この技術を今後の社会に有効に活用しない手はないのです。
しかし、ディープラーニングはどうも人間が認識しているように認識しているのではなさそうです。このことが悪影響を及ぼさないのか、何らかの副作用につながらないのか。ディープラーニングは結構正確だが突如誤った答えを出さないのか。この点をよく研究しておく必要があるわけです。
騙す方法
どうすれば敵対的攻撃でディープラーニングを騙せるのでしょうか。瀧氏の解説では一般物体認識を例に「騙す方法」の簡単な例が書かれています。
今、画像のサイズを 100 × 100 ピクセル、合計 10,000 ピクセルの白黒画像だとします。各ピクセルは、たとえば 0(白)~255(黒)の256階調の値が指定されているわけです。ここにパンダの顔の画像があり、この画像はディープラーニングで 99.9% の確率で「パンダ」と判定されるとします。
この画像にノイズを加えます。このノイズは 100 × 100 ピクセルで、各ピクセルは +3 か -3 のどちらかです。このノイズを元の画像に足し合わせるわけです(もちろん 0~255 の範囲に収めるような補正が必要)。この程度のノイズを加えても人間の眼にとっては元の画像と全く区別がつきません。このノイズの中で「ディープラーニングがパンダとかけ離れた判定をするノイズ」を探索するというのが眼目です。
ノイズは10,000 の各ピクセルが +3 か -3 のどちらかの値をとります。従ってノイズのパターンは 210000 種類あり、これは3,000桁を越える超天文学的に巨大な数です。全部のパターンを調べるのは到底不可能です。しかし敵対的攻撃をするためには、全部のパターンを調べる必要は全くありません。瀧氏は次のように解説しています。
|
つまり、数学的に言うと大変にシンプルなやり方で敵対的攻撃ができることになります。
しかし、FGSMは「出力が一番おかしな方向にずれていくようなノイズを、微分法を利用して近似的に計算」するものであり、このためにはディープラーニングの内部構造とパラメータを知らなければなりません。内部を知った上の攻撃という意味で、このような攻撃を「ホワイトボックス攻撃」と呼んでいます。
「ホワイトボックス攻撃」を防ぐためには、ディープラーニングの内部構造を隠してしまい、入力・出力のインターフェース仕様(API。Application Program Interface)だけを公開すればよいわけです。グーグルや日本のプリファード・ネットワークスが一般公開しているディープラーニングは APIの公開方式になっています。しかしこれでも騙せるのです。
|
もちろん、攻撃をかわすための防御アルゴリズムも研究されています。たとえば敵対的事例も含めて予測できるように学習するという「敵対的学習」です。こうすることによって、あらかじめ学習させた敵対的事例については間違いが起こらなくなります。
しかし敵対的学習を行ったあとのディープラーニングに対して、新たな敵対的攻撃アルゴリズムを使ってノイズを生成することは可能であり、新たな敵対的事例ができることになります。新手の敵対的事例では再び間違いが起こる。
その他、数々の防御アルゴリズムが開発されていますが、それぞれに対する攻撃手法もまた開発されています。要するに「いたちごっこ」であり、現時点では完璧な防御策はありません。現在、世界の研究者がより幅広い攻撃を効果的に防ぐことができるアルゴリズムを探求しているところです。
騙される理由が分からない
なぜディープラーニングは騙されてしまうのでしょうか。これについて瀧氏は次のように書いています。
|
ディープラーニングついて「動作メカニズムがわかっていないにもかかわらず敵対的事例が作れてしまう」ことは、実は「動作メカニズムがわかっていないにもかかわらず結構正しい答を出す」ことの裏返しの関係にあるのですね。
上の引用にあるように、騙される理由はわかっていないのが現状です。ただし、確定的なことは言えないけれども「次元の呪い」が関係しているというのが多くの研究者の共通認識です。
次元の呪い
「次元の呪い」とは、高次元空間で我々の幾何学的な直感が破綻する現象を指します。これを瀧氏は以下のように説明しています。
|
(2次元) 3√2 = 4.24
となります。次に3次元の立方体(1辺の長さが6)を考えると、立方体の中心から頂点までの距離は、直角を挟む2辺の長さが 3√2 と 3 の直角三角形の斜辺の長さなので、
(3次元) 3√3 = 5.20
となります。つまり、2次元の場合より距離が少し長くなります。座標で計算すると、3次元の場合、8つの頂点の座標は(±3, ±3, ±3)なので、原点である (0, 0, 0) との距離は 32 * 3 の平方根であり、3√3 となるわけです。
これを拡張し、高次元空間(N 次元)の1辺6の超立方体ではどうなるでしょうか。図形的には計算できないので座標で考えると、3次元の場合を拡張し、中心と頂点の距離は 32 * N の平方根となります。つまり、
(N次元) 3√N
です。もし N = 10000 だとすると、距離は
(10000次元) 3√10000 = 300
となります。低次元では中心からそう遠くない距離にあった頂点が、高次元では格段に遠くなってしまう。これが典型的な「次元の呪い」です。この「次元の呪い」によって敵対的ノイズが結果に大きく影響すると考えられているのです。
|
![]() |
次元の呪い |
「次元の呪い」を概念的に表した図。10,000次元というような高次元空間の超立方体では、原点(=元の画像)と頂点(=元の画像に敵対的ノイズを薄くかぶせた画像)の距離は極端に大きくなってしまう。 |
(日経サイエンス 2020.1 より) |
ディープラーニングは人間の思考とは違う
ディープラーニングが騙される本質的な理由は現状では解明されていません。しかし、理由はともかくここから分かることは、どうもディープラーニングは人間とは違うようだ、ということです。
|
ディープラーニングは人間とは別の方法で認識し、理解していて、その認識方法・理解方法が解明されていない。このことはディープラーニングの社会応用に深刻な障害となります。これを瀧氏は、
もし現在でも地動説が確立していなかったら
という "寓話" で説明しています。卓抜な比喩だと思ったので、次に紹介します。
ディープラーニングで惑星の運動を予測する
天動説と地動説に関する歴史の振り返りです。コぺルニクス以前の天動説では、地球が中心にあり、その周りを太陽と惑星が回っているという宇宙像でした。もちろん、惑星の位置を詳しく観測すると単純に回っているのではない結果が得られます。つまり惑星は天球上を立ち止まったり、バックしたり、再び方向を変えて進むというような不規則な運動をするのです(惑星の "惑" とはそういう意味です)。
天動説では、この惑星の不規則な運動を「周転円」で説明していました。つまり惑星はそれ自身がある中心の周りを回っており、その中心が地球の周りを回っているという説明です(これ以外にも人為的な仮説がいろいろある)。
これに対してコペルニクスは、地球を含む惑星が太陽の周りを回っているという地動説を唱えました。これによって惑星の不規則な動きを説明したのです。ただしコペルニクスは惑星の軌道を円と考えていたため、その説明には限界がありました。
それを解決したのがケプラーです。ケプラーは精密な観測データをもとに、惑星の軌道が円ではなく楕円であることを証明しました(ケプラーの第1法則)。これによって惑星の動きは完全に説明できたのです。
さらにニュートンは万有引力の法則を発見し、2つの物体には質量に比例し距離の2乗に反比例する引力が働くことを示しました。この法則と運動方程式を組み合わせることで、惑星は太陽の周りを楕円軌道で回り、太陽は楕円の焦点にあることが数学的に証明できます。以上の、コペルニクス → ケプラー → ニュートンの発見は、科学史の偉大な成果であることは言うまでもありません。
そこでもし、現代においても地動説が確立していず、惑星の運動の予測にディープラーニングを使ったらどうなるかです。もちろん、過去の惑星の「時刻・位置データ」が膨大に蓄積されているという前提です。これをディープラーニングに学習させ、そして直近の惑星の運動を入力して今後の運動を予測する。
これは画像認識のためのディープラーニングとは種類が違います。時系列の数値データを入力し、そこから予測をしたり、傾向を把握したりするタイプのディープラーニングです。現代では音声認識、株価の予測、機械の動作状況からの異常検知などに使われています。このディープラーニングで惑星の運動を予測したらどうなるか。
|
惑星の軌道を精緻に予測するディープラーニングの中身をいくら調べてみても「惑星は太陽の周りを楕円軌道で公転する」という知見は得られないでしょう。コペルニクス以前の学者のように「周転円」のような人為的な仮説を満載した天動説で強引に計算しているだけかもしれないのです。
AIと人間の共存
以上のようなディープラーニングの現状を踏まえて、瀧氏は次のように総括しています。
|
上の引用に出てくる「オッカムの剃刀」とは、「あることを説明するためには、必要以上に多くの仮定をすべきでない」という指針ですね。オッカムは中世ヨーロッパの哲学者の名前、剃刀とは説明に不要なものを切り落とすことの比喩です。
シンプルな原理によって全てを説明するというのが科学の立場(ないしは野望)ですが、ディープラーニングはそれとは違う立場の科学の発展の可能性がある、というが瀧氏の予感です。あくまで、そういう可能性も考えられるということなのですが、これがディープラーニングがもつ重要な意味でしょう。
AIは人間の知能を上回る?
以下は瀧氏の解説を読んだ感想です。
よく「20XX年にはAIの知能が人間を上回る」というようなことを言う人がいます。しかし、この手の発言がどのような実証的研究に基づいてなされているのか、はなはだ不明です。人を驚かせようとする無責任な発言に思える。
こういうこと言うためには、最低限、① 人間の知能とはなにか、それはどういう原理やプロセスで生み出されるのか、② AIの知能とは何か、それが生み出されるプロセスは人間と同じなのか、それとも違っているのか、という2点の説明がなければなりません。
しかし現時点において、① の人間の知能が解明されているわけでは全くありません。また ② の(現在における)AIの知能は瀧氏が解説しているように、人間の知能とは別種のものである可能性が極めて高いわけです。「人間とは別種のものが人間を追い越す」というは奇妙な言説です。
もちろん特定のエリアでは、AIの方が人間より遙かに速く、正確に答えを出すことがあるでしょう。しかしそれは、たとえて言うと「走るスピードではクルマが人間を追い越す」というのに近い。クルマが走る原理は人間と全く違います。人間はそのスピードを最大限に利用して現代生活が成り立っている。もちろんクルマに頼り過ぎると運動不足に陥り、生活習慣病を発症したりしてまずいことになるわけで、その配慮が必要なことは言うまでもありません。同様のことはAIについても言えるでしょう。
瀧氏の文章は、ディープラーニングという範囲でAIと人間の違いを明らかにしたよい解説だと思いました。ディープラーニングの本質を見極める基礎研究や、ディープラーニングの答の理由を「説明可能にする」研究によって、人間のAIとのつきあい方が決まっていくし、人間とAIの共存方法が見えてくるのだと思いました。
 補記1:SQuAD  |
この記事の本文で、米国のスタンフォード大学が AIのベンチマークのために作成している SQuAD(The Stanford Question Answering Dataset)のことを書きました。これは「例文・質問・回答データベース」です。まず例文があり、それについての質問と回答が複数あります。すべて英文のテキストデータです。回答の中には "No Answer"、つまり答えがない(=例文の情報だけでは答えられない)ものもあります。
この SQuAD がどういうものか、その問題例を以下に掲載します。最新の「SQuAD 2.0」の問題の一つで、ライン河に関するものです(2020.1. 現在。https://rajpurkar.github.io/SQuAD-explorer/)。単位系の記述を分かりやすいように修正しました。
|
自然言語処理を行うAIシステムとしては、質問1では北海(the North Sea)とオランダ(the Netherlands)の関係を把握しなければなりません。また質問2では「after the Danube」という記述をもとに、ライン河より長いのがドナウ河と判断する必要があります。
なお、この例文には12の質問が設定されていますが、そのうちの5つは「No Answer」が正解です。
 補記2:イラストで答えるリスニング問題  |
この記事の本文で、AIが不得意な大学入試問題の典型が「英語のリスニングの結果をイラストの選択で答える」ものだとしました。その実際の問題を掲げます。2019年度 センター本試験、英語リスニング問題の「第1問 問1」です。
|
羽の生えた野菜を選べばよいので、正解は言うまでもなく ② です。受験生としては、ICレコーダから流れる英語音声を聞き取ることさえできれば(特に vegetable と wings)間違えようのない問題です。
一方、AIはどうかと言うと、英語音声をリスニング台本と質問文に変換するのは容易です。全く雑音がない環境での明瞭な英語なので、この程度の音声認識は現代のAI技術では完璧にできるのです(でないとAIスピーカなど実用化できません)。
しかしそのあとが無理です。これをディープラーニングで回答しようとすると「羽の生えた野菜」含むイラストデータを大量に用意し、それを学習しなければなりません。しかし、そんなイラストの学習データを大量に用意できるはずがないのです。
もちろんセンター試験の受験生にとっても「羽の生えた野菜」のイラストを見るのは生まれて初めてでしょう。全く初めてではないかもしれませんが、過去に(絵本などで)似たイラストを見たことなど忘れているはずで、「生まれて初めて」と同じことです。生まれて初めてではあるが、リスニングができた受験生は間違えることなく答えられるのです。
AIにとって「羽の生えた野菜」を識別するのが困難なら、では「野菜」と「羽」を識別してそれが含まれるイラストを答えたらどうか。しかし、これも難しいでしょう。「野菜」にはたくさんの種類があります。「野菜」か「野菜でない(たとえば果物)」を識別するのが簡単とは思えない。しかも、実物の画像ではなくイラストです。イラストはイラストレーターがモノの特徴をとらえて(ある場合はデフォルメをして)恣意的に描くものです。たとえイラストを大量に集めたとしても有効なディープラーニングの学習はできないでしょう。しかもセンター試験の問題にあるように、ニンジンに目・鼻・口・手・足があってもそれはなおかつニンジンなのであり、そんな "高度な" 認識がAIで簡単に行くとは思えません。
100歩譲って「野菜」と「羽」のイラストを認識できるディープラーニングができたとしましょう。しかし苦労してそんなものを作ったとしても使い道がありません。なぜなら、センター試験に「羽の生えた野菜」が出るのは2019年度の1回きりだからです。次年度は「足の生えた飛行機」かもしれないし、そもそもマンガのキャラクターに関する会話がリスニングに出るのはこれっきりかもしれません(いや、センター試験なので "これっきり" のはずです)。
世の中に絶対に存在しないもののイラストは無限に考えられます。しかし受験生は常識推論でそれを理解します。常識推論で簡単に答えられるからこそ出題されるのであって、常識で簡単に答えられないようだとリスニング能力をテストするという主旨から逸脱してしまうのです。
センター試験の受験生が100%できることが、現代のAI技術では全く歯が立たない。そういう例なのでした。
 補記3:スマートスピーカーへの敵対的攻撃  |
本文中にディープラーニングを使った画像認識を騙せることを書きましたが、同様の原理で音声認識も騙せるようです。アマゾンの「エコー」やグーグルの「グーグル・ホーム」は、ネットに繋がった音声認識技術によって人間の指示を理解し、サービスを提供します。筑波大学の佐久間淳教授(=理化学研究所・人工知能セキュリティ・プライバシーチーム リーダー)は社会に警鐘を鳴らすため、スマートスピーカーを騙す実験を行いました。
|
![]() |
スマートスピーカーを騙す |
元の音にうまく設計したノイズを載せると、スマートスピーカーの音声認識は「Hellow World」と言ったと誤認する。人間には元の音がひずんだようにしか聞こえない。 |
日経サイエンス(2020年6月号)より |
この記事を読んでまず思ったのは、佐久間教授はクラシック音楽好きだということです。あるいは、人間の耳はチェロの音が最もノイズを判別しにくいということを試行から決めたのかもしれません。
それはともかく、この実験から直ちに「エコー」や「グーグル・ホーム」を騙せるということにはなりません。商用化されているスマートスピーカーは、ディープラーニングの内部構造が公開されていないからです。しかし最近のAI研究では、内部構造を知らなくても敵対的攻撃が可能な手法(=ブラックボックス攻撃)が開発されています。「警鐘を鳴らす」ための実験としては、大いに意味があると思いました。
そしてこの件もまた画像認識と同様、音声を認識するAIの "知能" が人間の知能とは違うことを示しているのでした。
(2020.6.4)