(前回より続く)
前回に引き続き、新井紀子著「AI vs.教科書が読めない子どもたち」(以下「本書」)の紹介と感想です。本書は前半と後半に分かれていて、前半のAIの部分を前回紹介しました。今回は後半の「リーティング・スキル・テスト」の部分です。
リーティング・スキル・テストの衝撃
![]() | |||
リーティング・スキル・テスト(RST。Reading Skill Test)は新井教授が主導して行った世界で初めての調査です。RSTとはどんなテストか、本書にその問題が例示してあります。問題は「係り受け」「照応解決」「同義文判定」「推論」「イメージ同定」「具体例同定」の6つのジャンルがあります。それがどういうものか、問題のサンプルを本書から引用します。
 係り受け  |
|
「係り受け」とは、主語と述語の関係、修飾語と被修飾語の関係のように、一つの文の中で単語がどの単語に "係る" か、ある単語がどの単語を "受ける" か、を問うものです。係り受けをAIで判定する研究は進んでいて、80%以上が可能と本書にあります。
 照応解決  |
|
文章には「これ」「それ」といった指示代名詞、あるいは人称代名詞が出てきます。その代名詞が何を指しているのかを、文をまたがって判断するのが「照応解決」です。日本語の文章でしばしば見られるように、上の文章には指示代名詞がありませんが「(ここには)かつて大量の水があった証拠が見つかっており」と省略されているとし、「ここ」を答える問題と考えると照応解決になります。照応解決は AI の研究が急速に進んでいる分野です。
しかし急速に進んでいるといっても、AIにとって難しい問題であることは変わりません。たとえば、次の2つの文があったとします。
このハサミは私のペンシルケースに入らない。それが小さ過ぎるからだ。 | |
このハサミは私のペンシルケースに入らない。それが大き過ぎるからだ。 |
①の「それ」はペンシルケースですが、②の「それ」はハサミです。つまりこの例では「モノの大小」と「入る・入らない」の関係という "知識" をAIに教え込まないと正解できないのです。これはほんの一例であり、このような例が膨大にあることは明白です。
 同義文判定  |
|
同義文判定はAIではまだまだ難しい問題です。というのも、上の2つの文でも分かるように同義文の問題においては、同じ意味でも異なる意味でも出現する重要な単語がほぼ同じだからです。
そして以下の「推論」「イメージ同定」「具体例同定」は、現在のAI技術では全く歯が立たない問題です。AIは意味を理解せず、また常識をもっていないからです。この3つは「人間がAIに勝てる可能性のある」ジャンルです。
 推論  |
|
「推論」は文章の構造を理解した上で、生活体験やさまざまな知識を総動員して文の意味を理解する力です。いわば「一を聞いて十を知る」能力であり、現代のAI技術では困難な問題です。「エルブルス山」というのは(ほとんどの)中高生が知らない(であろう)山です。実はエルブルス山は黒海とカスピ海の間にある山で、ロシアの最高峰です。もちろんエベレストより低い。それを知らなくても推論で答えるのがこの問題です。
高校3年ぐらいになると「エルブルス山」が実在の山なのか、それとも架空の山なのかによって答えが違ってくると考えるかもしれません。もし実在の山だと「①正しい」が正解です。しかし架空の山、たとえばファンタジー小説に出てくる山だと問題文だけでは「③判断できない」となる可能性があります。しかしここで「問題を作った側の意図」を推察し、これが1つを選ぶ3択問題だということを考える必要があります。もし「③判断できない」が正解だとすると「引っかけ」問題に近く、基礎的読解力を試す問題ではなくなります。エルブルス山は実在の山だと「推論」でき、「①正しい」が唯一の正解です。
 イメージ同定  |
|
イメージ同定は文章と図やグラフを見比べて、内容が一致しているかどうかを認識する能力です。現在のAI技術では全くできないものです。
 具体例同定  |
|
具体例同定は、定義を読んでそれと合致する具体例を認識する能力です。定義には国語辞典的な定義と数学的な定義があり、上は数学的な定義の例です。意味を理解しないAIでは全く歯が立たない問題です。
以上の6つのジャンルは、東ロボくんのプロジェクトにおいてAIに読解力をつけるための研究から生まれたものです。また問題に使った文章は、教科書と新聞(科学面や小中学生向けの記事)から採用されました。それが読解できないと人生において明らかに不利になるからです。
問題は各ジャンルで数百問作成され、受検者はパソコンで回答します。問題は各受検者に対してジャンルごとにランダムに表示され、かつ制限時間の間に順に解いていきます。ある受検者は20問解き、ある受検者は5問といった具合です。
問題が妥当かどうかの検証もされました。つまり多数の受検者のデータを集め、ジャンルごとに個々の受検者の「能力値」を6段階で決めます。「能力値が高いほど正解率が高まる」というシンプルな関係になれば、その問題は妥当ということになります。またヤル気がなくていいかげんに答える受検者を判別するしかけ(作問上の工夫や、受検者の回答パターンや回答時間からの推定)もあります。以下に掲げる正答率は、まじめに答えていないと判断された受検者を除いた値です。
テストを受けた人は総計25,000人にのぼりました。その結果は衝撃的です。その問題の例を以下にいくつか上げます。
宗教問題(係り受け)
|
正解はもちろん「②キリスト教」ですが、この問題の正答率は以下のとおりでした。
「宗教問題」の正答率
中 学 生 | 中学1年(197名) | 63% |
中学2年(223名) | 55% | |
中学3年(203名) | 70% | |
平均(623名) | 62% | |
高 校 生 | 高校1年(428名) | 73% |
高校2年(196名) | 73% | |
高校3年(121名) | 66% | |
平均(745名) | 72% |
この結果の理解について、新井教授は次のように書いています。
|
Alex問題(係り受け)
|
この問題は中学校の英語の教科書の註からとられたものです。もちろん「①Alex」が正しいのですが、その正答率は次の通りでした。
「Alex問題」の正答率
中 学 生 | 中学1年(68名) | 23% |
中学2年(62名) | 31% | |
中学3年(105名) | 51% | |
平均(235名) | 38% | |
高 校 生 | 高校1年(205名) | 65% |
高校2年(150名) | 68% | |
高校3年(77名) | 57% | |
平均(432名) | 65% |
高校生の3分の1は不正解であり、中学生の正答率は半分を切っています。中学1年生の正答率は23%ですが、この問題は4択なので、あてずっぽうで答えても25%の正答率になります。つまりこの成績は「ランダム並み」「サイコロ並み」ということになります。
なぜこうなるのかが分析されています。つまり受検者の能力値で回答の傾向をみると、能力値の低い子は「④女性」を選ぶ傾向にあります。その理由は「愛称」という言葉の意味が分からず、それを飛ばして読んでいるのだと推測できます。つまり「Alexandra は女性である」は正しい文章だから「女性」と答えてしまう。そういう「読み」の習慣がついてしまっている。
思うのですが、文章をちゃんと読む習慣がついていると、たとえ「愛称」の意味が分からなくても正解できます。「愛称」のところを伏せ字にした問題を作ってみると、
次の文を読みなさい。〇〇にはある同じ言葉が入ります。
|
伏せ字で、かつ選択肢がなくても正解は「Alex」しかありません。たとえ一部の単語の意味が分からなくても、文の構造を理解して大意をつかむというのは、人が社会で生きていくための大変に重要なスキルです。しかしそういった「読み」の習慣がついていないのです。逆にいうと、読解力をつけるための処方箋のヒントがここにあると、新井教授は示唆しています。
この問題は「係り受け」の中でも正答率が低い問題です。「係り受け」全体の正答率は中学生が約70%、高校生が80%です。国語が苦手な東ロボくんは、だいたい高校生程度です。ただし東ロボくんは文の意味を理解しているわけではありません。それでも高校生程度には「当たる」のです。
「少しは背筋に寒気を覚えていただけましたか ?」と、新井教授は書いています。
ポルトガル人問題(同義文判定)
|
答えは当然「異なる」ですが、AIにとっては結構難しい問題です。2つの文に出てくる単語がほぼ同じだからです。では人間の方が優秀かというと残念ながらそうではないのです。ポルトガル人問題の正答率は次の通りです。
「ポルトガル人問題」の正答率
中 学 生 | 中学1年(301名) | 56% |
中学2年(270名) | 61% | |
中学3年(286名) | 55% | |
平均(857名) | 57% | |
高 校 生 | 高校1年(627名) | 71% |
高校2年(360名) | 71% | |
高校3年(152名) | 76% | |
平均(1,139名) | 71% |
中学生の正答率は 57% しかありません。残りの43%の子どもは「一人で教科書を読んで勉強する」ということが出来ないでしょう。
円の問題(イメージ同定)
|
正解は①(=①だけ)ですが、このようなイメージ同定は、現在のAI技術では全く歯が立たない問題です。しかし人間には簡単なはずです。何も難しいことは聞いていないからです。数学の試験には絶対に出ないような "簡単な問題" です。しかし大変な結果になりました。
「円の問題」の正答率
中 学 生 | 中学1年(145名) | 10% |
中学2年(199名) | 22% | |
中学3年(152名) | 25% | |
平均(496名) | 19% | |
高 校 生 | 高校1年(181名) | 29% |
高校2年(54名) | 30% | |
高校3年(42名) | 45% | |
平均(277名) | 32% |
この「円の問題」の正答率は他の問題とは傾向が違います。能力値で受検者を6段階に分けたとき、他の問題は能力値が高いほど正答率が上がるのですが、「円の問題」に限っては、能力値の中位(4以下)までは正答率が低いままであり、上位(5と6)になってようやく正答率が上がるのです。本書ではこのタイプの問題を「能力上位層をよく識別する問題」と呼んでいます。
AIが不得意な問題は、人間も不得意
RSTの結果をまとめた最新データが本書に載っています。小学6年から高校2年までのデータですが、その正答率を範囲で示してみたのが下の表です。小学6年が一番低く高校2年が一番高いのが普通ですが、一部に逆転現象もあります(ただし、有意な差ではない)。
RST問題 | 正答率 |
係り受け | 65.1%~81.5% |
照応解決 | 58.2%~82.6% |
同義文判定 | 62.1%~81.0% |
推論 | 57.3%~68.5% |
イメージ同定 | 30.9%~55.3% |
具体例同定(辞書) | 31.0%~46.9% |
具体例同定(数学) | 19.6%~45.7% |
この表には注意が必要です。RSTは選択式問題ですが、選択肢の数が問題によって違うからです。たとえば同義文判定は「同じ」「異なる」の2択なので、ランダムに答えても50%の正答率になります。本書にはそれを考慮して「ランダム並みよりましとは言えない受検者のパーセンテージ」示して分析してあるのですが、省略します。本書の分析の結論を要約すると以下になるでしょう。
◆ | 表層的な読解力である「係り受け」「照応解決」成績が比較的良い。しかしこの分野ではAIも好成績がとれる。 | ||
◆ | AIと差別化しなければならないはずの「同義文判定」「推論」「イメージ同定」「具体例同定」の成績は、中高生も悪い。 |
こういった基礎的読解力は高校卒業までに出来上がります。つまり、RSTでみる限り「AIができないタスクやAIが難しいタスクは、人間にとっても難しい」と予想されるのです。
御三家の教育法は参考にならない
基礎的読解力を測定するRSTの問題は、上に掲げた例題でもわかるように "非常に基礎的な" ものです。こんな問題は中学入試にもまず出ません。従って「基礎的読解力がないよりはある方がいいに決まっているが、そんなに大騒ぎするほどのことでもない」と考える人もいます。しかし、その考えは甘いのです。基礎的読解力と高校の偏差値の相関関係を分析した表が本書に載っています。
|
さらに分析を進めると、高校の基礎的読解力の平均値とその高校の旧帝大進学率に高い相関があることもわかりました。旧帝大とは、東大・京大・東北大・阪大・名大・北大・九大の7つの国立大学です。
|
御三家の中学入試の問題は、新井教授の言う「能力上位層をよく識別する問題」がふんだんに盛り込まれているのでしょう。新井教授は「基礎的読解力が、その子のその後の伸びしろを決める」と書いています。それが人生というレベルでみれば格差を生み、結果として人生を左右するのです。
最近、大学や高校で "アクティブ・ラーニング" の重要性が強調されているそうです。文科省の用語集によると "アクティブ・ラーニング" とは、
教員による一方的な講義形式の教育とは異なり、学修者の能動的な学修への参加を取り入れた教授・学習法の総称。学修者が能動的に学修することによって、認知的、倫理的、社会的能力、教養、知識、経験を含めた汎用的能力の育成を図る。発見学習、問題解決学習、体験学習、調査学習などが含まれるが、教室内でのグループディスカッション、ディベート、グループ・ワークなども有効なアクティブ・ラーニングの方法である。 |
と説明されています。しかし新井教授はこれに疑問を呈しています。教科書を読めない学生・生徒にアクティブ・ラーニングができるはずがない、アクティブ・ラーニングは現場の実態を知らない文部科学省、およびその委託をうけた中央教育審議会の人たちの発案した「絵に描いた餅」だと・・・・・・。
残された課題
新井教授が想定する "暗い未来" は、「仕事はいっぱいあるのに、その仕事をこなせる人間が僅かしかいない」という状況です。本書で繰り返し述べられているように、AIには限界があります。AIでできないことは多い。しかしその「AI ではできない仕事」をできる人間が少なくなっていく。これは労働市場の分断になります。こういった分断は技術革新によってすでに起こっていると思いますが、この傾向をAI技術が強力に加速する。中間層がいなくなると経済原則に従って個人消費が低迷し、"AI不況" に陥ります。
ではどうすればよいのか。どうやったら基礎的読解力はつくのか。新井教授はどのような生活習慣や学習習慣が読解力を育てるのか(逆に損なうのか)、中学の生徒たちに網羅的なアンケート調査をしました。しかし関係ありそうな要因が見つかりません。「読書習慣」「学習時間」「得意科目」「スマホを何時間使うか」「新聞を読むか」「ニュースはどの媒体から知るか」など、どれもが基礎的読解力と相関関係がないのです。小さいころから読書が好きと答えた生徒の読解力が高いわけでもない。
しかし新井教授は "はたと" 思い当たりました。そもそも「宗教問題」や「ポルトガル人問題」に答えられない生徒にアンケート調査をすること自体が無意味だと・・・・・・。
ただ、一つだけ気になる点があります。就学補助をうけている子どもの読解力が低いという、明らかな負の相関があるのです。貧困が読解力にマイナスの影響を与える・・・・・・。これは大きな問題です。
とはいえ、貧困だけが読解力に影響するわけでもないでしょう。何が読解力を決めるのか、それを明らかにするのが今後の課題です。また、たとえ大人になったとしても読解力が向上することを、新井教授は数々の例を引いて説明しています。このあたりの要因と対策が今後の課題です。
「教科書が読めない子どもたち」の感想
以降は新井紀子著「AI vs.教科書が読めない子どもたち」の後半部分、「リーティング・スキル・テスト」の感想です。
新井教授はリーディング・スキル・テスト(RST)を自ら実践するなかで中高校生の読解力不足を指摘したわけですが、これは現場の実態や現場の先生たちの意見と遊離している教育行政のあり方に一石を投じたものと言えるでしょう。本書の「アクティブ・ラーニングは絵に描いた餅」というところでは、いわゆる「ゆとり教育」を思い出しました。
「ゆとり教育」も「アクティブ・ラーニング」も、発想の基本が非常に似ていると思います。つまり「自ら考え、自発的に学ぶことが大切」という考えです。これは一面の真実であることは確かだと思います。間違ってはいない。「発見学習、問題解決学習、体験学習、調査学習」と文科省の資料にありますが、創造性を養う上で大切なことです。
しかし大学生はともかく中高生についていうと「自発的に学ぶ」ためには、それができるだけの基本スキルが身についていることが条件です。そのスキルの重要なポイントが読解力です。教科書、参考書は言うに及ばす、世の中に学ぶための情報、マテリアルが溢れています。読解力さえあれば自発的に学ぶことがいくらでもできる。問題解決学習で議論した結果を自ら検証することもできます。しかし読解力がなければそれが出来ない。まさに「絵に描いた餅」になるのです。
読解力があったとしても、さらに問題があります。「自発的に学ぶための、ゆとりの時間」が与えられたとき、勉強が楽しい一部の子どもは自ら学ぶと思いますが、多くの子どもは "怠ける" のではないでしょうか。怠ける子が悪いというのではなく、人間というのは安易な方向に流れやすいのであって、現実としてそうなっていくと思います。
おそらく日本の教育方針を決めている文科省の官僚や中教審の人たちは、「自発的に学ぶための、ゆとりの時間」が与えられたとしたら、喜々として自分の思うやり方でどんどん勉強するタイプの人たちではないでしょうか。教科書と同じことを繰り返す授業など退屈でしかなく、読めば分かることを授業で聞いても無意味だと思って "内職" に励んだのではないでしょうか。"分かる" からおもしろいし、おもしろいから努力を重ねてテストでよい点数を取ろうとする。
新井教授は「"御三家" と呼ばれるような超有名私立中高一貫校の教育方針は、教育改革をする上で何の参考にもならない」と書いています。「御三家」は、どちらかと言うと "自由放任主義" で知られていますね。かつ学校行事も多いようです。
御三家だけではありません。私の知っている神奈川県の県立高校は県下でもトップクラスの進学校ですが、学校行事が多いことで有名です。縄跳び大会やマラソン大会、合唱コンクールなど、伝統の行事が目白押しで、3年生が仕切る秋の体育祭まで続く。授業を受け、部活をし、そのうえ各種行事の練習までして息つく暇もない。いったいいつ勉強するのかと思うほどですが、それでいて国立難関大学や難関私立大への進学が多いわけです。結局、生徒たちは時間を作り出し、努力を重ねて勉強をし、3年生は体育祭が終わったら一心不乱に猛勉強をする。そういうことが出来る子が集まっているのですね。
日本の教育行政を指導している人たちも、おそらくそういった中高生の時代を過ごしたのではないでしょうか。だから「自発的に勉強できるゆとりの時間を与えると子どもたちは伸びる」と考えるわけです。なぜなら自分がそうだったから。
しかし現実はそういう子ばかりではありません。"ゆとり" を与えられると勉強しない子が少なからずいるだろうし、勉強しようと思っても基礎的読解力がなければ進みません。結局のところ「ゆとり」とか「アクティブ」という考え方は子どもたちを選別し、社会を分断していく方向に働くはずです。本書で公表されている RST の結果は、そのことを明確にしていると思いました。
本書を読んでいて非常に気になったは、RSTで明らかにされた中高生の読解力が「昔からそうだった」のか「近年、低下してきている」のか、ということです。直感的には、こういった極めて基礎的なスキルは「昔からそうだった」のではと思います。
基礎的読解力は何で差がつくのか、また、向上させるのはどうしたらよいのか。本書では「今後の課題」となっているのですが、こういう問題を考えるときにまず考慮すべきは遺伝の影響です。No.191「パーソナリティを決めるもの」で書いたように、行動遺伝学の知見から言うと一般知能(IQ)の遺伝率は10代で 0.6 程度です。つまり一般知能(IQ)の60%程度は「もって生まれたもの」で説明できるわけです。
基礎的読解力が一般知能(IQ)と同様かどうかは分かりません。しかし遺伝の影響があると強く推測できる証拠があります。ディスレクシアという症状の存在です。ディスレクシアは「難読症」「識字障害」とも言われ、本人の知性や聞く・話す能力は全く問題がないのに、読み書きができなかったり、読んで理解するのに大変苦労したりする症状です。俳優のトム・クルーズがディスレクシアだと自ら公表して有名になりました。Wikipedia によると、俳優ではキアヌ・リーブスもディスレクシアだと公表したそうです。また映画つながりで言うと、スティーヴン・スピルバーグ監督もディスレクシアであり、そのため小学校の卒業が2年も遅れ、今でも脚本を読むのに人の2倍の時間がかかるそうです。
ディスレクシアは遺伝性であることが知られています。またディスレクシアといっても重度のものからごく軽いものまでがあるようで、その軽いディスレクシアの子どもが周囲から気付かれることがなく「基礎的読解力がない」と判定されていることが考えられます。新井教授は RST が「読み障害」のある子を発見するツールとなってくれればと言っていますが、そういう子どもを早期に発見し、科学的なケアをすることが望まれると思いました。
もちろん基礎的読解力は遺伝だけで決まるのではなく、それ以外の本人の性格とか環境の影響もあるはずです。本書にも基礎的読解力が大人になっても向上した例が出てきます。では何が基礎的読解力を決めるのか。
それは個人的には「集中力」だと思います。数分でも数10分でも "あること" に集中し、没頭できる。休憩をとりながらであれば数時間でも没頭できる。そういった資質が大切なのではと思います。RSTの問題の一文を読解するのは数秒~10秒前後だと思いますが、集中して "深く" ものごとに当たれる能力が影響するのではと直感的に思います。
もう一つ付け加えると「努力を継続できる力」でしょうか。努力することの価値が直感的にわかる子ども、先生から(ないしは親から)言われれば、まずその実現を目指して素直に努力する子ども、そういった子の基礎的読解力が向上し、伸びていくと感じます。
とにかく新井教授が本書で書いているように、基礎的読解力に差がつく原因や、その改善策は今後の課題です。次の著書ではその処方箋の1つでも2つでも提示したいと、本書にありました。おそらく実証研究に基づく処方箋になるはずです。新井教授の次作に期待したいと思います。
(次回に続く)