『ロボットは東大に入れるか 第三次AIブームの到達点と限界』(新井紀子・東中竜一郎著、東京大学出版会、2018年9月発行)

国立情報学研究所のプロジェクト報告である。2011年に開始され、試験問題を解いてスコアを計測し、改善を目指した。5年目で合格率80%判定は私大の80%、国公立大学では5%程度となる。5年目の2016年にこれ以上のスコアを短期間で改善するのは困難としてセンター模試を全員で受ける営みは終了した。

◎英語

英語はアクセント、単語の発音問題は良い点が取れる。短文の文法問題はコーパスを使って確率で。複数文問題は40%。会話文問題は、隣接発話らしさ+感情極性の自然さ。

長文問題は偶然と同じこともある。類似度を計算する方法など。あまりうまくいかない。

リスニングは音声認識が必要。Google Cloud Speech APIに負けている。しかし、点数が低いのは音声認識のためではない。

イラスト問題は画像キャプションニング技術でイラストを英語に変換(不十分)

図表の読み取りはグラフ認識は課題

◎国語

読解力が重要だが、知識源が明確でない

漢字問題=読みに対する表記を求める問題は辞書と語尾接続文法、複合語、難易度情報、頻度情報などを使ってほぼ解ける(記憶とロジック)

評論読解問題の解法①本分照合法は両方に表れる要素スコアの最大の選択肢、②節境界法は節集合で照合しスコアの大きい選択肢、③機械学習BCBM、④2段階BCBMの4通り。BCBMは複数の特徴量=特徴ベクトルを使う。各選択肢を17特徴量(ベクトル)にする。サポートベクトルマシン(SVM)とランキングSVMを使った。2段階BCBMは2段階選抜。結果は、機械学習が一番好成績であり、正答率は大凡50%。

現代文の語句問題は、文を分解して辞書を引いて照合スコアで類似度を計算する。70点位とれる。但し、意味的な観点はまったくない。

小説読解問題には精力つぎ込む余裕なし。論理型と感情型の設問に分類し、感情型は類似感情語でボーナス点。効果は限定的。末尾のデータベースで比較する小市民法で若干改善。ゴールが不明で難しい。

古文の文法問題は形態素解析を使うが、文意により用法が変わる助動詞は回答できない。

古文の内容理解問題は統計的機械学習で翻訳した文の類似度。但し、コーパスが少ないので翻訳精度が低い。類似度だけでは不十分。

◎世界史

センター試験は選択問題で文の正誤判定が70%程度あり模試では76~77点。2次試験は記述問題が多い。大記述は数百字、小記述は数十字、語句記述は1語句。模試では60点満点中16点。受験生の平均より少しだけ高い結果。

正誤判定は、問題解析、三つのソルバー、その結果の合議による。第1は選択肢の固有表現を隠したファクトイド型質問応答で得られた回答の固有表現を求めて一致するかチェック。一致しなければ誤答とする。第2は含意関係、第3は単語の分布。それぞれ正答率は高いが、合議の効果もかなりある。

語句の解答は適切な語句を選ぶ問題。質問応答でできる。正答率7~8割。

年代の解答はイベントの発生年が分かると解ける。しかし、因果関係で解かねばならないケースもあり対応できない。動詞の意味で別の年になったり(即位、生年、没年など)、注目する用語の間違いなどもある。

図や写真を参照する問題は、図に対するテキスト補助情報が無いと手が出ない。

大論述問題は知識源からの文を組み立てて出力を作るが、主語の欠落などで失点。採点する専門家のポイントが工学的に扱えない。

小論述問題は問題を解析、主題同定、文抽出、圧縮・解答文作成。

語句記述は質問文の解析と質問文キーワードの抽出。関連する文書を検索し、解答語を決める。キーワードスコアと質問タイプスコアで絞り込み。20点中9点で受験生平均を大幅に超える。

 ◎数学

数学問題を解くのは、①自然言語による問題の意味表現を論理表示にする。②自動演繹で問題を解くの2段階になる。但し、問題を単純かして表現しないと計算時間が膨大になって解けない。

言語処理部は文法開発、構文解析、照応解析、数式解析、文間関係解析を開発。

演繹処理部はRCF-QEは汎用、他に超越関数など特定タイプ用がある。

言語処理が得点に与える影響が大きい。

2016年度は完全自動処理で東大入試合格程度まで達した。

・言語処理

意味表現言語:問題を論理表現する形式言語自然言語から翻訳し易くするように設計する。

https://github.com/torobomath/benchmark

日本語から論理式への変換は、完全に正しいことが必要である。これは組み合わせ範疇文法を用いる。辞書項目とは<単語、意味記述、文法的制約>の組み、これを集めたのが辞書。辞書の作成が大きな仕事。

実際の試験問題でのエラーとしては、言語処理ができないものが多く、最大の失敗の原因は辞書項目の不足であった。

 ◎物理

開発が一番遅れているようだが、2016年は偏差値59を獲得した。

物理問題を一階述語論理形式(中間言語)に変換、それをシミュレータで解こうとする。

問題文を解析、形式表現にする。形式表現では物理世界の状況として解釈。日常的に表すオブジェクト・形状・図などの解釈が難しい。

物理の形式表現化は難しいようだ。

◎終章

リーディングスキルテスト:図のリーディングスキルの低さに唖然。

基礎的な読解力は高校では上昇していない。

多くの学生は教科書も読めない。