『自然言語処理の基本と技術』(小町守監修、奥野陽、グラム・ニュービッグ、荻原正人著、翔泳社、2016年3月発行)

本書は概説書で大凡どんな技術があるかが分かる。

自然言語処理の応用:日本語入力、機械翻訳検索エンジン、対話システム、質問応答

日本語形態素解析エンジン:JUMAN⇒ChaSenMeCab⇒Sen/GoSen 

2010年代の形態素解析器:KyTea、Kuromoji

1990年代:統計的自然言語処理。言語を人手で整備したルールや基準で処理するのではなく、データから得られた統計情報で確率的に処理する。

統計的機械翻訳コーパスから対訳辞書や翻訳規則を統計的に抽出して翻訳に使う、が主流になっている。

SVMサポートベクターマシン:入力に対してクラスを対応付ける。

機械学習:実際のデータを参照し、傾向や規則などを自動的に抽出して、アルゴリズムを構築・改善する。統計的手法が一般的に。

単語のベクトル表現(word2vec)

シソーラス:単語の意味的な関係を記述 WorldNet

オントロジー:概念や物を意味に従って構造化

知識ベース:知識を貯めたデータベース

情報抽出:自然言語から構造化された情報を取り出す

形態素解析は、単語分割と品詞の付与を行う。辞書を使うので、未知語に弱点がある

構文解析係り受け構造。文を少しずつ解析するshift-reduce法と一挙に解析するMST(Minimum Spanning Tree)法がある。句構造は単語からボトムアップで解析する。日本語はあまりやらない。

 日本語入力:かな漢字変換、当初は規則で変換⇒規則が複雑になり、規則間で矛盾する⇒統計的なモデル化(Office IME 2007~)⇒Webを用いた大規模データ活用方式

かな漢字変換:単漢字はハッシュや二分木のような完全一致法の検索で良いが、連文節では部分文字列の検索が必要なのでトライ木を用いる。

 ビタビアルゴリズム-ラティス構造+連接スコア。動的計画法の一種である。

 統計的言語モデルの1:単語ユニグラムは頻度のみで連接スコアがない。品詞N-gram、単語N-gramで欠点解消。

機械翻訳:語彙選択と並び替え

フレーズベース機械翻訳

文の構造を利用する:string-to-tree(目的語の構造を利用)、tree-to-string(原言語の構造を利用)。treeとは構文木のことで構文解析が必要。最近は事前並び替えtree-to-stringが使われる。

機械翻訳の評価:自動評価はあらかじめ用意した対の参照文と比較してスコアを付ける。

機械翻訳システムの構築:対訳データの収集と単語分割、単語対応付け、翻訳ルール抽出、ルールの信頼性を評価するスコアを計算、重み調整

情報検索