「言語を獲得するコンピュータ」(錦見美貴子著)

「言語を獲得するコンピュータ」(錦見美貴子著)
 共立出版 認知科学モノグラフ(日本認知学会・編)1998年
を読みました。

コンパクトながら研究としては労作です。

全体の流れとしては、言語獲得全般の概要を説明し、コンピュータの言語獲得の分類を行い、事例を紹介した上で、著者自身のモデルを紹介しています。

言語獲得のモデルの妥当性の基準としてはピンカーを引いています。
Pinker, 1979 Formal Models of Language Learning. Cognition, 1, 217-283
・説明の範囲(Coverage)
・入力の妥当性(Input plausibility)
・挙動の再生(Empirical fidelity) (例:子どもと同じ間違いをおかす)
・時間的制限(Time limitation)
・言語非特異性(Non-specificity)
・認知的制約(Cognitive constraints) (子どもが持っていなさそうな能力は仮定しない)

言語獲得モデルとしては次のような分類があるとしています。

1) 概念対応付け(概念は与えられ、ことばとの対応付けをすればよい)
2) 概念生成モデル(概念を生成する必要がある)
3) 記述生成モデル(言語による概念生成への干渉を考慮)

モデルの対象となる入力としては言語的なものと非言語的なものがあり、学習の対象としては、統語的なものと意味的なものがあるため、これらの組み合わせにでさらにモデルを分類し、事例を紹介しています。

著者自身のモデル Rhea については
・“言語+非言語→統語+意味” モデル
・記述生成モデル
と要約しています。
その学習能力は、言語入力については構文解析と文法の獲得であり、非言語入力については言語入力の構造との対応付けをするとしています。
タスクとしては、与えられた非言語的入力に言語的なキャプションを付けることを行います。
Rhea では「意味」を環境情報から「注視点」(部分情報)を取り出す手続き(フィルタ)と定義しています。Rhea はことばとシーンを入力とし、学習アルゴリズムを適用してフィルタを生成するという学習を行うことになります。
統語面では、文脈自由形文法を仮定しますが、統語カテゴリの設定は次のように行なっています。新出語が既存のパターンにあてはまり、かつ意味的(手続き的)に類似していれば、そのパターンのカテゴリに、そうでなければ新しいカテゴリを作ります。

著者は、Rhea は挙動の再生以外は(文脈自由形文法は強力すぎるものの)概ね妥当であると自己評価しています。

以下、感想です。
背景の部分は、20世紀の情報ながら、この分野の前提知識がコンパクトにまとめられており、ありがたいところです。
Rhea については、「環境情報から注視点を取り出すフィルタ」という考え方は一般的に役に立ちそうな気がします。
Rhea の内部表現と処理は、記号処理中心なので GOFAI な感じがします。つまり、機械学習の主流は21世紀になってかなりアナログなもの(例えばベイジアン)になってしまったので、隔世感があります。とはいっても、この本から学べることは多いかと思います。

本の構成として博士論文を読んでいるような気がしました。調べてみると、Rhea の発表は以下の 1992 年の COLING 論文(共著者に注目!)で、著者の学位取得も 1992年なので、つまりそういうことなのでしょう。
Language acquisition as learning
Authors:
Mikiko Nishikimi Electrotechnical Laboratory, Tsukuba, Japan
Hideyuki Nakashima Electrotechnical Laboratory, Tsukuba, Japan
Hitoshi Matsubara Electrotechnical Laboratory, Tsukuba, Japan
Published in: Proceeding COLING '92 Proceedings of the 14th conference on Computational linguistics - Volume 2 Pages 707-713 

Commenti

Post popolari in questo blog

Aipo に Let's Encrypt の SSL証明書を適用

ES611の電池交換

マケドニア語・ブルガリア語同時学習その5(名詞の性と数、後置冠詞形)