オープンキャンパスはコチラ
資料請求はコチラ デジタル版もあるよ!
  1. 資料請求
  2. オープンキャンパス
東京情報大学
〒265-8501 千葉県千葉市若葉区御成台4-1
Tokyo University of Information sciences. All Rights Reserved.
言葉を操るコンピュータを作る

AIによる自然言語処理の面白さ

「言葉を扱えるのは人間だけだと言われていましたが、いつの間にかコンピュータも言葉を操っています。『Google翻訳』や『DeepL』の機械翻訳のサイトは、英語を流暢な日本語に翻訳してくれますし、生成AIの『ChatGPT』は、質問に答えてくれるだけでなく、長文のレポートを書き上げてくれたりします」と話すのは加藤恒昭先生だ。なぜ言 葉を操ることができるのだろうか。
「これらを可能としているのが自然言語処理です。近年の自然言語処理はAIの一分野で、AIは画像認識、ゲーム、意思決定など様々な技術の基礎となっていますが、自然言語処理は言葉を扱うゆえの面白さがあり、これからも多くの研究が求められてます」
自然言語処理は単語の並びである文を対象にしてその意味を明らかにする。画像認識は、色を持った点の集まりである画像を対象にしてそこに何が描かれているかを明らかにする。自然言語処理と画像認識は同じように見えるが、大きな違いがあると加藤先生は言う。
「画像認識の場合、色は、例えば光の三原色であるRGBの強弱という3個の数値の並びで表すことができ、その数値を比べれば似た色であるかがわかります。一方で、単語はそれ自体からはどんな意味を持っているかがわかりません。『イヌ』と『イス』は両方とも『イ』で始まっていますが、この2つが似ているなどということはありません。単語の『意味』を数値やその並びで表し、その近さを数値の比較で測れるようにすることがまず必要なのです」
そこに現れたのが、単語の使われ方を意味と考えて、使われ方ごとの多少を使って数値
化しようという考えである。「イヌ」も「ネコ」も「_を飼う」「ペットの_」のように使われることが多いので、両者の単語は似ている。一方で、「イス」はそのように使われないし、「イヌ」と違って「_に座る」のように使われるため、大きく異なっていると判断される。この方法は多くの自然言語処理の基盤となっている。
「しかし、単語の意味はそのような使われ方にとどまりません。『動物』と『イヌ』の関係や『多い』と『少ない』の関係など、単語の意味の間には様々な関係があります。それらが使われ方とどう関わっているかを明らかにしたい、そのような関係を含めて単語の意味を表したいというのが、私の一つの関心となっています」と加藤先生。

AI用のデータ蓄積が少ない、
同時通訳者の工夫や技能

さらに加藤先生は、自然言語処理の面白さはそれだけではないという。AIは多量のデータを利用して、そこから学ぶ。機械翻訳では、日本語文とその対訳の英語文の多量のペアから学ぶ。生成AIは、ありとあらゆる文章を使って、与えられた文章の先にどんな単語が続いていくかを学び、あわせて、質問とその回答のペアから学ぶ。このような、データが豊富なケースでは応用は大成功している。一方で、言語に関する人間の営みの中には十分なデータが蓄積されていないものも多いそうだ。その一つが同時通訳で、同時通訳者の人達の技をコンピュータで実現しようという同時機械翻訳ではそれが問題となる。書かれた文の翻訳とは違い、会議や講演で話されるような長い文を、遅れることなく訳し出そうとすると、文の途中で、部分部分を翻訳していかなければならない。翻訳された結果も書き言葉の文とはだいぶんと違ってくる。このような同時通訳のデータは一般的な翻訳に比べると極端に少ない。
「データからの単純な学習ではなく、人間の同時通訳者が行っている工夫や技能を明
らかにし、それを学ばせるような仕組みが必要になるんです。例えば、文をどこで区切って翻訳し始めるとわかりやすいのか、遅れが出ないような順序は何か、などを明らかにして、その知見をコンピュータに学ばせることを研究しています」

recommend コチラもオススメ!