情報アクセスと知的処理

自然言語処理とその応用

本日のゴール

自然言語とは

自然言語における文法の変化

自然言語処理

自然言語処理は学際的

学際的:複数の学問分野にまたがる領域

自然言語処理に分類される技術

研究者の研究発表から分野が見える。

大量のテキストデータを使って作成(トレーニング)した 大規模言語モデル (LLM: Large Language Model)を使って解くことが増えている。

かな漢字変換

自然言語処理技術の中でも最も身近で歴史のある技術。

例: Google日本語入力

機械翻訳

昔から需要があるが、使い物になるようになったのは最近。

いくら改善しても、人間の常識知識が必要な翻訳はできない (ただし、過去の翻訳例に現れている常識知識は学習できることもある)

機械翻訳 - 例

Google翻訳

DeepL翻訳

ChatGPT / GPT-4

情報検索

情報検索においては、検索対象、検索質問とも言語で表現されるものとは限らない。 しかし、実際にはほとんどの情報検索システムが言語を扱うものである。

検索対象が言語
人類の歴史上、文字による記録は太古の昔から現在まで続けられてきており、 主要な情報蓄積手段の座は揺るがない。
メタ情報が言語
画像や音楽などの非言語メディアが検索対象でも、検索インデックスは言語。
  • キーワード、タグなど
検索質問が言語
検索インデックスが言語になっていれば、検索質問も言語。

情報検索

文書を対象とした情報検索システムの基本(学習済み)

例: Web検索エンジン

ページの質はリンク構造解析により求めるが、 検索要求に対する適合度は言語処理技術に基づく。

テキスト分類・クラスタリング

情報抽出

文章から取り出したい情報を抽出

情報抽出の発展形: ツイートからの評判情報の抽出

企業でマーケティングに活用。商品や企業の評判を調査。

実用化され、多くの企業で導入されている。

情報抽出の発展形: 映画レビューからの感情の抽出

映画の分類や推薦に活用可能。

テキスト要約

例: 新幹線要約

新幹線の電光掲示板で使用されるニュース記事は冗長度の少ない高密度表現となっている。

例: Yahoo!知恵袋の見出し生成

クラウドソーシング(人手)を利用して正解データを作成。

質問応答

質問応答は対話の1形態。質問に対する答えを探して回答する。

質問・回答の組が大量にあれば、学習できるかもしれない。

例: Googleアシスタント、Siri など

対応できる質問タイプであれば回答が得られる。

例: コールセンター

コールセンターでは同じような問い合わせが頻繁にあるため、自動化が期待されている。

対話システム - 対話とは

対話とは

対話は情報伝達や合意形成の重要な手段。

対話における発話

対話システム

対話の分類

対話システムの例

会話ボットからコールセンターのオペレータまで。

大規模言語モデルを用いた生成AIではどちらも対応できる。