情報アクセスと知的処理 (2)

情報検索とは

本日のゴール

情報検索とは

情報検索(information retrieval)... 情報を探すこと... 広い概念。

日本語の Wikipedia では 2つのエントリに分かれている。

この講義では、コンピュータを使った検索について扱う。

情報の蓄積と利用

情報はどこから探す? 蓄積されたものから。(探偵ではないので)

情報化社会と言われる時代になってから、かなりの時が流れ、 多くの情報がすでに蓄積され、また、日々蓄積され続けている。

Webのアーカイビング

過去のWebも歴史的遺産として保存。

オープンデータ

情報を蓄積する方法

知識工学的アプローチの問題点

情報検索的アプローチ

情報抽出

ユーザが情報を利用する目的

情報要求 (information need)
ユーザがある目的を達成するために現在持っている知識では不十分であると感じている状態

情報要求の4階層 (Taylor, 1968)

Q1: 直感的要求
現状に満足していないことは認識しているが、それを具体的に言語化してうまく説明できない状態
Q2: 意識された要求
頭の中では問題を意識できるが、曖昧な表現やまとまりのない表現でしか言語化できない状態
Q3: 形式化された要求
問題を具体的な言語表現で言語化することができる状態
Q4: 調整済みの要求
問題を解決するために必要な情報の情報源が同定できるくらい問題が具体化された状態

情報検索へのアプローチ

情報検索 (広義)
ユーザの持つ問題(情報要求)を解決できる情報を見つけだすこと
情報検索 (狭義)
ユーザの検索質問(query)に適合する文書を文書集合の中から見つけだすこと

対話型の検索エンジン

パーソナライズド検索

情報検索システムの評価指標

C: 全適合文書数, R: システムが出力した適合文書数、N: システムが出力した文書数

再現率と適合率

Precision は精度と呼ぶ場合もある。正解率 (accuracy) とは異なる。

F値

F = 1 / { (1/2) * (1/Recall + 1/Precision) }

再現率、適合率のどちらを重視するか

混同行列 (検索)

混同行列 (一般)

Web検索エンジンの評価

情報検索システムの評価方法

演習

(提出はなし)