情報検索(information retrieval)... 情報を探すこと... 広い概念。
日本語の Wikipedia では 2つのエントリに分かれている。
この講義では、コンピュータを使った検索について扱う。
情報はどこから探す? 蓄積されたものから。(探偵ではないので)
情報化社会と言われる時代になってから、かなりの時が流れ、 多くの情報がすでに蓄積され、また、日々蓄積され続けている。
過去のWebも歴史的遺産として保存。
C: 全適合文書数, R: システムが出力した適合文書数、N: システムが出力した文書数
Precision は精度と呼ぶ場合もある。正解率 (accuracy) とは異なる。
F = 1 / { (1/2) * (1/Recall + 1/Precision) }
実際の クラス 判定 |
適合 | 不適合 |
---|---|---|
適合 | 真の適合 | 偽の適合 |
不適合 | 偽の不適合 | 真の不適合 |
例 (再現率/適合率を求めてみよう)
実際の クラス 判定 |
適合 | 不適合 |
---|---|---|
適合 | 真の適合: 70件 | 偽の適合: 10件 |
不適合 | 偽の不適合: 5件 | 真の不適合: 15件 |
2クラス分類では、一般には Positive/Negative (正/負) の2クラスで考えることが多い。
実際の クラス 判定 |
Positive | Negative |
---|---|---|
Positive | True positive(TF: 真陽性) | False positive (FP: 偽陽性) |
Negative | False negative(FN: 偽陰性) | True negative(TN: 真陰性) |
(提出はなし)