情報アクセスと知的処理 (1)
情報推薦
本日のゴール
-
情報推薦システムの代表的アルゴリズムを知る
- コンテンツ(内容)に基づくフィルタリング
- 協調フィルタリング
-
情報推薦システムの評価尺度を知る
情報推薦とは
ユーザにとって価値のある情報を提示すること。おすすめ商品、おすすめユーザ,...
情報検索/情報フィルタリングと情報推薦
情報検索/情報フィルタリングと情報推薦の違い:
- 情報検索 (information retrieval)
- 検索質問に対して応答。検索要求を明確化できないと始まらない。
- 誰が検索しても同じ結果。パーソナライズされていない。
- cf. Google はログインしていると検索履歴を反映、現在位置も
- (狭義の)情報フィルタリング (information filtering)
- ストリーム的に流れてくる情報が対象 (新着情報など)。
- ユーザがフィルタの条件を指定するのが一般的 (興味ワードといった嗜好情報など)。
- 情報推薦 (recommendation)
- 何も入力しなくても推薦される。
- ユーザの過去の行動(閲覧/購買履歴など)に基づき推薦対象を決定。
- 例1: どの記事を読んだか ... 行動
- 例2: どんな内容の記事を読んだか ... 内容
(狭義の)情報フィルタリング
- 明示的に興味あるキーワードを列挙
- 適合性フィードバック (relevance feedback)
- システムによる出力の適合度をユーザがフィードバックすることで、ユーザの好みのモデルを修正
- 時間をかければユーザが列挙するよりも優れたモデルが構築される。
- 例: 迷惑メールフィルタ
フィードバックのあるものは情報推薦の一種とみなすこともできる。
情報推薦の基本方式
- コンテンツに基づくフィルタリング (content-based filtering)
- 推薦する情報のコンテンツ(内容)に基づき情報を選択
- 協調フィルタリング (collaborative filtering)
- 同じ好みを持ったコミュニティを発見し、そのコミュニティが共通して好む情報を選択
コンテンツに基づくフィルタリング
コンテンツ(内容)がユーザの好みに合うものを推薦。
- 推薦対象のコンテンツからコンテンツの特徴量を抽出
- テキスト: 文書ベクトル、トピック、文体など。
- 音楽: 音量、テンポ、声質など。
- 写真: 色、構図など。
これら特徴量をモデル化: コンテンツモデル
- ユーザからは、コンテンツに対する評価などから、コンテンツの特徴量に関する嗜好情報を抽出しモデル化: ユーザプロファイル
- コンテンツモデルとユーザプロファイルを比較することで推薦。
- コンテンツとユーザプロファイルのどちらもベクトルで表現し、距離の近いものを推薦 (メモリベース方式)
- ユーザによる評価を教師データとして、特徴量からユーザが好む/好まないを判定する分類モデルを機械学習し、
その分類モデルを利用して未評価のコンテンツを好むか否か判定 (モデルベース方式)
機械学習については「人工知能」(中島先生)で扱う。
協調フィルタリング
自分と似た好みの人が選択しているものを推薦。
- まず、自分(対象ユーザ)と好みの近いユーザ群を発見。
- 自分が過去に評価をつけたアイテム群を調べ、それらに対して同様な評価をしているユーザ群を探す。
(まったく同じ人はいないので、アイテム群に対する評価をベクトルとして、その類似度の高い人を選択)
- そのユーザ群が高い評価値をつけていて、自分は未評価のアイテムを推薦。(ユーザベース方式)
推薦方式の比較
- コンテンツに基づくフィルタリング (content-based filtering)
- 推薦する情報のコンテンツ(内容)に基づき情報を選択
- 誰も評価していないアイテムでも推薦可能。
- コンテンツの特徴量によるコンテンツモデルを生成するには、コンテンツの解析が必要。テキスト以外のメディアの特徴量は扱いづらい。
- 過去に高い評価をしたものに類似したものしか推薦されない。
- 協調フィルタリング (collaborative filtering)
- 同じ好みを持ったコミュニティを発見し、そのコミュニティが共通して好む情報を選択
- コンテンツの解析を一切せずに推薦可能。
- 評価のつけられたアイテムが少ないと機能しない。(sparcity問題)
- 誰もまだ評価をつけていないアイテムは推薦できない。(first-rater問題)
- システムの新規利用者は自分がある程度の数の評価をつけないと質のよい推薦がされない。(cold-start問題)
推薦システムの評価尺度
- 正確性: 精度/再現率 (検索システムと同じ)
- カバー率: coverage (評価値を予測できるアイテムの割合)
- その他の評価軸 (アイテムを評価する指標)
- 新規性: novelty (好みでかつ未知であるか)
- 意外性: serendipity (好みでかつユーザが予測できないものか)
コンテンツに基づくフィルタリングと異なり、協調フィルタリングは意外性のあるアイテムを推薦する可能性がある。
その他の推薦方式
ソーシャルネットワークの構造を利用するなど。
協調フィルタリングの利用例 (参考)
卒研・修士の研究の例。
Space, Right Arrow or swipe left to move to next slide, click help below for more details