本科目前半の講義を踏まえ、情報アクセスと知的処理に関するソフトウェアを作成しましょう。
用いる情報
Web上で取得可能なデータ(Webページ、フィード、Webサービス等)の利用を基本とします。
その他、自分で収集できるデータ、申請などにより提供を受けることのできるデータも可とします。
システムのタイプ
データの中からユーザにとって有益な情報を探し出す/創り出すことを支援するシステムを制作します。
システムのタイプとしては、以下のいずれかとします。
- Aコース: マッシュアップ+知的処理コース
- この授業で扱った情報アクセスと知的処理に関する手法を活用したマッシュアップを考えましょう。手法の例:
- 単語抽出および単語の重要度の利用(tfなど)
- 情報抽出(感情の種類、評価とその対象、物とその数量、態度、ユーザ属性、製品スペック、など)
- テキスト分析 (テキスト間類似度、話題抽出、重要文抽出など)
- Bコース: 高度な知的処理コース
- 知的処理の工夫が大きい場合はマッシュアップでなくてもよいものとします。推薦アルゴリズムの工夫、高度な統計分析、対話システムなどの人工知能的なものを想定していますが、異なるものでも可能性があります。構想発表でokがでることが必要です。
- Cコース(特別枠): 情報メディア基礎ゼミの独自提案を実装
- 情報メディア基礎ゼミで山田に配属された人向けのコースです。独自提案の全体または一部を実装します。分野が異なっていても、すでにokが出ているものとして扱います。
「情報アクセスと知的処理」前半の講義で学んだ技術 (情報検索・情報推薦・言語処理等)を利用することで、
「データ記述とWebサービス」のときよりも高度で知的なシステムを実現してください。
実装
プログラミング言語
Java を標準としますが、好きな言語でかまいません。
使いたいライブラリがある言語にしてもよいでしょう。
例えば機械学習のライブラリを使いたいのであれば Python が充実しています。
ライブラリの利用
外部ライブラリの利用は可としますが、ライブラリの機能が実現したいことそのものである場合には、その限りではありません。
- よい例: 形態素解析はライブラリに任せよう
- よくない例1: ライブラリを使った分析結果をそのまま表示しよう
- よくない例2: ChatGPT に全部やらせて表示だけしよう
いわゆる生成AIを Web API の 1つとして使うことはかまいませんが、
生成AI で済んでしまうものではみなさんの出る幕がありませんので、
生成AI だけでは実現できないものにしましょう。
プログラムの構成図(例)
過去の例
すべて、何らかの知的処理が行われています。
- 検索語を入力すると、ツイート内でその語と同時に出現する語(関連語)を出現頻度順に表示。さらに極性(ネガポジ)で分類。
- 楽曲の歌詞を形態素解析・感情判定を行いワードクラウドで可視化。
- ユーザの好みの曲を登録したマイリストから、新たな曲を推薦。
- 特定の作品に対するレビュー集合を分析し、その総意に近いレビューを選択。
- 大量のRSSフィードからトレンド語を求め、それらの語を含む記事を表示。
- あるユーザの過去のツイート群と類似したツイートをしているユーザを発見。
- 好きなアニメと今期のアニメのレビューを比較し、その類似度で今期のアニメをランキング。
- 動画のコメント群から炎上度を算出。