授業科目名(和文) [Course] |
情報検索と情報抽出 |
授業科目名(英文) [Course] |
Information Retrieval & Extraction |
学部(研究科) [Faculty] |
情報系工学研究科 |
学科(専攻) [Department] |
システム工学専攻前期 |
担当教員(○:代表教員) [Principle Instructor(○) and Instructors] |
○磯崎 秀樹 自室番号(2506)、電子メール(isozaki**cse.oka-pu.ac.jp) ※利用の際は,** を @に置き換えてください |
単位数 [Point(Credit)] |
前期 2単位 |
対象学生 [Eligible students] |
1・2年生 |
授業概略と目標 [Course description and Objects] |
今や、検索エンジンなしの生活は考えられない。今の検索エンジンがどのような仕組みで動いているのか理解し、オープンソースの検索エンジンを使ってみる。 また、各ページに含まれる情報の中心となる固有表現や専門用語などを自動的に抽出する技術についても学ぶ。 |
到達目標 [Learning Goal] |
・オープンソースの検索エンジンを利用して、自分専用の検索ソフトを作れる。 ・固有表現抽出や専門用語抽出について説明できる。 |
授業計画とスケジュール [Course schedule] |
1・情報検索の基礎 転置インデックス、ストップワード、TF・IDF、lemmatization、stemming、スニペット 2・情報検索のためのデータ構造とアルゴリズム Postings List、AND検索の実装、Wild CardとPermuterm Index 3・検索語間の距離の考慮 フレーズ検索、パッセージ検索、近傍検索 4・文字単位の検索 文字N-gram、Suffix Array 5・情報検索の拡張 同義語、Query Expansion, Relevance Feedback 6・ウェブの検索 PageRank、アンカーテキスト 7・情報抽出 MUC、IREX 8・固有表現抽出 SVM、CRF、IOB2、交差検定 9・SVMによる固有表現抽出の高速化 10・照応解析 11・専門用語抽出 専門用語辞書の利用、C-value 12・質問応答システム IBMのWatsonやしゃべってコンシェルのように、質問すると答えてくれるシステムの作り方 13・言語横断質問応答システム 複数の訳語の扱い、翻字と逆翻字 14・Luceneによる情報検索 15・レポート課題 |
成績評価方法と基準 [Grading policy (Evaluation)] |
受講態度とレポートで採点 |
教科書 [Textbook] |
教科書なし。毎回資料を配る。 参考書:Christopher D. Manning et al.: Introduction to Information Retrieval, Cambridge University Press, 2008. http://nlp.stanford.edu/IR-book/ (和訳: 岩野他訳『情報検索の基礎』共立出版、2012.) |
自主学習ガイド及び キーワード [Self learning] |
配布資料を読んで復習すること。 |
開講年度 [Year of the course] |
28 |