教材

原版:Introduction to Information Retrieval, Cambridge University Press,C.D. Manning. link

中文翻译版:信息检索导论,人民邮电出版社,王斌译

课程安排

内容摘要 课件下载
绪论。
信息检索的由来,历史和发展。信息检索与其他学科的关系。信息检索的基本概念和内容。课程要求和说明。
第 1 章
布尔检索及倒排索引。
字符串匹配及倒排索引。布尔查询处理及其优化。扩展的布尔操作。短语查询的处理。布尔检索模型及其扩展。
第 2 章
词典查找及扩展的倒排索引
支持词典快速查找的数据结构(哈希表、二叉树等)。支持通配查询处理的索引结构。支持拼写或发音纠错处理的索引结构。
第 3 章
索引的构建
文本预处理。一般构建过程。基于块排序的构建过程。单遍内存式扫描构建方法。分布式及动态索引方法。
第 4 章, 第 1 讲
索引的压缩
词项的统计特性。词典的压缩。倒排记录表的压缩。
第 4 章, 第 2 讲
向量空间模型
向量空间模型及词项权重计算机制。
第 5 章,第 1 讲
检索系统
检索中的快速评分和排序,检索系统的一般构成。
第 5 章,第 2 讲
矩阵分解应用
矩阵分解在信息检索、推荐系统中的应用
教材第18章
期中考试
检索的评价
效率和效果的评价。查全率和查准率。其他效果评价方法。用户体验及结果摘要。相关评测语料和评测会议。
第 6 章
相关反馈和查询扩展
相关反馈和伪相关反馈。查询扩展及重构。全局方法及局部方法。
第 7 章
概率模型
概率基础知识,概率排序原理,BIM模型和BM25模型。
第 8 章
基于语言建模的检索模型
语言模型,语言模型如何应用到IR系统中。
第 9 章
文本分类(文本分类及朴素贝叶斯方法)
什么是文本分类,朴素贝叶斯分类器的生成模型、性质,特征选择,文本分类的评价。
第10章,第 1 讲
文本分类(基于向量空间的文本分类)
基于向量空间的分类,Rocchio方法,kNN方法,线性分类器。
第10章,第 2 讲
文本分类(支持向量机及机器学习方法)
SVM(支持向量机),深度学习,卷积神经网络,自动编码器,受限波尔兹曼机,深度置信网络。
第10章,第 3 讲
文本分类(概率图及主题模型)
什么是Graphical Model?常见的Graphical Model;主题模型与分类:LSA、pLSA、LDA
第10章,第 4 讲
文本聚类
聚类概述,K-均值聚类,聚类评价,层次聚类。
第11章
Web搜索
Web搜索基础,Web采集,链接分析。
第12章
图像分类的算法思想
第13章
总复习
总复习
复习题[68题]
复习题[68题]

课后思考题

序号 作业内容
第1次作业 教材第1章,习题1.5,1.8
教材第2章,习题2.4,2.6,2.10
教材第4章,习题4.2,4.3,4.4,4.10
第2次作业 教材第5章,习题5.5,5.8
γ编码为什么是通用性编码?
γ编码对倒排索引进行压缩能达到多高的压缩比?
第3次作业 教材第6章,习题6.10,6.15,6.17,6.19
第4次作业 教材第7章,习题7.3,7.5,7.7
第5次作业 教材第8章,习题8.8,8.9
教材第9章,习题9.3,9.4,9.7

实验要求

资料类别 资料名称及链接
实验要求 实验内容说明
实验示例下载
数据集 R语言tm包附带的微型数据集
安然公司邮件数据集最新版下载地址
  • 安然公司邮件数据集部分数据08版
  • 安然公司邮件数据集完整数据08版
  • 软件安装包 R语言软件下载镜像URL
  • 基本安装包RStudio
  • Rtools: Tools to build R and R packages
  • JDK下载官网
  • JDK 32bits
  • JDK 64bits
  • R语言学习资料 R语言:
  • 《R语言实战》
  • 《R常见问题解答:153分钟学会R》
  • 《R导论》
  • 《R参考名片》
  • R语言用于文本分析:

  • 《R和Ruby数据分析之旅》
  • 《R 语言环境下的文本挖掘》
  • 《中文及英文的文本挖掘——R语言》
  •