教材

原版:Introduction to Information Retrieval, Cambridge University Press,C.D. Manning. link

中文翻译版:信息检索导论,人民邮电出版社,王斌译

课程安排

内容摘要 课件下载
绪论。
信息检索的由来,历史和发展。信息检索与其他学科的关系。信息检索的基本概念和内容。课程要求和说明。
第 1 章
布尔检索及倒排索引。
字符串匹配及倒排索引。布尔查询处理及其优化。扩展的布尔操作。短语查询的处理。布尔检索模型及其扩展。
第 2 章
词典查找及扩展的倒排索引
支持词典快速查找的数据结构(哈希表、二叉树等)。支持通配查询处理的索引结构。支持拼写或发音纠错处理的索引结构。
第 3 章
索引的构建
文本预处理。一般构建过程。基于块排序的构建过程。单遍内存式扫描构建方法。分布式及动态索引方法。
第 4 章, 第 1 讲
索引的压缩
词项的统计特性。词典的压缩。倒排记录表的压缩。
第 4 章, 第 2 讲
向量空间模型
向量空间模型及词项权重计算机制。
第 5 章,第 1 讲
检索系统
检索中的快速评分和排序,检索系统的一般构成。
第 5 章,第 2 讲
检索的评价
效率和效果的评价。查全率和查准率。其他效果评价方法。用户体验及结果摘要。相关评测语料和评测会议。
第 6 章
相关反馈和查询扩展
相关反馈和伪相关反馈。查询扩展及重构。全局方法及局部方法。
第 7 章
概率模型
概率基础知识,概率排序原理,BIM模型和BM25模型。
第 8 章
研讨会&论文阅读
推荐阅读并进行研讨的论文清单。
研讨
基于语言建模的检索模型
语言模型,语言模型如何应用到IR系统中。
第 9 章
矩阵分解应用
矩阵分解在信息检索、推荐系统中的应用
教材第18章
文本分类(文本分类及朴素贝叶斯方法)
什么是文本分类,朴素贝叶斯分类器的生成模型、性质,特征选择,文本分类的评价。
第10章,第 1 讲
文本分类(基于向量空间的文本分类)
基于向量空间的分类,Rocchio方法,kNN方法,线性分类器。
第10章,第 2 讲
文本分类(支持向量机及机器学习方法)
SVM(支持向量机),深度学习,卷积神经网络,自动编码器,受限波尔兹曼机,深度置信网络。
第10章,第 3 讲
文本聚类
聚类概述,K-均值聚类,聚类评价,层次聚类。
第11章,第1讲
文本分类(概率图及主题模型)
什么是Graphical Model?常见的Graphical Model;主题模型与分类:LSA、pLSA、LDA
第11章,第2讲
数据挖掘经典算法概述
数据挖掘经典算法,流数据挖掘,Web中的数据挖掘。
第11章,第3讲
Web搜索
Web搜索基础,Web采集,链接分析。
第12章
图像分类的算法思想
第13章
研讨课内容
PPT下载
2019课程进度:以上章节课件已经发布

课后思考题

序号 作业内容
第1次作业
下载
教材第1章,习题1.5,1.8
教材第2章,习题2.4,2.6,2.10
教材第4章,习题4.2,4.3,4.4,4.10
第2次作业
下载
教材第5章,习题5.5,5.8
γ编码为什么是通用性编码?
γ编码对倒排索引进行压缩能达到多高的压缩比?
第3次作业
下载
教材第6章,习题6.10,6.15,6.17,6.19
第4次作业 教材第7章,习题7.3,7.5,7.7
第5次作业 教材第8章,习题8.8,8.9
教材第9章,习题9.3,9.4,9.7

实验要求

资料类别 资料名称及链接
实验要求 实验内容说明
实验示例下载
数据集 R语言tm包附带的微型数据集
安然公司邮件数据集最新版下载地址
  • 安然公司邮件数据集部分数据08版
  • 安然公司邮件数据集完整数据08版
  • 软件安装包 R语言软件下载镜像URL
  • 基本安装包RStudio
  • Rtools: Tools to build R and R packages
  • JDK下载官网
    R语言学习资料 R语言:
  • 《R语言实战》(提取码vqpt)
  • 《R常见问题解答:153分钟学会R》
  • 《R导论》
  • R语言用于文本分析:

  • 《R和Ruby数据分析之旅》(提取码fwij)
  • 《R 语言环境下的文本挖掘》
  • 《中文及英文的文本挖掘——R语言》
  •