教材
原版:Introduction to Information Retrieval, Cambridge University Press,C.D. Manning. link
中文翻译版:信息检索导论,人民邮电出版社,王斌译

原版:Introduction to Information Retrieval, Cambridge University Press,C.D. Manning. link
中文翻译版:信息检索导论,人民邮电出版社,王斌译
内容摘要 | 课件下载 |
---|---|
绪论。 信息检索的由来,历史和发展。信息检索与其他学科的关系。信息检索的基本概念和内容。课程要求和说明。 |
第 1 章 |
布尔检索及倒排索引。 字符串匹配及倒排索引。布尔查询处理及其优化。扩展的布尔操作。短语查询的处理。布尔检索模型及其扩展。 |
第 2 章 |
词典查找及扩展的倒排索引 支持词典快速查找的数据结构(哈希表、二叉树等)。支持通配查询处理的索引结构。支持拼写或发音纠错处理的索引结构。 |
第 3 章 |
索引的构建 文本预处理。一般构建过程。基于块排序的构建过程。单遍内存式扫描构建方法。分布式及动态索引方法。 |
第 4 章, 第 1 讲 |
索引的压缩 词项的统计特性。词典的压缩。倒排记录表的压缩。 |
第 4 章, 第 2 讲 |
向量空间模型 向量空间模型及词项权重计算机制。 |
第 5 章,第 1 讲 |
检索系统 检索中的快速评分和排序,检索系统的一般构成。 |
第 5 章,第 2 讲 |
矩阵分解应用 矩阵分解在信息检索、推荐系统中的应用 |
教材第18章 |
检索的评价 效率和效果的评价。查全率和查准率。其他效果评价方法。用户体验及结果摘要。相关评测语料和评测会议。 |
第 6 章 |
相关反馈和查询扩展 相关反馈和伪相关反馈。查询扩展及重构。全局方法及局部方法。 |
第 7 章 |
概率模型 概率基础知识,概率排序原理,BIM模型和BM25模型。 |
第 8 章 |
基于语言建模的检索模型 语言模型,语言模型如何应用到IR系统中。 |
第 9 章 |
文本分类(文本分类及朴素贝叶斯方法) 什么是文本分类,朴素贝叶斯分类器的生成模型、性质,特征选择,文本分类的评价。 |
第10章,第 1 讲 |
文本分类(基于向量空间的文本分类) 基于向量空间的分类,Rocchio方法,kNN方法,线性分类器。 |
第10章,第 2 讲 |
文本分类(支持向量机及机器学习方法) SVM(支持向量机),深度学习,卷积神经网络,自动编码器,受限波尔兹曼机,深度置信网络。 |
第10章,第 3 讲 |
文本分类(概率图及主题模型) 什么是Graphical Model?常见的Graphical Model;主题模型与分类:LSA、pLSA、LDA |
第10章,第 4 讲 |
文本聚类 聚类概述,K-均值聚类,聚类评价,层次聚类。 |
第11章 |
Web搜索 Web搜索基础,Web采集,链接分析。 |
第12章 |
图像分类的算法思想 |
第13章 |
总复习 |
总复习 |
复习题[68题] |
复习题[68题] |
序号 | 作业内容 |
---|---|
第1次作业 | 教材第1章,习题1.5,1.8 教材第2章,习题2.4,2.6,2.10 教材第4章,习题4.2,4.3,4.4,4.10 |
第2次作业 | 教材第5章,习题5.5,5.8 γ编码为什么是通用性编码? γ编码对倒排索引进行压缩能达到多高的压缩比? |
第3次作业 | 教材第6章,习题6.10,6.15,6.17,6.19 |
第4次作业 | 教材第7章,习题7.3,7.5,7.7 |
第5次作业 | 教材第8章,习题8.8,8.9 教材第9章,习题9.3,9.4,9.7 |
资料类别 | 资料名称及链接 |
---|---|
实验要求 | 实验内容说明
实验示例下载 |
数据集 | R语言tm包附带的微型数据集
安然公司邮件数据集最新版下载地址 |
软件安装包 | R语言软件下载镜像URL
|
R语言学习资料 | R语言:
R语言用于文本分析: |