《数据分析》课程期末复习资料
《数据分析》课程讲稿章节目录:
第1章 大数据分析概述
(1)什么是大数据
(2)大数据的特征和来源
(3)什么是大数据分析
(4)大数据分析的应用
(5)大数据分析的过程、技术与难点
第2章 大数据分析模型
(1)大数据分析模型
(2)基本统计量
(3)统计机器学习
(4)统计学习方法分类
(5)统计学习方法三要素
(6)模型评估与模型选择
(7)正则化与交叉验证
第3章 关联分析模型
(1)关联分析
(2)回归分析与相关分析
(3)关联规则分析
(4)Apriori算法
(5)FPgrowth算法
第4章 分类分析模型
(1)分类分析
(2)k近邻法
(3)朴素贝叶斯
(4)逻辑斯谛回归
(5)支持向量机
(6)决策树(上)
(7)决策树(下)
第5章 聚类分析模型
(1)聚类分析
(2)类间距离
(3)聚类分析的分类
(4)层次聚类
(5)K均值聚类
第6章 大数据分析算法
(1)大数据分析算法
(2)大数据关联分析算法
(3)大数据分类算法
(4)大数据聚类算法
第7章 文本分析
(1)文本分析模型
(2)文本话题分析
(3)潜在语义分析
(4)概率潜在语义分析
(5)潜在狄利克雷分配
第8章 链接分析
(1)PageRank算法(上)
(2)PageRank算法(下)
(3)HITS算法
(4)链接作弊
第9章 社交网络分析
(1)社交网络分析
(2)基于中介度的社团发现
(3)基于图划分的社团发现
第10章 推荐系统
(1)推荐系统概述
(2)基于内容的推荐算法
(3)协同过滤推荐算法
一、客观部分:(单项选择、多项选择)
(一)、单项选择
1以下全表统计量中,不能反映数据集中趋势的是()
A.均值
B.中位数
C.众数
D.极差
★考核知识点:基本统计量
参见讲稿章节:2.2
附1.1.1:(考核知识点解释)
根据反映出的数据特征可以将基本统计量分为两类:1. 反映数据集中趋势的和2. 反应数据波动大小的。
反映数据集中趋势的度量包括均值 、中位数和众数。
能够反应数据散布情况的数据波动大小度量包括极差和方差(标准差)。
2.( )是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
A.监督学习
B.无监督学习
C.强化学习
D.主动学习
★考核知识点:统计学习方法分类
参考讲稿章节:2.4
附1.1.2(考核知识点解释):
统计学习或机器学习一般包括监督学习(supervised learning)、 无监督学习(unsupervised learning)、强化学习(reinforcement learning)。有时还包括半监督学习(semi-supervised)、 主动学习(active learning)。
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。
无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。
强化学习(reinforcement learning)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习(active learning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
3.Apriori算法是一种()算法
A.关联规则
B.聚类
C.分类
D.预测
★考核知识点:Apriori算法
参见讲稿章节:3.4
附1.1.3:(考核知识点解释)
Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。
为完成频繁项集挖掘,需对各项集的支持度进行计数,但在计数之前,需要完成各项集的生成工作。
4. 以下不能表达词在文本中的重要程度的是()
A.布尔权重
B.词频权重
C.TF-IDF权重
D.向量余弦
★考核知识点:文本分析模型
参见讲稿章节:7.1
附1.1.4:(考核知识点解释)
最简单、最常用的文本表示方法是利用向量空间模型(vector space model, VSM),也就是单词向量空间模型(word vector space model)来描述文本。
常用的表示词在文本中的重要程度的方法有:布尔权重、词频权重、TFIDF权重。
布尔权重是最简单的一种加权方式。布尔权重方法只在一定程度描述了文本的性质,即包含不包含哪些词,并没有体现出文本的全部信息,如词出现次数不同,其对文本的影响也应当不同等问题。
词频(Term Frequency, TF)权重的基本思想是词出现次数不同应当在该特征的权重中有所反映。
TF-IDF 是结合了 TF(词频)和 IDF(逆文本频率)对词在文本中的重要程度进行综合衡量。
文本之间的语义相似度可以用两个单词向量的的内积或标准化内积(余弦)表示。
(二)、多项选择
1.大数据的特征包括( )
A.体量大(Volume)
B.多样性(Variety)
C.速度快(Velocity)
D.价值高(Value)
★考核知识点:大数据的特征
参考讲稿章节:1.2
附1.2.1(考核知识点解释):
目前在描述大数据特征时,一般是按照国际数据公司IDC所提的“4V”模型来刻画,即体量大(Volume)、多样性(Variety)、速度快(Velocity)、价值高(Value)。
1). 体量大(Volume):数据量大是大数据的基本属性。数据规模的大小是用计算机存储容量的单位来计算的,数量的单位从TB级别跃升到PB级别、EB级别,甚至ZB级别。
2). 多样性(Variety):大数据除了体量大外,另一个最重要的特征就是数据类型的多样化。即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
3) 速度快(Velocity):大数据环境中速度快有两层含义:一是数据产生速度快; 二是要求数据分析处理速度快。
4) 价值高(Value):大数据拥有大量有价值信息,通过提炼的信息,能够在更高的层面和视角,将在更大的范围帮助用户提高决策力,洞察未来创造出更大的价值和商机。
2. 按照数据结构分类,数据可分为( )
A.结构化数据
B.半结构化数据
C.非结构化数据
D.无结构数据
★考核知识点: 按照数据结构分,大数据的数据类型
参考讲稿章节:1.2
附1.2.2(考核知识点解释):
大数据除了体量大外,另一个最重要的特征就是数据类型的多样化。即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
在早期,数据类型主要是以结构化数据为主,即传统的关系型数据,主要存储在关系数据库中。
随着互联网应用的深入,特别是社交网络、电子商务、传感器、智能设备的飞速发展,数据也变得更加复杂,出现了网页、web日志、博客、微博、图片、音频、视频、地理位置信息、电子邮件、文档等原始、半结构化、非结构化数据。
其中,视频等非数据占很大比例,有数据表明,到2016年,全部互联网流量中,视频数据达到55%,大数据中90%都是非结构化数据。P
并且,大数据不仅仅在形式上多元化,其信息来源、维度也表现出多样性。
3. 根据数据分析深度,可将数据分析分为( )
A. 关联性分析
B. 预测性分析
C. 规则性分析
D. 描述性分析
★考核知识点:根据数据分析深度,数据分析的类型
参见讲稿章节: 1.3
附1.2.3:(考核知识点解释)
根据数据分析深度,可将数据分析分为3个层次:描述性分析(Descriptive Analysis),预测性分析(Predictive Analysis)和规则性分析(Prescriptive Analysis)。
1描述性分析基于历史数据来描述发生的事件。
例如,利用回归分析从数据集中发现简单的趋势,并借助可视化技术来更好地表示数据特征。
2预测性分析用于预测未来事件发生的概率和演化趋势。
例如,预测性模型使用对数回归和线性回归等统计技术发现数据趋势并预测未来的输出结果。
3规则性分析用于解决决策制定和提高分析效率。
例如,利用仿真来分析复杂系统以了解系统行为并发现问题,并通过优化技术在给定约束条件下给出最优解决方案。
4. 根据数据分析的实时性,可将数据分析分为( )
A. 实时数据分析
B. 预测性分析
C. 规则性分析
D. 离线数据分析
★考核知识点:按照数据分析的实时性,数据分析的类型
参见讲稿章节: 1.3
附1.2.4:(考核知识点解释)
按照数据分析的实时性,一般将数据分析分为实时数据分析和离线数据分析。
实时数据分析也称在线数据分析,能够实时处理用户的请求。
离线数据分析通过数据采集工具将日志数据导入专用分析平台进行分析,非实时处理数据。
5. 下列哪些方法是分类算法( )
A. 决策树
B. Apriori
C. 逻辑斯谛回归
D. 支持向量机
★考核知识点: 分类分析
参考讲稿章节:4.1
附1.2.5(考核知识点解释):
许多统计学习方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、支持向量机、随机森林等等。
6. 聚合聚类需要预先确定以下()要素
A.距离或相似度
B.合并规则
C.分裂规则
D.停止条件
★考核知识点:层次聚类
参见讲稿章节:5.4
附1.2.6:(考核知识点解释)
聚合聚类需要预先确定下面三个要素:
(1)距离或相似度:
(2)合并规则;
(3)停止条件。
根据这些要素的不同组合,就可以构成不同的聚类方法。
距离或相似度可以是闵可夫斯基距离、马哈拉诺比斯距离、相关系数、夹角余弦。
合并规则一般是类间距离最小,类间距离可以是最短距离、最长距离、中心距离、平均距离。
停止条件可以是类的个数达到阈值(极端情况类的个数是1)、类的直径超过阈值。
7. 在垃圾农场中,整个Web分成()
A.不可达网页
B.可达网页
C.导航网页
D.自有网页
★考核知识点: 链接作弊
参考讲稿章节:8.4
附1.2.7(考核知识点解释):
为提高某个或某些特定网页 PageRank 值而构建的一系列网页称为垃圾农场(spam farm)或链接农场(link farm)。
右图中给出了垃圾农场的简单形式,按照作弊者的观点,整个Web分成三部分:不可达网页、可达网页和自有网页。
1)不可达网页:作弊者无法影响的网页,Web 中大部分网页属于不可达网页
2)可达网页:这些网页虽不受作弊者控制,但是作弊者可影响它们。例如:作弊者通常选择博客、报纸或论坛等网页作为可达网页。虽然作弊者不能控制这类网页,但可通过留言等方式在可达网页中嵌入自有网页的网址。
3)自有网页:作弊者拥有并完全控制的网页
垃圾农场由作弊者的自有网页和一些从可达网页指向他们的链接共同组成。由于没有外部指入的链接,垃圾农场就不可能能被搜索引擎采集,因而毫无价值。
二、主观部分:
(一)、名词解释
1. 统计学习
★考核知识点: 统计机器学习
参考讲稿章节:2.3
附2.1.1(考核知识点解释):
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
2.过拟合
★考核知识点: 模型评估与模型选择
参考讲稿章节:2.6
附2.1.2(考核知识点解释):
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高.这种现象称为过拟合(over-fitting).
过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对己知数据预测得很好,但对未知数据预测得很差的现象。
3.回归分析
★考核知识点:回归分析
参考讲稿章节:3.2
附2.1.3(考核知识点解释):
回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量(因变量)与其余变量(自变量)的依赖关系。
4. 分类分析
★考核知识点: 分类分析
参考讲稿章节:4.1
附2.1.4(考核知识点解释):
分类分析是指在已知研究对象已经分为若干类的情况下,确定新的对象属于哪一类。
5. 聚类分析
★考核知识点: 聚类分析
参考讲稿章节:5.1
附2.1.5(考核知识点解释):
聚类分析(Cluster analysis)简称聚类(Clustering),是针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个“类”或“簇”( cluster)的数据分析问题。一个类是样本的一个子集。直观地,相似的样本聚集在相同的类,不相似的样本分散在不同的类。
6. 类的直径
★考核知识点:类的特征
参见讲稿章节:5.2
附2.1.6:(考核知识点解释)
类的直径(diameter) DG 是类中任意两个样本之间的最大距离。
7.链接分析
★考核知识点:链接分析
参见讲稿章节: 8.1
附2.1.7:(考核知识点解释)
链接分析(link analysis)是对网络链接的自身属性、链接对象、链接网络等各种现象进行分析,以便揭示其数量特征和内在规律的一种研究方法。
8.网页权威性
★考核知识点:HITS算法
参见讲稿章节: 8.3
附2.1.8:(考核知识点解释)
网页权威性反映了网页本身质量的好坏,如果该网页的内容很好,则它的权威性就可能很高。
9. 网页导航性
★考核知识点:HITS算法
参见讲稿章节: 8.3
附2.1.8:(考核知识点解释)
网页导航性反映了网页作为路由的好坏,如果该网页所指向的很多网页的质量都很高,那么该网页本身的导航性就可能很高。
10.链接作弊
★考核知识点:链接作弊
参见讲稿章节:8.4
附2.1.10:(考核知识点解释)
人工创建链接结构来增加网页 PageRank 值的方法称作链接作弊(link spam) 。
11. 中介度
★考核知识点:中介度
参见讲稿章节: 9.2
附2.1.11:(考核知识点解释)
一条边(a,b)的中介度定义为节点对(x,y)的数目,其中(a,b)处于x和y的最短路径上。如果(a,b)的中介度高,那么意味着它处于两个社团之间。
(二)、简答
1.人类社会的数据产生方式经历了哪些阶段?简述各阶段的特点。
★考核知识点:数据产生方式变革、大数据的数据来源
参见讲稿章节:1.2
附2.2.1(考核知识点解释):
人类历史上从未有哪个时代和今天一样产生如此海量的数据,人类社会的数据产生方式大致经历了3个阶段:运营式系统、用户原创内容阶段、感知式系统阶段。
(1)运营式系统:
数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始,这些数据规范、有秩序、强调数据的一致性,且这些数据的产生方式是被动的。
(2)用户原创内容阶段:
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但真正的数据爆发产生于Web2.0时代,其重要标志就是用户原创内容。以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;新型移动设备出现,易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷
数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性,这些数据的产生方式 是主动的。
(3)感知式系统:
人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感知式系统的广泛使用。微小带着处理功能的传感器设备广泛布置于社会的各个角落,通过这些设备对整个社会的运转进行监控,这些设备会源源不断地产生新数据,这些数据的产生方式是自动的,数据呈现多源异构、分布广泛、动态演化等。
简单来说,数据产生经历了被动、主动和自动三个阶段,这些被动、主动和自动的数据共同构成了大数据的数据来源。
2. 简述大数据分析的过程。
★考核知识点:大数据分析过程
参见讲稿章节: 1.5
附2.2.2:(考核知识点解释)
大数据分析的过程大致分为下面6个步骤:
(1)业务理解
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据析问题的定义和实现目标的初步计划上。
(2)数据理解
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
(3)数据准备
数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输人值。这个阶段的任务有的能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。
(4)建模
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。有些技术可以解决一类相同的数据分析问题;有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。
(5)评估
在这个阶段,已经从数据分析的角度建立了一个高质量显示的模型。在最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分考虑。在这个阶段结束后,必须成一个数据分析结果使用的决定。
(6)部署
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要以便于用记使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据分析过程。在很多案例中,由客户而不是数据分析人员承担部署的工作。
3. 简述实现统计学习方法的步骤。
★考核知识点:统计机器学习
参见讲稿章节: 2.3
附2.2.3:(考核知识点解释)
实现统计学习方法的步骤如下:
(1) 得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略:
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
4. 简述关联规则的挖掘步骤。
★考核知识点:关联规则分析
参见讲稿章节:3.3
附2.2.4:(考核知识点解释)
关联规则的挖掘通常可以分解为以下两个步骤:
1)产生频繁项集
如果某个项集的支持度大于最小支持度阈值则称这个项集为频繁项集。可以有频繁1项集、频繁2项集…频繁k项集
第一步就是要发现所有满足最小支持度阈值的项集,即发现所有频繁项集。
这些阈值通常根据数据分析的需要人为设定
2)关联规则的产生
从上一步发现的频繁项集中提取所有满足最小置信度阈值的规则,强关联规则。
5. 简述Apriori算法的核心思想。
★考核知识点:Apriori算法
参见讲稿章节: 3.4
附2.2.5:(考核知识点解释)
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法有两个关键步骤:一是发现所有的频繁项集;二是生成强关联规则。
Apriori算法的核心思想如下:对于给定的一个数据库和最小支持度阈值,首先对其进行扫描,找出所有的频繁1-项集,该集合记作L1;然后得用L1找频繁2-项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k-项集。最后在所有的频繁集中提取出强规则,即产生用户感兴趣的关联规则。
6. 简述k近邻法的核心思想、基本算法过程,并分析其优缺点。
★考核知识点:k近邻法
参见讲稿章节: 4.2
附2.2.6:(考核知识点解释)
k近邻法的核心思想是,如果一个样本在特征空间的k个最相邻样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
k近邻的优点:简单,易于理解,易于实现,无需估计参数,对噪声数据不敏感。
缺点:需要存储所有的样本,空间复杂度高;计算复杂度高。
7. 层次聚类算法分为哪两种方法?简述这两个层次聚类算法。
★考核知识点:层次聚类
参见讲稿章节: 5.4
附2.2.7:(考核知识点解释)
层次聚类算法是假设类别之间存在层次结构,将样本聚到层次化的类中。
层次聚类又有聚合或自底向上聚类、分裂或自顶向下聚类两种方法。
聚合聚类开始将每个样本各自分到一个类,之后将相距最近的两类合并,建立一个新的类,重复此操作直到满足终止条件,得到层次化的类别。
分裂聚类开始将所有样本分到一个类,之后将已有类中相距最远的样本分到两个新的类,重复此操作直到满足停止条件,得到层次化的类别。
8. 简述k-Means算法计算过程。
★考核知识点:k均值 聚类
参见讲稿章节:5.5
附2.2.8:(考核知识点解释)
(1)从D中随机选取k个元素,形成k个簇,每个簇中含有一个元素,元素即为簇的质心。
(2)将剩下的元素分别划归到与其最近的簇,即与质心相似度最大的簇。
(3)划归所有元素后,重新计算k个簇各自的质心。
(4)将D中全部元素按照新的簇质心重新划归到与其最近的簇。
(5)重复第3、4步,直到聚类结果不再变化。
(6)将结果输出。
9. 简述MapReduce算法计算过程。
★考核知识点:大数据分析算法
参见讲稿章节: 6.1
附2.2.9:(考核知识点解释)
MapReduce计算过程:1).有多个Map任务,每个任务的输入是DFS(分布式文件系统)中的一个或多个文件块。Map任务将文件转换成一个键-值(key-value)对序列。从输入数据产生键-值对的具体方式由用户编写的Map函数代码决定。
2).主控制器从每个Map任务中收集一系列键-值对,并将它们按照大小排序。这些键又被分到所有的Reduce任务中,所以具有相同键的键-值对应该归到同一Reduce任务中。
3). Reduce任务每次作用于一个键,并将与此键关联的所有值以某种方式组合起来。具体的组合方式取决于用户所编写的Reduce函数代码。
10. 简述单词向量空间模型的基本想法及其优点和局限性。
★考核知识点:文本分析模型
参见讲稿章节: 7.1
附2.2.10:(考核知识点解释)
单词向量空间模型的基本想法是:文档的基本含义是通过该文档包含的词来表述的,可将文档看成词袋(bag of words)的形式,每一个词作为文档的一个特征,由特征词组成的特征向量来描述每一个文档。给定一个文本,用一个向量表示该文本的“语义”,向量的每一维对应一个单词,其数值为该单词在文本中的权重值;基本假设是文本中所有单词的出现情况表示了文本的语义内容;文本集合中的每个文本都表示为一个向量,存在于一个向量空间;向量空间的度量,表示文本之间的“语义相似度”。
单词向量空间模型的优点是模型简单,计算效率高。
因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成。
单词向量空间模型也有一定的局限性,体现在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性及多词一义性,即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以其于单词向量的相似度计算存在不精确的问题。
11. 简述潜在语义分析LSA基本思想,并分析其优点与缺点。。
★考核知识点: 潜在语义分析
参考讲稿章节:7.3
附2.2.11:(考核知识点解释)
潜在语义分析(latent semantic analysis, LSA)主要用于文本的话题分析,将文本在单词向量空间的表示通过线性变换转换为在话题向量空间中的表示,发现文本与单词之间的基于话题的语义关系。潜在语义分析旨在解决单词向量空间模型不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。这也是话题分析(topic modeling)的基本想法。
潜在语义分析的优点在于:可以把原文本特征空间降维到一个低维语义空间,减轻一词多义和一义多词问题。
缺点是在矩阵的奇异值分解时,特别耗时,一般而言一个文本特征矩阵维数都会特别庞大,矩阵的奇异值分解此时就更加耗时。
12. 简述概率潜在语义分析PLSA的特点和基本想法。
★考核知识点:概率潜在语义分析
参见讲稿章节:7.4
附2.2.12:(考核知识点解释)
概率潜在语义分析(probabilistic latent semantic analysis, PLSA),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点是用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词一文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
给定一个文本集合,每个文本讨论若干个话题,每个话题由若干个单词表示。对文本集合进行概率潜在语义分析,就能够发现每个文本的话题,以及每个话题的单词。话题是不能从数据中直接观察到的,是潜在的。文本集合转换为文本——单词共现数据,具体表现为单词-文本矩阵。一个话题表示一个语义内容。文本数据基于如下的概率模型产生:首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。直观上,语义相近的单词、语义相近的文本会被聚到相同的“软的类别”中,而话题所表示的就是这样的软的类别。
假设定义了K个话题和M个单词。任何一个文本是由K个话题中的多个混合而成。每个文本都可以看作话题集合上的一个概率分布,也就是每个文本以某个概率匹配某一个话题。每个话题都是单词集合上的一个概率分布,这意味着文本中的每个单词都看成是由某一个的话题以某种概率随机生成的。
13. 试比较PageRank算法和HITS算法。
★考核知识点:PageRank算法和HITS算法
参见讲稿章节: 8.3
附2.2.13:(考核知识点解释)
相同点:两者都是为了提高搜索引擎查找质量而提出的两种不同算法。
不同点:1)两者对网页的描述形式不同。
PageRank算法只用一个量值来表示网页的重要程度,而HITS算法对网页从权威性和集线性两个不同的方面来进行描述。
2)两者的理论基础不同。虽然两者的迭代算法都利用了特征向量作为理论基础和收敛性依据,但PageRank算法更具理论支持,它用马尔可夫随机游走来建模,并用马氏链的理论来进行解释;而HITS算法更多是基于人的直观,缺乏很好的理论模型。
3)两者计算所选取的链接网络不同。PageRank算法与用户查询无关,针对的是整个互联网的链接结构图,所有处理过程都是离线进行的,不会为实时在线查询过程付出额外的代价。HITS算法则不同,它依赖于特定的查询,是针对与特定查询相关的互联网子图来进行计算,规模上的极大减小可以使HITS算法的迭代收敛速度比PageRank算法要快得多。但因为与查询相关,所以查询过程以及扩展根集的过程都需要付出代价,还有可能在扩展过程中,引入大量的噪声信息,造成主题漂移出现。
以前的研究工作已经证明HITS算法的性能跟PageRank算法旗鼓相当、不相上下。
14. 简述基于内容的推荐算法的基本思想、优势和不足。
★考核知识点:基于内容的推荐算法
参见讲稿章节:10.2
附2.2.14:(考核知识点解释)
基于内容的推荐算法主要思想:根据用户过去喜欢的项,为用户推荐和他过去喜欢的物品相似的项。
基于内容的推荐算法优势在于:1)不需要其他用户的信息,2)能为具有特殊兴趣爱好的用户进行个性化推荐,3)能够准确推荐较新的或相对小众的项,4)具有较好的可解释性。
不足在于:1)对特征提取算法要求较高,准确提取特征难度大,2)针对新用户缺少好的推荐策略,3)过度特化,从不推荐用户模型外的项,4)无法利用其他用户的高质量评价。