1. 熵 判断向量的相似度
利用熵来判断两个向量之间的相似度,可以用利用熵权系数法来评价,利用熵的原理,统一用定量的方式来判断
2. 中文词向量相似性评价一般用哪个数据集和什么评价标准
先试图定义麼叫适合研究做
计算量要太高(svg或者lstm太合适)
能够三内做完(志向宏远坑比pragmatics太合适)
创新性(难定义啊文应用情析HIT做词PKU做句解析翻竖樱隐译似乎余厅做)
能简单ACL ’14所论文看遍颂弊看看没问题针文或者少数民族语言特化反ACL ‘14基本都用词向量吧坚信需要词向量都独特
3. 怎么比较两个向量组相似度
相关性是数据属性相关性的度量方法,相似度是数据对象相似性度量的方法,数据对象由多个数据属性描述,数据属性的相关性由相关系数来描述,数据对象的相似性由某种距离度量。许多数据分析算法会涉及相似性度量和相关性度量,如聚类、KNN等。
相关性度量
相关性用相关系数来度量,相关系数种类如下图所示。相关系岩丛数绝对值越大表是相关性越大,相关系数取值在-1–1之间,0表示不相关。各系数计算表达式和取值范围参考 相粗颂樱关性与相似性度量
这里写图片描述
相似性度量
相似度用距离来度量,相似度度量指标种类如下图所示。相似度通常是非负的,取值在0-1之间。距离越大,相似性越小,在应用过程中要注意计算的是相似度还是距离。
这里写图片描述
Jaccard(杰卡德相似系数)
两个集合A和B的交集元素在A,B的并集中所占的比例 这里写樱茄图片描述
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度这里写图片描述
Cosine(余弦相似度)
在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式这里写图片描述
夹角余弦取值范围为[-1,1]。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1,两个方向正交时夹角余弦取值为0.
Minkowski Distance(闵可夫斯基距离)
两个n维变量间的闵可夫斯基距离定义为:这里写图片描述
当p=1时,就是曼哈顿距离,两点间各边距离之和
当p=2时,就是欧氏距离,两点间直线距离
当p→∞时,就是切比雪夫距离,所有边距离的最大值
闵氏距离的缺点(1)数据量纲不同,无法直接进行距离计算,需要先对数据进行归一化(2)没有考虑各个分量的分布(期望,方差等)。下图展示了不同距离函数是怎么逼近中心的在这里插入图片描述
Mahalanobis Distance(马氏距离)
马氏距离计算公式为这里写图片描述
S为协方差矩阵, 若协方差矩阵是单位矩阵则变为欧式距离。马氏距离的优点是量纲无关、排除变量之间的相关性的干扰。
Hamming distance(汉明距离)
两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1010”之间的汉明距离为2。信息编码时为了增强容错性,应使得编码间的最小汉明距离尽可能大。
K-L散度(相对熵)
是衡量两个分布(P、Q)之间的距离;越小越相似这里写图片描述
Hellinger距离
在概率论和统计理论中,Hellinger距离被用来度量两个概率分布的相似度。它是f散度的一种(f散度——度量两个概率分布相似度的指标)。
概率密度函数分别表示为 f 和 g,两个概率密度函数的Hellinger距离的平方为
在这里插入图片描述
具有混合类型属性的对象可以将相同类型的属性划分为一组,对每组属性分析继续相似度度量,也可以分别对每个属性进行相似度度量再加权。
其他类型的距离度量可以参考 18种和“距离(distance)”、“相似度(similarity)”相关的量的小结
4. R语言数据集
1. 向量 Vector
向量是用于储存数值型、字符型或逻辑型数据的一维数组。执行组合功能能的函数 可用来创建向量。
单个向量中的数据必须拥有相同的类型或模式(即数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。
2. 矩阵 Matrix
矩阵是一个二维数组,知识每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数 创建矩阵。
3. 数组 Array
数组与矩阵类似,但是维度可以大于2。数组可通过 函数创建。
数组是矩阵的一个自然推广。它们在编写新的统计方法时很有用。像矩阵一样,数贺高斗组中的数据也只能拥有一种模式。从数组中选取元素的方法与矩阵相同。念兆
4. 数据框 Data Frame
这是R语言最常用的数据类型。不同的列可以包含不同模式的数据。每一列数据的模式必须相同,且必须等长。数据框可通过函数 创建。
5. 列表 List
列表是一些对象(或成分)的有序集合。列表允许你整合若干(可能无关的)对象到单个对象名下。例如,某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。可以使用函禅磨数 创建列表。
许多R的运行结果都是以列表的形式返回的。需要取出其中哪些成分由分析人员决定。
5. 如何从统计意义上判断两个数据集的相似度
事实贺肆上用统计来说判断两个数据集的相似度的方法不是很好!
以下是我的几点猜想!
1:假设稿桥把整个数据化成条形统计图!长方形的形状和大小应相似有个前提,就是数据图要比较精确
否则,误差很大!
2:我们知道:条形图的长方形的面积是
频率
那么两个数据集的频率也因接近!
还有频数
貌似只有这键拍猛些了,我必修三数学基本上没听过课,说一没办法继续帮助你!请见谅!
有什么问题可以请教《数学麦圈》呵呵!
6. 如何衡量两个“任意数据集”间的相似度
对于两个数据集 和 。若存在矩阵 和 ,使得 , 可以通过 经过若干次线性变换得到,这表明了 中的信息完全蕴含在 中。此时,相对于 , 中的信息是冗余的。这种冗余既可以体现在维度上,即 中的样本分布在一个高维空间中的低维流形上,也可以体现在样本上,即 中存在一些非常相似的样本。矩阵 和 分别在样本层面和特征层面使 与 对齐。同样的,若存在矩阵 和 ,使得 ,则表明 中的信息完全搭铅蕴含在 中。但是对于一般的两个数据集 和 ,不太可能会出现 中信息完全蕴含于 或 中信息完全蕴含于 的情况。因此可以通过考虑两个数据集在线性变换下的信息损失来度量两个数据集的差异(相似度)。具体的,可以考虑求解以下优化问题: 优化过程也是使两个数据集在样本层面和特征层搏枝知面对基消齐的过程,求解优化问题得到的结果可以作为两个数据集的差异度量。若想得到 范围内的相似性度量,对差异度量做以下变换即可。
7. 有什么方法可以简单快速的把想买的商品出现在淘宝的猜我喜欢哪里呢
淘宝的内部有推荐系统,只要你有浏览你想买的东西的历史,淘宝的计算机就会根据的特点,,运用推荐算法,推荐给你想要的东西,将东西放在猜你喜键雀欢上面,所以只有多浏览你想买的东西即可。
(7)向量相似性用什么数据集扩展阅读:
基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。
主要是从两个方法来描述基于内容的推荐方法:启发式的方法和基于模型的方法。启发式的方法就是用户凭借经验来定义相关的计算公式,然后再根据公式的计算结果和实际的结果进行稿漏早验证,然后再不断修改公式以达到最终目的。
而对于模型的方法就是根据以往的数据作为数据集,然后根据这个数据集来学习出一个模型。一般的推荐系统中运用到的启发式的方法就是使用tf-idf的方法来计算,跟还有tf-idf的方法计算出这个文档中出现权重比较高的关键字作为描述用户特征,并使用这些关键字作为描述用户特征的向量。
然后再根据被推荐项中的权重高的关键字来作为推荐项的属性特征,然后再将这个两个向量最相近的(与用户特征的向量计算得分最高)的项推荐给用户。在计算用户特征向量和被推荐项的搜枣特征向量的相似性时,一般使用的是cosine方法,计算两个向量之间夹角的cosine值。