jtyoui.statistics.distance package

Submodules

jtyoui.statistics.distance.BrayCurtisDistance module

jtyoui.statistics.distance.BrayCurtisDistance.bray_curtis_distance(dimension_x, dimension_y)[源代码]

布雷柯蒂斯距离

参数:
  • dimension_x – 一个维度的集合,不是一个点
  • dimension_y – 另一个维度的集合.不是另一个点
返回:

布雷柯蒂斯距离

jtyoui.statistics.distance.ChebyshevDistance module

jtyoui.statistics.distance.ChebyshevDistance.chebyshev_distance(coordinate_p, coordinate_q)[源代码]

传入的是两个可迭代对象,每一个是一个n位坐标,比如:p=(x1,x2,x3….xn),q=(y1,y2,y3….yn)

参数:
  • coordinate_p – p坐标
  • coordinate_q – q坐标
返回:

切比雪夫距离(棋盘距离)

jtyoui.statistics.distance.CosineDistance module

jtyoui.statistics.distance.CosineDistance.cosine(coordinate_p, coordinate_q)[源代码]

余弦距离又叫余弦角度

参数:
  • coordinate_p – p坐标
  • coordinate_q – q坐标
返回:

余弦距离

jtyoui.statistics.distance.CosineDistance.cosine_distance(sentence, data)[源代码]

余弦距离

jtyoui.statistics.distance.EditDistance module

编辑距离 编辑距离又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。 许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说, 编辑距离越小,两个串的相似度越大。

jtyoui.statistics.distance.EditDistance.edit_distance(chars, other_chars)[源代码]

编辑距离

参数:
  • chars – 字符串
  • other_chars – 另一个字符串
返回:

编辑距离值

jtyoui.statistics.distance.EuclideanDistance module

jtyoui.statistics.distance.EuclideanDistance.euclidean_distance(coordinate_p, coordinate_q)[源代码]

欧氏距离

参数:
  • coordinate_p – p坐标
  • coordinate_q – q坐标
返回:

欧氏距离值

jtyoui.statistics.distance.HammingDistance module

jtyoui.statistics.distance.HammingDistance.distance(sim_hash, another, f)[源代码]

计算两个simHash的距离

参数:
  • sim_hash – simHash值
  • another – 另一个simHash的值
  • f – simHash的bit位数
返回:

海明距离

jtyoui.statistics.distance.HammingDistance.features_dict(features, f)[源代码]

特征值字典

参数:
  • features – 特征值
  • f – simHash的bit位数
返回:

simHash值

jtyoui.statistics.distance.HammingDistance.ham_distance(chars, other_chars, weight=None, f=64)[源代码]

比较那个字符串的海明距离

参数:
  • chars – 字符串
  • other_chars – 另一个字符串
  • weight – 权重字典:weight={“电影”: 3}
  • f – samHash的bit位数
返回:

海明距离值

jtyoui.statistics.distance.HammingDistance.handle(participle_ls, weight, f)[源代码]

将内容转成字典格式

参数:
  • participle_ls – 文本分词内容,是一个list分词对象
  • weight – 特征值
  • f – simHash的bit位数
返回:

海明距离值

jtyoui.statistics.distance.HammingDistance.hash_func(x)[源代码]

hash算法

jtyoui.statistics.distance.HammingDistance.simHash_similarity(text1: (<class 'str'>, <class 'dict'>), text2: (<class 'str'>, <class 'dict'>), weight: dict = None, f: int = 64) → float[源代码]

文本相似度算法

参数:
  • text1 – 文本1
  • text2 – 文本2
  • weight – 文本词权重
  • f – hash bit位数
返回:

相似度

jtyoui.statistics.distance.JaccardDistance module

jtyoui.statistics.distance.JaccardDistance.jaccard_distance(set_, other_set)[源代码]

杰卡德距离

1) m00:代表向量A与向量B都是0的维度个数; 2) m01:代表向量A是0而向量B是1的维度个数; 3) m10:代表向量A是1而向量B是0的维度个数; 4) m11:代表向量A和向量B都是1的维度个数。 n维向量的每一维都会落入这4类中的某一类,因此: Jaccard距离为:m01+m10/m01+m10+m11+m00

参数:
  • set – 以1和0组合的集合
  • other_set – 以1和0组合的集合
返回:

两个不一样的频率

jtyoui.statistics.distance.JaccardDistance.jaccard_set_distance(set_, other_set)[源代码]

杰卡德距离

两个集合A和B的交集元素在A,B的并集中所占的比例, 称为两个集合的杰卡德相似系数 与杰卡德相似系数相反的概念是杰卡德距离 杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度

参数:
  • set – 一个set类型
  • other_set – 另一个set类型
返回:

集合之间的值

jtyoui.statistics.distance.MahalanobisDistance module

jtyoui.statistics.distance.MahalanobisDistance.mahalanobis_distance(matrix, coordinate)[源代码]

求解马氏距离

马氏距离要求样本数要大于维数,否则无法求协方差矩阵 此处进行转置,表示10个样本,每个样本2维

参数:
  • matrix – 矩阵列表
  • coordinate – 坐标
Return result:

两个点的马氏距离

jtyoui.statistics.distance.ManhattanDistance module

jtyoui.statistics.distance.ManhattanDistance.manhattan_distance(coordinate_p, coordinate_q)[源代码]

曼哈顿距离

参数:
  • coordinate_p – p坐标
  • coordinate_q – q坐标
返回:

曼哈顿距离值

jtyoui.statistics.distance.MinkowskiDistance module

闵可夫斯基距离 闵氏空间指狭义相对论中由一个时间维和三个空间维组成的时空, 为俄裔德国数学家闵可夫斯基(1864-1909)最先表述。 他的平坦空间的概念以及表示为特殊距离量的几何学是与狭义相对论的要求相一致的。 闵可夫斯基空间不同于牛顿力学的平坦空间 当dimension=1时,得到绝对值距离,也叫曼哈顿距离 当dimension=2时,得到欧几里德距离 令dimension=无穷大(math.inf),得到切比雪夫距离

jtyoui.statistics.distance.MinkowskiDistance.minkowski_distance(coordinate_p, coordinate_q, dimension)[源代码]

闵可夫斯基距离

参数:
  • coordinate_p – p坐标
  • coordinate_q – q坐标
  • dimension – 闵可夫斯基维度
返回:

闵可夫斯基距离

Module contents