乐清哪里有做网站,邢台123今天最新招聘,wordpress音频播放不了,新年免费ppt模板下载大侠幸会#xff0c;在下全网同名「算法金」 0 基础转 AI 上岸#xff0c;多个算法赛 Top 「日更万日#xff0c;让更多人享受智能乐趣」 抱个拳#xff0c;送个礼 在算法模型构建中#xff0c;我们经常需要计算样本之间的相似度#xff0c;通常的做法是计算样本之间的距… 大侠幸会在下全网同名「算法金」 0 基础转 AI 上岸多个算法赛 Top 「日更万日让更多人享受智能乐趣」 抱个拳送个礼 在算法模型构建中我们经常需要计算样本之间的相似度通常的做法是计算样本之间的距离。 今天一键拿下九种距离算法。走你~ 一、欧氏距离 (Euclidean Distance)
定义与公式
欧氏距离是两个点在 n 维空间中直线距离的度量。它是最常见的距离度量方法之一用于计算两个向量之间的距离。欧氏距离的公式如下 应用场景
欧氏距离广泛应用于许多领域如机器学习、统计学、模式识别和数据挖掘。常见的应用场景包括
分类算法如 k 近邻 (k-Nearest Neighbors, KNN) 算法通过计算新样本与训练样本之间的欧氏距离来进行分类聚类分析如 k 均值 (k-Means) 聚类算法通过计算样本与聚类中心之间的欧氏距离来确定样本所属的簇图像处理用于度量图像之间的相似度如图像检索和图像匹配
优缺点分析
优点
计算简单欧氏距离的计算公式简单易懂且计算量较小适用于大多数应用场景直观性强欧氏距离直接反映了两个点之间的几何距离具有很强的直观性
缺点
对尺度敏感不同维度的数值尺度差异会影响距离的计算结果需要对数据进行标准化或归一化处理对异常值敏感欧氏距离对数据中的异常值非常敏感异常值可能会显著影响计算结果 欧氏距离Euclidean Distance 二、余弦相似度 (Cosine Similarity)
定义与公式
余弦相似度是一种衡量两个向量夹角余弦值的度量常用于评估两个向量的相似度。公式如下 应用场景
余弦相似度在许多领域有广泛应用特别是文本和信息检索领域
文本相似度计算在自然语言处理 (NLP) 中余弦相似度用于计算两个文本或文档之间的相似度通过比较它们的词频向量推荐系统如用户-物品推荐系统通过计算用户之间或物品之间的相似度来进行推荐图像相似度计算在计算机视觉中用于比较图像特征向量的相似度
优缺点分析
优点
不受向量长度影响余弦相似度仅关注向量的方向而不受向量的长度影响适用于不同规模的数据计算简单公式简单计算效率高适合大规模数据处理
缺点
无法反映数值大小的差异余弦相似度仅考虑向量的方向不考虑数值的大小可能会忽略重要的数值信息对稀疏向量效果较差对于稀疏向量如文本数据中的词频向量计算结果可能不准确需要结合其他方法使用 余弦相似度Cosine Similarity 防失联进免费知识星球直达算法金 AI 实验室 https://t.zsxq.com/ckSu3 更多内容见免费知识星球
三、汉明距离 (Hamming Distance)
定义与公式
汉明距离用于衡量两个等长字符串之间的不同字符个数。公式如下 应用场景
汉明距离主要用于以下场景
错误检测和纠正在通信和存储系统中用于检测和纠正数据传输和存储中的错误如汉明码基因序列分析在生物信息学中用于比较 DNA 和 RNA 序列之间的差异密码学在密码分析中用于比较不同密文之间的差异
优缺点分析
优点
计算简单汉明距离的计算过程非常简单适合大规模数据处理适用于离散数据汉明距离特别适用于比较离散数据如字符串和二进制数据
缺点
仅适用于等长字符串汉明距离只能比较长度相同的字符串对于长度不同的字符串无法计算不考虑字符位置的重要性汉明距离只关注字符是否相同不考虑字符在字符串中的位置重要性 汉明距离Hamming Distance 四、曼哈顿距离 (Manhattan Distance)
定义与公式
曼哈顿距离又称为城市街区距离是指两个点在 n 维空间中各个坐标轴上的距离之和。公式如下 应用场景
曼哈顿距离在以下领域有广泛应用
数据挖掘和机器学习如在 k 近邻 (KNN) 算法中用于计算样本之间的距离图像处理用于图像像素之间的距离计算如图像匹配和分割机器人路径规划在路径规划中用于计算机器人在网格地图中的移动距离
优缺点分析
优点
计算简单曼哈顿距离的计算公式简单计算量较小适用于大多数应用场景适用于高维数据在高维空间中曼哈顿距离比欧氏距离更稳定不易受到个别维度异常值的影响
缺点
不适用于所有场景曼哈顿距离在某些场景中可能不如欧氏距离直观如需要考虑斜向移动的场景对尺度敏感不同维度的数值尺度差异会影响距离的计算结果需要对数据进行标准化或归一化处理 曼哈顿距离Manhattan Distance 抱个拳送个礼
点击 ↑ 领取
防失联进免费知识星球直达算法金 AI 实验室 https://t.zsxq.com/ckSu3
免费知识星球欢迎加入交流
五、切比雪夫距离 (Chebyshev Distance)
定义与公式
切比雪夫距离又称为棋盘距离是指两个点在 n 维空间中各个坐标轴上的最大距离。公式如下 应用场景
切比雪夫距离在以下领域有应用
棋盘游戏如国际象棋中王每次可以沿任意方向移动一个格子切比雪夫距离用于计算王移动的步数仓储和物流在仓储管理中用于计算物品在网格仓库中的最远距离
优缺点分析
优点
计算简单切比雪夫距离的计算公式简单计算量小适用于需要快速计算距离的场景直观性强对于某些特定场景如棋盘游戏切比雪夫距离具有很强的直观性
缺点
应用范围有限切比雪夫距离主要适用于特定场景不适合所有类型的数据分析对异常值敏感切比雪夫距离对数据中的异常值非常敏感异常值可能会显著影响计算结果 切比雪夫距离Chebyshev Distance 六、闵可夫斯基距离 (Minkowski Distance)
定义与公式
闵可夫斯基距离是欧氏距离和曼哈顿距离的广义形式通过调整参数 可以得到不同的距离度量。公式如下 应用场景
闵可夫斯基距离广泛应用于数据分析和机器学习中
分类算法如 k 近邻 (KNN) 算法中通过调整 值来选择适合的距离度量聚类分析如 k 均值 (k-Means) 聚类算法中通过调整 值来确定样本与聚类中心之间的距离
优缺点分析
优点
灵活性高通过调整参数 可以得到不同的距离度量适应不同的应用场景计算公式统一无论是曼哈顿距离还是欧氏距离均可以通过统一的闵可夫斯基距离公式来计算
缺点
参数选择困难在实际应用中选择合适的 值可能比较困难需要根据具体问题进行调整对异常值敏感闵可夫斯基距离对数据中的异常值较为敏感可能会影响计算结果 闵可夫斯基距离 (Minkowski Distance) 抱个拳送个礼
点击 ↑ 领取
七、雅卡尔指数 (Jaccard Index)
定义与公式
雅卡尔指数用于衡量两个集合的相似度其值为两个集合交集的大小除以并集的大小。公式如下 应用场景
雅卡尔指数在以下领域有广泛应用
信息检索用于评估搜索结果与查询的相关性图像处理用于比较图像分割结果与真实分割的相似度生态学用于比较不同物种群落之间的相似度
优缺点分析
优点
适用于集合数据雅卡尔指数特别适用于比较离散的集合数据计算简单雅卡尔指数的计算过程简单适用于大规模数据处理
缺点
对稀疏数据效果较差对于稀疏数据如文本数据雅卡尔指数可能不准确需要结合其他方法使用无法处理权重信息雅卡尔指数仅考虑集合中元素的存在与否不考虑元素的权重信息 雅卡尔指数Jaccard Index 八、半正矢距离 (Haversine Distance)
定义与公式
半正矢距离用于计算地球表面上两点之间的最短距离考虑到地球的球形特性。公式如下 应用场景
半正矢距离主要用于以下场景
地理信息系统 (GIS)用于计算地球表面两点之间的最短距离导航系统用于GPS导航系统中计算起点和终点之间的距离航空和海洋运输用于计算航线和航程
优缺点分析
优点
考虑地球曲率半正矢距离考虑到地球的球形特性计算结果更准确适用于长距离计算对于长距离的两点间距离计算半正矢距离比直线距离更准确
缺点
计算复杂半正矢距离的计算公式较复杂计算量较大不适合实时计算对短距离不敏感对于短距离的两点间距离计算半正矢距离与直线距离差异不大 半正矢距离 (Haversine Distance) 防失联进免费知识星球直达算法金 AI 实验室 https://t.zsxq.com/ckSu3 免费知识星球欢迎加入一起交流切磋
九、Sørensen-Dice 系数
(Sørensen-Dice Coefficient)
定义与公式
Sørensen-Dice 系数用于衡量两个集合的相似度其值为两个集合交集的大小的两倍除以两个集合大小的总和。公式如下 应用场景
Sørensen-Dice 系数在以下领域有广泛应用
信息检索用于评估搜索结果与查询的相关性图像处理用于比较图像分割结果与真实分割的相似度生态学用于比较不同物种群落之间的相似度
优缺点分析
优点
适用于集合数据Sørensen-Dice 系数特别适用于比较离散的集合数据计算简单Sørensen-Dice 系数的计算过程简单适用于大规模数据处理
缺点
对稀疏数据效果较差对于稀疏数据如文本数据Sørensen-Dice 系数可能不准确需要结合其他方法使用无法处理权重信息Sørensen-Dice 系数仅考虑集合中元素的存在与否不考虑元素的权重信息 Sørensen-Dice 系数 (Sørensen-Dice Coefficient) [ 抱个拳总个结 ]
各种距离和相似度的对比分析
数学性质对比
欧氏距离度量空间中两点之间的直线距离具有平移不变性和对称性余弦相似度度量两个向量之间夹角的余弦值仅考虑向量的方向不考虑向量的大小汉明距离度量两个等长字符串之间不同字符的个数适用于离散数据曼哈顿距离度量空间中两点在各坐标轴上的距离之和适用于高维数据切比雪夫距离度量两个点在各坐标轴上的最大距离适用于棋盘游戏等特定场景闵可夫斯基距离欧氏距离和曼哈顿距离的广义形式通过调整参数 可得到不同的距离度量雅卡尔指数度量两个集合的相似度计算两个集合交集与并集的比值半正矢距离计算地球表面两点间的最短距离考虑地球的球形特性Sørensen-Dice 系数度量两个集合的相似度计算两个集合交集大小的两倍与两个集合大小总和的比值
计算复杂度对比
欧氏距离()计算简单适用于大多数应用场景余弦相似度()计算简单适合大规模数据处理汉明距离()计算简单适合离散数据曼哈顿距离()计算简单适用于高维数据切比雪夫距离()计算简单适用于特定场景闵可夫斯基距离()通过调整参数 适应不同的应用场景雅卡尔指数()计算简单适用于集合数据半正矢距离(1)公式复杂适合地理信息系统等场景Sørensen-Dice 系数()计算简单适用于集合数据
适用场景对比
欧氏距离适用于空间距离计算、分类算法如 KNN、聚类分析如 K-Means余弦相似度适用于文本相似度计算、推荐系统、图像相似度计算汉明距离适用于错误检测和纠正、基因序列分析、密码学曼哈顿距离适用于数据挖掘和机器学习、图像处理、机器人路径规划切比雪夫距离适用于棋盘游戏、仓储和物流闵可夫斯基距离适用于分类算法、聚类分析雅卡尔指数适用于信息检索、图像处理、生态学半正矢距离适用于地理信息系统、导航系统、航空和海洋运输Sørensen-Dice 系数适用于信息检索、图像处理、生态学
核心要点回顾
欧氏距离计算空间中两点间的直线距离简单易懂余弦相似度计算两个向量间夹角的余弦值适合文本和向量数据汉明距离计算两个等长字符串间不同字符的个数适合离散数据曼哈顿距离计算空间中两点在各坐标轴上的距离之和适合高维数据切比雪夫距离计算两点间各坐标轴上的最大距离适用于特定场景闵可夫斯基距离欧氏距离和曼哈顿距离的广义形式通过参数调整适应不同场景雅卡尔指数计算两个集合的相似度适合集合数据半正矢距离计算地球表面两点间的最短距离考虑地球曲率Sørensen-Dice 系数计算两个集合的相似度适合集合数据 - 科研为国分忧创新与民造福 - 日更时间紧任务急难免有疏漏之处还请大侠海涵 内容仅供学习交流之用部分素材来自网络侵联删 [ 算法金碎碎念 ]
这个神反馈
有点意思
hhh~ 全网同名日更万日让更多人享受智能乐趣
如果觉得内容有价值烦请大侠多多 分享、在看、点赞助力算法金又猛又持久、很黄很 BL 的日更下去
同时邀请大侠 关注、星标 算法金围观日更万日助你功力大增、笑傲江湖