网站建设的网络,做网站后期维护工资贴吧,wordpress读取字体,安徽省建设部网站无监督学习unsupervise learning 聚类聚类的过程相似度度量方法聚类的方法划分式层次聚类基于密度的聚类 上一节讲的无监督学习#xff0c;但是很多人可能会很疑惑#xff0c;没有目标#xff0c;那算法是怎么学会该怎样分类的呢#xff1f;今天就简介一下其中的聚类算法。… 无监督学习unsupervise learning 聚类聚类的过程相似度度量方法聚类的方法划分式层次聚类基于密度的聚类 上一节讲的无监督学习但是很多人可能会很疑惑没有目标那算法是怎么学会该怎样分类的呢今天就简介一下其中的聚类算法。 聚类
首先说明是什么聚类。聚类就是按照某种标准把一个数据集可以分割成不同的类或者簇使得同一个簇内的数据对象的相似性尽可能的大而不在同一个簇中的数据对象的差异性也尽可能的大。
聚类的过程
聚类的过程一般包括
数据准备。特征标准化特征选择。选择最有效的特征特征提取。对选择的特征进行转换聚类。一般是通过某种距离函数或者相似度系数等进行相似度度量获取簇下面会详细 介绍有哪些相似度度量方法聚类结果评估。分析聚类结果比如距离误差等
相似度度量方法
常用的相似度度量方法包括
闵可夫斯基距离也叫做欧式距离杰卡德相似系数余弦相似度皮尔逊积矩相关系数相对熵helinger距离
每一个都有相应的计算公式可以自行搜索此处不赘述。
聚类的方法
聚类从大分类上分为下面
划分式
其中的代表是kmeans算法算法的核心 对于给定的K类目先进行初始划分然后改变样本和簇的隶属使得每次改进之后的划分都比前面好也就是所谓的簇内更相似 至于初始点可以随机生成也可以使用固定算法。
初始的时候数据是不分簇的需要我们随机生成K个点这里是用2个举例图中蓝色和红色的点 然后以这两个点计算样本中数据与这两个点的距离 距离这2个点中每个点更近的点被归为一个簇迭代结束就形成了两个簇。 然后取每个簇的中心点均值点再次作为K类的点以样本中的数据再次计算与这K个点的距离再进行分簇然后再与上面的进行相同的迭代。 迭代到最后簇中的样本基本不会再变化。
Kmeans算法优点就是简单能够快速处理大数据集特别是当簇近似高斯分布时效果更好。 Kmeans算法缺点初值敏感而且需要提前定义K且要能够计算均值
层次聚类
层次聚类是对给定的数据集进行层次的分解直到满足一定的条件。层次聚类又分为两种一种是自底向上一种是自顶向下。 自底向下是将每个单独的样本作为一个簇然后合并这些簇直到满足条件。另外一种则是相反的方向逐步的细分。 举个例子学校里的学生比如学生A和B在喜爱篮球的特征更相似合并为一个簇然后A B和C在喜欢运动的特征上相似可以合并成更大的簇然后依次向上合并成更大的簇。 整个过程是类似下面显示
基于密度的聚类
该算法的核心是定义一个密度函数当两个样本在定义的密度函数值内那我们就认为这两个样本是密度可达的密度可达的样本可以分成一个簇。