当前位置: 首页 > news >正文

网站建设制作临沂网站建设选盛誉温州网站设计方案

网站建设制作临沂网站建设选盛誉,温州网站设计方案,赣州微网站建设费用,杜集网站建设聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生 成的簇是一组数据对象的集合#xff0c;这些对象与同一个簇中的对象彼此相似#xff0c;与其他簇中的对象相异。 聚类属于无监督学习#xff08;unsupervised learning这些对象与同一个簇中的对象彼此相似与其他簇中的对象相异。 聚类属于无监督学习unsupervised learning也就意味着它不依赖于预先定义的类和训练样本。所以聚类是通过观察学习而不是通过例子学习。 数据挖掘对聚类的典型要求如下 可伸缩性处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理“噪声”数据的能力对于输入记录的顺序不敏感高维度基于约束的聚类可解释性和可用性 聚类分析中的数据类型 数据矩阵Data matrix用p个变量来表现n个对象n 个对象*p 个属性的矩阵 相异度矩阵dissimilarity matrix存储n个对象两两之间的近似性表现形式是一个 n*n 维的矩阵。d(i,j)是对象i和对象j之间的相异性的量化表示通常它是一个非负的数值当对象 i 和 j 越相似其值越接近 0两个对象越不同其值越大。 区间标度Interval-Scaled变量 为了实现度量值的标准化一种方法是将原来的度量值转 换为无单位的值。给定一个变量 f 的度量值可以进行如下的变换 这里的 x1f,…,xnf 是 f 的 n 个度量值mf 是 f 的平均值 对数据进行标准化的处理之后下面要计算对象间的相异度而对象间的相异度是基于对象间的距离来计算的。 欧几里得距离Euclidean distance 曼哈顿距离Manhattan distance 以上两种距离度量方法均满足 d(i,j)0距离是一个非负的数值d(i,i)0一个对象与自身的距离是0d(i,j)d(j,i)距离函数具有对称性d(i,j)d(i,h)d(h,j)从对象i到对象j的直接距离不会大于途径任何其他对象的距离。 **明考斯基距离Minkowski distance**是欧几里得距离和曼哈顿距离的概化 q1就是曼哈顿距离q2就是欧几里得距离 二元变量binary variable 一个二元变量只有两个状态0 或 10 表示该变量为空1 表示该变量存在。 如何计算二元变量的相似度呢 如果假设所有的二元变量有相同的权重我们得到一个两行两列的可能性表。在表中a 是对象 i 和 j 值都为 1 的变量的数目b 是在对象 i 中值为 1在对象 j 中值为 0 的变量的数目c 是 在对象 i 中值为 0在对象 j 中值为 1 的变量的数目d 是在对象 i 和 j 中值都为 0 的变量的数目。变量的总数是 pabcd 对称的二元变量和不对称的二元变量之间的区别是什么 如果它的两个状态有相同的权重, 那么该二元变量是对称的也就是两个取值 0 或 1 没有优先权。如果两个状态的输出不是同样重要那么该二元变量是不对称的。例 对称的二元变量距离测量 非对称二元变量的距离测量 d(jack,mary)(01)/(201)0.33 d(jack,jim)(11)/(111)0.67 d(jim,mary)(12)/(112)0.75 这意味着jim和mary不可能有相似的疾病因为他们有着最高的相异度在这三个病人中jack和mary最可能有类似疾病。 标称变量 标称变量是二元变量的推广它可以具有多于两个的状态值。 如何计算标称变量所描述的对象之间的相异度 这里的p是全部变量的数目m是匹配数目i和j取值相同的变量数目 序数型变量 一个离散的序数型变量类似于标称变量除了序数型变量的 M 个状态是以有意义的序列排序的。一个序数型变量的值可以映射为排序。 如何计算序数型变量所描述的对象之间的相异度 用对应的rif将xif替换rif∈{1,…,Mf}将每个变量的值域映射到 [0 .0, 1.0]上以便每个变量都有相同的权重。计算得出结果即可 比例标度型变量 如何计算用比例标度型变量描述的对象之间的相异度 采用与处理区间标度变量同样的方法。但是这种作法通常不是一个好的选择因为刻度 可能被扭曲了。 对比例标度型变量进行对数变换 将 xif 看作连续的序数型数据将其值作为区间标度的值来对待 后两种方法比较有效 混合型的变量 在许多真实的数据库中对象是被混合类型的变量描述的。一般来说一个数据库可能包含上 面列出的全部六种类型区间标度变量, 对称二元变量,不对称二元变量,标称变量,序数型变量比例标度型变量。 那么我们怎样计算用混合类型变量描述的对象之间的相异度 是将所有的变量一起处理只进行一次聚类分析。一种技术将不同类型的变 量组合在单个相异度矩阵中把所有有意义的变量转换到共同的值域区间[0.0, 1.0]上。 待解 主要聚类方法的分类 划分方法partitioning methods 给定一个 n 个对象或元组的数据库一个划分方法构建数据的 k 个划分每个划分表示一个聚类并且 kn。也就是说它将数据划分为 k 个组同时满足如下的 要求 1每个组至少包含一个对象 2每个对象必须属于且只属于一个组。 k-means算法每个簇用该簇中对象的平均 值来表示k-medoids算法每个簇用接近聚类中心的一个对象来表示 层次的方法hierarchical methods层次的方法对给定数据集合进行层次的分解。根据层次的分解 如何形成层次的方法可以被分为凝聚的或分裂的方法。凝聚的方法也称为自底向上的方法一 开始将每个对象作为单独的一个组然后继续地合并相近的对象或组直到所有的组合并为一个层 次的最上层或者达到一个终止条件。分裂的方法也称为自顶向下的方法一开始将所有的对 象置于一个簇中。在迭代的每一步中一个簇被分裂为更小的簇直到最终每个对象在单独的一个 簇中或者达到一个终止条件。 基于密度的方法绝大多数划分方法基于对象之间的距离进行聚类。这样的方法只能发现球状的簇 而在发现任意形状的簇上遇到了困难。随之提出了基于密度的另一类聚类方法其主要思想是只 要临近区域的密度对象或数据点的数目超过某个阈值就继续聚类。也就是说对给定类中的 每个数据点在一个给定范围的区域中必须包含至少某个数目的点。这样的方法可以用来过滤“噪 音”数据发现任意形状的簇。 基于网格的方法基于网格的方法把对象空间量化为有限数目的单元形成了 一个网格结构。所有的聚类操作都在这个网格结构即量化的空间上进行。这种方法的主要优点 是它的处理速度很快其处理时间独立于数据对象的数目只与量化空间中每一维的单元数目有关。 基于模型的方法基于模型的方法为每个簇假定了一个模型寻找数据对给定模型的最佳匹配。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类。它也基于标准的统计数字自动决定聚类的数目考虑“噪音”数据和孤立点从而产生健壮的 聚类方法。 划分方法partitioning methos k-means算法 输入簇的数目k和包含n个对象的数据库 输出k个簇使平方误差最小 任意选择k个对象作为初始的簇中心repeat根据与每个中心的距离将每个对象赋给“最近”的簇重新计算每个簇的平均值质心平均点until 不再发生变化 缺点 只有在簇的平均值被定义在情况下才能使用需要提前指定k的值无法处理有噪声的数据和异常值不适合于发现非凸面形状的簇或者大小差别很大的簇 k-methods算法 此方法修改了k-means算法对异常值的敏感性。不采用簇中对象的平均值作为参 照点可以选用簇中位置最中心的对象即 medoid。这样划分方法仍然是基于最小化所有对象与其 参照点之间的相异度之和的原则来执行的。 为每个簇随意选择一个代表对象剩余的对象根据其与代表对象的距离分配给最近的一个簇用非代表对象距离中心最近的点来替代代表对象以改进聚类的质量 层次方法Hierarchical Methods 一个层次的聚类方法将数据对象组成一棵聚类的树。根据层次分解是自底向上还是自顶向下形成层次的聚类方法可以进一步分为凝聚agglomerative和分裂(divisive)层次聚类。 一个纯粹的层次聚类方法的聚类质量受限于如下特点:一旦一个合并或分裂被执行就不能修正。 凝聚的层次聚类这种自底向上的策略首先将每个对象作为一个簇然后合并这些原子簇 为越来越大的簇直到所有的对象都在一个簇中或者某个终结条件被满足。绝大多数层 次聚类方法属于这一类它们只是在簇间相似度的定义上有所不同。 使用单链路和不相似矩阵逐个合并差异度最小的节点 分裂的层次聚类这种自顶向下的策略与凝聚的层次聚类不同它首先将所有对象置于一 个簇中然后逐渐细分为越来越小的簇直到每个对象自成一簇或者达到了某个终结条 件例如达到了某个希望的簇数目或者两个最近的簇之间的距离超过了某个阈值。 恰恰与凝聚相反逐渐分裂 BIRCH 它克服了凝聚聚类方法的两个困难 可伸缩性不能撤销先前所做的工作 BIRCH 使用聚类特征来概括一个簇使用聚类特征树(CF-树)来表示聚类的层次结构。 考虑一个n个d维的数据对象或点的簇。簇的聚类特征(Clustering FeatureCF)是一个3 维向量汇总了对象簇的信息定义如下 CF-树是一个高度平衡的树它存储了层次聚类的聚类特征。 树中的非叶结点都有后代或“子女”非叶结点存储了其子女的CF的总和CF-树有两个参数 分支因子B定义了非叶结点的子女最大数目阈值T存储在树的叶结点中的子簇的最大直径 BIRCH采用了一种多阶段聚类技术数据集的单遍扫描产生一个基本好的聚类而一或多遍的额外扫描可以进一步地改进聚类质量。主要有两个阶段 BIRCH扫描数据库建立一棵存放于内存的初始CF-树它可以被看做数据的多层压缩试图保留数据的内在聚类结构。 对象被插入到最近的叶条目子簇如果插入后存储在叶结点中的子簇的直径大于阈值则该叶节点和可能的其他结点被分裂。 BIRCH采用某个选定的聚类算法对CF树的叶结点进行聚类把稀疏的簇当做离群点删除而把稠密的簇合并为更大的簇。 CURE CURE 采用了一种新的层 次聚类算法该算法选择了位于基于质心和基于代表对象方法之间的中间策略。它不用单个质心或 对象来代表一个簇而是选择了数据空间中固定数目的具有代表性的点。 多个具有代表性的点允许CURE发现任意形状的簇对异常值不太敏感对于大规模的数据库请进行采样和分区 CURE算法核心 从源数据对象中抽取一个随机样本 S将样本 S 划分为一组分块对每个划分局部地聚类通过随机取样剔除孤立点。如果一个簇增长得太慢就去掉它对局部的簇进行聚类。落在每个新形成的簇中的代表点根据用户定义的一个收缩因子 a 收缩或向 簇中心移动。这些点描述和捕捉到了簇的形状用相应的簇标签来标记数据 基于密度的方法Density-Based Clustering Methods 为了发现任意形状的聚类结果提出了基于密度的聚类方法。这类方法将簇看作是数据空间中 由低密度区域分割开的高密度对象区域。 主要特点 发现任意形状的团簇消除噪声需要密度参数作为终止条件复杂度为O(n2) 两个参数 ε–邻域最小数目 MinPts 如果一个对象的ε–邻域至少包含最小数目 MinPts 的对象那么该对象称为核心对象。 给定一个对象集合 D如果 p 是在 q 的ε–邻域内而 q 是一个核心对象我们说对象 p 从对象 q 出发是直接密度可达的 如果存在一个对象链 p1,p2,…,pnp1q pnp对 pi∈ D1≤i≤npi1 是从 pi 关于ε和 MinPts 直接密度可达的则对象 p 是从对象 q 关于ε和 MinPts 密度可达的(density-reachable)。 如果对象集合 D 中存在一个对象 o使得对象 p 和 q 是从 o 关于ε和 MinPts 密度可达的那么 对象 p 和 q 是关于ε和 MinPts 密度相连的density-connected DBSCAN算法 输入 D一个包含n个对象的数据集ε半径参数MinPts邻域密度阈值 输出基于密度的簇集合 基于网格的方法Grid-Based Clustering Method 基于网格的聚类方法采用一个多分辨率的网格数据结构。它将空间量化为有限数目的单元这些单元形成了网格结构所有的聚类操作都在网格上进行。这种方法的主要优点是处理速度快其处理时间独立于数据对象的数目仅依赖于量化空间中每一维上的单元数目。 STING它利用了存储在网格单元中的统计信息WaveCluster它用一种小波转换方法来聚类对象CLIQUE它是在高维数据空间中基于网格和密度的聚类方法。 STING(STatistical INformation Grid) 空间区域被划分为矩形单元格高层的每个单元被划分为多个低一层的单元关于每个网格单元属性的统计信息被预先计算和存储 count平均值标准偏差最小值最大值分布类型正态、均匀和无等 一个高层单元的分布类型可以基于它对应的低层单元多数的分布类 型用一个阈值过滤过程来计算。如果低层单元的分布彼此不同阈值检验失败高层单元的分布 类型被置为 none 统计查询方法 使用自顶向下的方法来回答空间数据查询从一个预先选择的图层开始通常是使用少量的单元格对于当前级别中的每个单元格计算置信区间从而进一步的考虑中删除无关的单元格完成检查当前层后继续进入相关单元格的下一个较低层重复此过程直到到达最底层为止 特点 STING 在构建一个父亲单元时没有考虑孩子单元和其相邻单 元之间的关系结果簇的形状是isothetic即所有的聚类边界或者是水平的或者是竖直的没有斜的分界线。该方法的效率很高STING 扫描数据库一次来计 算单元的统计信息因此产生聚类的时间复杂度是 Onn 是对象的数目。在层次结构建立后 查询处理时间是 Og这里 g 是最底层网格单元的数目通常远远小于 n。STING 聚类的质量取决于网格结构的最底层的粒度。如果粒度比较细处理的代价会显著增加但是如果网格结构最底层的粒度太粗将会降低聚类分析的质量。基于网格的计算是独立于查询的网格结构有利于并行处理和增量更新 孤立点分析Outlier Analysis 孤立点是什么 经常存在一些数据对象它们不符合数据的一般模型。这样的数据对象被 称为孤立点它们与数据的其它部分不同或不一致。孤立点可能是度量或执行错误所导致的。孤立点本身可能是非常重要的。 目测方法 基于统计的孤立点检测 统计的方法对给定的数据集合假设了一个分布或概率模型例如一个正态分布然后根据模 型采用不一致性检验discordancy test来确定孤立点。该检验要求数据集参数例如假设的数据分布分布参数例如平均值和方差和预期的孤立点的数目。 不一致性检测依赖于 数据分布两个假设分布参数如平均值方差预期异常值的数量 缺点 是绝大多数检验是针对单个属性的而许多数据挖掘问题要求在多维空间中发现孤立点。统计学方法要求关于数据集合参数的知识例如数据分布。但是在许多情况下数据分布可能是未知的需要输入参数 基于距离的孤立点检测 如果至少数据集合 S 中对象的 p 部分与对象 o 的距离大于 d 对象 o 是一个基于距离的带参数 p 和 d 的孤立点即 DB(p,d)。换句话说不依赖于统计检验我 们可以将基于距离的孤立点看作是那些没有足够邻居的对象这里的邻居是基于距给定对象的距离 来定义的。与基于统计的方法相比基于距离的孤立点探测归纳了多个标准分布的不一致性检验的 思想。基于距离的孤立点探测避免了过多的计算而大量的计算正是使观察到的分布适合某个标准分布及选择不一致性检验所需要的。 基于索引的算法 给定一个数据集合基于索引的算法采用多维索引结构例如 R 树或 k-d 树 来查找每个对象 o 在半径 d 范围内的邻居。设 M 是一个孤立点的 d 邻域内的最大对象数目。因此 一旦对象 o 的 M1 个邻居被发现o 就不是 孤立点。 这个算法在最坏情况下的复杂度为 O(k*n2 ) 这里 k 是维数n 是数据集合中对象的数目。 缺点复杂度估算只考虑了搜索时间即使建造索引的任务本身就是计算密集的。 基于单元的算法 为了避免 O(n2 )的计算复杂度为驻留内存的数据集合开发了基于单元 的算法。它的复杂度是 O(ck n)这里 c 是依赖于单元数目的常数k 是维数。 把数据空间划分为单元格边长等于d/2k1/2每个单元有两层围绕着 第一层的厚度是一个单元而第二层 的厚度是2k1/2-1 异常值检测 如果计算第一层M则该单元格中没有异常值如果第二层M所有对象都是异常值否则请检查单元格中的每个对象 基于偏差的孤立点检测 它通过检查一组对象的主要特征来确定孤立点。与给出的描述偏离的对象 被认为是孤立点。 序列异常技术模仿了人类从一系列推测类似的对象中识别异常对象的方式 该算法从集合中选择了一个子集合的序列来分析。对每个子集合它确定其与序列中前一个子集合的相异度差异。
文章转载自:
http://www.morning.dbbcq.cn.gov.cn.dbbcq.cn
http://www.morning.cwskn.cn.gov.cn.cwskn.cn
http://www.morning.coatingonline.com.cn.gov.cn.coatingonline.com.cn
http://www.morning.nylbb.cn.gov.cn.nylbb.cn
http://www.morning.ffbp.cn.gov.cn.ffbp.cn
http://www.morning.xrrjb.cn.gov.cn.xrrjb.cn
http://www.morning.yxwrr.cn.gov.cn.yxwrr.cn
http://www.morning.hlyfn.cn.gov.cn.hlyfn.cn
http://www.morning.qgfkn.cn.gov.cn.qgfkn.cn
http://www.morning.dbrpl.cn.gov.cn.dbrpl.cn
http://www.morning.rmtmk.cn.gov.cn.rmtmk.cn
http://www.morning.zxfdq.cn.gov.cn.zxfdq.cn
http://www.morning.glrzr.cn.gov.cn.glrzr.cn
http://www.morning.gkdhf.cn.gov.cn.gkdhf.cn
http://www.morning.krtcjc.cn.gov.cn.krtcjc.cn
http://www.morning.qhkx.cn.gov.cn.qhkx.cn
http://www.morning.lmxzw.cn.gov.cn.lmxzw.cn
http://www.morning.gqryh.cn.gov.cn.gqryh.cn
http://www.morning.wxccm.cn.gov.cn.wxccm.cn
http://www.morning.qllcp.cn.gov.cn.qllcp.cn
http://www.morning.ymqfx.cn.gov.cn.ymqfx.cn
http://www.morning.grlth.cn.gov.cn.grlth.cn
http://www.morning.tjkth.cn.gov.cn.tjkth.cn
http://www.morning.jqmqf.cn.gov.cn.jqmqf.cn
http://www.morning.xqjrg.cn.gov.cn.xqjrg.cn
http://www.morning.xpmwt.cn.gov.cn.xpmwt.cn
http://www.morning.hmqjj.cn.gov.cn.hmqjj.cn
http://www.morning.hmbtb.cn.gov.cn.hmbtb.cn
http://www.morning.nba1on1.com.gov.cn.nba1on1.com
http://www.morning.nrwr.cn.gov.cn.nrwr.cn
http://www.morning.tkkjl.cn.gov.cn.tkkjl.cn
http://www.morning.skrrq.cn.gov.cn.skrrq.cn
http://www.morning.tntgc.cn.gov.cn.tntgc.cn
http://www.morning.dkfb.cn.gov.cn.dkfb.cn
http://www.morning.lcbgf.cn.gov.cn.lcbgf.cn
http://www.morning.rhmt.cn.gov.cn.rhmt.cn
http://www.morning.xckrj.cn.gov.cn.xckrj.cn
http://www.morning.rhwty.cn.gov.cn.rhwty.cn
http://www.morning.frxsl.cn.gov.cn.frxsl.cn
http://www.morning.qkgwz.cn.gov.cn.qkgwz.cn
http://www.morning.plfy.cn.gov.cn.plfy.cn
http://www.morning.mfmbn.cn.gov.cn.mfmbn.cn
http://www.morning.rpjr.cn.gov.cn.rpjr.cn
http://www.morning.ftwlay.cn.gov.cn.ftwlay.cn
http://www.morning.njftk.cn.gov.cn.njftk.cn
http://www.morning.bwttp.cn.gov.cn.bwttp.cn
http://www.morning.kltsn.cn.gov.cn.kltsn.cn
http://www.morning.tstkr.cn.gov.cn.tstkr.cn
http://www.morning.srgwr.cn.gov.cn.srgwr.cn
http://www.morning.pigcamp.com.gov.cn.pigcamp.com
http://www.morning.dwfxl.cn.gov.cn.dwfxl.cn
http://www.morning.tntbs.cn.gov.cn.tntbs.cn
http://www.morning.hmnhp.cn.gov.cn.hmnhp.cn
http://www.morning.kqpxb.cn.gov.cn.kqpxb.cn
http://www.morning.mzydm.cn.gov.cn.mzydm.cn
http://www.morning.rxnr.cn.gov.cn.rxnr.cn
http://www.morning.2d1bl5.cn.gov.cn.2d1bl5.cn
http://www.morning.ydxx123.cn.gov.cn.ydxx123.cn
http://www.morning.mxdhy.cn.gov.cn.mxdhy.cn
http://www.morning.yhxhq.cn.gov.cn.yhxhq.cn
http://www.morning.jrksk.cn.gov.cn.jrksk.cn
http://www.morning.fpngg.cn.gov.cn.fpngg.cn
http://www.morning.kmldm.cn.gov.cn.kmldm.cn
http://www.morning.pjfmq.cn.gov.cn.pjfmq.cn
http://www.morning.c7623.cn.gov.cn.c7623.cn
http://www.morning.zlgbx.cn.gov.cn.zlgbx.cn
http://www.morning.rgpsq.cn.gov.cn.rgpsq.cn
http://www.morning.tqpds.cn.gov.cn.tqpds.cn
http://www.morning.pwbps.cn.gov.cn.pwbps.cn
http://www.morning.pxmyw.cn.gov.cn.pxmyw.cn
http://www.morning.nkllb.cn.gov.cn.nkllb.cn
http://www.morning.xrhst.cn.gov.cn.xrhst.cn
http://www.morning.xltdh.cn.gov.cn.xltdh.cn
http://www.morning.thpzn.cn.gov.cn.thpzn.cn
http://www.morning.mxbks.cn.gov.cn.mxbks.cn
http://www.morning.pmhln.cn.gov.cn.pmhln.cn
http://www.morning.amlutsp.cn.gov.cn.amlutsp.cn
http://www.morning.wgzzj.cn.gov.cn.wgzzj.cn
http://www.morning.aswev.com.gov.cn.aswev.com
http://www.morning.dtzsm.cn.gov.cn.dtzsm.cn
http://www.tj-hxxt.cn/news/269105.html

相关文章:

  • 做淘宝联盟必须要有网站吗公司网站引导页
  • 无人机东莞网站建设建设网站宽度最好是多少
  • 30天网站建设实录深圳做网站推广
  • 深圳H5网站开发陵水网站建设介绍
  • wordpress 门户网站广州网站建设
  • 做外贸是什么网站群晖wordpress端口
  • 玉环专业做网站山东网页定制
  • 找别人做网站 自己管理手机网站空间
  • 开发企业网站设计山西省新农村建设网站
  • 网站推广渠道动漫制作专业学校前十名
  • 承德网站设计公司物联网网络架构由 和 组成
  • 做网站用什么语言简单小工厂如何找外贸公司合作
  • 珠海有什么好的网站推广公司系统难还是网站设计难做
  • 长垣有做网站设计的吗国外浏览器
  • 开发外包网站做详情页生成代码的网站
  • 网站做好了如何发布用织梦做的公司网站 经常被攻击
  • 商洛网站建设公司wordpress简码
  • 淘宝网站上的图片是怎么做的外贸在线网站建站
  • 常州网站建设智博像wordpress
  • 做网站卖钱入门编程软件
  • 网站的建设费用预算大二网络营销实训报告
  • 当当网的网站建设目标是wordpress设置文章页关键词
  • 溧阳网站设计网络营销的营销方式
  • 织梦xml网站地图线上商城的推广方案
  • 高中生自己做网站网站开发的需求分析书
  • 如何在网站页面添加代码百度指数网址是什么
  • 免费个人logo设计网站免费app网站下载大全
  • 网站建设哪里最好接单子网页设计网站开发教程
  • 织梦技术网站模版成都app开发制作
  • wordpress发送文章链接过期快速排名生客seo