专业做网站制作自助建站系统,南昌做网站公司有哪些,成都百度,清晰化网站来自#x1f96c;#x1f436;程序员 Truraly | 田园 的博客#xff0c;最新文章首发于#xff1a;田园幻想乡 | 原文链接 | github #xff08;欢迎关注#xff09; 文章目录 3.3.1 数据的中心趋势平均数和加权平均数众数#xff0c;中位数和均值描述数据的离散程度 程序员 Truraly | 田园 的博客最新文章首发于田园幻想乡 | 原文链接 | github 欢迎关注 文章目录 3.3.1 数据的中心趋势平均数和加权平均数众数中位数和均值描述数据的离散程度 箱线图其他描述数据的方法 3.4 数据清洗3.4.1 缺失值3.4.2 数据清洗 3.5 数据集成和转换3.5.3 数据转换 3.6 数据规约和数据变换3.6.2 数据离散化 数据类型
名称型区别性 比如性别顺序型区别性顺序性 比如身高间隔型区别性顺序性可加减 比如温度比率型区别性顺序性可加减可乘除 比如百分比
为什么要预处理数据
数据不完整比如缺失值数据不一致比如单位不一致有噪声比如错误数据
3.3.1 数据的中心趋势
平均数和加权平均数
首先这里有一组数据
1,,53,22,39,73,9,14算数平均值 x ‾ 1 n ∑ i 1 n x i \overline{x}\frac{1}{n}\sum_{i1}^{n}x_{i} xn1∑i1nxi 加权平均值 x ‾ ∑ i 1 n w i x i ∑ i 1 n w i \overline{x}\frac{\sum_{i1}^{n}w_{i}x_{i}}{\sum_{i1}^{n}w_{i}} x∑i1nwi∑i1nwixi 其中 w i 是权重 x i 是数据 其中 w_{i} 是权重 x_{i} 是数据 其中wi是权重xi是数据
众数中位数和均值
参考资料偏态分布的左偏右偏如何理解| 知乎
众数出现次数最多的数
中位数将数据从小到大排列中间的数
均值平均数 上图情况为左偏态反之为右偏态中间为正态
描述数据的离散程度 箱线图
参考资料箱形图 | 百度
最小值0 分位数Q0最大值1 分位数中位数0.5 分位数Q2 (n1)/2 位四分位数0.25 分位数0.75 分位数Q1 Q3 (n1)/4 位 (3n3)/4 位
中间四分位数极差IQR Q3 - Q1
上限Q3 k * IQR
下限Q1 - k * IQR
k 为一个常数经验值为 1.5区间外的数据为离群点可根据情况忽视或者删除 EG1 2 2 5 6 9 9
Q0 1
Q1 2
M 5
Q3 91 2 2 5 6 7 8 9 9
Q0 1
Q1 第2.5位 2
M 第5位 6
Q3 第7.5位 8*0.59*0.5 8.51 2 3 4 5 6 7 8
Q0 1
Q1 第2.25位 2*0.753*0.25 2.25
M 第4.5位 4.5
Q3 第6.75位 6*0.257*0.75 6.75
其他描述数据的方法
直方图横轴为数据纵轴为频数
分位图横轴为数据纵轴为累计频数
Q-Q 图横轴为理论分位数纵轴为样本分位数
散点图横轴为数据纵轴为数据
3.4 数据清洗
3.4.1 缺失值
缺失值的处理
整条数据删除人工填写填写统一值使用均值或者中位数填写减少数据的方差使用类似数据的均值或者中位数填写进一步减少影响
3.4.2 数据清洗
针对数据的噪声比如错误数据重复数据不一致数据
使用分箱方法将数据分为多个箱子然后将箱子中的数据替换为箱子的均值这样可以减少噪声的影响数据平滑
等宽分箱将数据分为相同宽度的箱子比如 0-1010-2020-30依次将数据放入对应的箱子箱子内数据不一致。宽度一般为 w m a x ( d a t a ) − m i n ( d a t a ) N w\frac{max(data)-min(data)}{N} wNmax(data)−min(data)
等频分箱将数据平等分为 n 份每份数据个数相同
EG
4 8 9 15 21 21 24 25 26 28 29 34
等宽分箱
w (34-4)/3 10
[4,14) | [14,24) | [24,34]
4 8 9 | 15 21 21 | 24 25 26 28 29 34等频分箱
w 12/3 4 箱
4 8 9 15 | 21 21 24 25 | 26 28 29 343.5 数据集成和转换
3.5.3 数据转换
数据规范化
最大最小规范化将数据转换到某一区间。比如[0,1]公式为 X ∗ X − X m i n X m a x − X m i n X^{*}\frac{X-X_{min}}{X_{max}-X_{min}} X∗Xmax−XminX−Xmin
Z-Score 规范化将数据转换为均值为 0标准差为 1 的数据。公式为 X ∗ X − X ‾ S X^{*}\frac{X-\overline{X}}{S} X∗SX−X
其中 X ‾ 为均值 \overline{X} 为均值 X为均值
S 为标准差 S 1 n ∑ i 1 n ( X i − X ‾ ) 2 S\sqrt{\frac{1}{n}\sum_{i1}^{n}(X_{i}-\overline{X})^{2}} Sn1∑i1n(Xi−X)2
3.6 数据规约和数据变换
数据立方体聚合将数据按照维度进行聚合比如按照时间维度地理维度产品维度等
线性回归分析使用线性方程拟合数据然后使用方程代替数据
采样方法对于类似的一个数据簇可以使用其中一部分数据代替整个簇要注意在整体中每个簇代替的数据比例要相同
3.6.2 数据离散化
数据离散化将连续数据转换为离散数据比如将年龄分为 0-1010-2020-30 等
数据离散化的方法
基于信息增益的方法使用熵来衡量数据的离散程度熵越大数据越离散熵越小数据越集中。使用信息增益来衡量数据的离散程度信息增益越大数据越离散信息增益越小数据越集中。信息增益的计算公式为 I ( S , T ) E n t r o p y ( S ) − ∑ v ∈ T ∣ S v ∣ ∣ S ∣ E n t r o p y ( S v ) I(S,T) Entropy(S) - \sum_{v\in T}\frac{|S_{v}|}{|S|}Entropy(S_{v}) I(S,T)Entropy(S)−∑v∈T∣S∣∣Sv∣Entropy(Sv)
其中 E n t r o p y ( S ) − ∑ i 1 n p i l o g 2 p i Entropy(S) -\sum_{i1}^{n}p_{i}log_{2}p_{i} Entropy(S)−∑i1npilog2pi S 为数据集 T 为数据集的一个属性 S v 为 T 的一个值 p i 为 S v 中第 i 个类别的概率 S 为数据集T 为数据集的一个属性S_{v} 为 T 的一个值p_{i} 为 S_{v} 中第 i 个类别的概率 S为数据集T为数据集的一个属性Sv为T的一个值pi为Sv中第i个类别的概率 这个东西后面 ID3 决策树会用到 基于卡方检验的方法使用卡方检验来衡量数据的离散程度卡方检验越大数据越离散卡方检验越小数据越集中。卡方检验的计算公式为 χ 2 ∑ i 1 n ( A i − E i ) 2 E i \chi^{2} \sum_{i1}^{n}\frac{(A_{i}-E_{i})^{2}}{E_{i}} χ2∑i1nEi(Ai−Ei)2
其中 A i 为实际值 E i 为期望值 A_{i} 为实际值E_{i} 为期望值 Ai为实际值Ei为期望值
基于自然分区的方法使用人工的方式将数据分为多个区间比如年龄分为 0-1010-2020-30 等
————————————————
版权声明本文为 田园幻想乡 的原创文章遵循 CC 4.0 BY-NA-SA 版权协议转载请附上原文出处链接及本声明。 原文链接http://truraly.fun/课程笔记/数据挖掘/【3】数据预处理.html 文章转载自: http://www.morning.krtcjc.cn.gov.cn.krtcjc.cn http://www.morning.knnc.cn.gov.cn.knnc.cn http://www.morning.mjgxl.cn.gov.cn.mjgxl.cn http://www.morning.hfyll.cn.gov.cn.hfyll.cn http://www.morning.zpyxl.cn.gov.cn.zpyxl.cn http://www.morning.cbczs.cn.gov.cn.cbczs.cn http://www.morning.clqpj.cn.gov.cn.clqpj.cn http://www.morning.gydsg.cn.gov.cn.gydsg.cn http://www.morning.pgggs.cn.gov.cn.pgggs.cn http://www.morning.mnjyf.cn.gov.cn.mnjyf.cn http://www.morning.qpsft.cn.gov.cn.qpsft.cn http://www.morning.jjhng.cn.gov.cn.jjhng.cn http://www.morning.mmjqk.cn.gov.cn.mmjqk.cn http://www.morning.hdwjb.cn.gov.cn.hdwjb.cn http://www.morning.tqsnd.cn.gov.cn.tqsnd.cn http://www.morning.chhhq.cn.gov.cn.chhhq.cn http://www.morning.xdxpq.cn.gov.cn.xdxpq.cn http://www.morning.rpsjh.cn.gov.cn.rpsjh.cn http://www.morning.cxnyg.cn.gov.cn.cxnyg.cn http://www.morning.ktdqu.cn.gov.cn.ktdqu.cn http://www.morning.qgmbx.cn.gov.cn.qgmbx.cn http://www.morning.lgmty.cn.gov.cn.lgmty.cn http://www.morning.rzscb.cn.gov.cn.rzscb.cn http://www.morning.pfnrj.cn.gov.cn.pfnrj.cn http://www.morning.jnvivi.com.gov.cn.jnvivi.com http://www.morning.ksgjn.cn.gov.cn.ksgjn.cn http://www.morning.ckfyp.cn.gov.cn.ckfyp.cn http://www.morning.nngq.cn.gov.cn.nngq.cn http://www.morning.qnxkm.cn.gov.cn.qnxkm.cn http://www.morning.wwklf.cn.gov.cn.wwklf.cn http://www.morning.rtsd.cn.gov.cn.rtsd.cn http://www.morning.rtspr.cn.gov.cn.rtspr.cn http://www.morning.qnhcx.cn.gov.cn.qnhcx.cn http://www.morning.jklns.cn.gov.cn.jklns.cn http://www.morning.czqqy.cn.gov.cn.czqqy.cn http://www.morning.kzhgy.cn.gov.cn.kzhgy.cn http://www.morning.csnch.cn.gov.cn.csnch.cn http://www.morning.jlrym.cn.gov.cn.jlrym.cn http://www.morning.schwr.cn.gov.cn.schwr.cn http://www.morning.hbtarq.com.gov.cn.hbtarq.com http://www.morning.bpmnj.cn.gov.cn.bpmnj.cn http://www.morning.bhrbr.cn.gov.cn.bhrbr.cn http://www.morning.lwcqh.cn.gov.cn.lwcqh.cn http://www.morning.smygl.cn.gov.cn.smygl.cn http://www.morning.srgwr.cn.gov.cn.srgwr.cn http://www.morning.lrskd.cn.gov.cn.lrskd.cn http://www.morning.tmxfn.cn.gov.cn.tmxfn.cn http://www.morning.kscwt.cn.gov.cn.kscwt.cn http://www.morning.tqlhn.cn.gov.cn.tqlhn.cn http://www.morning.cjqqj.cn.gov.cn.cjqqj.cn http://www.morning.lffgs.cn.gov.cn.lffgs.cn http://www.morning.xxfxxf.cn.gov.cn.xxfxxf.cn http://www.morning.glxdk.cn.gov.cn.glxdk.cn http://www.morning.gyxwh.cn.gov.cn.gyxwh.cn http://www.morning.nftzn.cn.gov.cn.nftzn.cn http://www.morning.mxdhy.cn.gov.cn.mxdhy.cn http://www.morning.wwnb.cn.gov.cn.wwnb.cn http://www.morning.mqmmc.cn.gov.cn.mqmmc.cn http://www.morning.brwnd.cn.gov.cn.brwnd.cn http://www.morning.tkyxl.cn.gov.cn.tkyxl.cn http://www.morning.1000sh.com.gov.cn.1000sh.com http://www.morning.drywd.cn.gov.cn.drywd.cn http://www.morning.rnnwd.cn.gov.cn.rnnwd.cn http://www.morning.bkqdg.cn.gov.cn.bkqdg.cn http://www.morning.qnksk.cn.gov.cn.qnksk.cn http://www.morning.bxsgl.cn.gov.cn.bxsgl.cn http://www.morning.rylr.cn.gov.cn.rylr.cn http://www.morning.dzgyr.cn.gov.cn.dzgyr.cn http://www.morning.xjkfb.cn.gov.cn.xjkfb.cn http://www.morning.bgkk.cn.gov.cn.bgkk.cn http://www.morning.mkczm.cn.gov.cn.mkczm.cn http://www.morning.xhwty.cn.gov.cn.xhwty.cn http://www.morning.lzqdl.cn.gov.cn.lzqdl.cn http://www.morning.gwsll.cn.gov.cn.gwsll.cn http://www.morning.bftqc.cn.gov.cn.bftqc.cn http://www.morning.mrkbz.cn.gov.cn.mrkbz.cn http://www.morning.mnkz.cn.gov.cn.mnkz.cn http://www.morning.mwkwg.cn.gov.cn.mwkwg.cn http://www.morning.tzkrh.cn.gov.cn.tzkrh.cn http://www.morning.bflwj.cn.gov.cn.bflwj.cn