建一个电商网站多少钱,湖南建筑一体化平台,做网站怎么把导航每个页面都有,衡水精品网站建设报价【人工智能Ⅰ】6-机器学习之分类
6-1 机器学习在人工智能中的地位
学习能力是智能的本质
人工智能 机器学习 深度学习 什么是机器学习#xff1f; baidu#xff1a;多领域交叉学科#xff08;做什么#xff09;
wiki#xff1a;the study of algorithms and…【人工智能Ⅰ】6-机器学习之分类
6-1 机器学习在人工智能中的地位
学习能力是智能的本质
人工智能 机器学习 深度学习 什么是机器学习 baidu多领域交叉学科做什么
wikithe study of algorithms and mathematical models怎么做
人工智能的核心是使计算机具有智能的根本途径 大数据建模分析的理论和方法 依赖的理论和方法统计学、机器学习、数据挖掘、深度学习
统计学人工学习特征人工学习规律
机器学习人工学习特征自动学习规律
深度学习自动学习特征自动学习规律
实现基础数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速… 机器学习历史 神经网络发展3起2落
6-2 机器学习的一般过程
历史数据训练模型
新数据输入模型
结果由模型预测
即自动学习数据规律解决分类/回归/聚类等问题 机器学习的实质寻找函数 6-3 机器学习的基本流程
本质通过构建数学模型从数据中学习特征和规律收获有用的知识
特征决定数据对象所蕴含的知识的关键属性规律将特征表达为目标知识的一种模式及其参数学习从样本数据集计算得到规律的过程
6-4 学习方法分类
根据反馈的不同学习技术分为
监督学习学习有标签数据解决分类、回归非监督学习学习无标签数据解决聚类半监督学习学习有标签和无标签数据海量数据分类强化学习学习无标签但有反馈的数据策略推理 半监督学习案例图片分类 step1用有标签图片训练分类器
step2对无标签的数据进行分类按照信任度从大到小排序
step3将信任度最高的图片自动加入标识项
step4重新训练分类器重复step2—step4
6-5 完整的及其学习过程实施
1数据预处理数据清洗、数据集成、数据采样
数据完整性、一致性、合法性等
数据采样均衡例如二分类问题的正负样本悬殊
过采样随机复制少数类欠采样随机消除占多数类的样本
数据集拆分
训练数据集train构建机器学习模型验证数据集validation辅助构建模型评估模型并提供无偏估计进而调整模型参数测试数据集test评估训练好的最终模型的性能
2特征工程特征编码、特征选择、特征降维、规范化
特征降维减小特征矩阵降低计算量和训练时间
规范化通过归一化等进行规范
3数据建模回归问题、分类问题、聚类问题、其他问题
分类决策树、贝叶斯、SVM、逻辑回归、集成学习
回归线性回归、广义线性回归、岭回归、Lasso回归
聚类K-means、高斯混合聚类、密度聚类、层次聚类
其他隐马尔可夫模型、LDA主题模型、条件随机场、神经网络、深度学习
4结果评估拟合度量、准确率、召回率、F1值、PR曲线等
欠拟合学习太少划分太粗糙过拟合学习太多划分太细致
5总结
有监督学习有x有yy是标签分类、回归
无监督学习有x无y只有数据没有标签聚类、降维
6-6 贝叶斯分类方法
条件概率 P ( A ∣ B ) P ( A B ) / P ( B ) P(A|B)P(AB)/P(B) P(A∣B)P(AB)/P(B) 乘法定理 P ( A B C ) P ( A ) ∗ P ( B ∣ A ) ∗ P ( C ∣ A B ) P(ABC)P(A)*P(B|A)*P(C|AB) P(ABC)P(A)∗P(B∣A)∗P(C∣AB) 全概率公式 P ( A ) ∑ i 1 n P ( B ) ∗ P ( A ∣ B i ) P(A)∑_{i1}^{n}P(B)*P(A|B_i) P(A)i1∑nP(B)∗P(A∣Bi) 分解为若干个简单事件的概率计算问题利用可加性求出最终的概率结果
贝叶斯公式 P ( B i ∣ A ) P ( A ∣ B i ) ∗ P ( B i ) / ( ∑ j 1 n P ( A ∣ B j ) ∗ P ( B j ) ) P(B_i|A)P(A|B_i)*P(B_i)/(∑_{j1}^nP(A|B_j)*P(B_j)) P(Bi∣A)P(A∣Bi)∗P(Bi)/(j1∑nP(A∣Bj)∗P(Bj)) 已知A事件确已发生求原因B_j所导致的概率从结果分析原因
贝叶斯分类 P ( H ∣ X ) P ( X ∣ H ) ∗ P ( H ) / P ( X ) P(H|X)P(X|H)*P(H)/P(X) P(H∣X)P(X∣H)∗P(H)/P(X) P(H)先验概率
P(H|X)后验概率某个特定条件下具体事物发生的概率
6-7 朴素贝叶斯分类
工作过程
1每个数据样本用1个n维特征向量X{x1,…,xn}表示分别描述对n个属性A1~An样本的n个度量
2假设有m个类C1~Cm给定1个未知数据样本X分类器将预测X属于具有最高后验概率的类
3根据贝叶斯定理计算其中P(X)对于所有类为常数因此只需要计算分子如果先验概率位置则假设各类是等概率的
4给定具有许多属性的样本数据集为降低计算P(X|Ci)的开销可做类条件独立的朴素假定即属性值相互条件独立 P ( A B ) P ( A ) ∗ P ( B ) P(AB)P(A)*P(B) P(AB)P(A)∗P(B) 5对未知样本X分类对每个类Ci计算P(X|Ci)*P(Ci)
优点
可运用于大量数据库不亚于决策树、神经网络分类算法方法简单分类准确率高速度快所需估计的参数少对缺失数据不敏感
缺点
需要知道先验概率相互独立实际上难以满足