免费作图网站,网站建设费用进会计什么科目,wordpress最简单搬家,wordpress文章分类div布局文章目录 一、说明二、既然有 PCA 技术降维#xff0c;为什么还要学习 t-SNE#xff1f;2.1 t-SNE的核心思想#xff1a;2.2 保持点之间的局部关系有什么意义#xff1f;2.3 t-SNE 的几何直觉#xff1a; 三、t-SNE 的数学公式#xff1a;四、目标函数#xff1a;五、梯… 文章目录 一、说明二、既然有 PCA 技术降维为什么还要学习 t-SNE2.1 t-SNE的核心思想2.2 保持点之间的局部关系有什么意义2.3 t-SNE 的几何直觉 三、t-SNE 的数学公式四、目标函数五、梯度下降六、t-SNE 代码示例MNIST 手写数据集示例七、一些问题八、t-SNE 中的超参数九、一些要点十、结论 一、说明 
与 PCA主成分分析相比这是一种更好的降维技术。t-SNE即 t 分布随机邻域嵌入是一种通过将高维数据降低到低维空间通常是二维或三维来实现可视化的统计方法。 这使得数据的可视化和解释变得更加容易特别是在处理机器学习和数据科学等复杂数据集时。 
二、既然有 PCA 技术降维为什么还要学习 t-SNE 
PCA 在线性数据上效果更好而 t-SNE 没有这样的限制。无论数据是线性的还是非线性的t-SNE 都表现良好。下面是使用 PCA 和 t-SNE 技术对 MNIST 数据集的可视化。从图中可以看出与 PCA 相比t-SNE 对数字的划分更出色。这种改进可以归因于 MNIST 数据的非线性t-SNE 可以有效捕捉到这种非线性而 PCA 则很难做到。  
2.1 t-SNE的核心思想 
t-SNE 背后的核心思想是将高维数据点映射到低维空间通常是二维或三维同时保留点之间的局部关系。它通过测量高维空间中数据点之间的相似性并将这种相似性表示为概率来实现这一点。然后它在低维空间中构建类似的概率分布并使用称为梯度下降的技术最小化两个分布之间的差异。此过程使 t-SNE 能够有效捕捉数据的局部结构使其特别适用于可视化复杂数据集和发现有意义的模式。 
2.2 保持点之间的局部关系有什么意义 
t-SNE 中的“保持点之间的局部关系”是指在将相邻数据点从高维空间映射到低维空间时保持它们之间的相对距离和相似性。 
假设您有一个数据集其中相似的数据点在高维空间中彼此靠近。保留局部关系意味着在降维之后这些相似的点应该在低维空间中仍然紧密相连。同样如果两个数据点在原始空间中彼此不相似或相距较远则它们在降维空间中应该保持相对较远的距离。 
2.3 t-SNE 的几何直觉 
t-SNE 背后的概念涉及计算每个数据点与数据集中所有其他点之间的相似性。利用这些相似性分数该算法将数据的维度降低到 2D 或 1D同时保留点之间的局部关系即查找最近的邻居。  如何计算相似度 
第 1 阶段 一种方法是计算点之间的距离但由于“维数灾难”这种方法在高维空间中变得不那么可靠。t -SNE 不再仅仅依赖距离计算而是采用概率方法。对于每个数据点例如 x1在其周围绘制一个均值为零的高斯分布标准差则根据 x1 周围附近点的密度确定。  现在在 x 轴上我们考虑与参考点例如 x1的距离。对于数据集中的每个点我们计算其与 x1 的距离并沿 x 轴绘制这些距离。y 轴表示相应的概率密度使我们能够确定每个数据点相对于 x1 的概率这可作为该点的相似度得分。  类似地该方法应用于数据集中的每个点从而产生一个 n * n 矩阵其中记录了每个数据点相对于其他每个数据点的相似性得分。由于每个点周围的分布独特点 x1 到 x2 的概率 (P(x1 | x2)) 不一定等于 x2 到 x1 的概率 (P(x2 | x1))。两点之间的 P 值越高表示它们是彼此的邻居而 P 值越低表示它们是不相似的点。 
第 2 阶段 现在我们将高维降为低维并且点随机分布在 x 轴上如图所示  在此阶段我们重新计算每个点相对于其他点的相似度得分从而得到另一个 n * n 矩阵。现在我们有两个矩阵一个表示高维的相似度得分另一个表示低维的相似度得分。  阶段 3 为了保留点之间的局部关系确保相邻点在低维中保持接近我们的目标是将低维矩阵与高维矩阵对齐。这种对齐涉及迭代调整点的位置直到低维中的相似性矩阵尽可能接近高维中的相似性矩阵。 
三、t-SNE 的数学公式 
计算相似性 对于高维空间中的每个数据点我们使用高斯分布计算其与其他每个点的相似性。这种相似性基于点之间的距离。 类似地在低维空间中我们使用 t 分布来计算点之间的相似性。    
四、目标函数 
我们希望尽量减小高维空间中的点与低维空间中的点的相似性之间的差异。我们使用Kullback-Leibler (KL) 散度来测量这种差异。 KL 散度衡量一个概率分布与另一个概率分布的差异。在我们的例子中它量化了高维空间和低维空间之间成对相似度的差异。  
五、梯度下降 
为了最小化 KL 散度我们使用梯度下降。这种迭代优化技术可以调整低维空间中点的位置。 在每次迭代中我们计算成本函数相对于低维空间中点的位置的梯度。 这个梯度指示了我们应该移动每个点的方向以减少高维和低维相似性之间的差异。 通过根据该梯度更新点的位置我们逐渐收敛到低维相似性与高维空间的相似性紧密匹配的配置。   该公式抓住了 t-SNE 数学工作原理的本质旨在保留原始高维空间中数据点之间的局部相似性同时将它们嵌入到低维空间中以实现可视化。 
六、t-SNE 代码示例MNIST 手写数据集示例 
import numpy as np
from sklearn.manifold import TSNE
from sklearn.datasets import fetch_openml
import matplotlib.pyplot as plt
import plotly.express as px
import pandas as pd
from sklearn.decomposition import PCA
# Load MNIST dataset
mnist  fetch_openml(mnist_784, version1)
X  mnist.data / 255.0
y  mnist.target
# Select 10000 random points
np.random.seed(42)  # For reproducibility
indices  np.random.choice(range(X.shape[0]), size10000, replaceFalse)
X_subset  X.iloc[indices]
y_subset  y.iloc[indices]
# Apply PCA for initial dimensionality reduction
pca  PCA(n_components2)
X_pca  pca.fit_transform(X_subset)
# Plotting with Matplotlib
plt.figure(figsize(12, 8))
scatter  plt.scatter(X_pca[:, 0], X_pca[:, 1], cy_subset.astype(int), cmaptab10, s1)
plt.colorbar(scatter)
plt.title(PCA of MNIST)
plt.xlabel(Principal Component 1)
plt.ylabel(Principal Component 2)
plt.show()# Apply t-SNE
tsne  TSNE(n_components2, perplexity30, n_iter1000, random_state42)
X_tsne  tsne.fit_transform(X_subset)
# Plot the result
plt.figure(figsize(12, 8))
scatter  plt.scatter(X_tsne[:, 0], X_tsne[:, 1], cy_subset.astype(int), cmaptab10, s1)
plt.legend(*scatter.legend_elements(), titleDigits)
plt.title(t-SNE of MNIST)
plt.show()借助上述代码示例和图表您将了解 t-SNE 的工作原理以及为什么在非线性数据出现时它比 PCA 更好。 
七、一些问题 
为什么使用高斯分布来计算高 维的相似度 
a. 可微分 b. 距离概率输出 高斯分布函数 
这意味着在上面的公式中我们用两点之间的距离代替 x这样我们就得到了概率输出的距离。 看黄色部分我们在高斯分布公式中用距离代替 x 
c. 优雅地处理距离 这意味着高斯分布可以平滑地反映点之间的距离。当点靠近时它们被视为邻居的概率较高而当它们相距较远时这个概率逐渐降低。此属性确保分布能够准确地捕捉点之间基于距离的不同相似度。 
d. 用方差参数控制密度 
“使用方差参数控制密度”是指使用方差参数调整高斯分布的扩展或宽度的能力。 
简单来说方差决定了数据点围绕其平均值或中心的分布情况。方差越小数据点之间的距离越近密度也就越大方差越大数据点之间的距离越远密度也就越小。 
因此在 t-SNE 中调整方差参数可以控制高斯分布围绕每个数据点的紧密程度。此调整会影响邻域大小并影响根据点与点之间的距离将哪些点视为邻居。 
我想你已经得到了这个问题的答案而且它也是一个著名的、众所周知的分布并且所有的信息对于这个分布来说已经是可用的所以这也是为什么高斯分布用于计算高维中两点之间的相似性的原因之一。 
八、t-SNE 中的超参数 
困惑度 • 困惑度可能是 t-SNE 中最重要的超参数。它可以 被认为是每个点的有效邻居数量的度量 。 
• 困惑度的值会影响数据的局部和全局方面的平衡。较小的困惑度会强调局部结构而 较大的困惑度会更多地发挥全局结构的作用。 
• 困惑度的典型值介于 5 到 50 之间但这可能会 因数据集而异。通常建议尝试 不同的值以查看它们如何影响结果。 
2.学习率 
• 学习率决定了在 向成本函数最小值移动的过程中每次迭代的步长。 
•学习率过高可能导致算法震荡并错过 全局最小值而学习率过低可能导致 训练过程过长并可能陷入局部最小值。 
•学习率的常见值在 10 到 1000 之间。同样 尝试不同的值是找到给定数据集的最佳设置的关键 。 
3.迭代次数 
•该超参数控制算法在终止之前运行的迭代次数。 
•如果数字太低算法可能无法完全收敛。如果数字太高 您可能会浪费计算资源而 嵌入质量却没有太大提高。 
•默认迭代次数通常设置为 1000 这样的值但 对于较大的数据集可能需要增加该次数。 
九、一些要点 
解释聚类 t-SNE 可以非常有效地揭示聚类和局部结构。但是聚类之间的距离或图中聚类的相对位置可能没有有意义的解释。避免过度解释全局关系。 轴没有意义 t-SNE 中的轴没有可解释的含义这就是为什么 t-SNE 仅用于可视化而不是用于预测。 困惑度很重要困惑度是 t-SNE 中的一个关键超参数。它大致对应于有效最近邻的数量。没有一个放之四海而皆准的值不同的值可以揭示不同的结构因此请尝试使用一系列值。常见值介于 5 到 50 之间。 可重复性 t-SNE 从随机初始化开始每次运行都会产生不同的结果。如果可重复性很重要请设置随机种子。此外使用不同的初始化进行多次运行可以更全面地了解数据的结构。 缩放数据缩放或规范化数据等预处理步骤尤其是当特征处于不同尺度时会对 t-SNE 的结果产生重大影响。 维数灾难 t-SNE 可以缓解但不能完全克服维数灾难。在应用 t-SNE 之前极高维数据可能需要其他步骤例如使用 PCA 进行初始降维。 学习率和迭代次数除了困惑度之外其他参数如学习率和迭代次数也会影响结果。学习率过高或过低都会导致嵌入效果不佳而迭代次数不足可能意味着算法无法完全收敛。 它不是灵丹妙药虽然 t-SNE 是一种强大的工具但它并不适合每种数据集或分析。有时其他降维技术如 PCA、UMAP 或 MDS可能更合适。 t-SNE 的优点和缺点 优点 • 如果操作正确可以提供非常直观的可视化因为它保留了较低维度中数据的局部结构 
缺点 • 计算成本高 • 不太擅长保留全局结构 • 对超参数敏感 • 可能陷入局部最小值 • 解释具有挑战性 
十、结论 
我希望这篇博客能增强您对 t-SNE 概念的理解。如果您从此内容中获得了价值请考虑关注我以获取更多有见地的帖子。感谢您花时间阅读本文。谢谢 文章转载自: http://www.morning.fnpyk.cn.gov.cn.fnpyk.cn http://www.morning.twdkt.cn.gov.cn.twdkt.cn http://www.morning.hxcuvg.cn.gov.cn.hxcuvg.cn http://www.morning.qnyf.cn.gov.cn.qnyf.cn http://www.morning.gwmjy.cn.gov.cn.gwmjy.cn http://www.morning.wdxr.cn.gov.cn.wdxr.cn http://www.morning.gzxnj.cn.gov.cn.gzxnj.cn http://www.morning.gkpgj.cn.gov.cn.gkpgj.cn http://www.morning.qtbnm.cn.gov.cn.qtbnm.cn http://www.morning.ttfh.cn.gov.cn.ttfh.cn http://www.morning.kpwcx.cn.gov.cn.kpwcx.cn http://www.morning.nwmwp.cn.gov.cn.nwmwp.cn http://www.morning.mlyq.cn.gov.cn.mlyq.cn http://www.morning.gwjsm.cn.gov.cn.gwjsm.cn http://www.morning.qdscb.cn.gov.cn.qdscb.cn http://www.morning.c7629.cn.gov.cn.c7629.cn http://www.morning.tntqr.cn.gov.cn.tntqr.cn http://www.morning.bykqg.cn.gov.cn.bykqg.cn http://www.morning.lslin.com.gov.cn.lslin.com http://www.morning.huarma.com.gov.cn.huarma.com http://www.morning.rjfr.cn.gov.cn.rjfr.cn http://www.morning.djxnw.cn.gov.cn.djxnw.cn http://www.morning.jtmql.cn.gov.cn.jtmql.cn http://www.morning.sprbs.cn.gov.cn.sprbs.cn http://www.morning.qlhwy.cn.gov.cn.qlhwy.cn http://www.morning.nkyc.cn.gov.cn.nkyc.cn http://www.morning.tjcgl.cn.gov.cn.tjcgl.cn http://www.morning.fhyhr.cn.gov.cn.fhyhr.cn http://www.morning.ryxyz.cn.gov.cn.ryxyz.cn http://www.morning.yqtry.cn.gov.cn.yqtry.cn http://www.morning.prjns.cn.gov.cn.prjns.cn http://www.morning.tgtsg.cn.gov.cn.tgtsg.cn http://www.morning.ltqzq.cn.gov.cn.ltqzq.cn http://www.morning.hdpcn.cn.gov.cn.hdpcn.cn http://www.morning.wqbfd.cn.gov.cn.wqbfd.cn http://www.morning.jglqn.cn.gov.cn.jglqn.cn http://www.morning.phcqk.cn.gov.cn.phcqk.cn http://www.morning.hwycs.cn.gov.cn.hwycs.cn http://www.morning.kjkml.cn.gov.cn.kjkml.cn http://www.morning.rjbb.cn.gov.cn.rjbb.cn http://www.morning.qwbtr.cn.gov.cn.qwbtr.cn http://www.morning.qgtfl.cn.gov.cn.qgtfl.cn http://www.morning.svrud.cn.gov.cn.svrud.cn http://www.morning.rwzkp.cn.gov.cn.rwzkp.cn http://www.morning.kkhf.cn.gov.cn.kkhf.cn http://www.morning.qnhpq.cn.gov.cn.qnhpq.cn http://www.morning.ggfdq.cn.gov.cn.ggfdq.cn http://www.morning.kxryg.cn.gov.cn.kxryg.cn http://www.morning.hdwjb.cn.gov.cn.hdwjb.cn http://www.morning.pwmm.cn.gov.cn.pwmm.cn http://www.morning.china-cj.com.gov.cn.china-cj.com http://www.morning.yongkangyiyuan-pfk.com.gov.cn.yongkangyiyuan-pfk.com http://www.morning.qgghr.cn.gov.cn.qgghr.cn http://www.morning.kjcll.cn.gov.cn.kjcll.cn http://www.morning.snygg.cn.gov.cn.snygg.cn http://www.morning.nqwkn.cn.gov.cn.nqwkn.cn http://www.morning.pylpd.cn.gov.cn.pylpd.cn http://www.morning.yhplt.cn.gov.cn.yhplt.cn http://www.morning.zxrtt.cn.gov.cn.zxrtt.cn http://www.morning.bflwj.cn.gov.cn.bflwj.cn http://www.morning.pxwjp.cn.gov.cn.pxwjp.cn http://www.morning.htqrh.cn.gov.cn.htqrh.cn http://www.morning.nd-test.com.gov.cn.nd-test.com http://www.morning.gnwpg.cn.gov.cn.gnwpg.cn http://www.morning.dshkp.cn.gov.cn.dshkp.cn http://www.morning.mxhgy.cn.gov.cn.mxhgy.cn http://www.morning.beeice.com.gov.cn.beeice.com http://www.morning.kmqjx.cn.gov.cn.kmqjx.cn http://www.morning.snnkt.cn.gov.cn.snnkt.cn http://www.morning.cbnxq.cn.gov.cn.cbnxq.cn http://www.morning.nsrtvu.com.gov.cn.nsrtvu.com http://www.morning.rykmz.cn.gov.cn.rykmz.cn http://www.morning.nzklw.cn.gov.cn.nzklw.cn http://www.morning.hwcln.cn.gov.cn.hwcln.cn http://www.morning.tnjkg.cn.gov.cn.tnjkg.cn http://www.morning.lxyyp.cn.gov.cn.lxyyp.cn http://www.morning.gjqnn.cn.gov.cn.gjqnn.cn http://www.morning.zdqsc.cn.gov.cn.zdqsc.cn http://www.morning.rccbt.cn.gov.cn.rccbt.cn http://www.morning.trrd.cn.gov.cn.trrd.cn