做包装一般看什么网站,禁止wordpress评论外链,佛山做优化的网络公司,毛网商城项目背景
在当今的大数据时代#xff0c;数据可视化扮演着至关重要的角色。随着信息的爆炸式增长#xff0c;我们面临着前所未有的数据挑战。这些数据可能来自社交媒体、商业交易、科学研究、医疗记录等各个领域#xff0c;它们庞大而复杂#xff0c;难以通过传统的数据处…项目背景
在当今的大数据时代数据可视化扮演着至关重要的角色。随着信息的爆炸式增长我们面临着前所未有的数据挑战。这些数据可能来自社交媒体、商业交易、科学研究、医疗记录等各个领域它们庞大而复杂难以通过传统的数据处理和分析手段进行有效解读。正是在这样的背景下数据可视化技术应运而生以其直观、形象、易于理解的特点成为连接数据与洞察的桥梁。数据可视化通过将抽象的数据转化为图表、图像等视觉元素能够迅速揭示数据中的模式、趋势和关联帮助人们快速理解复杂数据背后的含义。无论是数据分析师、商业决策者还是普通用户都能够通过数据可视化工具轻松探索数据发现新的见解从而做出更明智的决策。
因此在大数据时代数据可视化技术的重要性不言而喻。它不仅是数据分析的重要工具更是连接数据与洞察、促进跨领域合作的桥梁。随着技术的不断进步和应用场景的不断拓展数据可视化将在未来发挥更加重要的作用为我们揭示更多未知的数据奥秘。
本文以二手车市场数据给大家展示数据可视化的其中一种好看的方法。
数据集介绍
数据集来源于Kaggle原始数据集为美国二手车市场用户数据共有7906条18个变量各变量含义如下
Sales_ID(销售ID) name(二手车名称) year(购车年份) selling_price(二手车当前销售价格) km_driven(总行驶公里数) Region(使用地区) State or Province(使用的州或省) City(使用城市) fuel(燃料类型) seller_type(谁在出售汽车) transmission(汽车的变速器类型) owner(业主类型) mileage(汽车行驶里程) engine(发动机功率) Max_power(最大功率) torque(转矩) seats(座位数) sold(二手车是否售出)
可视化方法介绍
读入数据
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.offline import iplot
import warnings
warnings.filterwarnings(ignore)
plt.rcParams [font.sans-serif] SimHei #显示中文
plt.rcParams [axes.unicode_minus]False #显示负号
df pd.read_csv(UserCarData.csv)
df.head()图没有截完时间有限下面我主要给大家科谱图形相关内容别的就不作讲解截图展示就行。 # 二手车名称分析
print(fMost Used Sold Car {df[name].value_counts().idxmax()})
print(fLowest Used Car Sold {df[name].value_counts().idxmin()})
# 使用plotly的express模块来绘制前20个最常被售出的二手车的柱状图
iplot(px.bar( df[name].value_counts()[:20], # 使用前20个最常出现的二手车名称及其计数 labels{value:数量, name:车名}, # 设置图表的标签 colordf[name].value_counts()[:20].index, # 设置每个柱子的颜色为其对应的二手车名称 text_autoTrue, # 自动将计数值添加到柱子上 title二手车销量Top20 # 设置图表的标题
)) # 使用plotly的express模块来绘制前20个最常被售出的二手车年份的柱状图
# 注意这里先对计数进行排序确保年份是按从高到低的顺序显示
# 使用sort_index(ascendingFalse)确保年份是降序排列
iplot(px.bar( df[year].value_counts()[:20].sort_index(ascendingFalse), # 取前20个最常出现的年份并降序排序 labels{value:数量, year:年份}, # 设置图表的标签 color_discrete_sequence[#c72320], # 设置所有柱子的颜色为指定的红色 text_autoTrue, # 自动将计数值添加到柱子上 title二手车出售年份柱状图 # 设置图表的标题
).update_xaxes(type(category)) # 将x轴设置为类别类型确保年份按正确的顺序显示
) 柱状图Bar Chart
定义柱状图也称为条形图是一种用于展示离散数据分布情况的图形。它通过一系列垂直或水平的条形来表示不同类别的数据每个条形的长度或高度代表该类别数据的数值大小。特点 直观易懂柱状图通过条形的高度或长度直接反映数据的数值大小使得数据之间的对比一目了然。 易于比较当需要比较不同类别之间的数据时柱状图可以清晰地展示它们之间的数量关系帮助用户快速识别出数据的差异和趋势。 支持多组数据柱状图可以同时展示多组数据每组数据使用不同的颜色或标记进行区分便于用户进行多组数据的比较和分析。 易于扩展柱状图可以与其他数据可视化元素结合使用如添加数据标签、图例、坐标轴等以提供更丰富的信息。用途 数据分析柱状图常用于数据分析中帮助用户快速了解数据的分布情况和特征发现数据中的规律和问题。 业务报告在业务报告中柱状图可以用来展示销售数据、市场份额、用户活跃度等指标帮助决策者了解业务状况并做出决策。 科学研究在科学研究领域柱状图可以用来展示实验数据、调查结果等帮助研究人员分析数据并得出结论。
# 使用plotly的express模块来绘制一个饼图展示不同地区的二手车销售数量
iplot( px.pie( valuesdf[Region].value_counts(), # 从df的Region列中获取每个地区的销售数量 names[中部,西部,东部,南部], # 这里直接指定了地区的名称但通常应该从数据中获取 title分地区二手车销量占比图 # 设置饼图的标题 ).update_traces(textinfolabelpercent) # 更新图表的轨迹设置添加标签和百分比信息
)# 燃料分析
print(fTop Fuel Used in Used car {df[fuel].value_counts().idxmax()})
print(fLeast Fuel Used in Used car {df[fuel].value_counts().idxmin()})
unique_fuels df[fuel].unique().tolist() # 获取所有唯一的燃料类型
iplot( px.pie( valuesdf[fuel].value_counts(), # 获取每种燃料类型的频数namesunique_fuels, # 使用实际的燃料类型列表 title使用燃料类型占比图 ).update_traces(textinfolabelpercent) # 更新饼图的跟踪信息以显示标签和百分比
) # 打印最常见的卖家类型
print(fMost Type of Seller {df[seller_type].value_counts().idxmax()})
# .value_counts() 方法统计seller_type列中每种卖家类型的频数
# .idxmax() 方法返回频数最高的卖家类型的索引即最常见的卖家类型 # 使用plotly的express模块绘制一个饼图展示不同卖家类型在二手车销售中的比例
iplot( px.pie( valuesdf[seller_type].value_counts(), # 获取每种卖家类型的频数 names[Individual,Dealer,Trustmark_Dealer], # 这里直接指定了卖家类型的名称但可能与实际数据不匹配 title二手车卖家类型占比图 # 设置图表的标题 ).update_traces(textinfolabelpercent) # 更新饼图的跟踪信息以显示标签和百分比
) 饼图是一种用于表示不同类别的数据在总量中所占比例的图形。以下是关于饼图的详细解释
定义 饼图Pie Chart也称为扇形图或圆饼图是一个圆形图表用于展示不同部分与整体之间的关系。它通过将圆形划分为若干个扇区或称为“切片”每个扇区代表一个数据类别扇区的大小即角度或面积表示该类别在总体中所占的比例。特点 直观性饼图通过扇区的大小直观地展示不同类别在总体中的占比情况易于理解和分析。 完整性所有扇区的面积之和等于整个圆的面积即100%这表示数据的完整性。 对比性通过对比不同扇区的大小可以清晰地看出不同类别之间的比例关系。制作要点 数据准备首先需要准备好需要展示的数据并确保所有数据的总和为100%。 扇区划分根据数据的比例关系将圆形划分为若干个扇区。每个扇区的角度或面积应与其在总体中所占的比例相对应。 颜色选择为了增强图表的可读性和美观性可以为不同的扇区选择不同的颜色或图案。 标注在每个扇区中可以添加相应的标签或百分比标注以便更清晰地展示每个类别的具体占比情况。应用场景 群体构成分析如市场调研中可以使用饼图展示不同年龄段、性别或教育程度的调查对象在总人口中的比例。 投资组合分析投资者可以使用饼图展示不同资产在投资组合中的比例以便管理风险和优化投资组合。 销售数据分析通过饼图展示不同产品或服务在整体销售额中的占比情况有助于企业了解各类产品或服务的销售情况进而调整销售策略和资源分配。 用户满意度调查企业可以使用饼图展示用户对产品或服务的满意度分布情况以便改进产品或服务提升用户满意度和忠诚度。
# 打印销售二手车最多的省或州
print(fTop State or Province where Sold Used car {df[State or Province].value_counts().idxmax()})
# .value_counts() 方法统计State or Province列中每个省或州的频数
# .idxmax() 方法返回频数最高的省或州的索引即销售二手车最多的省或州 # 打印销售二手车最少的省或州
# 注意如果有多个省或州的计数都是最少的那么这只会返回其中一个
print(fLeast State or Province where Sold Used car {df[State or Province].value_counts().idxmin()})
# .idxmin() 方法返回频数最低的省或州的索引即销售二手车最少的省或州 # 使用plotly的express模块绘制一个水平柱状图展示销售二手车数量排名前30的省或州
iplot( px.bar( df[State or Province].value_counts().sort_values(ascendingTrue)[:30], # 获取销售数量排名前30的省或州及其频数 orientationh, # 设置柱状图为水平方向 colordf[State or Province][:30].index, # 这里设置颜色通常不会按预期工作因为这里索引可能与排序后的数据不匹配 title二手车销售地区Top榜, # 设置图表的标题 labels{value:销售数量} # 设置图表的标签这里只设置了y轴即省或州的计数标签 )
) # 打印销售二手车最多的城市
print(fTop City where Sold Used car {df[City].value_counts().idxmax()})
# .value_counts() 方法统计City列中每个城市的频数
# .idxmax() 方法返回频数最高的城市的索引即销售二手车最多的城市 # 打印销售二手车最少的城市
# 注意如果有多个城市的计数都是最少的那么这只会返回其中一个
print(fLeast City where Sold Used car {df[City].value_counts().idxmin()})
# .idxmin() 方法返回频数最低的城市的索引即销售二手车最少的城市 # 使用plotly的express模块绘制一个柱状图展示销售二手车数量排名前20的城市
iplot( px.bar( df[City].value_counts().sort_values(ascendingFalse)[:20], # 获取销售数量排名前20的城市及其频数 colordf[City][:20].index, # 这里设置颜色通常不会按预期工作因为这里的索引可能与排序后的数据不匹配 title二手车销售城市Top榜, # 设置图表的标题 labels{value:数量, City:城市}, # 设置图表的标签这里设置了y轴的计数标签 text_autoTrue # 自动在柱状图上显示频数值 )
) # 使用plotly的express模块绘制一个水平柱状图展示二手售出车中最常见的20个转矩值 # iplot 函数用于在Jupyter Notebook等环境中交互式地显示plotly图表
iplot( # 使用px.bar绘制水平柱状图 px.bar( # 对torque列中的转矩值进行计数并按计数降序排列取前20个 df[torque].value_counts().sort_values(ascendingFalse)[:20], # 设置柱状图为水平方向 orientationh, # 尝试设置颜色但这里使用df[torque][:20].index是不正确的因为它会取前20个转矩值的索引而不是计数 # 应该使用一个颜色列表来指定柱状图的颜色 colordf[torque][:20].index, # 注释这行代码可能是错误的因为value_counts()的结果与原始数据的索引不匹配 # 设置图表的标题 title二手车常见转矩TOP20, # 设置图表的标签但这里labels的用法可能不准确plotly通常使用更直接的方式设置轴标签 labels{value:Count,torque:Torque} # 注释这行代码可能不会按预期工作因为plotly使用不同的参数来设置轴标签 ) .update_traces(textpositionoutside) # 假设代码原本还包括这行用于在柱状图外部显示数值标签 .update_layout(xaxis_titleTorque, yaxis_titleCount) # 正确的设置轴标签的方式
) 水平柱状图作为柱状图的一种变体其特点在于条形是水平放置的与常见的垂直柱状图形成对比。以下是关于水平柱状图的详细解释
定义 水平柱状图也称为横向柱状图或条形图是通过一系列水平放置的条形来展示不同类别的数据其中条形的长度表示数据的数值大小。与垂直柱状图相比水平柱状图在数据分类标签较长时更为适用。特点 水平展示与垂直柱状图不同水平柱状图的条形是水平放置的这使得在标签较长或需要更多空间展示标签时更为方便。 易于阅读水平柱状图同样能够清晰地展示数据的对比关系和分布情况其直观性使得数据解读更为简单直接。 适合长标签当数据的分类标签较长时水平柱状图可以更好地利用空间避免标签之间的重叠或截断。用途 数据对比水平柱状图适用于展示不同类别数据之间的对比情况如销售额、用户活跃度等。 时间序列数据尽管垂直柱状图在时间序列数据的展示上更为常见但水平柱状图在某些情况下也能很好地体现数据随时间的变化情况。 大屏展示由于水平柱状图在大屏中占用的空间较大因此在大屏数据可视化项目中水平柱状图可以作为一种有效的展示方式。制作要点 标签方向由于条形是水平放置的因此标签通常位于条形的下方或上方以便与条形相对应。 颜色搭配与垂直柱状图一样水平柱状图也需要注意颜色搭配的合理性以确保图表的清晰度和美观度。 数值标注在每个条形上方或下方标注具体的数值有助于更直观地了解数据的具体大小。
# 行驶里程分析
# 创建一个新的图形窗口并设置其大小为宽度15英寸高度6英寸
plt.figure(figsize(15,6))
# 使用seaborn库中的kdeplot函数来绘制df[mileage]列即行驶里程的核密度估计图
# fillTrue参数表示填充曲线下的区域使图形更加直观
sns.kdeplot(df[mileage], fillTrue)
# 设置x轴的标签为Mileage即行驶里程
plt.xlabel(行驶里程)
# 显示图形
plt.show()本篇废话不多全是干货。
创作不易点赞、评论、转发三连走起