龙岩app定制,中国seo谁最厉害,设计本app下载,苏州姑苏区专业做网站Pandas是一个基于 NumPy 的非常强大的开源数据处理库#xff0c;它提供了高效、灵活和丰富的数据结构和数据分析工具#xff0c;当涉及到数据分析和处理时#xff0c;使得数据清洗、转换、分析和可视化变得更加简单和高效。本文中#xff0c;我们将学习如何使用Pandas来处理…Pandas是一个基于 NumPy 的非常强大的开源数据处理库它提供了高效、灵活和丰富的数据结构和数据分析工具当涉及到数据分析和处理时使得数据清洗、转换、分析和可视化变得更加简单和高效。本文中我们将学习如何使用Pandas来处理和分析数据。
首先我们需要安装Pandas库。您可以使用以下命令来安装它
pip install pandas安装完成后我们可以开始使用Pandas了。首先让我们导入Pandas库
import pandas as pdPandas 的两个主要的数据结构是 Series 和 DataFrame。Series 是一维数组可以存储任意类型的数据DataFrame 是二维表格数据结构可以看做是一系列 Series 对象的集合每个 Series 对象代表一列数据。下面我们来学习下这两种数据结构。
1.Series
Series是Pandas中的一维数据结构类似于一维数组或列表。它可以存储任何数据类型并且每个元素都有一个与之关联的标签称为索引。 在创建一个 Series 时我们可以通过指定索引来为每个元素进行命名这样一来就可以通过索引来访问和操作这些元素。在访问 Series 中的元素时我们同样需要使用索引来指定要访问的位置。
以下是创建Series的一个示例
import pandas as pd
import numpy as npdata pd.Series([1, 3, 5, np.nan, 6, 8])
# 自建索引
data pd.Series([1, 3, 5, np.nan, 6, 8], index)
# 通过字典直接创建带索引的数据
data pd.Series({0: 1, 1: 3, 2: 5, 3: np.nan, 4: 6, 5: 8 })
print(data)输出结果
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64在上面的示例中我们创建了一个包含整数和NaN值的Series。可以看到每个元素都有一个索引。与传统的数组和列表不同Pandas 的索引可以是任意数据类型包括整数、字符串、日期等。索引有助于对数据进行标记和命名使得数据的访问更加方便和直观。
在 Pandas 的 DataFrame 中索引的作用更加重要。除了可以为每一行和每一列指定索引外DataFrame 还支持多级索引也就是可以为行和列同时指定多个索引。这为多维数据的处理提供了更多的灵活性和功能性。通过索引我们可以轻松地从 DataFrame 中选择特定的行数和列数我们可以通过指定行索引和列索引来选择任意子集的数据也可以通过使用条件表达式来筛选满足特定条件的数据。
2.DataFrame
DataFrame是Pandas中的二维数据结构类似于Excel表格或SQL表。它由行和列组成并且可以存储不同类型的数据。在Pandas中我们可以使用pd.DataFrame()函数来创建DataFrame。在这个函数中我们可以通过参数columns来指定DataFrame的列索引也就是字段名或列名。通过这个参数我们可以定义每一列的名称方便后续对数据框中的数据进行索引和操作。
如果我们想要自定义索引值可以在pd.DataFrame()函数中使用参数index来实现。通过指定index参数我们可以为每一行指定一个唯一的标识符可以是字符串、整数或其他数据类型。这样一来就可以更灵活地根据指定的索引值来获取和操作数据框中的数据。通过这种方式我们可以根据具体的需求来定义数据框的索引并且能够更好地满足我们对数据的处理和分析的需求。
以下是创建DataFrame的一个示例
import pandas as pddata {name: [John, Emma, Mike, Lisa],age: [28, 24, 32, 35],city: [New York, London, Paris, Tokyo]}
df pd.DataFrame(data)
print(df)
# 通过columns指定DataFrame的列索引
data [[1,Bob, 24, American],[2, Nancy, 23, Australia],[3, Lili, 22, China],[4, Leo, 27, M78],[5, David, 24, moon]]
df pd.DataFrame(data, columns[serial, name, age, from,])
# 自定义索引
df pd.DataFrame(data, columns[serial, name, age, from], index[a,b,c,d,e])print(df)输出结果 name age city
0 John 28 New York
1 Emma 24 London
2 Mike 32 Paris
3 Lisa 35 Tokyoserial name age from
a 1 Bob 24 American
b 2 Nancy 23 Australia
c 3 Lili 22 China
d 4 Leo 27 M78
e 5 David 24 moon在上面的示例中我们使用一个字典来创建DataFrame。字典的键是列名而字典的值是该列的数据。同样地我们也使用了列表来创建data这个嵌套列表中每一个子列表为 DataFrame 的一行是不是和我们创建上面Series有点异曲同工实际上 DataFrame 的每一行或者每一列都可以看作一个 Series。 接下来让我们看一些常用的数据操作和分析技巧。
3. 数据操作
3.1 选择和过滤
Pandas提供了多种方法来选择和过滤数据。以下是一些常用的方法
#选择列可以使用列名或列索引来选择列。
df[name]
#选择行可以使用行索引来选择行。
df.loc[a]
#过滤行可以使用条件表达式来过滤行。
df[df[age] 30]
# 切片方式访问
print(df.iloc[1:3]) # 访问第二行到第三行数据输出的结果如下
a Bob
b Nancy
c Lili
d Leo
e David
Name: name, dtype: objectserial 1
name Bob
age 24
from American
Name: a, dtype: objectserial name age from
a 1 Bob 24 American
d 4 Leo 27 M78
e 5 David 24 moonserial name age from
b 2 Nancy 23 Australia
c 3 Lili 22 China3.2 数据排序
Pandas提供了排序数据的功能。以下是一个示例
df df.sort_values(byage, ascendingFalse)
print(df)在上面的示例中我们按照年龄列对数据进行降序排序。输出结果如下 serial name age from
d 4 Leo 27 M78
a 1 Bob 24 American
e 5 David 24 moon
b 2 Nancy 23 Australia
c 3 Lili 22 China3.3 数据聚合
Pandas提供了聚合数据的功能。假设我们上述的示例中增加一个为年级grade),
data [[1,Bob, 24, American, high-school],[2, Nancy, 23, Australia, college],[3, Lili, 22, China, college],[4, Leo, 27, M78, university],[5, David, 24, moon, high-school]]df pd.DataFrame(data, columns[serial, name, age, from, grade], index[a,b,c,d,e])
# 聚合按grade分组并计算分组后的平均年龄
xdf df.groupby(grade)[age].mean()
print(xdf)输出结果如下:
grade
college 22.5
high-school 24.0
university 27.0
Name: age, dtype: float64在上面的示例中我们按照年级列对数据进行分组并计算每个年级的平均年龄。
3.4 数据可视化
Pandas还提供了数据可视化的功能。以下是一个示例
# 此处需引入matplotlib
import matplotlib.pyplot as plotdf.plot(kindbar, xname, yage)
plot.show() # 显示图像在上面的示例中我们使用柱状图来可视化姓名和年龄数据。这只是Pandas的一小部分功能。它还提供了许多其他功能如数据清洗、缺失值处理、数据合并、数据透视表等。 4.一些高级用法
4.1 多级索引
Pandas的多级索引功能非常强大它允许我们在一个DataFrame中创建复杂的层次结构索引从而更灵活地组织和分析数据。一个常见的应用场景是使用多级索引来表示时间序列数据比如将年份和季度作为索引的两个层级。
通过创建多级索引我们可以将数据按照不同的层级进行划分和聚合。例如我们可以根据年份来对数据进行分组然后在每个年份内再按照季度进行分组。这样我们可以更方便地进行各种统计分析比如计算每个季度的平均值、总和等。
import pandas as pd# 创建多级索引
index pd.MultiIndex.from_tuples([(2019, Q1), (2019, Q2), (2020, Q1), (2020, Q2)])
data pd.DataFrame({Sales: [100, 200, 150, 250]}, indexindex)
# 查询特定季度的销售数据
print(data.loc[(2020, Q1)])
# 查询特定年份的销售数据
print(data.loc[2020])输出结果如下
Sales 150
Name: (2020, Q1), dtype: int64Sales
Q1 150
Q2 250在创建多级索引时我们可以使用Pandas的MultiIndex类来指定索引的层级和标签。通过指定层级的名称和对应的标签值我们可以轻松地创建一个具有多级索引的DataFrame。
使用多级索引可以带来很多好处比如提高数据的查询效率、简化数据的操作和分析等。但同时也需要注意在使用多级索引时要避免索引混淆和数据结构复杂度过高的问题。因此在使用多级索引时需要根据具体的需求和数据特点来灵活应用。
4.2 透视表
透视表是一种根据数据中的一个或多个列创建汇总表格的方法。Pandas提供了pivot_table函数可以方便地对数据进行聚合和分析。 通过pivot_table函数我们可以指定一个或多个列作为行索引另一个或多个列作为列索引然后根据指定的聚合函数对数据进行汇总。这样我们就可以快速计算出各个行和列对应的统计量比如平均值、总和、计数等。
import pandas as pd# 创建一个包含销售数据的DataFrame
data pd.DataFrame({Year: [2019, 2019, 2020, 2020],Quarter: [Q1, Q2, Q1, Q2],Product: [A, B, A, B],Sales: [100, 200, 150, 250]})
# 创建透视表
pivot_table data.pivot_table(indexYear, columnsQuarter, valuesSales, aggfuncsum)
# 打印透视表
print(pivot_table)输出如下:
Quarter Q1 Q2
Year
2019 100 200
2020 150 250Pandas的透视表功能为我们提供了一种方便、灵活的数据聚合和分析方法可以帮助我们更好地理解和利用数据。透视表的好处在于它提供了一种直观、简洁的方式来查看和分析数据。通过透视表我们可以轻松地对数据进行切片、切块和筛选从而更深入地了解数据的特征和关系。
使用透视表时我们可以根据具体的需求选择合适的聚合函数、行列索引和筛选条件以获取我们想要的分析结果。透视表不仅适用于单个DataFrame还可以用于多个DataFrame的合并和分析。
4.3 时间序列分析
在处理时间序列数据方面Pandas提供了灵活且高效的功能。它的日期和时间处理功能包括日期范围生成、日期索引、日期加减运算、日期格式化等。你可以轻松地创建日期范围并使用这些日期作为数据的索引便于对时间序列数据进行操作和分析。
Pandas还支持重采样操作可以将时间序列数据从一个频率转换为另一个频率。例如你可以将按天采样的数据转换为按月采样的数据或者将按小时采样的数据转换为按分钟采样的数据。重采样功能允许你根据需要灵活地调整数据的粒度和频率。 import pandas as pd# 创建一个包含时间序列数据的DataFramedata pd.DataFrame({Date: pd.date_range(start2020-01-01, periods10),Sales: [100, 200, 150, 250, 180, 120, 300, 350, 400, 250]})# 将日期列设置为索引data.set_index(Date, inplaceTrue)
# 计算每周销售总额weekly_sales data.resample(W).sum()
# 打印每周销售总额print(weekly_sales)输出结果如下 Sales
Date
2020-01-05 880
2020-01-12 1420此外Pandas提供了滑动窗口操作可以在时间序列数据上执行滑动窗口统计计算。你可以定义窗口的大小和滑动的步长并针对窗口内的数据进行汇总、聚合或其他计算操作。这对于处理时间序列数据中的移动平均值、滚动求和等任务非常有用。
5. Pandas处理Excel文件
当使用Pandas处理Excel文件时你可以使用read_excel()函数来读取Excel数据并将其加载到一个DataFrame中。下面是一个简单的示例
import pandas as pd# 读取Excel文件
df pd.read_excel(data.xlsx, sheet_nameSheet1)# 显示DataFrame的前几行数据
print(df.head())在这个例子中我们假设存在一个名为data.xlsx的Excel文件其中包含一个名为Sheet1的工作表。通过调用read_excel()函数我们将这个Excel文件读取并加载到名为df的DataFrame中。然后我们使用head()方法显示DataFrame的前几行数据。
接下来我们可以对读取的数据进行各种操作和处理。下面是一些常见的操作示例
python
复制代码
# 筛选特定列数据
selected_columns [Name, Age]
filtered_data df[selected_columns]# 按条件筛选数据
condition df[Age] 25
filtered_data df[condition]# 数据排序
sorted_data df.sort_values(byAge, ascendingFalse)# 添加新列
df[Gender] [Male, Female, Male, Female, Male]# 写入到新的Excel文件
df.to_excel(new_data.xlsx, indexFalse)在上述示例中我们展示了一些常见的操作。例如我们筛选了特定列的数据、根据条件筛选数据、对数据进行排序并在DataFrame中添加了新的列。最后我们使用to_excel()方法将处理后的数据写入到一个名为new_data.xlsx的新Excel文件中。
这只是Pandas处理Excel文件的一小部分功能示例。Pandas提供了更多强大且灵活的功能可以帮助你根据具体需求对Excel数据进行处理、清洗和分析。
5. 总结
本文这些示例只是Pandas应用的一小部分只是为了使我们在学习中对Pandas有初步的了解。Pandas还提供了许多其他强大的功能使数据分析和处理更加便捷。下面是一些扩展的Pandas功能
合并数据Pandas提供了多种方法来合并不同的数据集例如使用merge()函数按照指定的列将多个DataFrame进行合并使用concat()函数沿着指定轴将多个DataFrame堆叠在一起以及使用join()函数根据索引或列的值进行连接。拆分数据你可以使用split()函数将包含多个值的单个列拆分成多个列从而使数据更加规整和易于处理。过滤数据Pandas提供了各种方法来筛选和过滤数据如使用布尔条件进行行过滤使用filter()函数根据列名进行列过滤以及使用query()函数根据指定条件查询数据。处理缺失值在现实数据中经常会出现缺失值问题。Pandas提供了灵活的方法来处理缺失值如使用isnull()和notnull()函数检测缺失值使用dropna()函数删除包含缺失值的行或列以及使用fillna()函数填充缺失值。处理字符串如果你需要对文本数据进行处理Pandas提供了一系列处理字符串的方法如使用str.contains()函数检测包含特定子串的值使用str.replace()函数替换字符串以及使用str.extract()函数提取符合指定模式的字符串。
上一篇教程:Python基础教程:Matplotlib图形绘制
除了上述功能Pandas还支持数据透视表、时间序列分析、数据可视化等高级功能。如果你想深入学习和掌握这些功能可以查阅[Pandas官方文档](pandas - Python Data Analysis Library (pydata.org))也可以参考一些专门针对Pandas的书籍和在线教程:如Pandas中文网。后续教程中也会深入讲解Pandas的使用。
如果你对Python感兴趣想要学习python这里给大家分享一份Python全套学习资料都是我自己学习时整理的希望可以帮到你一起加油
有需要的小伙伴可以点击下方链接免费领取或者V扫描下方二维码免费领取 Python全套学习资料 1️⃣零基础入门
① 学习路线
对于从来没有接触过Python的同学我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线你可以按照上面的知识点去找对应的学习资源保证自己学得较为全面。
② 路线对应学习视频
还有很多适合0基础入门的学习视频有了这些视频轻轻松松上手Python~
③练习题
每节视频课后都有对应的练习题哦可以检验学习成果哈哈
2️⃣国内外Python书籍、文档
① 文档和书籍资料 3️⃣Python工具包项目源码合集
①Python工具包
学习Python常用的开发软件都在这里了每个都有详细的安装教程保证你可以安装成功哦
②Python实战案例
光学理论是没用的要学会跟着一起敲代码动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。100实战案例源码等你来拿
③Python小游戏源码
如果觉得上面的实战案例有点枯燥可以试试自己用Python编写小游戏让你的学习过程中增添一点趣味
4️⃣Python面试题
我们学会了Python之后有了技能就可以出去找工作啦下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂并且有阿里大佬给出了权威的解答刷完这一套面试资料相信大家都能找到满意的工作。
5️⃣Python兼职渠道
而且学会Python以后还可以在各大兼职平台接单赚钱各种兼职渠道兼职注意事项如何和客户沟通我都整理成文档了。
上述所有资料 ⚡️ 朋友们如果有需要的可以扫描下方二维码免费领取