数据分析中 pandas 库的基本用法详解

上篇分享了数据分析用到的一个库:Numpy 库,今天分享一个比 Numpy 更高效的库:pandas,它可以对数据进行导入、清洗、处理、统计和输出。pandas 是基于 Numpy 库的,可以说,pandas 库就是为数据分析而生的。

环境

语言:Python 3.6

安装&导入

用 pip 命令快速安装 pandas 库。

安装完后再编辑器中导入。

读取文件

读取你的 excel 文件,并另存为 csv 格式的文件。

读取过程中可能会报错,提示你缺少 xlrd 模块的情况,用 pip 命令安装即可。

打印出读取到的数据,我们发现,文件中单元格为空的数据以 NAN 代替了。

当然,也可以直接读取文件并打印,不给参数的话默认只打印前 5 行数据。以我之前爬取的热门歌手文件为例。

打印结果如下:

清洗数据

我们知道,从事数据分析工作的,80% 的时间都花在数据清洗上面,因为我们从各个渠道获取的信息格式不统一,我们需要对他们进行清洗。

清洗数据主要内容如下:

  • 删除 DataFrame 中的不必要列和行。
  • 重命名 columns 为一组更易识别的标签。
  • 更改数据格式。
  • 去除数据间空格或者特定字符。
  • 去除重复的行。
  • 查找空值。

删除行或者列

我们还是以刚才歌手信息为例,为了看删除效果,我加了一列信息:性别,下面只显示部分信息。

删除性别这一列。

执行后发现刚加的「性别」这一列已被删除。

删除某一行,比如删除李荣浩这一行信息,我们通过上面可以知道这一行的 index 是 4。

执行后结果如下,我们发现,index 为 4 的这一行信息已被删除。

重命名列名

用 rename 方法将列名修改成自己需要的列名,比如歌手名字换成 SName。

更改数据格式

用 astype 更改数据格式。

删除数据间空格

去除重复的行

用自带的方法一行代码可以搞定。

查找空值

我们可以用 isnull 方法查找数据中的空值或者 NAN,返回的是 Boolean 类型,False 表示不是空值,True 表示空值。

为了展示效果,我执行前去掉了第 5 行的信息,所以第 5 行出现一个 True。

数据统计

上周讲 Numpy 库时也讲到了对数据的统计,计算数据最大值、最小值、平均值、方差、标准差等。pandas 也可以做这些工作,而且 pandas 中的 describe 可以直接显示这个数据。

我们先创建一个科目成绩的数据。

数据如下:

我们用 describe 方法直接显示这些统计数据。

结果如下:

多表合并

如果我们有多个数据表,我们需要对他进行合并处理。以下这些知识点和 SQL 很相似,如果你对 SQL 语句熟悉的话,以下很容易理解

对相同的列进行合并

两个表中,语数外是相同的,进行合并,结果如下:

内连接

也就是两个数据表中的交集部分。

结果显示两个表中相同的数据。

左连接

以左表为主,右表只显示交集部分的数据。

执行结果:

右连接

以右表为主,左表只显示交集部分的数据。

执行结果:

全连接

显示两个表数据的并集。

执行结果:

pandas 库的对于数据分析的基本用法就介绍到这里。

 

文章为pk哥原创,我在我的公众号: Python 知识圈 上会分享更多心得体会,你也可以关注。

***版权申明:本文为 Python知识圈 pyzhishiquan.com 原创,没有Python知识圈书面授权,请勿以任何形式转载,摘编,复制或镜像。***

为您推荐

发表评论

电子邮件地址不会被公开。