Python数据分析第四课：数据的处理（数据合并、数据筛选、数据排序）

时间：2021-07-02 16:38:21 收藏：0 阅读：0

一、数据合并

数据合并主要包括两种操作：

轴向连接（concatenation）：pd.concat()可以沿一个轴将多个DataFrame对象连接在一起，形成一个新的DataFrame对象
融合（merging）：pd.merge()方法可以根据一个或多个键将不同的DataFrame中的行连接在一起

1. 轴向连接pd.concat

pd.concat()函数可以将根据不同的轴进行合并，常用参数如下：

pd.concat(objs,axis=0,join=‘outer‘)

objs：Series、DataFrame或者是panel构成的序列list
axis：需要合并链接的轴，0是行，1是列，默认为0
join：连接的方式inner,或者outer，默认是outer

    import pandas as pd
    
    dict_1 = {
             ‘A‘:[‘A0‘,‘A1‘,‘A2‘,‘A3‘],
             ‘B‘:[‘B0‘,‘B1‘,‘B2‘,‘B3‘],
             ‘C‘:[‘C0‘,‘C1‘,‘C2‘,‘C3‘]}
    df1 = pd.DataFrame(dict_1)
    df1

A	B	C
0	A0	B0
1	A1	B1
2	A2	B2
3	A3	B3

    dict_2 = {
             ‘B‘:[‘B0‘,‘B1‘,‘B2‘,‘B3‘],
             ‘C‘:[‘C0‘,‘C1‘,‘C2‘,‘C3‘],
             ‘D‘:[‘D0‘,‘D1‘,‘D2‘,‘D3‘]}
    df2 = pd.DataFrame(dict_2)
    df2

B	C	D
0	B0	C0
1	B1	C1
2	B2	C2
3	B3	C3

当使用pd.concat()默认参数合并df1和df2时：

    df3 = pd.concat([df1,df2], axis=0, join=‘outer‘)
    df3

A	B	C	D
0	A0	B0	C0
1	A1	B1	C1
2	A2	B2	C2
3	A3	B3	C3
0	NaN	B0	C0
1	NaN	B1	C1
2	NaN	B2	C2
3	NaN	B3	C3

通过以上的结果发现，当join=‘outer’，axis参数为0时，列进行并集处理，纵向表拼接，缺失值由NaN填充，并且会保留原有数据的行索引。

如果两个表的Index都没有实际含义，使用ignore_index参数，设置成True，即可重新整理一个新的index。

pd.concat([df1,df2],axis=0,join=‘outer‘,ignore_index=True

    df4 = pd.concat([df1,df2],axis=0,join=‘outer‘,ignore_index=True)
    df4

A	B	C	D
0	A0	B0	C0
1	A1	B1	C1
2	A2	B2	C2
3	A3	B3	C3
4	NaN	B0	C0
5	NaN	B1	C1
6	NaN	B2	C2
7	NaN	B3	C3

当我们将concat()的axis参数调整为1，合并df1和df2时：

    df5 = pd.concat([df1,df2],axis=1,join=‘outer‘)
    df5

A	B	C	B	C	D
0	A0	B0	C0	B0	C0
1	A1	B1	C1	B1	C1
2	A2	B2	C2	B2	C2
3	A3	B3	C3	B3	C3

    当我们将concat()的join参数调整为inner，合并df1和df2时：

    df6 = pd.concat([df1,df2],axis=0,join=‘inner‘)
    df6

B	C
0	B0
1	B1
2	B2
3	B3
0	B0
1	B1
2	B2
3	B3

通过以上的结果可知：

如果join参数为inner，得到的是两表的交集；
如果join参数为outer，得到的是两表的并集。

2. 融合pd.merge()

pd.merge()的常用参数如下：

pd.merge(left,right,how=‘inner‘,on=None)

参数介绍：

left和right：两个要合并的DataFrame
how：连接方式，有inner、left、right、outer,默认为inner
on：指的是用于连接的列索引名称，必须存在于左右两个DataFrame，如果没有指定且其他参数也没有指定，则以两个DataFrame列名交集作为连接键

    import pandas as pd
    left = pd.DataFrame({‘key‘:[‘a‘,‘b‘,‘b‘,‘d‘],‘data1‘:range(4)})
    left

[/code]

|  key  |  data1  
---|---|---  
0  |  a  |  0  
1  |  b  |  1  
2  |  b  |  2  
3  |  d  |  3

```code
    right = pd.DataFrame({‘key‘:[‘a‘,‘b‘,‘c‘],‘data2‘:range(3)})
    right

key	data2
0	a
1	b
2	c

    df7 = pd.merge(left,right)
    df7

key	data1	data2
0	a	0
1	b	1
2	b	2

merge()默认采用inner连接，并且使用两个DataFrame的列名交集（key）作为连接键，同意，最终连接的数据也是两个DataFrame
key列数据的交集

当两个DataFrame使用outer连接时：

    df8= pd.merge(left,right,on=[‘key‘],how=‘outer‘)
    df8

key	data1	data2
0	a	0.0
1	b	1.0
2	b	2.0
3	d	3.0
4	c	NaN

当merge()做outer连接时，最终连接的数据是两个DataFrame key列数据的并集，确实内容由NaN填充

当两个DataFrame使用left连接时：

    df9 = pd.merge(left,right,on=[‘key‘],how=‘left‘)
    df9

key	data1	data2
0	a	0
1	b	1
2	b	2
3	d	3

当merge()做left连接时，最终连接的数据是以left数据的链接键为基准合并两个数据的列数据，确实的内容由NaN填充

那么，当两个DataFrame使用right连接时，会发生什么呢？

    df10= pd.merge(left,right,on=[‘key‘],how=‘right‘)
    df10

key	data1	data2
0	a	0.0
1	b	1.0
2	b	2.0
3	c	NaN

两种合并方式的应用场景：

有两张表格分别存储了9月和10月份的成交信息，此时可以使用concat()将两个表沿0轴合并
现在有两张表格，一个是城郊型，包含订单号、金额、客户ID等；第二个是客户信息，包含客户ID、姓名、电话号码等信息，此时可以使用merge()根据客户ID讲两个表合并成一个完整的表

二、数据的筛选

前面的内容中，我们学习了如何获取一条数据或连续的多条数据，但实际工作中我们经常需要处理上万条。，甚至更多的数据。
那么，要如何才能快速的筛选出符合条件的数据呢？

    import pandas as pd
    
    # 导入数据
    df = pd.read_csv(r‘C:\Users\lin-a\Desktop\data\mouhu_users_2017.csv‘)
    # 了解数据基本情况
    print(df.shape)
    df.head()

    (72756, 7)

_id	关注的收藏夹	关注	关注者	关注的问题	关注的话题	关注的专栏
0	587598f89f11daf90617fb7a	52	17	1	30	58
1	587598f89f11daf90617fb7c	27	73	15	87	26
2	587598f89f11daf90617fb7e	72	94	1	112	20
3	587598f89f11daf90617fb80	174	84	8	895	30
4	587598f89f11daf90617fb82	3	236	64	119	44

1. 要将关注者超过100的用户数据获取出来

    bools = df[‘关注者‘]>100
    bools

    0        False
    1        False
    2        False
    3        False
    4        False
             ...  
    72751    False
    72752    False
    72753    False
    72754    False
    72755    False
    Name: 关注者, Length: 72756, dtype: bool

    df1 = df[bools]
    print(df1.shape)
    df1

    (5501, 7)

_id	关注的收藏夹	关注	关注者	关注的问题	关注的话题	关注的专栏
79	587598f89f11daf90617fc18	8	111	3049	1216	45
101	587598f89f11daf90617fc44	61	123	205	670	24
112	587598f99f11daf90617fc5a	1	804	197	830	39
114	587598f99f11daf90617fc5e	44	62	201	314	8
121	587598f99f11daf90617fc6c	44	628	6597	1566	144

69
... | ... | ... | ... | ... | ... | ... | ...
72694 | 5878399e9f11da09c8fe690e | 3 | 172 | 219 | 466 | 68 | 11
72700 | 5878399e9f11da09c8fe691a | 21 | 39 | 281 | 51 | 45 | 2
72713 | 5878399e9f11da09c8fe6934 | 49 | 635 | 248 | 1772 | 151 |
123
72726 | 5878399e9f11da09c8fe694e | 447 | 62 | 728 | 14 | 1 | 21
72741 | 5878399e9f11da09c8fe696c | 3546 | 390 | 142 | 25 | 4 |
126

5501 rows × 7 columns

来复盘一下以上代码的逻辑：

首先判断每个用户的关注者数量是否大于100，大于则返回True，表示该行被标记为True，否则被标记为False。bools记录了每一行是否符合筛选条件，是一个Series对象，其中的值是bool类型。

    bools = df[‘关注者‘]>100

然后，根据bools每行的值来对df进行筛选，值为True，表示对应的行会留下，否则去除

    df1 = df[bools]

最后打印的df1数据就是关注者超过100的用户数据。这是pandas根据某列的值进行筛选的基本逻辑

根据某列的值进行筛选的逻辑如上所述，那么，如果要进行多条件的联合筛选呢？

2. 获取关注者超过300切关注的数量超过100的用户数据

    import pandas as pd
    # 导入数据
    df = pd.read_csv(r‘C:\Users\lin-a\Desktop\data\mouhu_users_2017.csv‘)
    # 查看数据基本情况
    df

_id	关注的收藏夹	关注	关注者	关注的问题	关注的话题	关注的专栏
0	587598f89f11daf90617fb7a	52	17	1	30	58
1	587598f89f11daf90617fb7c	27	73	15	87	26
2	587598f89f11daf90617fb7e	72	94	1	112	20
3	587598f89f11daf90617fb80	174	84	8	895	30
4	587598f89f11daf90617fb82	3	236	64	119	44
...	...	...	...	...	...	...
72751	5878399e9f11da09c8fe6980	112	77	27	39	2
72752	5878399e9f11da09c8fe6982	15	90	16	61	116
72753	5878399e9f11da09c8fe6984	7	19	1	25	12
72754	5878399e9f11da09c8fe6986	14	320	3	68	38
72755	5878399e9f11da09c8fe6988	7	1	2	7	15

72756 rows × 7 columns

    bool_1 = df[‘关注者‘]>300
    bool_2 = df[‘关注‘]>100
    df2 = df[bool_1 & bool_2]
    df2

_id	关注的收藏夹	关注	关注者	关注的问题	关注的话题	关注的专栏
79	587598f89f11daf90617fc18	8	111	3049	1216	45
121	587598f99f11daf90617fc6c	44	628	6597	1566	144

69
155 | 587598f99f11daf90617fcb0 | 194 | 250 | 1103 | 10 | 1 | 19
228 | 587598f99f11daf90617fd42 | 48 | 224 | 1450 | 360 | 128 |
20
261 | 587598f99f11daf90617fd84 | 1125 | 842 | 24848 | 108 | 33 |
27
... | ... | ... | ... | ... | ... | ... | ...
72173 | 5878399b9f11da09c8fe64fc | 38 | 5000 | 1386 | 2205 | 25 |
6
72416 | 5878399d9f11da09c8fe66e2 | 661 | 299 | 457 | 32 | 4 | 9
72463 | 5878399d9f11da09c8fe6740 | 274 | 209 | 1556 | 2405 | 188
| 318
72648 | 5878399e9f11da09c8fe68b2 | 10 | 278 | 471 | 763 | 66 |
12
72661 | 5878399e9f11da09c8fe68cc | 756 | 491 | 414 | 229 | 2 |
58

1921 rows × 7 columns

复盘以上的代码：

通过2个限制条件df[‘关注者’]>300和df[‘关注’]>100，分别得到bool_1和bool_2这2个Series
因为我们的需求是要同时满足两个条件，所以使用逻辑运算符连接两个值
最后获取同时满足两个条件的值

3. 数据筛选的第二种方法

使用loc[]方法实现筛选的效果。

    import pandas as pd
    
    # 导入数据
    df = pd.read_csv(r‘C:\Users\lin-a\Desktop\data\mouhu_users_2017.csv‘)
    # 了解数据基本情况
    print(df.shape)
    df.head()

    (72756, 7)

_id	关注的收藏夹	关注	关注者	关注的问题	关注的话题	关注的专栏
0	587598f89f11daf90617fb7a	52	17	1	30	58
1	587598f89f11daf90617fb7c	27	73	15	87	26
2	587598f89f11daf90617fb7e	72	94	1	112	20
3	587598f89f11daf90617fb80	174	84	8	895	30
4	587598f89f11daf90617fb82	3	236	64	119	44

    # 获取关注者超过100的用户数据
    df_new = df.loc[df[‘关注者‘]>100]
    df_new

_id	关注的收藏夹	关注	关注者	关注的问题	关注的话题	关注的专栏
79	587598f89f11daf90617fc18	8	111	3049	1216	45
101	587598f89f11daf90617fc44	61	123	205	670	24
112	587598f99f11daf90617fc5a	1	804	197	830	39
114	587598f99f11daf90617fc5e	44	62	201	314	8
121	587598f99f11daf90617fc6c	44	628	6597	1566	144

5501 rows × 7 columns

三、数据的排序

在数据获取过程中，数据的排序也是我们经常需要处理的问题。例如：我们需要找出关注者数量前10的用户信息

技术图片

可以使用sort_index()、sort_values()两个方法对数据进行排序，并且这两个方法Series和DataFrame都支持

那么，DataFrame的这两个方法有什么区别呢？

sort_index()方法是按照行进行排序
sort_values()可以指定具体列进行排序

1. 根据国家名称来进行排序

    import pandas as pd
    
    people = pd.read_excel(r‘C:\Users\lin-a\Desktop\data\rate.xlsx‘,index_col=‘Country Code‘)
    people

| CountryName | 1990 | 2000 | 2007 | 2008 | 2009 | 2010 | 2011

2012	2013	2014	2015	Change 1990-2015	Change 2007-2015
Country Code
AFG	Afghanistan	101.094930	103.254202	100.000371
100.215886	100.060480	99.459839	97.667911	95.312707
92.602785	89.773777	86.954464	-14.140466	-13.045907
ALB	Albania	61.808311	59.585866	50.862987	49.663787
48.637067	NaN	46.720288	45.835739	45.247477	44.912168
44.806973	-17.001338	-6.056014
DZA	Algeria	87.675705	62.886169	49.487870	48.910002
48.645026	48.681853	49.233576	49.847713	50.600697
51.536631	52.617579	-35.058127	3.129709
ASM	American Samoa	NaN	NaN	NaN	NaN
NaN	NaN	NaN	NaN	NaN	NaN
ADO	Andorra	NaN	NaN	NaN	NaN
NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...
...	...	...	...	...
VIR	Virgin Islands (U.S.)	53.546901	52.647183	49.912779
50.459425	51.257336	52.382523	53.953515	55.687666
57.537152	59.399244	61.199651	7.652751	11.286872
WBG	West Bank and Gaza	102.789182	100.410470	88.367099
86.204936	84.173732	82.333762	80.851747	79.426778
78.118403	76.975462	76.001869	-26.787313	-12.365230
YEM	Yemen, Rep.	118.779727	105.735754	88.438350	85.899643
83.594489	81.613924	80.193948	78.902603	77.734373
76.644268	75.595147	-43.184581	-12.843203
ZMB	Zambia	100.485263	97.124776	98.223058	98.277253
98.260795	98.148325	97.854237	97.385802	96.791310
96.122165	95.402326	-5.082936	-2.820732
ZWE	Zimbabwe	96.365244	84.877487	81.272166	81.024020
80.934968	80.985702	80.740494	80.579870	80.499816
80.456439	80.391033	-15.974211	-0.881133

219 rows × 14 columns

    people.sort_index(inplace=True,ascending=True)
    people.head()

| CountryName | 1990 | 2000 | 2007 | 2008 | 2009 | 2010 | 2011

2012	2013	2014	2015	Change 1990-2015	Change 2007-2015
Country Code
ABW	Aruba	47.500831	44.420778	43.475981	43.957839
44.531061	45.157235	44.993173	44.706680	44.355302
44.070252	43.952390	-3.548441	0.476409
ADO	Andorra	NaN	NaN	NaN	NaN
NaN	NaN	NaN	NaN	NaN	NaN
AFG	Afghanistan	101.094930	103.254202	100.000371
100.215886	100.060480	99.459839	97.667911	95.312707
92.602785	89.773777	86.954464	-14.140466	-13.045907
AGO	Angola	101.394722	100.930475	102.563811	102.609186
102.428788	102.035690	102.106756	101.836900	101.315234
100.637667	99.855751	-1.538971	-2.708060
ALB	Albania	61.808311	59.585866	50.862987	49.663787
48.637067	NaN	46.720288	45.835739	45.247477	44.912168
44.806973	-17.001338	-6.056014

复盘以上代码：

read_excel()中的参数index_col=‘Country Code’作用是在读取文件的时候指定Country Code这一列数据作为行索引
inplace=True参数和我们之前见过的作用一样，用来控制是否直接对原始数据进行修改
ascengding可以控制排序的顺序，默认值True小到大升序排列，但设置为False时就可以实现降序排列

2. 获取关注者数据前十的用户数据

那么我们需要根据关注者这一列数据进行排序。

    import pandas as pd
    
    user = pd.read_csv(r‘C:\Users\lin-a\Desktop\data\mouhu_users_2017.csv‘)
    user.sort_values(by=‘关注者‘,ascending=False,inplace=True)
    user.head(10)

_id	关注的收藏夹	关注	关注者	关注的问题	关注的话题	关注的专栏
23313	5876ee159f11da03c9726155	3181	1053	585787	93	33
26
14461	5876ede89f11da03c9721c33	1041	254	356246	92	3

23
22048 | 5876ee0c9f11da03c9725773 | 41 | 72 | 351414 | 336 | 47 |
16
52464 | 5876ece59f11da03afbc71b3 | 1652 | 794 | 308553 | 23 | 1 |
112
42135 | 5876eb5a9f11da0399d461b7 | 1182 | 532 | 268353 | 23 | 1 |
54
63579 | 5878396e9f11da09c8fe21e6 | 10819 | 1412 | 198199 | 90 | 1
| 517
21740 | 5876ee0b9f11da03c972550b | 991 | 479 | 195175 | 46 | 3 |
18
56721 | 5876ecfa9f11da03afbc92f1 | 164 | 550 | 164254 | 0 | 1 |
19
22784 | 5876ee129f11da03c9725d33 | 2011 | 579 | 148457 | 49 | 6 |
44
29577 | 587838f59f11da09bd427945 | 8 | 303 | 137087 | 477 | 19 |
15

复盘以上代码：

by：决定了是按照数据中的哪一列进行排序，将需要按照某列排序的列名赋值给by即可
ascending=False：将数据按大到小的顺序排列
inplace=Ture：用来控制是否直接对原始数据进行修改

四、总结

数据合并

技术图片

数据筛选

技术图片

数据排序

技术图片

五、练习

目前手上有两份数据，将两个csv数据合并成一个，并按骑行时间进行降序排列，获取最长的骑行时间。

    import pandas as pd
    # 读取第一份数据
    bike1 = pd.read_csv(r‘C:\Users\lin-a\Desktop\data\2017_1_data.csv‘)
    bike1

Bike number	Member type
0	221834
St & New Jersey Ave SE	W00869
1	1676854
& D St NW	W00894
2	1356956
Memorial Circle NW	New York Ave & 15th St NW
3	1327901
Memorial Circle NW	New York Ave & 15th St NW
4	1636768
& D St NW	W22786
...	...
42400	262484
Hampshire Ave NW	11th & Kenyon St NW
42401	630296
Farragut Square	21st & M St NW
42402	114584
Ln	Bethesda Ave & Arlington Rd
42403	564322
Farragut Square	21st & M St NW
42404	809980
Dr NW	North Capitol St & F St NW

42405 rows × 7 columns

    # 读取第二份数据
    bike2 = pd.read_csv(r‘C:\Users\lin-a\Desktop\data\2017_2_data.csv‘)
    bike2

Bike number	Member type
0	636921
14th & Upshur St NW	W01023
1	399528
NW	21st & M St NW
2	186311
Dupont Circle NW	17th & Corcoran St NW
3	746740
Harvard St NW	W22297
4	508111
St & Wyoming Ave NW	W22024
...	...
72875	667119
15th & L St NW	W21336
72876	569178
18th & R St NW	W01405
72877	308804
New Hampshire Ave & T St NW	W22673
72878	1087725
National Portrait Gallery	19th & East Capitol St SE
72879	572705
4th & East Capitol St NE	W21512

72880 rows × 7 columns

    # 合并数据
    # 因为各个参数都是默认，也可以采用pd.concat([bike1,bike2])
    bike3 = pd.concat([bike1,bike2],axis=0,join=‘outer‘)
    bike3

Bike number	Member type
0	221834
St & New Jersey Ave SE	W00869
1	1676854
& D St NW	W00894
2	1356956
Memorial Circle NW	New York Ave & 15th St NW
3	1327901
Memorial Circle NW	New York Ave & 15th St NW
4	1636768
& D St NW	W22786
...	...
72875	667119
15th & L St NW	W21336
72876	569178
18th & R St NW	W01405
72877	308804
New Hampshire Ave & T St NW	W22673
72878	1087725
National Portrait Gallery	19th & East Capitol St SE
72879	572705
4th & East Capitol St NE	W21512

115285 rows × 7 columns

    # 降序排列骑行时间
    bike3.sort_values(by=‘Duration (ms)‘,ascending=False,inplace=True)
    bike3

Bike number	Member type
24905	84876226
Farragut Square	19th & K St NW
44077	84070936
4th & C St SW	W21615
35857	83789379
Ritchie Pkwy	E Montgomery Ave & Maryland Ave
35874	83662979
Ritchie Pkwy	E Montgomery Ave & Maryland Ave
29204	82897521
4th St & Madison Dr NW	W21095
...	...
22670	60614
18th & R St NW	W22795
48831	60606
Kennedy Center	W22223
60148	60504
Union Station	Columbus Circle / Union Station
37585	60459
Union Station	Columbus Circle / Union Station
48652	60452
Tysons One Pl	Towers Crescent Dr & Tysons One Pl

115285 rows × 7 columns

    # 获取最长时间
    long_time = bike3.iloc[0][‘Duration (ms)‘]
    long_time

84876226

根据第六次全国人口普查中的常住人口数据，获取全国人口最多的10个城市。数据信息：共包含省、地区、结尾、常住人口4个字段。

series.str会将每个数据转换成字符串
contains()判断字符串是否含有指定字段，返回的是bool类型

    import pandas as pd
    # 读取数据
    people = pd.read_csv(r‘C:\Users\lin-a\Desktop\data\liupu.csv‘)
    
    # 筛选数据
    bools = people[‘结尾‘].str.contains(‘市‘)
    people_2 = people[bools]
    
    # 根据人口数据降序排列
    people_3 = people_2.sort_values(by=‘常住人口‘,ascending=False,inplace=False)
    # 获取前10个数据
    people_3.head(10)

省	地区	结尾	常住人口
567	上海市	上海市	市
23	北京市	北京市	市
569	四川省	成都市	市
601	天津市	天津市	市
73	广东省	广州市	市
157	河北省	保定市	市
232	黑龙江省	哈尔滨市	市
378	江苏省	苏州市	市
95	广东省	深圳市	市
204	河南省	南阳市	市

技术图片

A	B	C	D
0	A0	B0	C0
1	A1	B1	C1
2	A2	B2	C2
3	A3	B3	C3
0	NaN	B0	C0
1	NaN	B1	C1
2	NaN	B2	C2
3	NaN	B3	C3

A	B	C	D
0	A0	B0	C0
1	A1	B1	C1
2	A2	B2	C2
3	A3	B3	C3
4	NaN	B0	C0
5	NaN	B1	C1
6	NaN	B2	C2
7	NaN	B3	C3

A	B	C	D
0	A0	B0	C0
1	A1	B1	C1
2	A2	B2	C2
3	A3	B3	C3
0	NaN	B0	C0
1	NaN	B1	C1
2	NaN	B2	C2
3	NaN	B3	C3

A	B	C	D
0	A0	B0	C0
1	A1	B1	C1
2	A2	B2	C2
3	A3	B3	C3
4	NaN	B0	C0
5	NaN	B1	C1
6	NaN	B2	C2
7	NaN	B3	C3

A	B	C	D
0	A0	B0	C0
1	A1	B1	C1
2	A2	B2	C2
3	A3	B3	C3
0	NaN	B0	C0
1	NaN	B1	C1
2	NaN	B2	C2
3	NaN	B3	C3

A	B	C	D
0	A0	B0	C0
1	A1	B1	C1
2	A2	B2	C2
3	A3	B3	C3
4	NaN	B0	C0
5	NaN	B1	C1
6	NaN	B2	C2
7	NaN	B3	C3