Python For Data Analysis-五章第三节

《Python For Data Analysis》的第五章的第三节主要介绍的是一些统计学相关的知识和函数。

10.1 sum函数求和

dataframe的sum函数可以按行或者按列进行求和，对于行中或列中的NaN自动被处理掉。

import pandas as pd
import numpy as np
val = np.array([[1,-1,2,1],
                [2,3,np.nan,1],
                [-1,-1,2,np.nan],
                [0,np.nan,-1,2],
                [-1,0,0,2],
                [np.nan,-1,-2,3]])
ind = list("nimljk")
col = list("dbac")
print "-" * 40
d = pd.DataFrame(val, index = ind, columns = col)
print d, "# d"
print "-" * 40
print d.sum(axis = "columns"), '# rows'
print "-" * 40
print d.sum(axis = "index"), '# cols'
print "-" * 40

执行结果：

----------------------------------------
     d    b    a    c
n  1.0 -1.0  2.0  1.0
i  2.0  3.0  NaN  1.0
m -1.0 -1.0  2.0  NaN
l  0.0  NaN -1.0  2.0
j -1.0  0.0  0.0  2.0
k  NaN -1.0 -2.0  3.0 # d
----------------------------------------
n    3.0
i    6.0
m    0.0
l    1.0
j    1.0
k    0.0
dtype: float64 # rows
----------------------------------------
d    1.0
b    0.0
a    1.0
c    9.0
dtype: float64 # cols
----------------------------------------

语句d.sum(axis = "index")里的axis = "index"意思是统计每列。而axis = "columns"则是对每行。

10.2 其他统计学函数

其他常用的pandas提供的统计学相关的函数有很多，例如:cummax、median、mean、prod等。这里就不一一展示了，可以访问pandas的官方网站提供的pandas的统计函数说明或者 5.3节次里还提及了很多的统计学相关的函数，可以参考本站pandas的Series结构的统计学函数页和pandas的DataFrame结构的统计学函数页面。

至此完成第五章的学习。