第02章 DataFrame基本操作 - 6. 比较缺失值 - 《Pandas Cookbook 带注释源码》

6. 比较缺失值

#  Pandas使用NumPy NaN（np.nan）对象表示缺失值。这是一个不等于自身的特殊对象：
 In[48]: np.nan == np.nan
Out[48]: False

#  Python的None对象是等于自身的
 In[49]: None == None
Out[49]: True

#  所有和np.nan的比较都返回False，除了不等于：
 In[50]: 5 > np.nan
Out[50]: False
 In[51]: np.nan > 5
Out[51]: False
 In[52]: 5 != np.nan
Out[52]: True

#  college_ugds_所有值和.0019比较，返回布尔值DataFrame
 In[53]: college = pd.read_csv('data/college.csv', index_col='INSTNM')
         college_ugds_ = college.filter(like='UGDS_')
 In[54]: college_ugds_.head() == .0019
Out[54]:

#  用DataFrame和DataFrame进行比较
 In[55]: college_self_compare = college_ugds_ == college_ugds_
         college_self_compare.head()
Out[55]:

#  用all()检查是否所有的值都是True；这是因为缺失值不互相等于。
 In[56]: college_self_compare.all()
Out[56]: UGDS_WHITE    False
         UGDS_BLACK    False
         UGDS_HISP     False
         UGDS_ASIAN    False
                        ...  
         UGDS_NHPI     False
         UGDS_2MOR     False
         UGDS_NRA      False
         UGDS_UNKN     False
         Length: 9, dtype: bool

#  可以用==号判断，然后求和
 In[57]: (college_ugds_ == np.nan).sum()
Out[57]: UGDS_WHITE    0
         UGDS_BLACK    0
         UGDS_HISP     0
         UGDS_ASIAN    0
                      ..
         UGDS_NHPI     0
         UGDS_2MOR     0
         UGDS_NRA      0
         UGDS_UNKN     0
         Length: 9, dtype: int64

#  统计缺失值最主要方法是使用isnull方法：
 In[58]: college_ugds_.isnull().sum()
Out[58]: UGDS_WHITE    661
         UGDS_BLACK    661
         UGDS_HISP     661
         UGDS_ASIAN    661
                       ... 
         UGDS_NHPI     661
         UGDS_2MOR     661
         UGDS_NRA      661
         UGDS_UNKN     661
         Length: 9, dtype: int64

#  比较两个DataFrame最直接的方法是使用equals()方法
 In[59]: from pandas.testing import assert_frame_equal
 In[60]: assert_frame_equal(college_ugds_, college_ugds_)
Out[60]: True

#  eq()方法类似于==，和前面的equals有所不同
 In[61]: college_ugds_.eq(.0019).head()
Out[61]:

6. 比较缺失值

6. 比较缺失值

更多