输出数据集信息,统计缺失变量样本,箱式图判断异常点

时间:2021-03-15 10:32:39   收藏:0   阅读:0

输出数据集信息,统计缺失变量样本,箱式图判断异常点

一:任务内容:

1.输出数据集的基本信息

2.统计缺失的变量和样本个数

3.通过箱式图判断异常点

二.实现过程及代码

1.输出数据集的基本信息

读取csv:

import pandas as pd
data=pd.read_csv(rC:\Users\许元宵\Desktop\catering_sale.csv)
data

技术图片

 

 

最大值:

max=data[销量].max()
data.loc[data[销量]==max]

技术图片

 

 

最小值:

min=data[销量].min()
data.loc[data[销量]==min]

技术图片

 

 

平均值:

data[销量].mean()

技术图片

 

 

2.统计缺失的变量和样本个数

data.isnull().sum()
#data[‘销量‘].isnull().sum()
#data[‘日期‘].isnull().sum()

技术图片

 

 样本个数:

data.shape[0]

技术图片

 

 

3.通过箱式图判断异常点

plt.rcParams[font.sans-serif] = [SimHei]#指定字体为黑体
plt.rcParams[axes.unicode_minus] = False#显示负号
plt.figure()
p = data.boxplot(return_type=dict)#画箱式图
x = p[fliers][0].get_xdata()#fliers为异常值标签,get_xdata()与get_ydata()用来获取横纵坐标数组
y = p[fliers][0].get_ydata()
y.sort()
#使用annotate添加注释,xy表示标注点坐标, xytext表示注释坐标
for i in range(len(x)):
    if i > 0:
        plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.05 - 0.8/(y[i]-y[i-1]), y[i]))
    else:
        plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.08, y[i]))
 
plt.show()

技术图片

 

评论(0
© 2014 mamicode.com 版权所有 京ICP备13008772号-2  联系我们:gaon5@hotmail.com
迷上了代码!