输出数据集信息,统计缺失变量样本,箱式图判断异常点
时间:2021-03-15 10:32:39
收藏:0
阅读:0
输出数据集信息,统计缺失变量样本,箱式图判断异常点
一:任务内容:
1.输出数据集的基本信息
2.统计缺失的变量和样本个数
3.通过箱式图判断异常点
二.实现过程及代码
1.输出数据集的基本信息
读取csv:
import pandas as pd data=pd.read_csv(r‘C:\Users\许元宵\Desktop\catering_sale.csv‘) data
最大值:
max=data[‘销量‘].max() data.loc[data[‘销量‘]==max]
最小值:
min=data[‘销量‘].min() data.loc[data[‘销量‘]==min]
平均值:
data[‘销量‘].mean()
2.统计缺失的变量和样本个数
data.isnull().sum() #data[‘销量‘].isnull().sum() #data[‘日期‘].isnull().sum()
样本个数:
data.shape[0]
3.通过箱式图判断异常点
plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘]#指定字体为黑体 plt.rcParams[‘axes.unicode_minus‘] = False#显示负号 plt.figure() p = data.boxplot(return_type=‘dict‘)#画箱式图 x = p[‘fliers‘][0].get_xdata()#fliers为异常值标签,get_xdata()与get_ydata()用来获取横纵坐标数组 y = p[‘fliers‘][0].get_ydata() y.sort() #使用annotate添加注释,xy表示标注点坐标, xytext表示注释坐标 for i in range(len(x)): if i > 0: plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.05 - 0.8/(y[i]-y[i-1]), y[i])) else: plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.08, y[i])) plt.show()
评论(0)