08 学生课程分数的Spark SQL分析

时间:2021-05-24 15:33:34   收藏:0   阅读:0

用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现进行对比:

df_scs.select(name, course, df_scs.score+5).show()

  

技术图片

 

 

 

df_scs.select(name).distinct().count()
df_scs.select(course).distinct().show()

技术图片

技术图片

 

 

df_scs.groupBy(name).count().show()

技术图片

 

 

df_scs.groupBy(course).count().show()

技术图片

 

 

df_scs.filter(df_scs.score>95).groupBy(course).count().show()

技术图片

 

 

df_scs.filter(df_scs[name]==Tom).show()

技术图片

 

 

 

df_scs.filter(df_scs[name]==Tom).sort(df_scs[score].desc()).show()

技术图片

 

 

df_scs.filter(df_scs.name==Tom).agg({"score":"mean"}).show()

技术图片

 

 

df_scs.groupBy(course).avg(score).show()
df_scs.groupBy(‘course‘).max(‘score‘).show()
df_scs.groupBy(‘course‘).min(‘score‘).show()

技术图片

 

 技术图片

 

 

df_scs.select(countDistinct(name).alias(学生人数),countDistinct(course).alias(课程数),round(mean(score),2).alias(所有课的平均分).alias(所有课的平均分)).show()

df_scs.filter(df_scs.score<60).groupBy(df_scs.course).count().show()

 

评论(0
© 2014 mamicode.com 版权所有 京ICP备13008772号-2  联系我们:gaon5@hotmail.com
迷上了代码!