【笔记】从技术角度思考Hadoop

时间:2015-01-31 02:03:51   收藏:0   阅读:218

学习笔记:王家林老师的hadoop课程  链接:http://edu.51cto.com/course/course_id-1151.html


Hadoop --- 适合海量数据的分布式存储与计算平台

存储与计算平台:Hadoop是一个平台,在这个平台上可以实现存储与计算

分布式:单虚拟机程序变为多虚拟机程序,也就是我的一个计算任务可以被多台虚拟机去计算完成

        (这中间有一个任务分配过程)

海量数据:Hadoop的对象可以是海量数据,同样也可以是少量数据,这时候我们可以用java程序进行处理,而java程序也可以转化为Hadoop程序。在实践上我们知道,海量数据指1T级别以上的数据,少量数据虽然可以用Hadoop去做,但我们可以发现效率不如单机版高,不如单机版快。

          当数据量很少的时候,我们的侧重点应该是单机如何更快的去完成,而不是将时间花费在怎样将这些数据分配到多台虚拟机上。但如果是海量数据就不同了,将海量数据交给一台虚拟机去计算处理那样有可能负载过高,这时候我们的侧重点就应该在如何将这些数据分配到多台虚拟机上,从而使数据处理完成的更加高效。

适合:海量数据可以凸显Hadoop的优势,小数据虽然可以处理,但从效率等多方面考虑,Hadoop就不提倡了。


技术分享

Hadoop图是一个庞大的生态系统图,是由一个生态链构成的

核心是3和5 map reduce和HDFS

HDFS: Hadoop Distributed File System 分布式文件系统

        提供了一套机制可以让我们的数据可以分布在不同的计算机上,我们不用关心数据到底是怎样存储的,HDFS可以完成

        实现Hadoop的存储功能,是文件和程序的存储系统

map reduce: 并行计算框架 (核心的核心)

              海量数据的分布式计算框架

              计算代码在不同机器上运行,每台机器只做计算中的一部分(因为其只包括一部分数据),然后再把各个机器的计算结果汇总起来

1:通过http协议是可以访问我们map ruduce的

6:日志数据

7:完成传统关系型数据和Hadoop中数据的相互转换,传统关系中的数据可以导入到Hadoop中,Hadoop中的数据也可以导入到传统关系型数据中

14:hbase 时时处理大数据读写操作的,尤其适合一些在线系统(大数据:构建方式、数据量)

Hadoop的特点:

评论(0
© 2014 mamicode.com 版权所有 京ICP备13008772号-2  联系我们:gaon5@hotmail.com
迷上了代码!