海量图片存储--MogileFS分布式存储集群的实现
分布式存储
当下互联网飞速发展,海量并发所产生的数据量以几何方式增长,随着信息链接方式日益多样化,数据存储的结构也发生了变化,在这样的压力下我们不得不重新审视大量数据的存储所带来的挑战,比如:数据采集、数据存储、数据搜索、数据共享、数据传输、数据分析、数据可视化等一些列问题
传统存储在面对海量数据存储时已经力不从心,比如纵向扩展受阵列空间限制、横向扩展受交换设备限制、节点受文件系统限制
分布式存储的出现在在一定程度上缓解了这一问题
分布式存储基础介绍
(一)多线程与进程的执行模式 #互不通信的多线程模式; #基于共享容器协同的多线程模式; #通过事件协同的多线程模式; (二)基于输入设备变化、运算器的变化、存储器的变化分类 1)控制器的变化 # 透明模式 # 旁路模式 # 名称模式 # 规则服务器 2)存储器的变化 # 代理模式 # 名称服务 # 规则服务器 # master模型:前段节点存放元数据(name node),后端节点存放数据(data node) (三)分布式系统的难点 # 缺乏全局时钟 # 面对故障的独立性 # 处理单点故障:①做冗余②降低单点故障的影响范围 #事务的挑战(ACID):①2pc两端式提交、②最终一致③BASE方法④CAP理论⑤Paxos (四)分布式文件系统的设计目标 # 访问透明 # 位置透明 # 并发透明 # 失效透明 # 硬件透明 # 可拓展性 # 复制透明 # 迁移透明 (五)分布式文件系统的注重的特性 # Scalable 伸缩性 # Reliable 可靠性 # Cheap 性价比
(六)分布式事务的模型及规范 X/open: XA-----XA规范是开放群组关于分布式事务处理 (DTP)的规范 #DTP:Distributed Transaction Processing Reference Model 分布式事务处理 XA规范 定义了三个组件 #AP :Appliacation Program 应用程序 #RM :Resource Manager 资源管理器 #TM :Transaction Manager 事务管理器 简单来讲:AP通过RM来实现资源操作,如果AP当中执行一个完整的事务,则通过TM控制事务都执行或者不执行,如果事务执行失败则回滚; 其中TM管理哪些资源的事务需要事先向RM资源管理器注册申请
(七)面对事务挑战(ACID)的协调方式 #2PC(两段式提交):事务管理中双方都完成,或者都不完成 #CAP理论:C代表一致性,A代表可用性,P代表分区容错性 CAP理论一般满足以上两者,无法保证三者都满足;其中关系型数据库属于AC,其他环境一般为AP #BASE :BA(Basically)表示基本可用,S(Soft state)表示接受一段时间内的状态不同步,E(Eventually consistent)最终一致性 #Paxos : 比2PC提交更轻量级的分布式事务的协调方式
分布式事务处理的一致性问题
强一致性 #ACID #在单机环境中,强一致性可以由数据库的事务来保证 #在多级环境中,强一致性很难做到 #分布式事务:性能太差,在化联网的应用中不适合 弱一致性(包括最终一致性) #通过提交处理的半同步、半异步或全异步,取得最终一致性效果 #最终一致性使得数据的提交具有延时性,而在一定范围时的延时性范围内(比如一秒),应用的可用性时正常的 集群内一致性算法实施过程案例 #基于合法票数(Quorum)和向量时钟(Vector Clock) Quorum算法 #N :数据复制的节点量 #R :成功读取所依赖的最少节点数 #W :成功写操作所依赖的最少节点数 #W+R>N 表示强一致性 ;W+R<=N 属于弱一致性(保证最终一致性)
分布式存储文件系统类别
各种分布式存储文件系统介绍 #Google Filesystem :GFS+MapReduce擅长处理单个大文件 #Hadoop Distibuted Filesystem :GFS山寨版+MapReduce 擅长处理单个大文件 #GlusterFS :擅长处理单个大文件 #Taobao Filesystem :擅长处理海量小文件 #MogileFS:擅长处理海量小文件 #Ceph :PB级别的分布式文件系统 #MooseFS :通用简单 #Lustre :一种平行分布式文件系统
MofileFS原理
MofileFS是一个开源的分布式文件系统,用于组件分布式文件集群。其主要特性包括:应用层组件、无单点故障、自动文件复制(复制单位不是文件而是class类)、传输中使用http协议,基于域的简单命名方式、具有比RAID更好的可靠性
核心角色 (1)tracker节点:借助于数据库保存各节点文件的元数据信息,保存每个域中所有键的存储位置分布,方便检索定位数据位置的同时并监控各个节点,告诉客户端存储区位置并指挥storage节点复制数据副本,进程名mogilefsd/端口7001 (2)database节点:为tracker节点提供数据存取 (3)storage节点:将指定域中的键转换为其特有的文件名存储在指定的设备文件中,转换后的文件名为值,storage节点自动维护键值对应关系,storage节点由于使用http进行数据传输,因此依赖于perlball,storage节点前段可以使用nginx进行反向代理,但需要安装nginx的第三方模块nginx-mogilefs-module-master,进程mogstored/7500端口,perlbal/7500端口 (4)Domain:一个域中的键值是唯一的,一个MogileFS可以有多个域,域可以存储不同应用类型的数据的容器 (5)Class:复制最小单位,文件属性管理,定义文件存储在不同设备上的分数
客户端、tracker、Database、mogstore的关系图
流程图
Nginx + MogileFS集群的实现
架构图
1 应用层发起GET请求到Ningx
2 Nginx根据负载均衡机制随机代理到后台的tracker服务器(其中之一)
3 tracker服务器将查询结果返回给Nginx
4 Nginx将查询结构根据模块转换为合理的url发送给后端的mogstore存储服务器
5 mogstore存储服务器将文件内容通过http协议返回给Nginx
6 Nginx将结果返回给应用层客户端
实现步骤
1、MySQL服务器配置
mysql的编译安装请参照我的博客 mysql配置 1)授权root用户 #MariaDB [(none)]> grant all on *.* to root@‘172.16.%.%‘ identified by ‘123456‘; 2)授权moguser用户 #MariaDB [(none)]> grant all on mogdb.* to ‘moguser‘@‘172.16.%.%‘ identified by ‘mogpass‘; 3)冲刷授权表 #MariaDB [mogdb]> flush privileges;
2、172.16.13.2服务器安装tracker和mystore
1)下载程序包: MogileFS-Utils-2.19-1.el6.noarch.rpm perl-MogileFS-Client-1.14-1.el6.noarch.rpm perl-Net-Netmask-1.9015-8.el6.noarch.rpm perl-Perlbal-1.78-1.el6.noarch.rpm MogileFS-Server-2.46-2.el6.noarch.rpm MogileFS-Server-mogilefsd-2.46-2.el6.noarch.rpm MogileFS-Server-mogstored-2.46-2.el6.noarch.rpm 同时将所有rpm包 放到另外两个服务器上一份 #scp *.rpm 172.16.13.3:/root #scp *.rpm 172.16.13.4:/root
2)安装 #yum -y install *.rpm perl-IO-AIO 3)配置tracker # chown -R mogilefs.mogilefs /var/run/mogilefsd/ 指定为mogilefs用户和组 # mogdbsetup --dbhost=172.16.249.39 --dbport=3306 --dbname=mogdb --dbrootuser=root --dbrootpass=123456 --dbuser=moguser --dbpass=mogpass --yes 数据库初始化 MySQL服务器查看生成的数据库 #MariaDB [(none)]> show databases;
编辑tracker的配置文件 #cd /etc/mogilefs #vim mogilefsd.conf 修改一下内容 db_dsn = DBI:mysql:mogdb:host=172.16.249.39 db_user = moguser db_pass = mogpass listen = 0.0.0.0:7001 #chmod -R mogilefs.mogilefs mogilefsd.conf #service mogilefsd start 启动mogilefsd服务 #ss -ntl | grep 7001
4)配置mogstore # mkdir /dfs/mogdata/dev1 # chown -R mogilefs.mogilefs /dfs/mogdata/dev1 # cd /etc/mogilefs # vim mogstored.conf 修改如下内容 docroot = /dfs/mogdata # chown -R mogilefs.mogilefs mogstored.conf # service mogstored start 启动服务 # ss -tnlp
在trakers 中添加 mogstore存储主机 #mogadm --trackers=172.16.13.2:7001 host add 172.16.13.2 --ip=172.16.13.2 --status=alive # mogadm --trackers=172.16.13.2:7001 host list
此时已经实现172.16.13.2服务器即是tracker,也是mogstore存储
将配置文件mogilefsd.conf mogstored.conf 复制到 172.16.13.3 与172.16.13.4 上 #cd /etc/mogilefs #scp * 172.16.13.3:/etc/mogilefs #scp * 172.16.13.4:/etc/mogilefs
3、172.16.13.3服务器配置
1) 安装 # cd /root (该目录已经有从 172.16.13.2传送的所有rpm包) # yum -y install *.rpm perl-IO-AIO 2) 配置cheker # service mogilefsd start # ss -ntl | grep 7001 3)配置mogstore # mkdir -pv /dfs/mogdata/dev2 # chown -R mogilefs.mogilefs /dfs/mogdata/dev2 # service mogstored start # ss -ntlp 查看 7500 7501端口侦听 4)tracker中添加mogstore存储主机 # mogadm --trackers=172.16.13.3:7001 host add 172.16.13.3 --ip=172.16.13.3 --status=alive # mogadm --trackers=172.16.13.3:7001 host list
4、172.16.13.4服务器配置
1)安装
#cd /root
#yum -y install *.rpm perl-IO-AIO
2)配置tracker
#service mogilefsd start
#ss -ntl | grep 7001
配置文件无需更改
3)配置mogstore
#mkdir -pv /dfs/mogdata/dev3
#chown -R mogilefs.mogilefs /dfs/mogdata/dev3 创建mogstore数据目录
#service mogstored start
# ss -ntlp 查看7500 7501端口
4)添加mystore存储主机
# mogadm --trackers=172.16.13.4:7001 host add 172.16.13.4 --ip=172.16.13.4 --status=alive
# mogadm --trackers=172.16.13.4:7001 host list以上三个节点全部配置完 trackers 与 mystore ,接下来我们添加三个节点上的设备、添加域、添加类文件
5)添加存储设备 在172.16.13.4 tracker服务器配置即可 # mogadm --trackers=172.16.13.4:7001 device add 172.16.13.2 1 # mogadm --trackers=172.16.13.4:7001 device add 172.16.13.3 2 # mogadm --trackers=172.16.13.4:7001 device add 172.16.13.4 3 # mogadm --trackers=172.16.13.4:7001 device list
6)分布式系统添加domain 域 # mogadm --trackers=172.16.13.4:7001 domain add files # mogadm --trackers=172.16.13.4:7001 domain add images # mogadm --trackers=172.16.13.4:7001 domain list
7)在域(domain)中添加类(class)文件 ### class 是在mystore中最小存储与复制单元 为images域创建几个class文件 # mogadm --trackers=172.16.13.4:7001 class add images class0 --mindevcount=2 至少2个副本 # mogadm --trackers=172.16.13.4:7001 class add images class1 --mindevcount=2 # mogadm --trackers=172.16.13.4:7001 class add images class2 --mindevcount=2 # mogadm --trackers=172.16.13.4:7001 class add images class3 --mindevcount=2 # mogadm --trackers=172.16.13.4:7001 class list 查看创建的类文件
现在为止,终于将mogilefs 集群搭建完毕,接下来我们配置nginx反向代理服务器
5、Nginx服务器配置
基于第三方模块ningx-mogilefs-mudule=master 实现http反向代理
1)下载源码包nginx-1.4.7.tar.bz (自行官网下载即可)
下载nginx支持mogfile的第三方模块 nginx-mogilefs-module-master.zip
2)编译安装
# tar -xf nginx-1.4.7.tar.bz
# unzip nginx-mogilefs-module-master.zip
创建nginx用户与组
# gourpadd -r nginx
# useradd -r -g nginx nginx
开始编译安装
#cd nginx-1.4.7
#./configure --prefix=/usr --sbin-path=/usr/sbin/nginx --conf-path=/etc/nginx/nginx.conf --error-log-path=/var/log/nginx/error.log --http-log-path=/var/log/nginx/access.log --pid-path=/var/run/nginx/nginx.pid --lock-path=/var/lock/nginx.lock --user=nginx --group=nginx --with-http_ssl_module --with-http_flv_module --with-http_stub_status_module --with-http_gzip_static_module --http-client-body-temp-path=/var/tmp/nginx/client/ --http-proxy-temp-path=/var/tmp/nginx/proxy/ --http-fastcgi-temp-path=/var/tmp/nginx/fcgi/ --http-uwsgi-temp-path=/var/tmp/nginx/uwsgi --http-scgi-temp-path=/var/tmp/nginx/scgi --with-pcre --with-debug --add-module=../nginx-mogilefs-module-master
# make && make install
3) 为nginx 提供服务脚本
# vim /etc/rc.d/init.d/nginx
#!/bin/sh
#
# nginx - this script starts and stops the nginx daemon
#
# chkconfig: - 85 15
# description: Nginx is an HTTP(S) server, HTTP(S) reverse # proxy and IMAP/POP3 proxy server
# processname: nginx
# config: /etc/nginx/nginx.conf
# config: /etc/sysconfig/nginx
# pidfile: /var/run/nginx.pid
# Source function library.
. /etc/rc.d/init.d/functions
# Source networking configuration.
. /etc/sysconfig/network
# Check that networking is up.
[ "$NETWORKING" = "no" ] && exit 0
nginx="/usr/sbin/nginx"
prog=$(basename $nginx)
NGINX_CONF_FILE="/etc/nginx/nginx.conf"
[ -f /etc/sysconfig/nginx ] && . /etc/sysconfig/nginx
lockfile=/var/lock/subsys/nginx
make_dirs() {
# make required directories
user=`nginx -V 2>&1 | grep "configure arguments:" | sed ‘s/[^*]*--user=\([^ ]*\).*/\1/g‘ -`
options=`$nginx -V 2>&1 | grep ‘configure arguments:‘`
for opt in $options; do
if [ `echo $opt | grep ‘.*-temp-path‘` ]; then
value=`echo $opt | cut -d "=" -f 2`
if [ ! -d "$value" ]; then
# echo "creating" $value
mkdir -p $value && chown -R $user $value
fi
fi
done
}
start() {
[ -x $nginx ] || exit 5
[ -f $NGINX_CONF_FILE ] || exit 6
make_dirs
echo -n $"Starting $prog: "
daemon $nginx -c $NGINX_CONF_FILE
retval=$?
echo
[ $retval -eq 0 ] && touch $lockfile
return $retval
}
stop() {
echo -n $"Stopping $prog: "
killproc $prog -QUIT
retval=$?
echo
[ $retval -eq 0 ] && rm -f $lockfile
return $retval
}
restart() {
configtest || return $?
stop
sleep 1
start
}
reload() {
configtest || return $?
echo -n $"Reloading $prog: "
killproc $nginx -HUP
RETVAL=$?
echo
}
force_reload() {
restart
}
configtest() {
$nginx -t -c $NGINX_CONF_FILE
}
rh_status() {
status $prog
}
rh_status_q() {
rh_status >/dev/null 2>&1
}
case "$1" in
start)
rh_status_q && exit 0
$1
;;
stop)
rh_status_q || exit 0
$1
;;
restart|configtest)
$1
;;
reload)
rh_status_q || exit 7
$1
;;
force-reload)
force_reload
;;
status)
rh_status
;;
condrestart|try-restart)
rh_status_q || exit 0
;;
*)
echo $"Usage: $0 {start|stop|status|restart|condrestart|try-restart|reload|force-reload|configtest}"
exit 2
esac
为此脚本赋予执行权限:
# chmod +x /etc/rc.d/init.d/nginx
添加至服务管理列表,并让其开机自动启动:
# chkconfig --add nginx
# chkconfig nginx on
启动服务并测试:
# service nginx start
# ss -ntl | grep 804 )在分布式集群系统上上传几个图片和文件 172.16.13.2服务器上操作即可因为它是三个trackers之一 # mogupload --trackers=172.16.13.2:7001 --domain=images --key=‘/images/1.png‘ --file=‘/usr/share/backgrounds/default_1920x1200.png‘ # mogupload --trackers=172.16.13.2:7001 --domain=images --key=‘/images/2.png‘ --file=‘/usr/share/backgrounds/default_1920x1440.png‘ # mogupload --trackers=172.16.13.2:7001 --domain=files --key=‘/file/fstab.html --file=‘/etc/fstab‘ # moglistkeys --trackers=172.16.13.2:7001 --domain=images
# mogfileinfo --trackers=172.16.13.3:7001 --domain=images --key=‘/images/1.png‘ 查看图片信息
5) 编辑nginx配置文件
在server段添加两个location,一个负责图片文件的访问,一个负责文本文件的访问控制
location ~* ^(/images/.*)$ {
mogilefs_tracker 172.16.13.3:7001;
mogilefs_domain images;
mogilefs_pass $1 {
proxy_pass $mogilefs_path;
proxy_hide_header Content-Type;
proxy_buffering off;
}
}
location ~* ^(/file/.*)$ {
mogilefs_tracker 172.16.13.2:7001;
mogilefs_domain files;
mogilefs_pass $1 {
proxy_pass $mogilefs_path;
proxy_hide_header Content-Type;
proxy_buffering off;
}
}
# service nginx restart 重读配置文件客户端测试:文本文件
客户端测试:图片文件
nginx的反向代理实现
6)nginx 实现负载均衡调度
http段添加一个upstream,server中调用即可
#vim /etc/nginx/nginx.conf 重新编辑配置文件增加如下内容
upstream mogcluster {
server 172.16.13.2:7001;
server 172.16.13.3:7001;
server 172.16.13.4:7001;
}
其中一个location调用定义好的upstream
location ~* ^(/images/.*)$ {
mogilefs_tracker mogcluster;
mogilefs_domain images;
mogilefs_pass $1 {
proxy_pass $mogilefs_path;
proxy_hide_header Content-Type;
proxy_buffering off;
}
}
#service nginx restart客户端测试
nginx负载均衡调度实现
PS:已实现nginx对后端mogileFS分布式集群的反向代理与负载均衡调度,水平有限,项目并不复杂,还需完善(mysql可以实现主从复制和读写分离,nginx服务器存在单点故障)如有错误之处请指出!
本文出自 “西风瘦猪” 博客,请务必保留此出处http://jungege.blog.51cto.com/4102814/1409142

















