当前位置: > 论文中心 > 计算机论文 >

一种海量数据处理平台的解决方案

时间:2013-08-23 14:07 点击:
该解决方案采用 构建高性能计算的大型集群系统,进行海量数据处理,并可以减少分散投资的建设成本,降低整体管理成本,为科研机构提高科研水平及企业高效运营提供统一的高性能平台。
  当今社会,信息技术高度发达。据统计,世界上每天产生的数据量可刻满1.88亿张DVD光盘,这是一个爆炸式的增长。未来,这种增长不会停止,数据量每18至24个月就会增长一倍,而物联网的出现,会进一步加快这种信息的爆炸式增长。面对这种海量的数据信息,对数据的管理和处理分析成为一个新的难题,海量数据处理技术应运而生[1]。海量数据处理基本上采用分布式存储技术,把大量信息切片,并行的进行存储和处理,以加快数据处理速度,应用属于IO密集型应用。这种分布式存储和处理架构对计算机硬件系统提出以下要求:
 
  (1)整体架构基于水平式扩展的集群架构。(2)节点CPU要求不高。(3)节点内存需求相对较高,主要用于数据处理缓冲区、磁盘和通信cache,建议每节点CPU内核内存比1:2以上[2]。(4)节点网络通信带宽要求较高,主要用于数据传输和进程通讯,建议采用低延时高速交换网络InfiniBand。(5)节点内部存储容量要求较高,用于海量数据存储,建议2TB以上。
 
  1海量数据处理平台方案
 
  1.1方案概述
 
  针对海量数据处理需求,我们采用基于高速互联的IBM刀片服务器的高性能计算集群系统,CPU配置主流Intelx86架构CPU,CPU内核与内存比达到1:4,InfiniBand低延时高速互联网络可以满足海量数据处理的数据传输的需求。同时在每个计算节点中配置2TB热插拔内置磁盘存储,用于存储分布式海量数据,计算节点采用无盘启动,无需系统盘。而外置共享存储用于科学计算数据的存储与共享,同时也可承担海量数据处理应用中外部海量数据与处理系统直接的传输中转站[3]。外置共享存储采用IBMGPFS通用并行文件系统,实现计算节点与存储节点间并行文件访问协议以及RDMA传输方式(这样可以极大的提高系统IO通信带宽),同时通过CNFS/SAMBA/FTP/HTTP等二次共享方式,提供给外部客户端多种数据传输及访问方式,最大程度上支持各种各样的跨平台客户端。海量数据处理平台逻辑拓扑示意图如图1所示。
 
  1.2方案设计原则
 
  海量数据处理平台方案设计中,主要依据以下原则:
 
  1)先进性:选择主流趋势的软硬件平台产品,使之不仅能够满足目前业务的需要,还能适应未来技术发展的趋势和需要。
 
  2)灵活性:优化系统资源配置比例,实现最大的应用灵活性。
 
  3)可扩展性:提供具有最高可伸缩性的系统,并保护用户现有的投资。
 
  4)稳定性:整体系统确保稳定、高效、连续地运营,能够支持全天24小时的连续运行需求。
 
  5)开放性:系统方案采用开放标准,开放结构,开放系统组件和开放用户接口。充分满足用户投资保护和业务扩展、系统维护等方面的需求。
 
  1.3海量数据处理平台各组成部分
 
  本方案建议的集群系统中主要包含以下组成部分:管理节点、服务节点、计算节点、系统监控节点、资源/作业调度节点、登录节点、数据传输节点、存储节点、外置共享存储。主要硬件组成如表1所示,主要软件组成如表2所示。
 
  2方案优势
 
  2.1虚拟化—计算节点无盘启动
 
  最热门的行业都是在需求和技术更新这双重的推动下前进的,在高性能计算领域中也不例外。如今,在许多行业各种规模的公司都需要解决计算密集的工作负载问题。在本方案中,计算节点采用无盘启动方式,这样就把操作系统和服务器硬件的紧耦合打开,使得海量数据处理服务可以很方便的在不同服务器硬件上运行,不存在紧密的联系,所有服务器相当于一个大的资源池,用户可以根据需求,自由的调度所需资源,并且在硬件出现故障时,缩短系统恢复所需时间;同时服务器内置磁盘可以全部用作海量数据处理,提高磁盘利用率[4]。所有系统镜像采用集中式管理,在进行系统维护、软件升级、修改系统配置等常规系统维护作业时,可以极大的缩短当机时间,减少系统维护工作量;同时我们还可以针对不同的应用,定制所需的不同系统镜像,在不同系统之间方便的进行切换,管理维护极其方便。
 
  2.2高可用数据服务—GPFS
 
  1)高可用性:随着集群系统规模的不断扩大,用户对数据访问的可用性要求也越来越高,如果因为集群系统中几台服务器的故障,就导致用户数据无法访问,这是不可接受的,GPFS有着无与伦比的高可用性,这是其他并行文件系统无法比拟的。首先GPFS采用仲裁节点组的集群仲裁方式,保证系统在出现网络故障的时候,不会出现头分裂的问题。其次GPFS的磁盘支持多路径访问方式,一个NSD服务器无法的情况下,GPFS客户端会自动通过下一个NSD服务器访问,一个磁盘最多可以支持8个NSD服务器,只有这8个服务器全部宕机,才会出现部分数据无法访问的情况。
 
  2)高可扩展性:GPFS支持在线进行扩展,在不停止服务的情况上,可以很方便的向GPFS集群加入节点和存储,在线进行文件系统扩容和缩容,在线进行GPFS软件升级。
 
  3)高IO吞吐量:通过基于文件的条带化技术,GPFS可以对IO访问进行并行处理,通过对多台存储性能的聚合,使得GPFS文件系统可以达到很高的IO吞吐量,并且可以实现IO吞吐量随存储的增加而线性增长。GPFS的IO通讯支持在InfiniBand上的RDMA通讯协议,相对于TCP/IP通讯协议,通讯带宽和延时有很大提高,非常适合海量数据传输和处理。2.3集群可扩展性—两层树状管理结构

   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312