首页 > 技术 > CAE其它 > > 云环境下多副本管理综述

云环境下多副本管理综述

作者:Simwe    来源:万方数据    发布时间:2012-07-16    收藏】 【打印】  复制连接  【 】 我来说两句:(0逛逛论坛


  2、云环境下的多副本管理技术探讨

  多副本是通过利用物理存储资源对数据进行备份.云环境下的多副本管理主要是依托于现在新型的云存储技术,云存储又是依托于云计算而发展出来的.云存储是将互联网上不同结构不同类型的存储设备通过应用软件集合起来,利用集群应用、网格技术或分布式文件系统等功能,提供对外数据存储和业务访问等服务.云存储可以是指云计算的存储部分,即虚拟化的、易于扩展的存储资源池.云存储也意味着存储可以作为一种服务,通过网络提供给用户.换句话说,云存储并非传统意义上的硬件设备,而是一种基于硬件存储资源、网络设备、应用软件和接人口等一系列的复杂网络服务系统.

  目前要在云环境下考虑多副本管理技术就要综合云平台特性及客户需求,有不同的策略,如表2中所述,云环境下要考虑一些额外影响因素.在云环境下存在多数据中心,这种复杂情况下的数据副本管理不仅要依赖于传统多副本管理方法,还要针对云环境下不同应用优化服务策略.优秀的副本管理策略直接影响用户体验.在海量数据云存储的环境下的多副本创建问题、选择策略、动态迁移技术和多副本一致性的方法讨论则成为重点方向.云环境下的副本选择则比较复杂,而且是其他副本管理的基础.它的选择预测直接影响到副本创建时的放置策略,动态迁移时迁移哪个副本,副本一致性检测时使用哪些副本进行校验.和传统选择技术一样要考虑地域分布、网络负载均衡等综合因素对访问性能的限制,还要对访问历史记录的分析决策.

  云环境下的多副本创建主要考虑创建粒度和放置位置.对于使用云端服务的用户,其数据量必然是大量的,甚至海量数据.最初创建副本时,结合副本选择预测算法预测出热点位置,并创建合理的副本数量.这可以保证大量的数据在多个数据中心的数据之间畅通传输.

  对于在云环境下的副本一致性的管理,文献提出了按照4个类别的应用程序的一致性,根据他们的阅读频率和更新频率,然后设计相应的一致性策略.应用程序在运行时自动选择最合适的战略,以实现一致性,可用性和高性能之间的动态平衡.评价结果表明,该机制在保证数据一致性的同时还降低了操作带来的负载消耗.文献则提出了一种基于树的一致性的方法,减小副本服务器对于引入云数据库的部分一致和完全一致的状态的依赖关系.保证从主服务器到所有副本服务器都在最可靠路径上.因此,事务失败的概率大大减少,这有助于提高不可靠的网络性能和使吞吐量均匀.

  云环境下的动态迁移技术则更多的是结合虚拟化技术应用.动态迁移和多副本技术可以简单理解成计算机中的剪切与复制技术.如何选择合适的节点做数据的容灾备份或者热点迁移地址,并且在保证服务不中断的情况下迅速进行数据转移.尤其在云环境下,用户会产生不同的用户需求,比如实时动态迁移过程等,延迟删除与线下删除等技术的结合使用可以.而且在云环境下的副本数据是海量存储,分布式的文件系统将海量数据分割成较为小的数据,但需要处理的数据量依然很大.如果立即删除会给系统突发地带来相当大的负载,甚至可能会引起用户访问的响应率降低的任务.将删除任务分割成很多很小的任务,分批地提交给系统定时线下处理.Aaron等人提出一种弹性云平台下的动态迁移技术,有效进行非共享事务实时数据库迁移.文献提出的一种懒惰更新算法是分隔云的数据复制和数据访问的过程,从而提高数据访问的吞吐量和缩短响应时间.多副本技术在云环境下应用也更多讨论的是副本动态迁移问题,充分利用了上述提到过的几种技术策略,综合性较强.

  3、云环境下的多副本管理技术展望

  在云环境下未来的研究中,多副本管理仍将是讨论的重点,随着海量数据的出现,相信云存储及云端海量数据分析都将遇到挑战.笔者认为,在云环境下,多副本管理可以从以下几方面进行研究:

  1)基于云平台的数据迁移问题.云环境下对于数据迁移工作的部署,必将是大量数据由传统的数据存储中转移到云存储中.另外,在云存储的海量数据中,如何备份容灾和进行海量数据转移也是很关键的问题.云平台下的数据库管理系统要具有可伸缩、容错和弹性,这样才能够保证副本之间可以在不宕机的情况下进行无缝迁移复制,并且使用户完全感觉不到.而这项技术是传统多副本定位、删除、一致性保证等技术融合,对于云存储这种海量数据的处理以及面对超级多的用户访问,策略的完善更是刻不容缓.而在云环境下,无论是云计算或是云存储都是基于虚拟化技术的实现,多副本存储与虚拟化存储的配合使用也是云平台下多副本管理的研究值得思考的问题.虚拟机宕机之后的多副本存放与硬盘存储设备的接管,都是迁移技术的难点所在.单是针对存储资源的动态迁移已经是现在技术的难点,更值得提出的是对于云环境下多副本的处理,动态迁移哪个副本文件,副本选择策略放置策略等技术在迁移过程中的应用,更将把这个云环境下的副本迁移技术难度推向一个新高度.

  2)在云环境下,由于海量级的数据存在多个副本,对于像Google的GFS系统和Yahoo!的Hadoop这样的系统,还要将其庞大的数据分割存放,其副本的选择和放置策略则要经过精密计算.如何有效对碎片式的多副本数据进行整合调用将成为未来研究重点之一.海量数据的处理已经让技术人员煞费苦心,对于分布式文件管理系统开发人员,数据的分割策略也是技术难点,而对于应用分布式存储的云环境下的海量数据多副本管理这个课题,更将是难上加难.云环境下的多副本意味着海量数据的数量级更上一层楼,而数据分割分配策略也会因实际情况底层存储系统不同而不同.因此,云环境下的海量分片式多副本管理仍面临很多技术挑战.

  3)在云环境下对多用户多应用的即时响应也是需要深度探讨的问题.要求副本粒度随着用户数的变化而动态调整,使副本数不至于太多而浪费存储空间,也不会太少而影响多用户访问速度.该删除副本时是用哪种删除策略才不会影响系统性能.

  4)数据基于地理位置的感知也十分关键.随着数据量增大,存放数据的云朵规模也越来越大,越来越多的应用被部署在不同地理空间上.如何改进传统的放置和选择多副本策略使之适应于云环境的大规模数据调用,使副本合理分布在不同的地理空间,以节省数据在传输过程的消耗并保证数据副本数容灾性及可靠性必将是多副本在云存储平台的一个讨论热点.

  5)当年伴随云计算的提出,很多质疑声音也出现了,那就是云安全的问题.对于云计算安全的处理一直是云技术发展的一个难点.用户将大量私密数据存在云端,而在云环境下数据的多副本策略,既要保证数据不被外界截获盗取,又要保证数据一致性无误保存,又将是云存储环境下的技术难点.副本数目越多,分布范围越广,其管理难度就会越大.,安全性也会越低.如何在云端对数据的多副本进行加密处理等措施是未来云端副本秘密安全性的重点.

  4、结束语

  云环境的应用已经越来越火热,围绕云存储和云计算的多副本高可靠性、高性能的技术正在被慢慢挖掘.而云环境下多副本管理如何继承传统分布式存储系统中的技术优点,如何对于传统的多副本创建方法、放置技术、选择删除策略及一致性管理等方面进行优化改进,针对不同应用,又如何运用不同的技术管理方法实现云环境下的多副本管理.目前在云环境下的多副本管理研究较少.本文全面分析了传统的多副本管理技术,并针对在云环境中所涉及到的多副本管理问题进行阐述,分析了不同的网络环境、不同文件系统要求及不同的应用需求、多副本管理采用的不同侧重的管理方法.

 

 
分享到: 收藏