您的位置: turnitin查重官网> 计算机 >> 计算机网络 >简论并行并行数据库数据分布对策小结

简论并行并行数据库数据分布对策小结

收藏本文 2024-02-26 点赞:4808 浏览:13289 作者:网友投稿原创标记本站原创

摘要:并行数据库系统的实现基础就是数据分布,并行数据库的运行效率直接收到其方法的好坏。本文主要通过对一维以及多维等几种类型的数据分布方法进行分析和比较,讲述了并行数据库的数据分布策略及其运行的方向。
关键次:并行数据库;数据;分布;策略;研究
1007-9599 (2012) 21-0000-02
数据库的存储规模正随着计算机应用全球性范围的蔓延逐渐的在扩大,因此现在对于数据的查询性能要求越来越高,也越来越复杂,数据库的工作负载量也在逐渐加大,过去的那种传统的串行数据库已经逐渐更不上时代的发展了,在这个对数据库应用快速发展的时代已经变得很难再适应了,在并行处理技术发展的双重驱动下,并行数据库系统随着时代的潮流发展出来,已经逐渐的成为了计算机业界的一个焦点,数据分布的研究、并行操作的算法、查询处理优化三方面的问题主要是并行数据库技术的主要研究对象。
数据分布的优劣在一定程度上直接影响着数据库的运行效率,因为数据分布是最终实现并行数据库系统的基础,而其最主要的内容就是在多处理机之间的分布关机以及对各种数据对象的一些研究方法。

1 数据分布以及数据的分段

在并行数据库系统中的数据分布指的是怎么样在多处理机之间进行着有规律可循的分布关系等数据对象,最终以此来实现最小化数据处理相应时间以及促进系统对数据处理的并行性的效能发挥出最佳的效果的目的。将数据分布到各个处理结点上的过程一般分为数据分段跟以及数据分配两种。数据分段主要指的是将关系划分成为若干个数据的子集,而数据分配则是根据将数据分段所划分出来的数据子集分配到不同的处理几点上,因此在进行数据分布的过程中又将数据分段分成垂直分段以及水平分段两种。垂直分段主要指的是以关系的属性作为单位,若干个数据子集都是通过投影操作所产生出来的,水平分段跟垂直分段不同,其单位是关系元组其数据子集产生的方式也有所不同,主要是通过选择操作而产生的。两种方法相互比较后,水平分段的方法能够通过数据子集的并操作还原出最原始的关系,方便于负载的均衡分配并能够增强查询间内的数据并行性,因此现在一般在并行数据库的数据分布方法上选择使用水平分段的方法。

2 数据分布的方法

(1)一维数据分布:在数据分布方法中,一维数据分布方法是最基础的分布方法,其关系子集是根据一个属性的值域将最开始的关系划分出来的,遵循固定的规律将这些关系子集分布到各个处理结点上,这是一维数据分布方法的一个主要特点。目前在Arbre、Bubba、Gamma、Teradata等并行数据库系统已经得到了充分的运用。Round-Robin、Hash、Range、Hybrid-Range、Replicate等是一维数据分布的主要方法。
(2)Hash 法:Hash 法主要是指通过利用Hash函数将元组中的某一个属性的取值分配到相应的制定处理节点上,这种方法可以通过设计一个高效率的函数均匀的进行数据分布,相比较于Round-Robin数据分布方法,Hash方法不仅能够高效率的支持大量数据的存储跟查询的操作,在划分属性上还能够有效的进行着有低选择性谓词的数据操作。利用Hash码能够让系统进行快速的数据访问,并计算出符合条件元组上的某一个处理结点,因此用来划分出属性上的某一个范围内的

源于:论文要求www.udooo.com

查询就是利用选择谓词,Hash数据分布在一定程度上增加了系统的开销,因为它主要是通过使用所有的处理机来完成范围查询。
(3)Range 法(值域划分法):主要是根据关系R的某一个属性的值域,将关系划分成为N个元组集合,再分配到系统中的N个处理结点上,比如说要按照学生学号的最后5位数来划分学生的表格,00001-05000就可以分布到结点1上面,05001-10000就可以分布到结点2上面,Range数据分布法结合了上面所介绍的两种方法的优点,这样Range不仅能够有效的处理大量的数据存取操作以及在划分属性上有着低选择性谓词的数据存取操作,这种方法很适合在划分属性上进行某一个范围内查询,即使是最糟糕的情况下有可能是关系中的所有数据都被划分到同一个的处理结点上,导致了数据分布的不均衡。
2.1 多维数据分布中的CMD法

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号