您的位置: turnitin查重官网> 计算机 >> 程序设计 >阐述算法基于哈希表关联规则挖掘算法

阐述算法基于哈希表关联规则挖掘算法

收藏本文 2024-04-19 点赞:11350 浏览:45569 作者:网友投稿原创标记本站原创

摘要:经过分析关联规则中Apriori算法存在的不足,为减少对事务数据库的扫描次数,缩减产生频繁项集的时间,列出两种基于哈希表的计算项集支持计数的方法以及利用哈希表来进行项集的地址定位的方法,使得生成频繁项集的效率有所提高。
关键词:关联规则;Apriori算法;频繁项集;哈希表
16727800(2013)007006903

1 Apriori算法分析

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,采用了一种称作逐层搜索的迭代方法,项集用于探索项集,其过程由连接与剪枝组成。该算法中项集(Itemset)的概念即为项的集合,包含K个项的集合为K项集。项集出现的频率是包含项集的事务数,称为项集的频率。如果某项集满足最小支持度,则称它为频繁项集。

1.1 算法步骤

步骤如下:
(1)设定最小支持度s和最小置信度c。
(2)Apriori算法使用候选项集。首先,产生出候选的项的集合。即候选项集,若候选项集的支持度大于或等于最小支持度,则该候选项集为频繁项集。
(3)在Apriori算法的过程中,首先,从数据库读入所有的事务,每个项都被看作候选1项集,得出各项的支持度,再使用频繁1项集合集来产生候选2项集集合,因为先验原理保证所有非频繁的1项集的超集都是非频繁的。
(4)扫描数据库,得出候选2项集集合,找出频繁2项集,并利用这些频繁2项集集合来产生候选3项集。
(5)重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止。
5 结语
本文所讨论的基于事务数据哈希表的Apriori算法通过两两扫描各项,对事务编号依次进行比较,可以计算出k项集的支持计数,但是需要对哈希表多次扫描和对各项的比较操作。而二维哈希表通过使用两个哈希函数,可以快速地定位二维数组单元的位置,从而计算各2项集的支持计数,但是只限于对2项集的操作。对k项集的存取同样也可以通过哈希函数来定位地址,使得算法效率得到提高。
参考文献:
JIAWEI HAN, MICHELINE KAMBER. 数据挖掘概念与技术[M]. 范明,孟小锋,译.北京:机械工业出版社,2006.
刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(1).
 

源于:论文开题报告www.udooo.com

 [3] 史忠植.高级人工智能[M].第3版.北京:科学出版社,2011.
[4] 陈文庆,徐棠.关联规则挖掘Apriori算法的改进与实现[J].微机发展,2005(8).
[5] 张江, 傅鹤岗.基于关联规则的二维哈希算法的改进 [J].计算机工程与设计,2005(8).
[6] 卢云彬,曹汉强.基于Hash表的关联规则挖掘算法的改进[J].计算机技术与发展,2007(6).
(责任编辑:余 晓)

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号