您的位置: turnitin查重官网> 图书馆 >> 文献类型 >谈述改善Pattern Matrix算法在图书管理中应用

谈述改善Pattern Matrix算法在图书管理中应用

收藏本文 2024-01-19 点赞:31842 浏览:145459 作者:网友投稿原创标记本站原创

摘要:根据用户的信息和图书借阅所产生的数据,分析用户的需求,利用改善的Pattern Matrix算法,从中挖掘出用户数据间的关联性,自动判断用户可能的借阅需求,从而将相关的图书信息推送给用户,增强图书管理的主动怎么写作功能。
关键词:数据分析;数据挖掘;Pattern Matrix算法;改善
1009-3044(2013)33-7577-04

1 Pattern Matrix算法的优缺点

Pattern Matrix算法,是一种建立矩阵模式的关联规则算法。它的基本思想就是通过对事务集D的扫描,将其中的N个事务及这些事务所涉及的M个项目转换成二进制代码0和1,并将这些二进制代码以矩阵的方式进行排列,然后通过矩阵各行进行的与运算,改善的Pattern Matrix算法在图书管理中的应用由提供海量免费论文范文的www.udooo.com,希望对您的论文写作有帮助.产生新矩阵,保留并输出,产生频繁项集K,直至矩阵中剩下一行或者为0时,才停止频繁项目集的产生。
这种算法最突出的优点就是,在计算时只需对数据库进行一次扫描,这样就在很大程度上减少了数据挖掘所耗费的大量时间。扫描后所产生的数据是逻辑型数据,以矩阵的形式加以保存。数据挖掘的过程与结果通过逻辑运算加以实现,这样就可以节省数据空间并提高挖掘效率。
按照这种算法,最终产生的K频繁项目集是关联性最强的,最符合关联规则的要求。在实际的数据测试中,我们发现,利用Pattern Matrix算法,一般最多只能产生2-3个事务间的关联,事务间关联的支持度很高,一般都可以在80%以上。但在图书管理系统在,我们一般设定的最小支持度都定义在40%-50%左右,目的就是为了能让用户得到更多有关联的资源信息。也就是说,支持度越高,事务间的关联性越强,可供选择的信息越少,也就意味着系统对客户需求信息的获取减少了。比如,通过Pattern Matrix算法,系统最终产生了电子类图书和机械类图书之间的关联信息,那么很可能与之相关的计算机类,数学类,物理类图书就会被屏蔽掉,相关的这些信息也就不会最终传递给客户,图书的资源也就不会被充分的利用,这就与我们当初制定的目标背道而驰了。

2 Pattern Matrix算法的改善

2.1 算法改善的基本思路

通过上述分析,可以得知Pattern Matrix算法的最大不足在于可关联的事务太少,当矩阵行数满足其要求时,其矩阵内每一项事务二进制数据基本上都是1,说明该频繁集内的每一项目所代表的信息都是要被一直使用着。这就极大的缩小了系统获取客户需求的空间,而在图书管理系统中,我们希望系统能够通过关联规则提取客户至少4个需求信息。
通过实验,我们发现,利用Pattern Matrix算法在对矩阵进行简化的过程中,当矩阵的行数开始等于或者小于5行的时候,我们停止矩阵的简化,那么在绝大多数情况下,事务间的关联性基本都在4个以上,这就可以满足我们的要求。也有极个别情况下,事物间的关联性少于4个,经验证发现是客户本身对系统提供的信息过少,或者是客户个人的借阅信息很少造成的。
比如,当矩阵行数为3行时,每行之间会存在事务的重复,如图1所示,矩阵P中3行共包含了5个事务,其中, X1行和X2中Y4事务重复,X1行和X3行中Y

1、Y5事务重复,X2行和X3行中Y2、Y6事务重复。

在这种情况下,既要避开在最终的频繁项目集中出现重复的事务,又要满足最终频繁项目集中要出现4个及以上的事务关联,所以在这里,我们提出,可以利用FP-Growth算法的基本思想来对Pattern Matrix算法进行改善。

2.2 算法改善的基本原理

FP-Growth算法的核心是通过对数据库的扫描建立一棵频繁树(FP-Tree),即通过扫描数据库,定义一个根节点N,该根节点分成2部分,一部分用作表头,一部分用作数据库中扫描得到的项目集的链接,通过链接,项目集就成为了这根节点的一个分支点,这样在数据库中每次扫描一个项目,就遍历根节点上是否存在该项目集,如果存在就放入该分支点,如果不存在就建立一新分支点,从而构成一棵频繁树。
建立频繁树,系统的消耗量很大,但是各分支点的消耗量不大,模式矩阵通过Pattern Matrix算法的不断简化,当矩阵行数低于5行时,K-频繁集中的项目比原始数据库已经大大的精简了,此时我们利用这一原理基本思想,不建立频繁树,而是建立一数据链表,这样既可以将矩阵中重复的项目汇总并建立新的频繁集,又可以克服Pattern Matrix算法强关联性的缺点,增加频繁集。凡是能满足系统最小支持度的频繁集都可以保留下来,增加了系统事务间的关联性。

3 改善的算法在图书管理系统中的应用

通过上面的理论描述分析,可以看出改善的Pattern Matrix算法虽然牺牲了一点时间效率,但总体的效果较好。在图书管理系统中,利用现行图书管理系统中的记录信息,如用户信息、借阅记录、历史检索等大量的图书借阅信息来进行数据挖掘,抽取了2010年1月—6月图书管理数据库中每个读者的借阅记录,来进行算法的试验和分析。

3.1 数据的预处理

首先,为了能够更好的对数据进行关联规则的分析,需要对数据进行一些技术上的处理,根据分类的首字母进行重新排序,得到表2内容。

3.2 用Pattern Matrix算法进行数据的挖掘

用Pattern Matrix算法对上述产生的数据进行挖掘分析,希望能得出数据间的关联关系。
首先,根据表2表示的信息,对其进行扫描,通过一次扫描,构造出1-项集二进制矩阵P’,如图2所示:
通过上述步骤,我们就得到了所需要的模式矩阵。如果设定该关联规则的最小支持度是50%,即Minsup=50%,现在共有6个事务,则就可以设定参数flag,flag表示结果为1的数的个数,那么该关联的flag=50%*6=3。对该矩阵的每行进行计数,就可以得到1的个数。若1的个数大于等于flag的值,则该项目集是频繁集,将其保留;反之,若结果中1的个数小于flag的值,说明此项目集不是频繁集,将其去除。在上述矩阵P中,项B=101010,则flag=3,保留;项D=000001,flag=1,去除;项E=11001,flag=3,保留;项G=101011,flag=4,保留;项I=011101,flag=4,保留;项J=101101,flag=4,保留;项K=011101,flag=5,保留;项P=01OO1O,flag=2,去除;项Q=010000,flag=1,去除;项T=100110,flag=3,保留。
通过上述的分析和筛选,项B、E、G、I、J、K、T由于Flag的数量大于或等于最小支持度3,所以被保留下来,那么就可以根据保留下来的向量,根据Pattern Matrix算法的原理重新来建立模式矩阵Pl,如图4:

3.3 用改善的Pattern Matrix算法进行优化

改善的Pattern Matrix算法是在对关联程度影响不是很大的前提下,增加事务间关联的数量,优化Pattern Matrix算法,让关联程度和关联数量达到合理的设置。
1)运用Pattern Matrix算法得到2-频繁集时,矩阵行数精简至5行,满足了改善的Pattern Matrix算法的要求,所以首先对P2矩阵进行转置,得到P2’,如图5所示:
转置后,1表明该关联在事务集中出现,0表明该关联没有在事务集中出现过。根据对上图的分析和统计,BG=101010,有三个1,即表明BG关联在事务集出现了3次(N=3,N表示出现的次数),以此类推,统计如下:
BG=101010,N=3;GJ=101001,N=3;IJ=001101,N=3;IK=011101,N=4;JK=001101,N=3;
2)对得到的次数进行分类号的统计,并建立数据链表。数据链表分2部分,一部分是分类号名称,另一部分是该分类号出现的次数。BG=101010,N=3表明在BG关联中,分类号B和G分别都出现了3次,即NB=3,NG=3;GJ=101001,N=3表明在GJ关联中,分类号G和J也分别出现了3次,即NG=3,NJ=3;此时,G出现在2个关联中,共出现了6次,即NG=3+3=6,以此类推,统计数据如表3数据链表:
3)对数据链表进行扫描和降序排列,如表4所示。
因为事先设定minsup=50%,则关联参数Flag=50%*6=3。如果统计次数Ni-times大于等于3,则表明该项目集是频繁集,予以保留,如果Ni-times小于3,则表示该项目集不是频繁集,不予保留。
所以上述表格中,各项目集的次数都大于等于3次,表明上述数据链表中各项目集都是频繁集,即J、I、K、G、B之间都存在关联关系。
4)通过比对原Pattern Matrix算法,优化后的算法不但仍保留了原算法得出的数据(I、J、K),而且适当的添加了新的数据(B、G),新增加的数改善的Pattern Matrix算法在图书管理中的应用由优秀论文网站www.udooo.com提供,助您写好论文.据仍支持系统最小支持度,这表明了原来的算法由于关联程度过高,系统漏掉了一些客观存在的有用数据,优化后的算法,在满足系统要求的前提下关联程度适当降低,使这些数据得以保留,从而系统可以获取更多有用的信息。
从上面的挖掘结果可以看出,J(艺术)、I(文学)、K(历史、地理)、G(文化、科学、教育、体育)、B(哲学、宗教)这五类图书是读者频繁借阅的图书种类,说明在这位读者身上,J、I、K、G、B五类图书具有很强的关联性,从一定程度上反映出这位学生近一年时间里的兴趣所在或者从事学习研究的方向。J(艺术)出现的次数最多,I(文学)和K(历史、地理)紧随其后,从知识分类上来分析,艺术、文学、历史和地理之间本来就有很深的关系,而且艺术、文学与B(宗教、哲学)本身也有很大的联系,加上G(文化、科学、教育、体育)的频繁出现,综合分析表明该生可能从事艺术类的教育学习工作,这些都正好都与无锡高等师范学校自身的特点有关,也表明了该图书管理系统能够体现师范学校的特色,满足学校图书管理的建设需求。
参考文献:
[1] 孙士新,李海燕,郑志蕴.高校图书馆个性化怎么写作系统中的呆滞图书模型设计及实现[J].江汉大学学报,2010(3):57-60.
[2] 王居平.数字图书馆评价的理论和策略[M].合肥:安徽大学出版社,2008:52-54.
[3] 张继东,万莉.语义Web怎么写作主流框架在数字图书馆中的应用研究[J].情报科学,2010(1):161.

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号