您的位置: turnitin查重官网> 工程 >> 电气工程 >> 电气信息及自动化 >谈述校园网基于Lucene校园网智能搜索引擎设计和实现

谈述校园网基于Lucene校园网智能搜索引擎设计和实现

收藏本文 2024-01-25 点赞:10364 浏览:37251 作者:网友投稿原创标记本站原创

摘要: 为了设计与开发校园网智能搜索引擎,研究和分析搜索引擎的工作原理、Lucene的运行机制以及智能搜索引擎功能需求。结合本校的校园网建设,分别从爬虫系统、索引系统、引擎管理平台、检索系统4个子系统出发实现了一套基于Lucene的校园网智能搜索引擎,搜索引擎在搜索功能、信息监管、系统安全、智能交互方面都有所提升。搜索引擎可为校内用户提供决策性的搜索帮助,且搜索结果的期望值较高。
关键字: 网络爬虫; Lucene; 校园网; 智能搜索引擎; 索引系统
1004?373X(2013)06?0083?04
随着因特网的迅猛发展、Web信息量的爆炸性增长,人们被庞大的、多样性的信息所围绕,用户要在信息的海洋中查找自己需要的信息,犹如大海捞针一般,有时会无功而返,正因如此,搜索引擎技术应运而生,它有效地解决了信息数量多与用户查找信息困难之间的矛盾,发展到了今天,商用搜索引擎已经相当成熟,搜索方式越来越趋向于人性化、智能化。据调查,全国现有30%左右的高校采用百度或Google嵌入式引擎作为校园内部搜索引擎,但他们在使用中发现,商用搜索引擎很难实现一个域范围内的全面而精准的搜索。因此,高校有必要根据本校的校园网环境特色,自行设计和实现一套智能、高效的搜索引擎。
本文在研究分析搜索引擎的工作原理和Lucene的运行机制的基础上,建立了一套基于Lucene的校园网站智能全文搜索系统,为校内外用户提供针对学校各类网站的全文搜索怎么写作,使用户能够快速、方便、准确、全面地查找到所需信息,提高学校网站利用率。

1 搜索引擎及Lucene概述

搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接链接起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点被称作种子,可以告诉它,也可以到一些列表网站上获取,随着网络爬虫对数据的大量收集,产生一个问题,怎么能从收集的千千万万的信息中快速、精确地找到自己需要的信息,这时就需要建立针对文本的索引,将文本内容转换或能够进行快速搜索的格式,从而消除按顺序扫描的慢速搜索,简单地理解为一种用来快速查找单词的工具,当用户想要查询自己所需的信息时,检索器会接受用户的输入,并建立查询,接着进行查询解析,在文本库中进行快速检索,进行相关性排序,最终将查询结果提供给用户查看。通过上述分析,一个基本的搜索引擎系统应包括3部分内容:搜索器、索引器、检索器。
Lucene是Apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,它本身不是一个完整的搜索程序,而只是搜索程序的核心和搜索模块而已,可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能[3]。Lucene具有如下突出优点[4]:
(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。
(4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
(5)已经默认实现了一套强大的查询引擎,用户无需自己编写代码即使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等。
Lucene基本上向用户提供索引、搜索、管理3大组件。索引组件分为4个部分,首先,使用爬虫来搜集和界定需要索引的内容;然后,将获得的内容转换成文档,文档通常包含标题、正文、摘要、作者、链接等域;随后,进行文档分析,将文本分割成一系列词汇单元,俗称切词;最后文档被加入索引列表。搜索组件包括3部分,首先,建立查询请求,用户提交的搜索请求会转换成为搜索引擎特定的查询的对象格式;其次,查询检索索引并返回与关键词匹配的文档,引擎会按照某种特定的机制来排序;最后,便是展现查询结果,结果会以直观的、经济的的方式为用户展现结果。Lucene以其突出的优势及十分全面的索引、查询等组件,成为开发校园网搜索引擎的必备框架。这样各大高校就可以通过扩展程序,对Lucene进行二次开发,构建出适合本校的校园网搜素引擎。

2 智能搜索引擎功能分析

本研究实现了一套个性、智能、管理方便、安全性高的校园网站全文检索系统,具体说来满足以下3方面要求。

2.1 搜索功能方面

摘自:毕业论文任务书www.udooo.com

(1)能够对指定的网站进行搜索,并对每个网站单独确定不同的搜索规则,包括搜索深度、搜索范围、更新周期等,支持网页定向采集,对内容更新快的网站或网页,能够实时更新索引,实现即时搜索。
(2)能够对静态网页和各种技术的动态网页进行采集,自动识别多语言网页编码,能够搜索如下类型资源:网页正文;网页正文中嵌入的图片、音乐、视频等资源;网页正文中链接的非结构化数据的内容,包括txt,doc(docx),xls(xlsx),ppt(pptx),rtf,pdf等格式的文件。
(3)具备较高的准确性、全面性与相关性,提供灵活的查询方式,包括单字+词的混合查询、多条件的复合查询、指定范围(网站)查询、组合查询、短语查询、通配符和前缀查询。
(4)搜索结果显示和排序清晰、信息量大,此外,引擎能够根据用户搜索情况,对搜索结果进行优化重排,例如将近期用户搜索次数多的信息排在结果最前等。(5)访问控制粒度上,校内外用户检索结果应具有差异性,不同角色检索权限不同,例如:如果某些网站不允许学生访问,学生将不具备检索权限。
(6)具有智能交互功能,此功能针对学校内部人员,引擎可记录下使用者的历史查询和点击记录来不断修正和完善用户的兴趣词,来为用户提供决策性的搜索帮助。

2.2 信息监管方面

(1)能够对搜索结果准确的实现访问控制,不能将仅供校内用户访问的信息以任何形式出现在校外用户的搜索结果中,也不能提供任何方式的原文链接。确定访问控制的方式包括:根据来源网站提供的信息访问控制规则;根据每个网站单独确定规则;根据预先设定的过滤规则。
(2)能够提供有效的信息监管手段,基于敏感词、来源等方式对搜索结果进行屏蔽,具备搜索趋势分析等功能。

2.3 系统安全方面

(1)系统必须具备完善的防护措施,不存在明显的安全漏洞,能够防范SQL注入、跨站脚本等Web攻击,不会因为Web攻击导致信息泄露。
(2)系统能够在建立索引时进行病毒、木马扫描,并进行标记,在搜索结果中进行提示或屏蔽,防止存在安全问题的网站通过搜索系统扩大影响范围。

3 智能搜索引擎实现

本次设计和实现的整个搜索引擎系统分为4个

源于:论文格式字体要求www.udooo.com

子系统,分别为爬虫系统、索引系统、智能搜索引擎管理平台、检索系统。

3.1 爬虫系统

爬虫系统为整个搜索引擎的核心之一,如图1所示,爬虫系统每天定时从队列中获取爬虫的URL,同时产生多个线程爬取,并将爬取到的数据保存到MySQL数据库中。对于网页内容的提取,一直是搜索引擎的重要的技术之一。Lucene本身并不能提供任何功能来完成内容获取,因此,选用另一个由Ja开发的、开源的Web网络爬虫Heritrix[5],它也具有很强的扩展性,开发者可以扩展它的各个组件,来实现自己的内容爬取。在进行爬取前,需要对爬取的内容进行详细的分析,以确定种子,即爬取的起始页,在选择好网站得到爬取清单后,则可以以WebUI方式启动Heritrix进行任务爬取,接着将Heritrix爬取的内容生成镜像文件,最后将利用HTMLParser工具来对镜像文件进行结构化信息解析、整理,为后续的索引打下基础。
一个完整的搜索引擎系统需要很多需要配置的控制功能,Lucene管理界面向开发者提供了大量配置选项,如调节缓冲区的使用量、提交更改的频率、优化和清楚某索引的时间点等[7]。
对于本系统,在爬虫管理中加入了2种比较新颖的功能,敏感词库管理和木马监控,敏感词库对查询用户起到了屏蔽敏感词查询的作用,对于管理员,系统会自动列出存在敏感词的系统地址,方便管理员对各个系统进行监控。木马监控可方便让管理员注意到哪些网站存在病毒、木马,并采取相应的防范措施来预防。

3.4 检索系统

测试结果表明,本搜索引擎比通用搜索引擎在查询时间和查准率上均有提高,更加适合本校园网内使用。

5 结 语

Lucene是一款优秀的开源全文搜索技术框架,具有良好的扩展性,运用它所实现的校园网智能搜索引擎系统可以稳定运行,对推动校园网Web应用以及基于搜索引擎技术的教学、科研等都有一定的现实意义。同时系统也存在一些有待改进的地方,如改善搜索算法、提高搜索智能化等都是经后进一步研究的内容。
参考文献
佚名.搜索引擎的基本原理 [EB/OL]. [2010?11?24]. http://blog.csdn.net/zhangxinrun/article/details/6032265.
蔡建超.基于lucene.net的校园网搜索引擎的设计与实现[J].计算机技术与发展,2006,16(11):73?75.
[3] 管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,28(2):489?491.
[4] Anon. Lucene的突出优势[EB/OL]. [2012?06?26]. http:// baike.baidu.com/view/37181

1.htm.

[5] 朱雪莲.基于Lucene的专业搜索引擎的研究与应用[J].现代计算机,2010(7):116?119.
[6] 田宇.基于XML的WEB信息抽取系统研究与实现[D].呼和浩特:内蒙古大学,2010.
[7] MCCANDLESS Michael, ERIK Hatcher, GOSPODNETIC Otis. Lucene实战[M].牛长流,肖宇,译.2版.北京:人民邮电出版社,2011.
[8] 马家宇,阳小华.基于J2EE架构的智能元搜索引擎系统设计与实现[J].计算机应用与软件,2008,25(8):68?69,99.

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号