摘要:关键字检索由于其对用户友好的特点在信息检索领域得到了广泛的运用,用户不需要学习数据源底层的结构信息及繁琐的查询语言,如SQL、XPath等,提出相关的关键字就能查询到所需要的信息。XML由于其结构的灵活特性,很快成为了数据交换及数据存储的事实标准,主流的数据库如oracle,db2等均提供了xml数据的存储管理,开源社区也在xml数据库方面提供了强有力的支持,如BaseX, BerkerlyDB等开源XML数据库。随着大数据时代的到来,数据会呈现爆炸式地增加,数据被分布到分布式的数据库系统或者数据源上。在多个数据源上进行关键字检索时,每个数据源都要对关键字进行查询,查询时间由查询速度最慢的数据源决定,由于有些数据源针对某些关键字不能给出很好的结果却浪费了查询时间及怎么写作器资源,由此选择与用户查询的关键字相关度大的数据源进行查询对提升检索效率显得格为重要,由此数据源选择不足是信息检索领域及异构系统集成领域的一个探讨热点。本论文提出了一种基于关键字检索的XML数据源选择策略,针对XML文档结构的层次特性,提出了一种递归定义的结果评分模型,将节点的关键字频率与路径长度递归地加入到评分模型中,相比较之前的策略,评分模型能够准确地评判结果的优劣。同时,利用评分模型定义并提取了XML数据源的摘要,本论文利用的建立摘要的算法只要剖析XML文档一遍即可完成XML数据源摘要的建立,对于摘要存储中涉及的压缩、优化、更新等不足的解决案例及算法也进行了详细的叙述。针对XML数据源选择系统,本论文给出了系统的架构,并对系统的每一部分进行了详细的描述。根据摘要信息,提出了四种数据源选择的案例,并利用DBLP数据集进行试验,将本论文的案例与相关探讨中的解决案例进行了比较,验证了本论文案例的有效性。关键词:XML论文关键字检索论文数据源选择论文信息检索论文
摘要5-6
Abstract6-7
第一章 绪论7-11
1.1. 引言7-9
1.2. 本论文工作9-10
1.3. 本论文组织结构10-11
第二章 相关工作及探讨背景11-20
2.1. XML与关键字检索11-14
2.1.1. XML11-12
2.1.2. XML关键字检索12-14
2.2. 数据源选择14-17
2.2.1. 信息检索领域14-15
2.2.2. 联系数据库领域15-17
2.3. XML数据源选择17-20
第三章 XML数据源选择及摘要更新20-37
3.1. 不足描述和相关定义20-24
3.1.1. 评分模型20-23
3.1.2. 数据源选择模型23-24
3.2. 系统框架介绍24-25
3.3. 摘要建立25-35
3.4. 本章小结35-37
第四章 实验37-44
4.1. 实验环境37
4.2. 数据预处理37-38
4.3. 实验38-44
第五章 总结和将来工作44-46
5.1. 本论文工作及贡献44-45
5.2. 将来工作45-46