您的位置: turnitin查重官网> 计算机 >> 软件原理 >简论西夏西夏图像版面分割和分类算法和实现设计

简论西夏西夏图像版面分割和分类算法和实现设计

收藏本文 2024-04-08 点赞:17428 浏览:72689 作者:网友投稿原创标记本站原创

摘 要:随着世界上西夏学研究的兴起,西夏文献作为西夏文物的重要组成部分越来越受到重视。本文介绍了西夏古籍文献的研究意义、图像处理、分割以及分类等问题。对比分析了西夏文字图像预处理的方法,设计实现了西夏文字图像版面的分割的算法,并分析了采用模版匹配的方式对分割后图像按一定特征分类的算法。分割后的西夏文字更易于辨认研究,且有利于计算机自动进行识别和理解图像,对西夏学的研究有着重要的意义。
关键词:西夏文;版面分割;文字分类
1007-9599 (2013) 04-0000-02

1 研究背景

西夏碑拓片上的西夏文字是研究西夏文的重要途径之一,但拓片上的西夏文字经常排列的紧密,不易于观察辨认,此时可以采用版面分割方法分割出更适合人类视觉观察和识别的图像。分割后的西夏文字更易于辨认研究,并且有利于计算机自动进行识别和理解图像。对分割处理后的文字分类整理,有助于研究人员归纳总结西夏文规律,这正是本文研究的目的与意义所在。所以研究人员提出了利用计算机技术对于文献进行处理,确定文字位置,进行文字分割,并按照部首分类,以便于研究保存。

2 西夏文献图像数字化处理

文本在扫描输入计算机后,由于纸张和印刷质量等因素会给文字图像造成噪声,出现污点,文字形状改变,笔划粘连和断笔,所以要先对文字图像进行预处理之后在进行识别。

2.1 西夏文献图片预处理

对西夏文献图像进行预处理后得到一幅较为清晰的文字骨架点线图,为后续文字特征提取提供了便利。

2.2 西夏文献图像版面分割

在进行文字识别之前,需要将每个西夏文单字的图像从文字块中分割出来,即:进行行切分和字切分。

2.1 行切分

由于西夏文本是竖排文本,所以行切分实际上应该被称作“列切分”。列切分的过程如下:从左到右扫描文字所在的图像,通过统计积分投影(垂直投影),搜索出每一列文字的左边界和右边界,然后根据左右边界的位置,可以从文字块中切分出文字列。

3 西夏图像文字的分类

3.1 西夏文字的特征选择

(1)结构特征
(2)局部特征

3.2 西夏文字分类方法

本文使用模式相关匹配的方法将经过处理分割的西夏文图像按其组成部分中的偏旁分类,类似于汉字的按部首分类。将西夏文献图像作为文字特征,与特征库中的偏旁部首模板进行比对,将文字归类为与模板中相似度最高的偏旁类别。

3.

2.1 相关匹配方法

(1)距离度量 (2)相似度度量
3.

2.2 单分类器方法

采用分类器算法进行模式分类过程,分类器算法可采用误差均衡距离,文字高度近似距离和贝叶斯分类器。
(1)误差均衡距离计算
(2)文字高度近似距离
(3)贝叶斯分类器
4 结论
目前对于文字识别的研究已经取得了很多成果,而对于西夏文字的识别研究,只有西夏学学者提出过这个想法,并没有取得成果。本文设计实现了西夏文字图像版面的分割算法,并分析了采用模版匹配的方式对分割后图像按一定特征分类的算法。初步分析了几个西夏文字的特征,并基于这些特征,运用模板匹配方法,初步完成了分割后文字图像的分类。分割后的西夏文字更易于辨认研究,且有利于计算机自动进行识别和理解图像,这就是本文研究的目的和意义。
参考文献:
马希荣,王行愚.西夏文字识别中的图像预处理[J].计算机工程与应用,2002,38(2).
刘利娜.手写体字符识别的研究与应用[D].江南大学,2009.
[3]门光福.西夏文字光学识别研究[D].宁夏大学,2007.
[4]袁氢.基于特征融合与神经网络的手写体数字识别的技术与研究[D].武汉科技大学,2007.
[5]丁佩律.基于生物特征的身份识别及其鲁棒性研究[D].复旦大学,2002.
[6]柳叶青.基于机器视觉的药瓶检测系统的研究[D].中南大学,2009.
[7]基于红外扫描图像的运动目标识别及跟踪技术研究[D].武汉理工大学,2010.
[8]张瑞燕.防伪标签复合识别的研究与实现[D].华南理工大学,2005.
[9]潘建江.数字图像分割及变形技术研究[D].浙江大学博士学位论文,2004.
[10]龚声蓉,刘纯平等.数字图像处理与分析[M].清华大学出版社,2006.
[11]姚敏.数字图像处理[M].机械工业出版社,2006.
[12]张析中.汉字识别技术[M].清华大学出版社,1992.
[13]文颖.数字、字符识别及其应用研究[D].上海交通大学,2009.
[14]范立南,韩晓微等.图像处理与模式识别[M].科学出版社,2007.
[15]Rafael C. Gonzalez, Richard E. Woods. Digital Image Processing(Second Edition),
Prentice Hall,2003.
[16]杨枝灵,王开等.Visual C++数字图像获取、处理及实践应用[M].北京:人民邮电出版社,2003.
[17]Datong Chen.Jean-Marc Odobez. Herve Bourland, Text Segmentation and
Recognition in Complex Backgruond, IDIAP Research Institute,2009.
[作者简介]刘丽晖(1987.06-),女,汉族,四川大学计算机学院201,软件工程专业研究生。

源于:论文库www.udooo.com

    copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号