您的位置: turnitin查重官网> 计算机 >> 计算机网络 >> 计算机网络基础 >信息处理用彝汉双语词汇对齐技术

信息处理用彝汉双语词汇对齐技术

收藏本文 2024-04-21 点赞:4553 浏览:13287 作者:网友投稿原创标记本站原创

摘要:本文首先以信息处理用彝汉词汇对齐的难点作为出发点,然后在分析参照Borwn词汇对齐模型的基础上提出基于彝汉双语词典的彝汉词汇对齐的实现算法BiDictAlign,并用此方法进行了实验测试,测试数据显示此方法具有良好的性能,为信息处理用彝汉双语料词汇对齐技术的研究进行了有意义的探索。
关键词:彝汉双语;对齐算法;BiDictAlign;测试分析
1007-9599 (2012) 11-0000-02
一、引言
双语语料对齐分为段落、句子、短语和词语几个不同的层次。但在词汇输入、信息检索、机器翻译、电子词典、语义分析等语言信息处理领域,段落、句子、短语级别的对齐是不能满足需要的,例如:机器翻译是把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成目标语言,这就要求必须实现源语言和目标语言词与词的对齐才能找出两者之间的对应翻译关系,相对于段落、句子、短语级别的对齐,词与词之间的对齐因为实现的技术较复杂,对齐的难度更大一些。而且彝语、汉语两个语言的差异比较大,客观上造成了彝汉双语词汇对齐的难度比其他语言之间词汇对齐的困难更大。

二、信息处理用彝汉双语词汇对齐的难点分析

词汇对齐是指在源语言和目标语言的对应翻译中找到词与词之间匹配关系的过程,如下文所举例出的彝汉双语词汇对齐的句子所示,在每个词的右下角都用数字表示了该词在句子排列中的顺序。
彝文:
汉文:我1前天2去3北京了4。
-我1;-前天2; -去3;北京4-
通过这个实例,我们可以用形式化的理论来进行分析:检测设彝汉双语词汇对齐的每个对应词汇只包含相邻的词或不存在,那么彝汉双语词汇对齐的每个部分就可以用这个六元组来进行分析,Ci表示汉语词条,Yj表示彝语词条,i、j分别表示Ci、Yj在各自句子的起始词序号。lC,lY分别表示词的个数。
词汇的对齐主要找出源语言和目标语言的对应翻译的词与词之间匹配关系,因此词汇对齐提高的语言信息度更精确,为语言信息处理研究在词典编纂、机器翻译、词义排歧、信息检索等领域研究与开发提供了重要的语言学材料支撑。然而由于彝语、汉语两个语言的差异比较大,造成了彝汉双语词汇对齐技术的实现难度比较大,主要有以下几个方面的原因:
1.不同语言都有自身的语言表达习惯与方式,检测设性的词汇排序不可能都能满足所有的情况。在段落、句子级别的对齐中,因为在对照、翻译、对齐的过程中段落、句子的次序调整都是少见的,因此常规性的检测设对齐条件能满足大多数情况的语言应用实际。但是在词汇对齐中词序的错位是常见的。词序的错位将直接扩大对齐的搜索空间和范围,匹配的结果不相符的可能性将大大增加。
2.词汇的匹配模式比较复杂多样化。在词汇对齐中,除了词与词之间需的对照翻译外,还有一些在对照翻译过程中不需要翻译、省略,但需要对齐的现象也很常见;此外,有些词直接翻译成从句子,例如:飞檐走壁-;词也翻译成相邻或不相邻的短语;一些更复杂的情况,如:在彝语中有些词通过跟相邻的词语组合成短语后短语才会有相应的对照。词汇对齐匹配模式比较多样化无形中就加大了词汇对齐时搜索对象的数量。
3.词汇的匹配关系难以断定。通过不同句子的对照翻译信息、长度匹配关系就可以判定句子间的匹配可能性。虽然通过彝汉双语词典可以满足一部分词汇匹配,但对于新词术语、未登录词、外来词等不可能全部收入词典,还需要寻找别的匹配方法来进行对齐。
众所周知,不同语言之间的翻译对照是不以词为单位的,考虑的因素比较多,这也是造成目前词汇对齐技术研究的根本原因。
以上说述的几个方面主要是由于彝语、汉语之间的较大差异,在进行彝汉词汇对齐的过程这些方面表现得很明显。此外,由于彝语本身的特点,在进行彝汉词汇对齐的过程还得处理好两个的问题:
1.彝语中的词没有固定或明显的词头、词尾和性、数、格变化等分词标志,而且没有统一、严格的非形式定义,对形式或抽象定义都还存在一定的问题。导致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界,也就是说词与词之间的边界还没有最终划清,在这种情况下,进行彝汉的词汇对齐,必然有一定的困难。
2.彝文中有大量尔比,即谚语、熟语。其结构紧密,语义完整,但其中的许多字符可以单独切分为词,也可以与其他字符或字符串组成词,而且与之相应汉语中通常没有固定的对应目标语言,而且通常采用意译,几乎找不出词汇级别上的对应。对于这样的翻译,很难进行词汇的对齐。如:汉语:八仙过海,各显神通;彝语:

三、Borwn词汇对齐模型

基于统计的机器翻译系统在Borwn等人推动下有了长足的进展,也是目前进行词汇对齐实验研究最初的动机。这个模型把源语言S到目标语言T的翻译看成是T经过某个噪声信道畸变成S,然后通过S恢复T的过程,用形式化的表达方式为:
T=argmax Prob(T/S)=armgxa(Porb(T)Prob(S|T))
其中Prob(T)是语言模型(lnagua model),Prob(S|T)称为翻译模型(translation model),通过语料训练分别得到这两个模型的参数,这样从源语言S到目标语言T的翻译转变为两个过程,一是通过训练得到的模型参数计算模型的值,二是通过搜索、比较得到最可能的目标语言,搜索的同时

源于:论文致谢范文www.udooo.com

得到词汇级别的对齐。
对于翻译模型Prob(S|T),Borwn提出了5个基于词汇对齐的模型。这几个模型可以总结为:翻译模型Prob(S|T)实际上是T中的一个词到S中的零个、一个或者多个词的翻译概率的联结过程。其实在己知这些参数的情况下,词汇对齐的过程就是一个求最大概率值的搜索过程。例如:Dangan等人使用改进的Borwn模型对包含噪声的OCR文本不加以预处理,通过字符串匹配获得部分对齐,然后使用词汇对齐模型进行词的对齐,该方法在对含有65000个词的英法噪声文本进行词汇对齐时,其中60.5%的词获得了正确的对齐。为了避免过多的词对进行匹配,Galy使用一种类x2的概率分布,只选择部分相关词对进行匹配,通过该方法,对800个测试集句子中的61%的词,获得了95%的正确率。Ker使用了一种基于语义类的方法对汉英句子进行词汇对齐,该方法通过大规模语料的训练,来获得汉英词翻译的语义类匹配规则,然后利用这些规则对汉英句子进行词汇对齐,据称该方法可以达到80%以上的召回率和90%以上的正确率。以上的方法都需要大规模的复杂的训练过程,字符串的匹配显然不能用于彝汉词汇对齐,企图完全通过统计的方法来进行词汇对齐也显然没有充分利用现有的资源并且很难同时获得较高的召回率和正确率。
从前文所述可以看出,词汇级别对齐的有效和可靠的工具应该是基于双语词典丰富的词汇互译信息,因此在技术层面上来说,双语电子词典的出现和应用对于信息处理用彝汉词汇自动对齐技术的研发提供了强有力的可靠资源。所以,本文进行彝汉词汇自动对齐研究就是基于彝汉双语词典的对齐作为技术基础的。

四、基于彝汉双语词典词汇对齐的算法

检测设彝语句子Y=Y1Y2…YM与汉语句子C=C1C2…CN互为对照翻译关系,设定句子中的每一个YM或CN分别为源语言和目标语言中的词和标点符号,那么通过形式化理论则可推出基于彝汉双语词典的词汇对齐(BiDictAlign)算法实现步骤如下:
1.初始化:集合setC={,…,},sety={,…,},集合SetA=?。

2.把集合setc中的助词和语气词剔除掉,如:了、的、得等。

3.对于任意∈setC,l≤i≤m,∈setY,l≤i≤Y如果YCYDistsim(YMCI)>h1,(h1为给定的阙值),则将六元组,Ym,1>加入集合SetA;

4.重复第三个步骤,直到SetA不再变化为止;

5.setc=setc-{1存在Ym、j,使得∈setA},se

摘自:毕业论文开题报告范文www.udooo.com

ty=sety-{1存在Cj、j,使得∈setA};

6.输出setA 的匹配词对,setc 、sety中的词汇以空匹配输出。

在对齐输出结果中,setA中存放的是匹配的词汇对,setc中是未找到相应匹配的汉语词汇、sety中是未找到相应匹配的彝语词汇,从实现理论上来说,彝汉双语词典得到的词汇集合应该是比较可靠的。
虽然BiDictAlign在算法实现机制上保证了在对齐结果可以得到比较可靠的匹配词汇,但由于彝汉双语词典本身的局限性,造成使用BiDictAlign算法得到的测试结果会有一定的局限性,主要体现在对齐达到的正确率和召回率两个方面,这是由于彝汉双语词典容量的有限性造成的,主要有以下三个方面:
1.新词术语、未登录词、外来词等不可能全部收入进词典,如何自动判别很收入这些词汇,这也是双语对齐技术所共同面临和需要突破的一个基础性问题。
2.在彝汉双语词典中还有许多字可以单独切分为词,也可以与其他字或词组成短语,而且与之相应汉语中通常没有固定的对应目标语言;即使收录了该词在句子上下文的意义,也不可能收录到所有的翻译对照形式。
3.由于单个词语缺乏综合性的语用环境,因此在双语词典的构建过程中不可能过多少考虑语境,这就增加了缺乏语境考虑的解释性对照翻译。此外,在对齐测试实验中常常出现在对照翻译过程中用近义词、同义词替换翻译词的现象,这也是本文研究以后需要改进完善的地方。

五、彝汉双语词汇对齐的测试实验与分析

本文根据提出的基于彝汉双语词典的词汇对齐技术,对于含有8000词汇量的彝汉语句子进行了测试,词汇对齐获得了以下实验结果:
从两种彝-汉、汉-彝通过对不同源语言和目标语言的双语语料来进行词汇级别对齐测试结果可以分析出: 汉-彝的词汇对齐具有较高的准确率,彝-汉词汇对齐的准确度要相对较低一些。这个主要是由于彝汉两种不同语言在语法规则、表达方式、语义习惯等用法在对齐规程中发生了词汇次序重组和自由式翻译的错位组合,例如:我1学习2语文3 ;这两句汉彝句子在词汇对齐的过程中就会发生学习2语文3 ?3的错位,正确的对齐应该是学习2语文3,因为彝语表达习惯是宾语提前。由此可见在词汇级别的对齐过程中需要考虑不同语言的语法规则、表达习惯才能更好地提高彝汉双语词汇的对难度和准确度。
六、结语
词是最小的、能独立活动的、有意义的语音成分。彝文信息处理的应用系统只要是涉及到了语法语义,就会以词来作为基本单位。本文从彝汉词汇对齐的难点作为出发点,分析参照了Borwn词汇对齐模型的实现原理,提出基于词典的彝汉双语对齐算法BiDictAlign,此算法能很好地利用现有的语料数据资源,而且避免了对双语语料大数据量的过多而无效的统计,使得统计分析的结果更精确。本文还对BiDictAlign的局限性进行了客观分析,提出了改进的方法设想。最后对测试结果进行了数据分析,取得了良好的测试效果。彝汉双语料词汇对齐技术的实现对彝语语料库的建设与发展进行了有意义的探索。
参考文献:
沙马拉毅.计算机彝文信息处理[M].四川民族出版社,2001,6-13
俞士汶,段慧明,朱学峰.综合型语言知识库的建设与利用[J].中文信息学报,2004(5):1-10
[3]徐波.中文信息处理若干重要问题[M].科学出版社,2004,132-136
[4]张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):34-37
[5]常宝宝,詹卫东,张华瑞.面向汉英机器翻译的双语语料库的建设及其管理[J].计算机辅助术语研究,2003,(1):28-31
[6]李康熙,杨勇.平行语料库对齐技术的语言学思考[J].合肥工业大学学报(社会科学版),2009(6):83-86
[作者简介]
王成平(1979-),男,彝族,博士,助理研究员,西南民族大学民族语言文字信息处理实验中心,研究方向:计算机彝文信息处理。本文是国家社科基金项目06XYY021、07BYY060;高校基本科研业务费专项资金项目09SZYZJ04)的研究成果之一。

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号