︹ ᠨᠠᠰᠤᠨ᠋ᠤ᠋ᠷᠲᠤ᠂ ᠰᠡᠴᠡᠨᠲᠦ᠂ ᠸᠠᠩ ᠰᠡᠷᠭᠦᠯᠡᠩ ︺ - ᠦᠭᠦᠯᠡᠯ - (ᠬᠢᠲᠠᠳ) -CWMT2009基于混合策略的汉蒙机器翻译系统介绍
CWMT2009基于混合策略的汉蒙机器翻译系统介绍 王斯日古楞1、2 那顺乌日图2 斯琴图3 1内蒙古师范大学计算机与信息工程学院 010022 呼和浩特 2内蒙古大学蒙古学学院 3内蒙古师范大学网络中心 Email:siriguleng@imnu.edu.cn 摘要:本文介绍了我们参与CWMT2009机器翻译系统评测的基于混合策略的汉蒙机器翻译系统。它是以基于 短语的统计机器翻译系统为主,在训练时对于蒙古文进行了部分形态切分,用句法规则进行调序,用模板 的方法处理了汉蒙量词翻译问题。本文简单介绍了系统的基本流程及其参与CWMT2009的评测情况。 关键字:汉蒙机器翻译系统、混合策略 Description for Chinese-Mongolian Hybrid Machine Translation System of CWMT09 Wang.siriguleng12 Nasun-urtu1 siqintu3 1. Inner Mongolian Normal University Computer and Information Engineering College ,010022 2. The Institute of Mongolian Studies, Inner Mongolia University 3. Inner Mongolian Normal University network center Email:siriguleng@imnu.edu.cn Abstract:In this paper, we describe our Chinese-Mongolian Hybrid Machine Translation system. It is based on phrase-based statistical machine translation system, makes some Morphological segmentation for Mongolian in training , makes use of syntactic rule to solve the reordering problem in the Chinese-Mongolian, and uses the template approach to solve the Chinese-Mongolian quantifier translation problems. We will introduce the flow of system and evaluation report for the CWMT2009. Keywords: Chinese-Mongolian machine translation system, Hybrid Approach 1 引言 对于汉蒙机器翻译我们曾经做过基于规则的研究和基于实例的研究,随着机器翻译技 术的发展,我们正在开展基于混合策略的汉蒙机器翻译研究。在2009年中国机器翻译研讨 会 ︵CWMT2009︶ 机器翻译评测中我们参加了汉蒙机器翻译系统的评测,在评测项目中只使用了 评测组织方提供的资源.下面我们主要介绍基于混合策略的汉蒙机器翻译系统基本框架、实 验过程和结果。 2 系统描述 我们开发的基于混合策略的汉蒙机器翻译系统是在基于短语的汉蒙统计机器翻译基础 上,通过对于蒙古文的名词格、名词复数形式和领属格等附加成分的形态切分,基于蒙古语 语序的汉语句子调序和汉蒙量词对应翻译等方法构建了一个基于混合策略的汉蒙机器翻译 系统。系统流程如图1 . 图1基于混合策略的汉蒙机器翻译系统流程图 基于混合策略的汉蒙机器翻译系统是一个 基于短语的统计机器翻译系统 主,在 对于蒙古 文 了 分形态切分,用句法规则 调序,用 的方法 了汉蒙量词翻译 。 技术 用 词语对 ,短语 和 器使用了 ¡1.0中的 ¢和C M£⁄ 器,用¥ƒ ⁄M 了蒙古语语§ currency1 ,汉语分'中使用了中“«计 ‹ ›上fifl资源分词系统 CTC⁄ ¥和 –句法分'器 CT†ƒ‡†。 量词 ¢ 统计 器 结 · 蒙古语语§ currency1 短语翻译 – 开¶ 分词和词• ‚„ ”»汉语句子 ᠁ ‰系统 参数 ¿ 加`语§ currency1和 短语 基于句法的 调序 ¢ ´ ”ˆ译文 译文˜ 3 实验 我们使用了CMMT2009机器翻译评测 组织方提供的汉蒙 语¯。˘要 的是系统 过程中蒙古文语¯˙ 使用了蒙古文¨ ˚¸ ˝语¯,我们˛˝了蒙古文˚ˇ ˝和 蒙古文 — T ˛ 的 程序, ˜ ˚ˇ形式的翻译结果通过 ˝程序 成 统蒙古文 — T 格式。 对于蒙古文语¯ 形态切分 ˜ 了语§ currency1和短语 。译文˜ 主要 成 形态 成和译文中的 词的 。参数 ᠁ ‰ Æ使用了C M£⁄ 器中的 ᠁ ‰。测 ª 上的评测结果如 1. 表1 评测结果 BLEU4-SBP BLEU4 NIST5 GTM mWER mPER ICT 0.1432 0.1517 4.8815 0.5185 0.6759 0.5954 0.3838 了 结果,我们 测 ª中的蒙古文分 ˚ˇ ˝格式和 — T 了实验. 用˚ˇ ˝格式语¯ ,翻译˜Łˆ的˚ˇ形式的蒙古文译文,通过 程序 成 — T 格式的译文.参ØŒº分 成˚ˇ格式和 — T 格式 ,对于 ˜的译文 了评测。评测 Æ使用了评测组织方提供的æ ı łøœ. 2߈了实验结果。 表2 传统蒙古文UTF-8编码格式和蒙古文内大拉丁转写格式文本的评测结果表 蒙古文文本格式 NIST BLEU BLEU_SBP GTM mWER mPER ICT 统蒙古文UTF-8˛ 4.9041 0.1539 0.1453 0.5209 0.6725 0.5904 0.3862 蒙古文¨ ˚ˇ ˝ 5.1138 0.2356 0.2282 0.5770 0.6314 0.5541 0.3711 实验结果 蒙古文的˚ˇ ˝结果和蒙古文 — T ˛ 评测结果之间存在着很 的差异。其 能的原因: ︵1︶ 现有语¯中的蒙古文 分还存在一些拼˝上的错误。 ︵2︶ 蒙古文 — T 文本中存在着 量的控制字符,使Ł 类currency1文本中蒙古文单词的长度 不一样。 ︵3︶ ˚ˇ — N C‡D£ ˝程序中 能存在漏洞。 今˜我们对于汉蒙双语语¯ 一步校对,不断地 善 程序,来提高 语¯的质 量。 4 总结 本文简单介绍了基于混合策略的汉蒙机器翻译系统及其参与CWMT2009的评测情况。我 们通过评测学 了很多,也 很多我们系统中存在的不足。今˜,我们 在此基础上,通 过对系统中各个环节 升级和 善,不断地提高系统•能。 参考文献 清格尔泰,蒙古语语法,¨蒙古人民ˆ版社,1991年。 俞士汶 等著,现代汉语语法信息词典详 ,清华 学ˆ版社,199 年 侯宏旭,刘群,那顺乌日图,基于实例的汉蒙机器翻译,中文信息学报,2007,第4期,†65 72。 刘洋,树 串统计翻译 currency1研究,中国“学«研究 «2007年博士学位论文。 那顺乌日图,蒙古语语法信息词典的框架 ᠁ 计,¨蒙古 学2004年博士论文。 那顺乌日图、刘群、巴达玛放德斯尔, ︽关于汉蒙机器辅助翻译系统︾ , ︽阿尔泰学报︾ 第11号,2001年,汉 城 Dı id Chiıng. 2005. hi rırchicı œhrıł øıł d æod for ł ı ił icı æıchin rınł ı ion. n †roc dingł of C⁄ 2005, œıg ł 263 270, nn røor, Michigın, Jun . K nji Yıæıdı ınd K in Knigh . 2001. łyn ıx øıł d ł ı ił icı rınł ı ion æod . n †roc dingł of C⁄ 2001, œıg ł 523 530. †hi iœœ Ko hn. ︵2004︶ . †hırıoh: ı ø ıæ ł ırch d cod r for œhrıł øıł d ł ı ił icı æıchin rınł ı ion æod ł. n †roc dingł of h ¥ix h Conf r nc of h łłociı ion for Mıchin Trınł ı ion in h æ ricıł, œœ. 115 124 †hi iœœ Ko hn ınd i u oıng, 2007. ıc or d Trınł ı ion Mod ł. †roc dingł of h 2007 Join Conf r nc on £æœiricı M hodł in Nı urı ⁄ınguıg †roc łłing ınd Coæœu ı ionı Nı urı ⁄ınguıg ⁄ ırning, œœ. 6 76, †rıgu , Jun 2007. D. Wu. 1995. ¥ ochıł ic in rłion rınłduc ion grıææırł, i h ıœœ icı ion o ł gæ n ı ion, ørıc ing, ınd ı ignæ n of œırı corœorı. n †roc. of h 14 h n rnı ionı Join Conf. on r ificiı n ig nc ︵JC︶ , œıg ł 132 1334, Mon r ı , uguł . Young ¥u ⁄ . 2004. Morœho ogicı ını yłił for ł ı ił icı æıchin rınł ı ion. n ⁄T N C⁄. h œ: .n œ.org.cn , 基于短语的统计机器翻译系统 ¡1.0 版 ¥i ƒoıd 1.0 ᠁ 计与使用 ,2006年10 。