[ᠨᠠᠰᠤᠨ᠋ᠤ᠋ᠷᠲᠤ] - ᠦᠭᠦᠯᠡᠯ - (ᠬᠢᠲᠠᠳ) - 关于“汉蒙机器辅助翻译系统”∗
72 关于“汉蒙机器辅助翻译系统” ∗ 那顺乌日图 ∗∗ 刘群 ∗∗∗ 巴达玛敖德斯尔 ∗∗∗∗ 内容提要: “汉蒙机器辅助翻译系统” 的研制是中文信息处理领域中有重要意义的研究课 题。该课题的研究内容包括以下四个方面:汉语分析部分;蒙古语生成部分;翻译部分;用 户接口。整个系统由翻译子系统、知识库子系统、管理调试接口和使用接口四个部分组成。 知识表示形式可分为内部知识和外部知识两类,采用基于转换的翻译方法。计算模型采用以 语法分析为主,语言模型以语法分析为主语义分析为辅。 关键词: 汉语 蒙古语 机器翻译 辅助 系统 On “The Chinese-Mongolian machine-aided translation system ” Nasun-urt Liuqun Badmaodsar Abstract: The Chinese-Mongolian machine-aided translation system is a very significant research subject in the field of Chinese information processing. The content includes the following four components: Analysis of Chinese; the generation of Mongolian; translation and user interface. The whole system is composed of four parts: Sub-translation system, Sub-Knowledge base system, Management and debugging interface and user interface. The knowledge presentation is composed of internal knowledge and external knowledge, adopting the translating methods based on transformation. The computation model mainly uses grammatical analysis and the language model takes grammatical analysis as the dominant way and is aided with semantic analysis. Key words: Chinese Mongolian Machine translation Aid System 一、基本概况 “汉蒙机器辅助翻译系统”的研制是中文信息处理领域中有重要意义的研究课题。它既 关系到汉语言文字的信息处理和少数民族语言文字信息处理的有机结合, 又关系到少数民族 的社会进步和科学、技术、文化、教育的发展。 目前国内外机器翻译的研究,无论是实验系统的研制,还是实用系统的开发,都处于一 个日益兴盛的状态。虽然机器翻译的发展离“全自动高质量”的目标还很远,但是软件市场 上的机器翻译产品依然层出不穷。纵观国内机器翻译研究,外汉机器翻译的发展比较快,并 且其实用化程度也较高,但是汉外机器翻译的发展总是不尽如人意。至今还没有一个令人满 意的实用化的汉外机器翻译系统。 更值得一提的是还没有一个从汉语到少数民族语言的机器 翻译系统。虽然前几年有人研究过汉藏、藏汉机器翻译系统,但至今未见产品化。而汉蒙、 汉维、汉哈、汉朝等语言的机器翻译系统更是凤毛麟角,有的至今还没有着手进行,有的则 还处在实验室阶段。我国是一个多民族国家,应必须尽快改变这种状况,使多语种互译系统 的开发尽早提到议事日程,这也是国内外语言信息处理的一大趋势。 1998 年内蒙古大学蒙古学研究院蒙古语文研究所、中国科学院计算技术研究所、北京 ∗ 此项研究获国家高技术研究发展计划( 863 计划)资助,项目号: 863-306-ZT04-05-3。 ∗∗ 内蒙古大学蒙古学研究院蒙古语文研究所教授 ∗∗∗ 中国科学院计算技术研究所副研究员 ∗∗∗∗ 内蒙古大学蒙古学研究院蒙古语文研究所副教授 73 大学计算语言学研究所共同申请了国家 863 项目 “面向政府文献的汉蒙机器辅助翻译系统” , 旨在研究开发出一个面向政府文献(如,政府工作报告、各种决议等)的汉蒙机器辅助翻译 系统,使政府文件的少数民族语言翻译走上现代化、高效率的道路。 汉蒙机器翻译系统有广泛的应用前景。在国内,面向政府文献的汉蒙机器辅助翻译系统 尤为重要。自建国以来,从中央到地方,尤其在内蒙古自治区,一直到旗县级单位都设立专 门翻译机构或配备专职翻译人员,翻译各级党政部门的重要文件。但由于近年来各方面信息 的大量增加和新词术语的不断涌现,以及新名词术语的不规范等原因,一直存在着翻译速度 慢,翻译水平低等诸多问题。尤其是启动政府上网工程以后,这些矛盾将尤为突出。翻译人 员一直希望有一个智能化的机器辅助翻译系统。随着国家西部开发战略的实施、网络化和电 子商务的普及,汉蒙机器翻译的需求量也会大大提高。 本系统的另一个特点是,该系统是在已有的 863 项目(通用翻译平台)基础上由三个 单位合作开发的,所以随着通用平台的不断升级和完善该系统也继续升级。 二、基本构成 该课题的研究内容包括以下四个方面: (一)汉语分析部分:包括对文本进行切词、标注、分析等一系列处理工作,就汉蒙机 器翻译系统而言,目前还没有专门适用于机器翻译的汉语语法模型。本系统采用的语言模型 主要来源于北京大学计算语言学研究所研制的《现代汉语语法信息词典》 ① (以下简称《词 典》),并在该词典所采用的语言模型基础上修改扩充而成。 1. 汉语词语分类和属性。本系统采用的汉语词语分类和属性取自于《词典》 ,并作了少 量的改动。 《词典》中将现代汉语词语(包括标点符号、语素、成语等)分为 26 类,我们只 采用其中的 20 类,并将其余 6 类归并到这些类中。 《词典》中有大量的属性描述,我们根据 机器翻译的需要对这些属性作一定的取舍,并增加少量新属性。 2. 汉语短语分类和属性。对汉语短语的分类,我们继承《词典》中对汉语词语分类时 采用的“功能分类”思想,将短语(包括句子)分成名词短语( np) ,动词短语( vp) ,形容 词短语( ap) ,时间词短语( tp) ,处所词短语( sp) ,副词短语( dp) ,介词短语( pp) ,数 量词短语( mp) ,数词短语( mcp) ,单句( dj) ,复句( fj) ,整句( zj)等 12 类。另外,我 们还定义了内部结构、语气、被动、否定等短语属性。 3. 语义分类和属性。本系统是一个以语法分析为主,语义分析为辅的系统。虽然如此, 为消解句法分析和转换时的歧义,语义分析还是起着重要的作用。 本系统采用的语义模型主要包括语义分类和配价分析两个方面。 我们制定了一个比较详尽的语义分类体系, 对每一个汉语实词都要填写其相应的语义分 类,而对于名词、动词、形容词三类词语还要填写配价数以及相应配价成分的语义类。在规 则的约束条件中,对某些短语的组合规定一定的配价关系,如果这种关系不能被满足,则合 一失败。这样就排除了相当一部分由于搭配不当所造成的歧义。 (二)蒙古语生成部分:这一部分包括蒙古语语言模型、蒙古语生成规则集、从汉语到 蒙古语的转换规则集和汉、蒙对照机器词典。 蒙古语作为目标语言,在机器翻译中需要词语的转换以外,更重要的是生成出符合蒙古 语语法的词语和语句。其中所谓词语的生成就是蒙古语词的派生和各种语法形态的生成问 题。众所周知,蒙古语属黏着性语言,其构词、构形都是通过在词干后缀接不同的词尾而实 现。譬如,动词词干后接构词词尾可以派生出名词、形容词和新的动词,名词词干后接构词 ① 该词典是为计算机实现汉语句子的自动剖析与自动生成而研制的一部电子词典 ,收录了 51696 个词语 ( 1995 年电子版) 。有关这部电子词典的详细介绍请见《现代汉语语法信息词典详解》一书,清华大学出 版社、广西科学技术出版社, 1998 年。 74 词尾可以派生出新的名词和动词、形容词等,而且可以层层缀接,层层派生。由 UILEDBURILEL(生产) 这么一个简单的词中我们可以清楚地看到这一点, 这个词是由 UILE (名词、事情)接构词词尾 D 派生出动词 UILED(做) ,再接构词词尾 BURI 派生出名词 UILEDBURI(工厂) ,再接构词词尾 L 派生出新的名词 UILEDBURILEL(生产)而来的。 蒙古语的构形更是变化多端,名词有格、数、领属等范畴,形容词除格、数以外还有级范畴, 动词的变化更为复杂。 1.蒙古语语言模型是基于面向信息处理的蒙古语词语分类和标注规范以及词类、语法 属性标记集而成的。 课题组已初步制定了一个面向信息处理的蒙古语词语分类和语法属性标 记体系。在词类划分和标注方面既注意了与传统语法的词语分类没有大的出入,又考虑到对 每个词语的语法属性进行描述的方便,对传统语法的词类进行某些调整和细化。语言模型是 实现从汉语到蒙古语的转换和生成蒙古语各种语法形态的基础。 因为转换模块和生成模块都 从以语言模型中所规定的属性字段和属性值为基础而编制的转换规则集和生成规则集中提 取所需语言知识。例如:转换规则库中的 && {apdez5} ap-!vp u :: $.内部结构=的字,$.中心语=%vp,%vp.连接成分.ccat=~ c, IF %vp.内部结构=状中 THEN %vp.状语.yx=~并~总是 ENDIF, IF %vp.内部结构=述宾,%vp.述语.yx=是,%vp.宾语.ccat=r FALSE, IF %vp.内部结构=单词 THEN %vp.兼类=~n ENDIF = VP(!VP/vp ) %VP.TTT=TEMDEG,%VP.CAG=CAGONG 生成规则库中的 @@*_A--V[CAG:CAGONG,TTT:TEMDEG,GENDER: MALE]*AGSAN @@*_E--V[CAG:CAGONG,TTT:TEMDEG,GENDER: FEMALE|NEUTRAL]*EGSEN @@*[N|L|B|G|R|S|D]--V[CAG:CAGONG,TTT:TEMDEG,GENDER: MALE]*[]VGSAN @@*[N|L|B|G|R|S|D]--V[CAG:CAGONG,TTT:TEMDEG,GENDER: FEMALE|NEUTRAL]*[]UGSEN @@OG--V[CAG:CAGONG,TTT:TEMDEG]OGGOGSEN @@[HOB|JIB|CIB]--V[CAG:CAGONG,TTT:TEMDEG][]BUGSEN @@*--V[CAG:CAGONG,TTT:TEMDEG,GENDER: MALE]*GSAN @@*--V[CAG:CAGONG,TTT:TEMDEG,GENDER: FEMALE|NEUTRAL]*GSEN 都是基于语言模型的。 语言模型的结构和整体设计思路符合机器翻译中语言生成的要求, 今后在规模上需要扩 充和内容上需要改进,使其更加完善。 2. 蒙古语生成规则集是集蒙古语各种语法属性字段及其属性值于一身的知识描述体系, 包括名词、形容词、代词、方位词、时间词、形动词等词类的数、格、领属范畴;形容词的 级范畴;动词的态、体、式、时、形动词、副动词等语法形式的生成都是通过生成规则来实 现的。该规则集基本上包括了蒙古语各种词类的动态属性及其生成规则,覆盖面比较全,符 合机器翻译的要求。通过翻译平台的蒙古语生成程序,能够适应蒙古语生成的需要。 3.转换规则集是汉、蒙两种语言的短语结构特征和对应规律的知识库系统。由于汉、 蒙两种语言属不同语系,其短语、句子的构成等有着很大的差异,所以对汉、蒙两种语言短 语结构的转换也是本系统的关键所在。如,汉语的介词结构,在蒙古语中可能对应于一些语 法形态,也可能对应于一些虚词或短语结构,而且其位置和功能还要发生很大变化。这些转 换规则不仅关系到具体技术,更关系到语言学问题,所以在编写转换规则的同时需要解决蒙 古语言学的相关理论问题。为解决所遇到的语言学问题,课题组在蒙古语言学某些领域进行 了一些探索性研究,在蒙古语的词法和句法的形式化方面做了一些工作。这方面的研究工作 75 集中体现在系列研究成果《面向信息处理的蒙古语词语分类研究》 中。 4.机器翻译词典。该词典是汉、蒙两种语言的词和固定短语的对照词典,包括一个汉 语词语在蒙古语中的各种不同译法(有的可能是翻译成不同词类的词) 。词典中充分利用汉、 蒙两种语言词语的各种语法属性字段, 以保证正确分析汉语词语和正确生成蒙古语词语的目 的。词典中添加了一些局部规则,以模板的形式解决某些固定结构的翻译问题。编制机器词 典是工作量很大的一项工作,现基本完成 2 万词的词典。举例如下: $$ 要 **{v1} v $=[谓词性主语:可,系词:NO,助动词:助,趋向动词:NO,补助动词:NO,形式动 词:NO,情态词:NO,准谓宾:NO,前名:NO,后名:NO, 体谓准:谓,双宾 :NO,形宾:NO,兼语句:NO, 后动量词:NO,后时量词:NO,不:YES,没:NO,很 :NO,单作主语:NO,单作谓语:NO,单作补语:NO, 动宾:动,小句宾:陈述,语义类:心理活动] = V $=[VSUBC:VTVS,VHIRD:YES,GENDER:MALE] && {vpqshyao1} vp - !v vp w ::$!=%v @语气,$.语气=祈使 =VP( VP/vp W/w ) %VP.TTT=NOHEC,%VP.NOH=NOHJER &&{djyao} dj- np !v vp w ::$!=%v @语气,$.语气=祈使,%n p.内部结 构=定中 = DJ(NP/np VP/vp W/w) %VP.TTT=NOHEC,%VP.NOH=NOHJER && {zjyao1} zj - r !v vp w ::$!=%v @语 气,$.语气=祈 使 =VP(R/r VP/vp G W/w ) %VP.TTT=TEMDEG,%VP.CAG=CAGODO (三)翻译部分,这一部分包括一个汉蒙对照政府文献语料库,一部汉蒙对照机器词典 和汉蒙机译软件三大部分。其中汉蒙机译软件是关键,它不仅包括汉蒙两种语言的分析、生 成、转换,而且还涉及到输入、输出蒙古文的问题。翻译软件,我们利用已有的 863 成果- “通用机器翻译开发平台”,在该平台的基础上进行开发。这项成果是由中国科学院计算技 术研究所和北京大学计算语言学研究所联合开发的。 该平台将机器翻译中常用的数据结构和 算法以软件构件的形式提供出来,并已在该平台基础上开发成功了一个汉英机器翻译系统。 使用该平台可以大大加快机器翻译系统的开发进度,节省大量人力、物力。该平台虽然以汉 英机器翻译系统作为第一个开发对象,但其源语言的语言模型和计算模型实际上是通用型 的,将其应用于汉蒙机器翻译的开发时,其描述语言和实现算法做一些改动,转换生成则需 要作一些改变以外,主要的工作是研制蒙古语生成规则和相应程序。 (四)用户接口,本系统将开发一个蒙古文显示输出系统,最终用户在 WINDOWS 环境下 的蒙汉文同显窗户里进行编辑。虽然蒙古文是拼音文字,但与其它文字系统不同,蒙古文是 在一个行里是由上而下连写,而每个行则由左而右易行。这样,蒙古文的显示输出不能只利 用 WINDOWS操作系统的造字功能实现蒙古文输入输出就可以解决, 而必须开发一个竖向的蒙 古文编辑器。80 年代,内蒙古大学蒙古语文研究所和北大方正集团联合开发了“北大方正 电子出版系统蒙古文版” ,现在国内几乎所有出版、印刷蒙古文图书的出版社、印刷厂都在 用这一系统,但该系统是在 DOS 环境下开发的,不能直接移植到 WINDOWS 环境下。而且蒙古 文编码国际标准至今还在研制之中。 所以我们在本系统中采用蒙古文的内部表示用罗马字的 该系列论文曾在 1999 年于包头召开的中国蒙古语文学会第八届年会上宣读,它们是:那顺乌日图《关于 面向信息处理的蒙古语词语分类及制定其标记集问题》 ;白音门德《关于时间词》 ;巴达玛敖德斯尔《语文 词典中无词类标注词的处理研究》 ,载《内蒙古师范大学学报·哲学社会科学版》 2000 年第 2 期;清格乐 图《关于在信息处理中如何处理蒙古语固定词组的问题》 ;扎·义兰《关于在信息处理中如何处理蒙古语摹 拟动词的问题》 ,载《蒙古语言文学》 2000 年第 3 期。 76 方法,通过一个转换规则,在屏幕上显示蒙古文,最终显示采用蒙古文显示窗口,这个问题 现已初步解决。 等到蒙古文编码国际标准正式通过并系统实现以后再把蒙古文内部表示改用 蒙古文码。 (五)增加翻译模板的功能,对于一些固定的结构和句式,用户可以自定义翻译模板, 只要能够匹配上,就能够得到精确的翻译结果。用户可以方便地自己定义翻译模板,不需要 专门的知识。 三、计算模型 1.系统结构。 整个系统由翻译子系统、知识库子系统、管理调试接口和使用接口四 个部分组成。其中翻译子系统处理具体的翻译工作;知识库子系统用于管理各种知识库;管 理调试接口供语言工作者用于管理知识库和翻译调试句子;使用接口供最终用户使用。 2.知识表示。 该系统的知识表示形式可分为内部知识和外部知识两类:外部知识是面 向语言工作者管理的知识,如词典和各类规则库等,而内部知识是翻译过程中临时生成的, 用于描述所译句子的语法语义特征的知识,如树形图、特征结构和语义网络等。 3.翻译算法。 我们将采用给予转换的翻译方法,严格遵循独立分析、独立生成的设 计原则。其中,汉语的词形分析阶段分为重叠词处理和切分两个步骤,汉语的切分采用双响 最大匹配算法。出现切分歧义时,不做判断,保留到结构分析阶段进行处理。结构分析阶段 采用 Chart Parsing 算法,转换阶段采用自顶向下自低向上相结合的局部子树变换算法。结构 生成阶段采用自低向上的局部子树变换算法和自顶向下的全局子树易位算法。 参考文献: 冯志伟《自然语言的计算机处理》上海外语教育出版社 1996 冯志伟《自然语言机器翻译新论》语文出版社 1995