[ᠨᠠᠰᠤᠨ᠋ᠤ᠋ᠷᠲᠤ] - ᠦᠭᠦᠯᠡᠯ - (ᠬᠢᠲᠠᠳ) - “蒙古语语法信息词典”的开发与应用
77 “蒙古语语法信息词典”的开发与应用 ∗ 那顺乌日图(内蒙古大学) 【内容提要】 “蒙古语语法信息词典”是为蒙古语的自动分析与自动生成而研制的一部机器词典。 各种应用系统都可以从中提取所需的较全面、翔实的语法知识,包括词法形态、句法功能、搭配特征以及 正字法规则等。 目前该词典的框架已经基本完成,并已建立了收词 25800 余条的“总库” ,正在建立“动词分库” 。词 典总库的一些属性字段已被植入《面向政府文献的汉蒙机器辅助翻译系统(达日罕系统) 》中,作为蒙古语 语言模型和生成规则集的主要来源,在该系统中发挥重要作用。 Development and application of the Dictionary of Mongolian Grammatical Information 【 Abstract】 “Mongolian grammatical information dictionary” is compiled for automatic analysis and automatic generation of Mongolian language, and what it reflects is the basic facts of the grammatical functions of the common used words of modern Mongolian. Each concrete applied system can get much complete, detailed and accurate grammatical knowledge that it needs, that includes the information about morphological forms, syntactic functions, collocation features and orthographical rules. Some of the attribute fields in the general bank of this dictionary have been included into the “ Chinese-Mongolian machine-aided translation system ”. And they are playing an important role in the whole system as the main source of the Mongolian language model and generative rules. The generation of these grammatical forms is realized by combining the language model with the generative rules. The system takes the attribute information from the language model and the translation dictionary, and it can generate correct forms with using the generative rules. These attribute fields and values are just offered by the grammatical information dictionary. At present, the framework of this dictionary has been mainly accomplished. The “general bank” of more than 25,800 words has been established, and we are establishing the “verb bank”. 一、开发“蒙古语语法信息词典”的迫切性 随着自然语言信息处理要求的不断提高和自然语言信息处理系统的不断升级,对各种 语言语法信息词典(或语法知识库)的需求也不断增加。作为自然语言处理中语句分析、语 句生成等各项工作的主要基础,各种语言的“语法信息词典”相继问世,给自然语言处理的 各种系统提供了丰富而关键的词语信息。 在蒙古文信息处理工作中,无论是自动标注、自动校对,还是机器翻译,都需要一部 机器词典。研制一部面向各种应用系统的、通用的“蒙古语语法信息词典”是蒙古文信息处 理工作的当务之急。为了解决这燃眉之急,内蒙古大学蒙古学学院在国家自然科学基金资助 下,从 2000 年 1 月开始研制“蒙古语语法信息词典” 。目前已设计出词典的基本框架,并进 行词典总库属性字段的填写工作。 蒙古文信息处理工作从其整体进度看,基本上完成了字处理阶段的工作,正在进行词处 理阶段的研究。在这期间,研制了多种文字的输入输出系统、蒙古文电子排版系统,建立了 ∗ 此项研究得到国家自然科学基金资助,项目号: 69963001。 78 “五百万词级现代蒙古语文数据库” ,研制过蒙古文词根词干词尾的自动切分系统、蒙古文 词类自动标注系统、汉蒙机器翻译系统等。在这些工作中,无论是自动切分、自动标注或自 动转换,还是机器翻译,都需要一部机器词典。过去这些工作一般都是以语法规则和机器词 典相结合的方法进行的,而且在具体处理过程中词典的作用比规则的作用还要大,离开机器 词典的纯语法规则集是无法处理具体词语的。 但是过去所编制的词典基本上都是面向某一个 具体系统的词典,这种词典使用面窄,所含信息量小,不宜扩充,无法满足更深层的、更高 要求的语言信息处理需求。譬如,蒙古文自动识别、自动校对系统等遇到处理具体词语时都 必需一部功能较强的机器词典的支撑。 二、 “蒙古语语法信息词典”的基本特点 1.基本功能 “蒙古语语法信息词典”是实现自动分析与自动生成蒙古语语句而研制的一部机器词 典,所反映的是现代蒙古语常用词语语法功能的基本事实。各个具体的应用系统都可以从中 提取所需的较全面、翔实的语法知识。它不仅在具体技术指标上,而且在语法理论依据上, 都与以前的各种词典大不相同。从技术上讲,它是面向机器处理的,词语的属性描述上它更 倾向于词语的语法属性的描述。这些语法属性包括词法形态、句法功能、搭配特征以及正字 法等方面的信息。 《蒙古语语法信息词典》作为“蒙古文信息处理应用平台工程”的一个组成部分,它独 立于特定的处理系统,甚至也不依赖于某个具体的计算语言学理论或算法,各个具体的应用 系统都可以从中提取所需的语法知识,有的系统可能不需要语法词典所包含的全部知识,可 以对它进行裁剪,所以它具有通用性;语法词典还可能缺少某个特定系统所需的某些特殊知 识,但它是可以扩充的,同书面形式的词典相比较,电子词典的一个显著的优点是它具有可 扩充性。 “蒙古语语法信息词典”是以词语的语法信息、构词信息、语义信息为一体的电子词典。 作为机器词典它和普通词典有很大的不同:1. 方向明确,以信息处理为目标;2.以语法信息 为主、语义信息为辅;3.具有很强的构词性,无论是机器或人根据词典所提供的信息可以无 限生成新的词语;4.具有系统性,词典的构造是知识库,构造电子词典的将是一个基于语料 库的集成系统; 5.形式化, 电子词典一定是机器可读的, 所以技术上要求其必须是形式化的。 2.基本构成 语法信息词典由不同层次构成。其第一层是包括该词典所有词条的总库,第二层是按蒙 古语词语分类标准来分类的各类词的分库,如名词库、动词库、形容词库、代词库等。总库 中设置了以语音、正字法、词类信息为主的属性字段,以描述每个词语最基本的语法属性。 “总库”中所设置的属性字段如下: (1)序号; (2)词语; (3)音标; (4)读音; (5)词性; (6)构成; (7)正字法类型; (8)词类; (9)是否兼类; (10)是否做复合词成分; (11) 同音词; (12)同形词; (13)能否独立使用;(14)使用频度; (15)是否借词; (16)简单汉 译; (17)是否做人名; (18)是否做地名(19)备注等。属性取值用数值型、字符型、布尔 型等不同类型,使开发者和用户使用起来更为简便。 在各个分库中主要设置词法、句法、搭配等方面的属性字段,旨在描述同一个词类内部 词语间的语法、语义差异。如,动词分库有以下属性字段: (1)序号; (2)词语; (3)标音; (4)词类; (5)子类; (6)是否为及物动词; (7)是否为积极动词; (8)异体字; (9)是 否做助动词; (10)使动态附加成分的接加; (11)被动态附加成分的接加; (12)是否有互 动态; (13)是否有同动态; (14)是否有众动态; (15)态附加成分的重叠; (16)是否有暂 短体; (17)是否有完成体; (18)是否有祈求完成体; (19)是否有持续态; (20)有无持续 79 体变化; (21)有无多次进行体变化; (22)有无一再进行体变化; (23)体后边加态的变化; (24)是否有祈使式变化; (25)是否有形动词变化; (26)能否被形容词修饰; (27)能否 被一般副词修饰; (28)是否有专门修饰该词的特殊副词; (29)能否被时位词修饰; (30) 是否派生动词; (31)是否充当结尾式谓语; (32)已有形动词变化的动词是否有数的变化; (33)有动词各种变化的动词是否独立充当谓语。 词典的总库和各个分库都是一些独立的数据库,为了保证整个词典的完整性和整体性, 采用比较先进的关系数据库技术作为词典的支撑技术。词语的基本信息,或者说不同词类的 词所共有的属性放在“总库”里,而每一个词类所特有的属性放在各个分库之中, “总库” 作为父节点,其属性字段不再出现在分库中,但各个分库作为子节点,继承父节点的所有属 性。 在收词方面, “词典”循规范性、经济性原则,从蒙古语词典和语料库中初步收录 28000 余个词条,下一步还要继续扩大收词量。对蒙古语各类真实文本的覆盖率力争达到 90%以 上,以保证在大规模文本处理中大部分词语的语法信息能够从词典中直接提取。 对词语的描述,有时光靠语法信息还不够,要靠语义信息的辅助。所以我们在“词典” 中还设置了一些以搭配描述为主的语义属性字段。如,在“动词分库”中设置了如下一些语 义字段: (1)语义类(填写该动词所属的语义类) ; (2)搭配名词语义类(填写跟该动词搭 配的名词语义类) ; (3)价量(填写该动词的配价数) ; (4)价质(填写该动词的配价性质) 。 例如, UJE(看) 一词的语义属性描述为: {V} [VT: VHOSEHA, VVT: NB0AMHU/NB0AMAD; NB0/N0R, JH:2,JC:UD;OT]。 三、 “蒙古语语法信息词典”的应用 如前所述, “蒙古语语法信息词典”是面向各种应用系统的。蒙古文文本自动校对、蒙 古文自动转换(如,从斯拉夫蒙古文到传统蒙古文、从传统蒙古文到斯拉夫蒙古文) 、蒙古 读音输入、扫描输入、蒙古文计算机辅助写作、蒙古文机器翻译(包括蒙古语作为源语言和 目标语言的不同方向的翻译)等不同的系统,虽然它们的目的、方法不同,但处理词语时都 需要所遇到的词语的各种属性信息。而且这些系统的智能化程度越高,对语法信息资源的依 赖会越大,对信息词典的要求也会越高。仅仅从机器翻译的情况看,以蒙古语作为源语言的 翻译系统, 因为它要对蒙古语中的每一个词语、 每一个短语及其一般结合规律和当前的语义、 语法都要进行准确的分析,所以对词典中语法信息字段信息量的要求就高,而相对来说,以 蒙古语为目标语言的翻译系统,注重其生成,所以对词典中语法信息量的要求相对较低。这 个情况可以从我们现在正进行的汉蒙机器翻译系统中见其一斑。 蒙古语的语法属性可分为动态属性和静态属性两部分, 动态属性是贯穿到每一个类的共 同属性,在具体的应用系统中它可以通过生成规则来处理,如,在汉蒙机器翻译系统中对蒙 古语名词的数、格、领数,动词的式、态、体、行动词形式和副动词形式等都是用蒙古语生 成规则集来生成的。而静态属性则是同一个词类的词语内部的区别特征,在具体的应用系统 中这些区别特征将作为各种语法属性字段在语言模型、各种规则库和信息词典中进行描述。 下面我们以“面向政府文献的汉蒙机器辅助翻译系统”作为实例来看蒙古语语法属性在一个 应用系统中的运用情况:在该系统中,蒙古语的生成是通过“蒙古语语言模型” 、 “蒙古语生 成规则集” 、 “从汉语到蒙古语的转换规则集” 和 “汉蒙双语机器词典” 等几个模块来实现的。 各个模块的内部构成和其运行情况分别如下: 1. “蒙古语语言模型”由蒙古语各类词的各种语法属性及其取值构成。 语言模型的第一部分是蒙古语各种词语、短语的分类及其标记集。蒙古语的词语分为 21 个类,短语分为 12 个类。这些类是在各个模块中描写蒙古语各种语法属性的基本单位。 80 第二部分是蒙古语各类词所共有的属性, 其中最为典型的是蒙古语词的阴阳性特征, 即, 蒙古语元音和谐律规则。蒙古语中每一个词都有“阳性、阴性”的“性”属性,这一属性关 系到该词干后接什么样的附加成分(包括构词附加成分、构形附加成分) ,即阳性词接阳性 附加成分,阴性词接阴性附加成分,这是蒙古语正字法的重要内容。在应用系统中确定一个 词的阴阳性特征,必需从词典中提取这个信息。所以在在词典中我们设置了“ GENDER” 字段,如某一个词或短语为阳性词(或短语) ,在词典中给其注明该词(或短语) GENDER=MALE,如果是阴性就注明 GENDER=FEMALE。 第三部分是蒙古语各类词的静态属性。所谓静态属性就是各类词内部的不同特征,如, 同是名词,有的名词是可数的,它后边可以接复数附加成分表示其多数,例如, AGVLA(山 ) 后可以接复数附加成分 -S,以示复数。但同样是名词,有的词就不可数,像 VSV(水 )就是不 可数名词,其后不能加复数附加成分。又如,有些名词在一些特定的环境中必须带一个 N 词尾,蒙古语中称其为动态词尾 N,但有些词就没有这种变化,所以在语言模型中设置一个 “有无动态词尾 N”属性,如果有,在生成过程中系统将以“生成规则库”中的相应规则生 成出其正确的形式。词的静态属性是在词典里面描述的,如, “名词子类”就是一个属性, 其取值用层次性表示,即一个名词,如果它是一个一般名词,那么,或者是可数名词,或者 是不可数名词,如果是可数名词,应描写成 NSUBC= NCONT,如果是不可数名词,应描写 成 NSUBC=NUCNT。名词的动态词尾 N 属性的取值为布尔式,如果一个词,它有动态词尾 N,应描述为 NBUDN=YES,如果没有,则什么也不写,因为动态词尾 N 属性的默认值为 NO( Boolean Default=No) 。动词、形容词……等其他类词的属性设置与描述也是相同。 2. “蒙古语生成规则集” 由蒙古语各种语法范畴及其变化形式的生成规则构成。 如, 蒙 古语名词的动态词尾 N,名词、形容词、代词等的格、数、领属,形容词的级,动词的形动 词、副动词变化等。这些变化作为蒙古语的语法范畴,有的关系到某一个特定的词类,有的 关系到某几个词类。但不论是涉及到一个词类或多个词类,他们的变化都有一定的规律,即 按每一个词的不同性质,遵循蒙古语的正字法规则来生成。所以生成规则本身不是不是针对 每一具体词语的,而是这对一个类的。但遇到生成一个词的某一个具体形态时通过哪一条规 则,就取决于该词的语法属性。譬如,翻译“老师们” 、 “同志们” ,同样都是名词,同样都 是复数,但 BAGSI(老师)接复数附加成分 -NAR,而 NOHOR(同志)则接附加成分 -D; 又譬如, “上山” 、 “进屋” 同样是 vp-n+v 结构, 但 AGVLAN-DV GARHV(上山) 的 AGVLA 必须用动态词尾 N,而 GER-TU 0R0HV(进屋)的 GER 绝对不可以用动态词尾 N。在上述 几个例子中,哪些词接哪些复数附加成分,哪些词有动态词尾,实在语法信息词典中已描述 的信息。而接附加成分时词尾本身是否发生变化,如果发生变化,应该发生什么样的变化, 则是在生成规则中解决的问题,如, NOHOR+D-〉 NOHOD。 “蒙古语的生成规则集”中名词和数词的动态词尾 N 生成规则为: @@ *--N [NBUDN:Yes, CASE:~NER~JIG~HOL~HAM~UIL /*TOD|HAR|GAR|OGH*/ ] *N @@*--M [MBUDN:Yes,CASE:TOD|HAR] *N @@ 在第一条中, *--N 代表“是任意的一个名词” , [ ]中的限制条件是,该名词有动态词尾 N 属性(这是由词典里面获取的) ;这个名词当前的格变化为非主格、非宾格、非联合格、 非共同格、非工具格(这个信息是由转换规则里获取的) ,那么,在该词的最后位置上给加 一个 N 辅音。 在第二条中, *--M 代表“是任意一个数词” , [ ]中的限制条件是,该数词有动态词尾 N 属性;这个数词当前的格变化为定格或属格。其结果,在该数词最后位置上加一个 N 辅音。 81 3. “从汉语到蒙古语的转换规则集”由汉语短语规则和与其对应的蒙古语短语规则构 成。由于汉语是该系统的源语言,所以对汉语各种短语的结构特征及语法属性描述得比较详 细。 && {vp1} vp - !vp u :: $.内部结构=附加,%vp.内部结构=~状中,$.中心 语=%vp,$!=%vp @附加语,$.附加语=%u, IF %vp.内部结构=述宾 THEN %vp.宾语.cpcat=~fj~dj ENDIF = VP(!VP/vp) %VP.CAG=CAGONG,%VP.TTT=TQGACI = VP(!VP/vp V) %VP.TTT=TEMDEG,%VP.CAG=CAGONG,%%V.TTT=TQGACI,%%V.CAG=CAGODO 上面是转换规则中的一条,是一个动词短语加“了”的规则。该规则规定,汉语的一个 vp 由一个 vp加一个 u(了 )组成,那么,它在蒙古语中可以有两种译法。第一种是,蒙古语中译 成一个 VP,该 VP以陈述式形式出现,并且是过去时。第二种是,蒙古语中一个 VP加一个助 动词 (BAYI)。其中第一个 VP以形动词、并且是过去时形动词形式出现,其后的助动词则以 陈述式的现在时形式出现。这个规则因为不是处理具体词语,所以表面上没有词典中的属性 字段及其值,但用这一规则对一个具体词语进行转换时,就必然要求所处理词的各种属性信 息。 4. “汉蒙机器翻译词典” 。该词典是一部对译词典,其中汉语词语的属性描述来源于北 京大学计算语言学研究所开发的“现代汉语语法信息词典” ,蒙古语词语的属性信息则来源 于“蒙古语语法信息词典”的“总库” 。由于该系统只要求蒙古语生成,所以所需信息较少。 $$ 发现 **{v} v $=[谓词性主语:NO,系词:NO,助动词:NO,趋向动词:NO,补助动词:NO, 形式动词:NO,准谓宾:NO,前名:NO,后名:可 ,体谓准:体|谓,双宾:NO,兼语句:NO, 后动量词:动,后时量词:时,动结:粘 ,动趋:趋,趋向补语:~过,不 :YES,没:YES, 很:NO,单作主语:可,单作谓语:可,单作补 语:NO,动宾:动, 小句宾:陈述,语义类: 对待,配价数:2]{主体:[语义类:人],客体:[语义类:事物~时间]} = V $=[VSUBC:VTVS,GENDER:FEMALE] = N $=[NSUBC:NCONT,NPLUR:“-NUGUD“,GENDER:FEMALE] 词典中通过对汉语 “发现” 一词语法属性的描述, 认定该词在蒙古语中可以有两种译法。 第一种为动词 ILEREGUL ,该动词为及物动词、并且是阴性词。第二种为名词 ILEREGULULTE,该名词为可数名词、后面可以加 ”-NUGUD”复数附加成分、是阴性词。 这样,在翻译系统中如果碰到汉语短语“发现了” ,系统就会从 “词典”中提取关于当前词 本身的语法属性信息、从“转换规则”中提取其当前用法的说明或限制、从“语言模型”中 提取“词典”和转换规则中描述的属性和取值,再通过“生成规则”将这一词在当前用法中 的完整形式生成出来。其最后结果为《 ILEREGULBE》或《 ILEREGULUGSEN BAYIN_A》 。 目前“蒙古语语法信息词典”总库的一些属性字段已被植入国家 863 计划课题《面向政 府文献的汉蒙机器辅助翻译系统(达日罕系统) 》中,作为该系统蒙古语语言模型和生成规 则集的主要来源,在该系统中发挥重要作用。 参考文献: 1.《现代汉语语法信息词典详解》俞士汶等著,清华大学出版社、广西科学技术出版社, 1998 2.《自然语言的计算机处理》冯志伟著,上海外语教育出版社, 1996 3.《自然语言理解》姚天顺著,清华大学出版社, 1995 4.《汉语信息处理》张普著,北京语言学院出版社, 1992 82 5.《中文信息处理应用平台工程》陈力为,袁琦主编,电子工业出版社, 1995 6.《关于处理大规模真实文本的谈话》黄昌宁著,语言文字应用, 1993.2 7.《语料库词类自动标注算法研究》刘开瑛等著,机器翻译研究进展,电子工业出版社, 1991 8.《蒙古文信息处理》那顺乌日图著,内蒙古科学技术出版社, 1998