[ᠨᠠᠰᠤᠨ᠋ᠤ᠋ᠷᠲᠤ] - ᠦᠭᠦᠯᠡᠯ - (ᠬᠢᠲᠠᠳ) - 蒙古文信息处理概述
  96 蒙古文信息处理概述 那顺乌日图 (内蒙古大学蒙古学学院, 010021) 摘要: 蒙古文信息处理自 20 世纪 80 年代初开始至今,进行了一些基础工程建设和基础理论研究,也开 发过一些应用系统,例如,建立各种语料库、制定编码标准、进行蒙古语语法属性、语义属性研究,研制 蒙古语语法信息词典、开发蒙古文电子出版系统和机器翻译系统等。由于蒙古语言文字不同于西方语言文 字和汉语言文字,蒙古文信息处理也有其明显的特点和独特的难点。蒙古文信息处理总体上可分为基础研 究和应用技术两大类。本文主要从这两个方面介绍蒙古文信息处理所走过的历程、取得的成绩、遇到的难 题和解决这些难题的方法。 关键词: 蒙古文信息处理,基础研究,应用技术,概述 1 引言 用计算机来处理蒙古语音、形、义等信息,也就是说在计算机里输入、输出蒙古文,识 别、分析、理解、生成蒙古语字、词、句子、篇章的过程就叫做蒙古语信息处理( Mongolian Information Processing) 。 蒙古文信息处理自 80 年代初开始至今,基本上完成了字处理阶段的工作,正在进行词 处理阶段的研究,同时也涉足句处理领域。在这期间,进行了一些基础工程建设,做过一定 的基础理论研究,也开发过若干个应用系统。由于蒙古语言文字不同于西方语言文字,也不 同于汉语言文字,所以蒙古文信息处理也有其明显的特点,也有其独特的难点。蒙古文信息 处理总体上可分为基础研究和应用技术两大类。 所以本文也力图从这两个方面介绍蒙古文信 息处理所走过的历程,遇到的难题和解决这些难题的方法。 2 基础研究 2.1 蒙古文信息处理基础建设: 1983 年内蒙古大学和内蒙古计算中心合作把蒙古族历史巨著《蒙古秘史》输入计算机, 并匹配一套检索软件;其后不久内蒙古大学建立了《中世纪蒙古语语料库》和《现代蒙古语 文数据库》 , 在这一阶段主要采用以英文字母转写蒙古语的方法, 如, M0NGG0L-VN NIGVCA T0BCIYAN(蒙古秘史) ,并在蒙古语词干和构形附加成分之间、双词根词的两个词根之间、 连写的附加成分与词根之间、地名、人名之前都用人工做了标记。从 80 年代中期开始内蒙 古语委、内蒙古社科院等单位合作开展了现代蒙古语词频统计工作,并出版了“现代蒙古语 频率词典” 。这项成果是,基于统计编纂的一部蒙古语词典。从 1993 年开始的蒙古文编码国 际标准的制定工作,经过中国、蒙古国、德国等国家和地区专家近 6 年的艰苦努力, 2000 年由 ISO/IEC JTC1 SC2 和 UNICODE 技术委员会讨论通过,并已收入 10646 编码字符集。 90 年代起内蒙古社会科学院语言研究所结合“蒙古文整词输入法”的研制,在蒙古语词语 构成的算法化研究方面进行了有益的尝试。下面介绍其中的主要成果: 2.1.1 现代蒙古语文数据库 现代蒙古语文数据库的建立工作是从 1984 年开始的。 1987 年该课题被列入内蒙古自治 区“七五”社科重点项目, 1988 年获得国家社会科学基金的资助。经过六年多的努力,初 步建立了 100 万词级的《现代蒙古语文数据库》 。数据库的语料分四大类:①蒙文教材;② 文学作品;③政治论著;④报纸。 数据库解决的主要技术问题: ( 1)蒙文音标输入法(拉丁化输入法) 。采用这种方法解 决了蒙古文中一字多音、一音多形等不利于语文信息处理的问题,同时我们编制了由 ASCII 97 码转换输出传统蒙古文、三种新蒙文、托忒文、满文和国际音标的专用程序。 ( 2)同形、同 音词知识库。这是建立词汇表的基础,它主要解决蒙古语为数庞大的同形、同音词; ( 3)确 定单词词类的产生式规则集。这套规则集可以自动处理一部分单词的词类。它不仅对调节本 数据库的时空关系起到了良好的作用,而且对进一步研究自动识别复合词、附加成分等提供 了方便; ( 5)几种 hash 函数和机器辞典。这些函数和词典是在自动校对、音节划分、确定 单词词类等过程中采取的主要措施。这些 hash 函数的采用,也提高了数据库的运行速度。 为了给《现代蒙古语文数据库》建立一个实用环境,我们首先研制了《多种文字 I/O 系 统》 。 因为这个系统的输入方式直接采用了 ASCII 码键盘输入法, 不需要对系统做任何改动。 另一方面,它以转换 ASCII 码为图形符号的方式为用户提供直接输出多种蒙古文结果的可 能。 第一阶段建立的《现代蒙古语文数据库》 ( 100 万词级)只是一个小型语料库,它还没 有包括自然科学、军事、科技、口语等方面的语料。作为第二阶段,我们将语料扩充到 500 万词,增加了语料的种类并对复合词、附加成分的自动识别以及对词类标注做了进一步的改 进。 “现代蒙古语语料库”作为蒙古语计算语言学研究的基础工程,为蒙古语言研究在理论 和方法上的更新以及研究成果精确度、可信度的提高起到了很大作用。与此同时也为蒙古语 文的学习、使用提供了科学依据。 2.1.2 蒙古语语法信息辞典 在蒙古文信息处理中,无论是自动标注、自动校对,还是机器翻译,都需要一部机器 词典。研制一部面向各种应用系统的、通用的“蒙古语语法信息词典”是蒙古文信息处理工 作的当务之急。为了解决这一问题,内蒙古大学蒙古学学院和北京大学计算语言学研究所合 作,在国家自然科学基金资助下,从 2000 年 1 月开始研制“蒙古语语法信息词典” 。目前已 基本完成词典框架的设计和总库属性字段的填写,并正在进行动词分库的建立工作。 “蒙古语语法信息词典” 是为实现自动分析与自动生成蒙古语语句而研制的一部机器词 典,旨在反映现代蒙古语常用词语语法功能的基本事实,各个具体的应用系统都可以从中提 取所需的较全面、翔实的语法知识,包括词法形态、句法功能、搭配特征以及正字法规则等 方面的信息。如,词典“总库”设置了如下19个属性字段: (1)序号; (2)词语; (3)音标; (4)读音; (5)词性; (6)构成; (7)正字法类型; (8)词类; (9)是否兼类; (10)是否 做复合词成分; (11)同音词; (12)同形词; (13)能否独立使用;(14)使用频度; (15)是 否借词; (16)是否做人名; (17)是否做地名; (18)简单汉译; (19)备注等。属性取值用 数值型、字符型、布尔型等不同类型,使开发者和用户使用起来更为简便。 目前该词典总库的一些属性字段已被植入国家 863 计划课题 “面向政府文献的汉蒙机器 辅助翻译系统(达日罕系统) ”中,作为该系统蒙古语语言模型和生成规则集的主要知识来 源发挥着重要作用。 2.1.3 蒙古文编码国际标准 随着国际社会走入信息化时代,国际标准化组织开始制定各民族语言、文字的标准。 从20世纪80年代开始,我国开始向国际标准化组织提交“蒙古文编码国际标准方案” 。通过 中国、蒙古国、德国、联合国大学等不同国家和地区学者的共同努力,蒙古文编码国际标准 于2000年由国际标准化组织ISO/IEC JTC 1/SC2 投票通过。ISO/IEC JTC 1/SC2/WG2规定: (1) 一个系统的文字必须制定一个统一的编码; (2) 在一个文字系统中的同一个形式只能一次编 码(即只给一个码位); (3)强制性合体字(Ligature)不予编码; (4)在一个字母的多个变体 中只选定一个字形作为“名义字符”进行编码。 “蒙古文系统”的文字包括传统蒙古文、托忒蒙古文、锡伯文、满文、阿里嘎里文,其 中除锡伯文外,其余几个文字均为跨国文字,所以ISO/WG2建议,蒙古文国际标准编码方案 98 应由中国、蒙古国共同制定,以两国联合方案的方式提出。这样, “蒙古文编码国际标准” 包括了上述五种文字。 ISO又规定,蒙古文编码分“名 义字符”和“变形显现字符”两个 部分,而只对其中的 “名义字符”予以编码,对“变形显现形式”不予编码。所谓“名义字符”就是在每一个字 母的各个变体中最具代表性的一个形式 ,以它来代表该字母,对它进行编码。它可用于蒙 古文的“书面形式以及附加符号的传输、交换、处理、存储、输入及显现” 。 “变形显现字符” 就是蒙古文的每一个字母的多个变体中,被挑选出去做 “名义字符”以外的其余变体。是用 来当作显现,输出用的。 “名义字符”作为蒙古文编码的核心部分,收入了蒙古文、托忒文、锡伯文,满文,阿 里嗄里文最基本的信息,包括字母、特有的标点符号和蒙古族独有的数字,以及必需的控制 符,共154个码位。上述五种文字中一个字母有几个变体,它们在词首、词中、词尾等不同 位置上,或有条件或无条件地出现。这些变体在编码体系中就是所谓的“变形显现字符” , 其中大部分变体通过条件可以确定在什么情况下应该显示哪一个。这些语法条件包括:(1) 词里的位置;(2)音节里的位置;(3)音节所处的位置;(4) 元音的性质;(4)书写法上的制 约等。但也有少数几个变体,可出现在同样条件下,只用所处位置等条件无法区别。为了解 决这些“特殊需要” ,设置了几个“控制符” ,这些“控制符”按其功能可分为:(1) “蒙古文 示位符(MONGOLIAN POSITION MARKER) ” ;(2) “ 蒙古文元音间隔符(MONGOLIAN VOWEL SEPARATOR)”和(3) “蒙古文自由变体选择符 (MONGOLIAN FREE VA RIATION SELECTOR)”。除此 之外,有些蒙古文字母由于连写的需要,其字形发生一些变化。在传统的印刷技术中,将这 些字母同与其连接的字母连在一起作为合体字处理的。 而在新的编码方案中这些合体字将不 再作为一个字符来处理。 2.1.4 蒙古语语音参数数据库 语音声学分析是探索语言微观世界的一种重要手段, 通过分析所提取的各种特征成为语 音研究和言语声学工程十分重要的参数。 因此一种语言的语音声学参数数据库成为该语言语 音研究和语音信号处理基础工程的重要课题。 语音声学参数数据库可分为两类:第一类是以语音单元(元素、音节、词或句)为单位 的 LPC(反射系数、共振峰)参数数据库;第二类参数数据库是以音位(音素)为单位, 测量该音位目标点上的声学参数来代表或界定一个音位的。 “蒙古语语音声学参数数据库” 属第二种类型。 本数据库是内蒙古大学蒙古语文研究所和中国社会科学院民族研究所共同研制的。 数据 库结构包括两大部分:声学特征和为便于排序、检索和统计用的结构特征符(位置特征) 。 一个音素在数据库中就是一个记录,因此每个音素都必须具备这两种特征纪录。 “蒙古语语音声学参数数据库”共有 23 个声学特征。他们分别是 G(无声间隙,是指 塞音、塞擦音成阻、持阻时所形成的无声段的时长) , VOT(噪音起始时间,是塞音、塞擦 音除阻瞬间所形成的脉冲条到声带开始震动之间的过程) , CD(辅音段的时长) , CA(辅音 强度) , Cfi(清辅音噪声段的三个共振峰频率值) , Vfi(浊辅音的三个共振峰) , VD(元音 段时长) , VA(元音音强) , Fi(元音的前三个共振峰) , Bi(三个元音共振峰的前过渡) , Ai(三个元音共振峰的后过渡) , WD(词长) , SD(音节时长) 。上述 23 个声学特征能够将 蒙古语音素相互区分出来,因此这组特征就是蒙古语语音的声学特征模式。该数据库的结构 特征符包括 WN(录入序号) , W(词) , S(音节) , T(音节类型) , L(音节在词中的位置) , P(音素) , O(音素在音节中的序位) , N(词所含的音节数) 。以上主要是以元音参数为例 介绍的,目前正在建立辅音参数数据库。 本数据库的语音资料可靠,具有充分的代表性,录音条件与设备都较先进,具有高保真 质量。声学分析是在 KAY7800 语图仪上进行的。 99 2.2 面向信息处理的基础理论研究: 2.2.1 蒙古语语料库语言学研究 上述几个语料库的建立,为运用统计语言学方法研究蒙古语提供了方便,内蒙古大学的 学者首先利用《现代蒙古语语料库》对蒙古语字母的使用度、蒙古语数范畴的内容、名词与 形容词在句子中的作用等方面进行分析,提出了不少新的见解,又通过对蒙古语构词后缀的 功能、分布进行统计,揭示了蒙古语新词的构成规律和可能性。 在建立现代蒙古语文数据库的过程中我们认识到, 传统语言学中的有些结论无法直接用 来解决蒙古文信息处理所遇到的问题, 而可以直接利用的部分也必须通过方法上的更新才能 发挥作用。譬如,传统蒙古语语法著作中一般认为蒙古语动词都具有式、时、态、体等变化, 但通过语料库检索,发现并不是所有的动词都具有这些变化,那么,怎样表示动词与动词之 间的这种差异呢?我们通过设置若干个语法属性字段, 以属性值对的二维结构对这一现象进 行了清楚的描述。 2.2.2 面向信息处理的蒙古语语法属性研究 进入 90 年代后,计算语言学理论和方法逐步渗透到蒙古语言研究的各个方面,随着汉 蒙机器翻译系统的开发和蒙古语语法信息词典的研制, 面向信息处理的蒙古语语法属性研究 显得更为迫切,如,机器翻译的蒙古语模型、蒙古语生成规则集、电子词典的语法属性字段 及其取值规范等都依赖蒙古语语法属性的研究成果。 在此期间,结合汉蒙机器翻译系统的开发和“蒙古语语法信息词典”的框架设计,初步 研制了面向信息处理的蒙古语词语分类及其标记集, 制定了以描述每个词语的语音、 正字法、 语法、搭配等方面的信息为内容的蒙古语语法属性字段及其取值规范。 2.2.3 面向信息处理的蒙古语语义研究 近二十年的经验告诉我们, 研制出一套面向信息处理的蒙古语语义属性描述体系势在必 行。通过几个阶段的理论、实践探索,我们在蒙古语语法属性研究方面积累了一些经验,取 得了一些成绩。但这还远远不能满足蒙古语语法、语义分析,词语和和语句生成、转换的需 求。其中主要一个原因是至今仍没有一个面向信息处理的蒙古语语义描述体系。为了解决这 一问题,2001 年起内蒙古大学与内蒙古社会科学院、内蒙古师范大学合作承担国家社科基 金项目“面向信息处理的蒙古语语义研究”课题。此项研究的主要内容有: (1)制定一套能 够充分反映蒙古语特点,而且易于机器处理的“面向信息处理的蒙古语语义分类体系及其标 记集” ,作为对词语的语义属性进行描述的基本规范。现在我们已初步对名词、动词、形容 词进行了语义分类实验,并根据名词、动词、形容词本身的语义特征和与其它词的搭配特征 将名词分为 7 个层次 130 余个类、动词分为 3 个层次近 150 个类、形容词分为 2 个层次 21 个类; (2)蒙古语语义搭配及配价研究。这一研究旨在通过语义分类和语义标记,对各类词 进行语义搭配研究,对语义搭配信息逐一进行描述。如,一个词自身的语义性质、这个词的 必要共现成分的语义性质等。最后以语义属性字段的形式描述词语的搭配特征,刻画词语及 其语义属性的二维关系。 (3)蒙古语语义格与配价语法研究。蒙古语在语义格的数量和表现 形式上有其明显的特点,其表现形式(或称格标)丰富而复杂。有些格对应蒙古语的语法格, 有些则以动词的变化或功能词(function w ord)来表示。蒙古语语义格有哪些表现形式, 语义格与语法格的对应关系如何等, 都属于蒙古语义研究的重要内容。 例如, 施事格以主格、 领格或语气词来体现,目标格以动词的行动词形式+凭借格、领格+后置词等不同形式体现。 至于不同的语义格究竟在什么情况下,以什么方式来体现,还值得进一步研究、揭示; (4) 蒙古语语义场与义素分析研究。传统的语义研究,是基于词语逻辑意义的释义性研究。它无 法解释同一类词在语义搭配方面的细微差异, 这种差异只能通过语义场理论和义素分析法才 能进行描述。 (5)蒙古语语法属性、语义属性关系研究。作为词的两种属性,蒙古语词的语 法属性和语义属性相互之间有密切的关系。蒙古语不同于一些西方语言和汉语,它具有丰富 100 的语法形态,以表示各种语法意义。分析或生成数量繁多、意义复杂的语法形态,是蒙古文 信息处理的主要特色和难点。蒙古语中的很多现象,从其表面上看是语法现象,但如究其根 源, 却与语义有着密切关系。 在研制蒙古语应用系统的过程中我们发现, 蒙古语的同一类词, 理论上都应有某种共同的语法形态,但事实上,同类中的某些词具有这些变化形态,而另一 些则没有。同一类词在同样条件下出现语法形态不同的现象,是蒙古语语法属性受语义制约 的结果。所以把面向人、面向教学的传统蒙古语语法学、语义学成果改变成面向机器的、易 于计算的、形式化的复杂特征集,是蒙古语语义研究的一个新的任务和新的增长点。 3.应用技术方面: 3.1 蒙古文文字处理及电子排版系统 从八十年代开始,国内外有不少专家为研制蒙古文应用系统,做了一些探索性的工作。 如, 内蒙古大学蒙古语文研究所与北京大学新技术公司 (今方正集团的前身) 合作开发了 “方 正电子出版系统蒙文版” 、内蒙古计算中心与山东潍坊公司合作开发了“华光轻印刷系统蒙 古文版” 、内蒙古大学计算机系开发了“智能蒙古文电子出版系统” 、内蒙古社会科学院语言 研究所与金山公司合作开发了 “蒙古文 WPS Office” 。 与此同时, 蒙古文编码国家标准 ( 1987 年制定、 2001 年修定) 、蒙古文读音输入法、蒙古文字形输入法、内码输入法、蒙古文整词 输入法等不同输入法相继问世。在这一时期蒙古学比较发达的蒙古国、德国、日本、美国、 澳大利亚等国的专家也研制过一些处理蒙古文字的应用系统。其中有德国 Hans-peter Vietze 教授开发的蒙古文字处理系统、 蒙古国国立大学的 “ SUDAR” 系统、 美国学者 Wayne V.Richter 研制的蒙古文字处理系统以及蒙古国教育部与日本 NEC 公司联合开发的蒙古文系统等。除 此之外,在俄国、匈牙利、加拿大、台湾等国家和地区也有一些学者开发和使用蒙古文字处 理软件。 这些软件和系统的开发对蒙古文出版印刷业的发展起到了决定性作用。目前, “方正电 子排版系统蒙古文版” 、 “蒙古文 WPS Office”等在国内外拥有众多用户,在电子出版、办 公自动化领域起着重要作用。 但是,蒙古文文字处理及电子排版系统的开发历程并非一马平川。由于蒙古文字的特点 在蒙古文字处理中遇到了很多难题: ( 1)蒙古文属标音文字,他最大的特点是从上而下连写,自左到右换行。这种书写方 式的文字在世界上是独一无二的。这样,蒙古文信息处理的字处理阶段就面临一个大难题, 即如何解决蒙古文书写方向与通用系统方向之间矛盾的问题。现在的几个系统都是采用 WINDOWS 环境下以外挂的方式实现蒙古文输入输出的,所以在很多通用系统中(如 Microsoft Word、 Excel、 Powerpoint、 Foxpro)仍无法解决蒙古文的竖向处理问题。 ( 2)蒙古文的一个字母或一个语音形式可能对应几个不同的图形,而一个图形也有可 能对应几个不同字母或不同的语音形式,如,一个 A 字母可对应 等八个图形,而一个 形式可对应 A、 E 两个元音和一个 N 辅音。一个字母或一个语音形式对应几个不同的图形,导致蒙古文字形数多于通用键盘键 数的现象, 而一个图形对应几个不同字母或不同的语音形式导致蒙古文中出现很多同形词的 现象。为了解决蒙古文字形数多于通用键盘键数的现象,在 80 年代有人曾试图采用“大键 盘”或“中键盘”的方式,为了解决蒙古文中出现很多同形词的现象,有人曾主张蒙古文每 个字形都要进行编码。但经过长时间的探索,在蒙古文输入使用方面,最终采用了在通用键 盘上一个字母对应一个键的“读音输入法” 。在编码方面则采用以“名义字符”来储存、传 输,以“变形显现字符”来显示、输出的方案。在“读音输入法”中,并不是对一个 A 字 母分配八个键盘,而是只用一个 A 键盘,通过规则或控制符来选择输入 这八个不同变体。 101 3.2 蒙古文机器翻译系统 1998 年 8 月内蒙古大学蒙古语文研究所、中国科学院计算技术研究所、北京大学计算 语言学研究所共同承担完成了国家“ 863 计划”课题: “面向政府文献的汉蒙机器辅助翻译 系统”的开发。该系统由以下四个方面组成: 3.2.1 汉语分析部分: 该部分包括对文本进行切词、标注、分析等一系列处理工作。汉语语法模型、汉语词语、 短语的分类和属性都主要来源于北京大学计算语言学研究所研制的“现代汉语语法信息词 典”以及其中的“功能分类”思想。但根据机器翻译的需要对词典中的属性作了一定的取舍, 并增加了少量新属性。 3.2.2 翻译部分 : 汉蒙机译软件是这一部分的核心,该软件不仅包括汉蒙两种语言的分析、生成、转换, 还解决了输入、输出蒙古文的问题。在本系统中我们利用了中国科学院计算技术研究所和北 京大学计算语言学研究所联合开发的“通用机器翻译开发平台” 。该平台将机器翻译中常用 的数据结构和算法以软件构件的形式提供出来, 并已在该平台基础上开发成功了一个汉英机 器翻译系统。由于其源语言的语言模型和计算模型实际上是通用型的,将其应用于汉蒙机器 翻译的开发时,对其描述语言和实现算法、转换生成则需要作一些改变以外,主要的工作是 研制蒙古语生成规则和相应程序。 3.2.3 蒙古语生成部分 : 蒙古语作为目标语言,在机器翻译中需要词语的转换以外,更重要的是生成出符合蒙古 语语法的词语和语句。其中所谓词语的生成就是蒙古语词的派生和各种语法形态的生成问 题。众所周知,蒙古语属黏着性语言,其构词、构形都是通过在词干后缀接不同的词尾而实 现。蒙古语的构形更是变化多端,名词有格、数、领属等范畴,形容词除格、数以外还有级 范畴,动词的变化更为复杂。该部分主要由蒙古语语言模型、蒙古语生成规则集、从汉语到 蒙古语的转换规则集和汉、蒙对照机器词典组成。 (1)蒙古语语言模型(Monmodel)是 由面向信息处理的蒙古语词语分类和标注规范以及 词类、语法属性标记集构成的。它是实现从汉语到蒙古语的转换和生成蒙古语各种语法形态 的基础。因为转换模块和生成模块都从以语言模型中提取所需语法知识。 (2)蒙古语生成规则集(bldrba se)是集蒙古语各种语法属性字段及其属性值于一身的 知识描述体系,包括名词、形容词、代词、方位词、时间词、形动词等词类的数、格、领属 范畴;形容词的级范畴;动词的态、体、式、时、形动词、副动词等语法形式的生成都是通 过生成规则来实现的。 (3)汉语到蒙古语的转换规则集(prsrb ase)是汉、蒙两种语言的短语结构特征和对 应规律的知识库系统。由于汉、蒙两种语言属不同语系,其短语、句子的构成等有着很大的 差异,所以对汉、蒙两种语言短语结构的转换也是本系统的关键所在,所以在编写转换规则 时遇到的语言学理论问题很多。 3.2.4 用户界面: 为了解决蒙古文显示、输出,使最终用户在 WINDOWS 环境下的蒙汉文同显窗户里进行编 辑,开发了一个竖向的蒙古文编辑器。 本系统中蒙古文的内部表示采用 ASCII 码转写的方法, 在屏幕上显示蒙古文,进行蒙古文窗口编辑,需要通过一个转换规则,将 ASCII 码转换成蒙 古文码。 2000 年 11 月,其成果“达日罕汉蒙机器翻译系统(政府文献版) ”国家智能计算机系 统专家组的验收, 目前正在进行进一步调试和改进。 虽然蒙古文机器翻译系统有了一个雏形, 但离真正应用还有一段距离。其主要困难还是蒙古语计算语言学研究基础薄弱,很多语言现 象不能以形式化手段进行描述。 102 3.3 蒙古文网络技术及其应用 随着互联网的迅速发展和 PC 机的普及,对蒙古文在互联网络上应用的需求于日巨增。 这几年各个社会团体和公司通过尝试各种技术手段来实现后, 蒙古文互联网应用技术现已基 本成熟。 由于蒙古文的书写习惯是自上而下,从左到右竖写,因此与其它文字的书写习惯截然不 同。目前任何系统都无法直接支持,尤其对 HTML 标记语言为基础的互联网 web 页面和浏览 器解释技术来说,直接正常显示、编辑、传递蒙古文是无法办到的。那么以前也有人利用 web 页面的压缩图象格式的支持特点,以图象形式做过蒙古文 web 页面。此种方式我们无法 认同它是真正的蒙古文互联网应用技术, 首先通过图象方式制作及编辑蒙古文 web 页面非常 不方便也不科学,其次因图片容量大而下载速度极慢,更谈不上与 web 数据库接口。 2001 年,内蒙古明安途互联网技术开发有限公司在他们主办的《蒙古文化》网站蒙古文 版中,通过利用微软的 ActiveX 技术解决了蒙古文在 web 页面中以字符形式显示、编辑和传 递等技术问题,并开拓了非常好的应用先例。ActiveX 是一个微软的术语,它指的是一组包 括组件、DLL 和 ActiveX 文档的组件。它除了重复利用代码的优点外,还可以用在 Web 页面 上,在 Internet 上传送像程序一样的功能。在 Web 页面上使用 ActiveX 组件被认为是突破 HTML 局限性的有效的解决方案。这种技术从根本上说就是 OLE(对象链接和嵌入)技术,其 实负责在浏览器中显示 Web 页面内容的组件本身就是一个 ActiveX 组件。 此项应用技术虽然 根本上解决了蒙古文在互联网络上应用的技术难题,但还有一些不足之处,下载包的容量相 对大(2M 左右),不是标准编码,形码输入因此不符和大量蒙古文编码分析需求。具体应 用在《蒙古文化》网站和《呼和浩特政府信息网》蒙古文版中。 2002 年中旬,《蒙古人》网站通过微软.net 技术和服务器端脚本语言把事先作好的蒙古 文字符图片,按蒙古文书写习惯,重新在 web 页面的表格中排列,以动态图片的方式在 web 页面显示蒙古文。虽然动态图片方式是蒙古文在互联网络上应用的一种解决方式,但缺点太 多,无法普及应用。具体应用在 www.mengguren.com。 2002 年底,内蒙古明安途互联网技术开发有限公司在以前开发蒙古文互联网应用技术的 基础上,与内蒙古图书馆合作开发了《蒙古文数字图书馆》网络支撑技术。此项技术的开发 首次解决了蒙古文国际标准编码在互联网上的存储、传递、显示、编辑、输入、导航、全文 检索等蒙古文文本难以解决的诸多 web 技术特性, 从而使蒙古文能够与中文一样在互联网上 应用,真正突破了蒙古文在互联网络上应用的技术瓶颈。此项技术实现中在内码上采用蒙古 文国际标准编码,完全赋予其他语种在 web 页面上做信息传递的全部功能,同时集成了读音 输入法。下载包的容量 500kb 左右,自动下载安装速度非常快,完全适合在互联网上应用。 具体应用在《蒙古文数字图书馆》 www.mondlib.com 中。 3.4 蒙古语言研究专家系统 为了解决蒙古文信息处理中所遇到的理论与技术难题,提高工作效率和智能化程度,曾 研制过一些蒙古语言研究专家系统,如,从蒙古文编码到 ASCII 码的转写系统、蒙古语自 动校对系统、蒙古语词类自动标注系统、蒙古文词根词干词尾自动切分系统等。这些系统对 蒙古语基础研究与应用技术的相互联系、相互促进都起过一定的积极作用。 3.4.1 蒙古文编码到 ASCII 码的转写系统 该系统是在扩充现代蒙古语文数据库语料时, 为了解决蒙古文电子文本的转换而设计的 一个应用系统。由于当时所用的蒙古文编码是基于字形的编码,不能区分同形字的读音,而 且编码单位不是字母,而是字素、字母、音节混合的编码,所以用它输入的文本不能直接用 来作为语料库的语料,必须通过转写确定其正确读音才能利用。该系统由数据库、知识库、 和控制模块等三个部分组成,通过词典匹配、规则判断等手段主要解决了蒙古文同形字读音 103 的确定等一系列问题。 3.4.2 蒙古文自动校对系统 它是基于词典匹配和规则判断结合的、针对用 ASCII 码转写蒙古语文本的一个程序,它 对于辨别字形相似的字母、 词干和附加成分的阴阳性匹配等方面给校对人员提供一个报错信 息,也是对系统编辑功能的一个补充。由于它只针对用 ASCII 码转写的蒙古语文本,所以对 蒙古语专家校对语料库有直接用途,而对用蒙古文输入的普通用户则用途不大。我们准备将 来在研究蒙古语词根与附加成分、词与词的搭配关系的基础上,使其升级为检查拼写错误、 语法错误以及词语搭配错误,并具备纠错提示功能的新的校对系统。 3.4.3 蒙古文词根、词干、词尾的自动切分系统 由于蒙古文词与词之间有空格,所以在蒙古文信息处理中切词并不成为主要难点。但蒙 古语属黏着性语言,词的形态变化非常丰富,具有词法变化的词在几乎所有的具体句子中以 某种变化形式出现,但是我们不能将这些变化形式都收入词典。蒙古语中的一个动词词根可 以有 850 多种变化形式,要处理这些变化形式只能采取将词根收入辞典,而将其变化形式通 过规则生成的方法。那么,怎么识别哪一部分是词根哪一部分是词尾,只能把把词尾部分一 层层地切分出来。如,YABVGVLCIHAJAI(让其已经走了)一词中,其词根是 YABV(走)是 词根,是词典收录的部分,而 GVL(使动态词尾)CIH_A(完成体)JAI(陈述式过去时)则 均为其构形词尾,必须通过切分才能识别。 3.4.4 其他 除上述几个系统外,近 20 年中还研制过蒙古文印章系统、蒙古文电视字幕系统、蒙文 KARA OK 字母等多种应用软件。这些系统的开发在一定程度上拓展了蒙古语的社会应用范 围,对蒙古族社会文化发展做出了多方面的贡献。 5.小结 蒙古文信息处理工作,经过近 20 年的发展历程,虽然取得了一些成果,但比起发达国 家和国内中文信息处理,无论是在基础理论研究,还是在应用技术开发方面都有很大差距, 例如,面向信息处理的蒙古语语法、语义研究还处在起步阶段,没有形成一个理论体系,以 支持各种应用系统的开发与升级;蒙古文多媒体技术、网络技术还不成熟,既是已经开发的 一些系统也没有集成成一个平台。所以说还有很多工作有待于我们继续进行更为艰难的探 索。 参考文献: [1]蒙古语文研究所计算机室.关于现代蒙古语文数据库.内蒙古大学学报,1992,1 [2]华沙宝.现代蒙古语数据库软件.内蒙古大学学报,1992,2 [3]那顺乌日图,确精扎布.蒙古文国际标准编码的构成原则.内蒙古大学学报,1997,6 [4]那顺乌日图,确精扎布.蒙古文国际标准编码诸规则.内蒙古大学学报,1998,4 [5]那顺乌日图.蒙古文信息处理.内蒙古科学技术出版社,1998. [6]确精扎布.蒙古文编码研究.呼和浩特:内蒙古大学出版社,1999. [7]那顺乌日图,刘群,巴达玛敖德斯尔.关于 “汉蒙机器辅助翻译系统” .ALTAI HAKPO(JOURNAL OF THE ALTAI SOCIETY OF KOREA)2001,11 [8]S·苏雅拉图.蒙古文整词编码研究.中文信息学报,2001,2 [9]S·苏雅拉图.蒙古文整词计算机生成理论研究.中文信息学报,2001,4 [10]巴达玛敖德斯尔.内蒙古大学的蒙 古语言文字研究.ALTAI HAKP O(JOURNAL OF THE ALTAI SOC IETY OF 104 KOREA)2002,6:123~131 作者简介: 那顺乌日图,男,蒙古族,1959 年 8 月生,内蒙古巴林右旗人,文学博士。现 任内蒙古大学蒙古学学院教授、博士生导师。 General Introduction of Mongolian Information Processing Nasun-urtu (Inner Mongolia University, Huhhot 010021, China); E-mail: mgnasun@imu.edu.cn Abstract: Since the early 1980s, some elementary engineering construction and theoretical research on Mongolian information processing have been done, and a number of applied systems developed, too, as building various corpuses, formulating code standards, studying Mongolian grammatical and semantic attributes, compiling Mongolian grammatical information dictionary, developing Mongolian electronic publication systems and MT systems, etc. Mongolian language is different from Western languages and Chinese language, therefore, Mongolian information processing has its obvious characteristics and unique difficulties. It can be generally divided into basic research and applied technology. The article mainly introduced the past way, achievements, problems and resolutions of Mongolian information processing from the very two aspects that mentioned above. Key words: Mongolian information processing; basic research; applied technology; general Introduction