︹ ᠨᠠᠰᠤᠨ᠋ᠤ᠋ᠷᠲᠤ᠂ ᠱᠤ᠋ ᠴᠢᠨ ︺ - ᠦᠭᠦᠯᠡᠯ - (ᠬᠢᠲᠠᠳ) - 蒙古文同音同形同类词”知识库的构建
 “蒙古文同音同形同类词”知识库的构建 淑琴 那顺乌日图 ︵内蒙古大学 蒙古学学院,呼和浩特 010021︶ [摘 要] “同音同形同类词”是蒙古文词汇的重要组成部分。“同音同形同类词”在静态环境中占词典的 5.1%,动态环境中占语料的11.6%。“蒙古文同音同形同类词”知识库包括“同音同形同类词信息词典”、人工 识别与标注“同音同形同类词”的“100万”、“同音同形同类词”搭配库、共现库、类语库、词典管理与维护工 具,共现成分统计工具,“同音同形同类词” 自动识别与标注工具等。本文基于共现库在测试集中自动识别标 注了“同音同形同类词”,其识别标注召回率为99.8%,准确率为81.7%。 [关键词] 蒙古文;“同音同形同类词”;知识库;构建 [中图分类号]H212 [文献标识码] A [文章编号] 一、引言 “词”是能够独立使用的最小的形、音、义结合体。除了形、音、义外,词性是词的重要特征。 计算机识别词,首先要正确识别该词的形、音、义、词性等。已国家标准形式发布的“信息处理用 蒙古文词语标记集”中对蒙古文词类进行了三级分类:对数词 ︵M︶ 、时间词 ︵T︶ 和情态词 ︵H︶ 没再进行细分;对名词 ︵N︶ 和动词 ︵V︶ 进行了三级分类;其余词类进行了二级分类。我 们可以把第一级称为大类,第二级称为中类,第三级称为小类。因此,“同类”也可以分为大类 相同、中类相同和小类相同。 蒙古文中存在大量的同音同形同类义异词 ︵, V M HV V H N︶ 和同音同形 异类义异词 ︵0 H T 0︶ 。 文 对 为同音同形同类义异词:数词、时间词和 情态词 “同音同形同类” ;名词和动词的小类相同;其余词类的中类相同。对名词和 动词 言,大类和中类相同的 同词, ,0 0 H ︵N 1︶ H ︵N 2︶ ,M0 0 H H ︵V 1︶ H H ︵V 2︶ 等 是 文的 内 。对二级分类的词类 言,大 类相同的 同词, , ︵︶ N T N ︵︶ H , H0 0H T ︵︶ V N H0 0H T ︵︶ 等也 是 文的 内 。 “同音同形同类词”是蒙古文词 的重要¡¢£分。“同音同形同类词”在⁄态¥ƒ中§词 currency1的'“1«,动态¥ƒ中§语‹的11“›«。在蒙古文信息处理中,对“同音同形同类词”的识别fi 标fl准确 –†‡ · ¶•、语义、语用分‚的进„和结”。 我们» ᠁ ‰的“蒙古文同音同形同类词” 识¿ `“同音同形同类词信息词currency1”,´ˆ 识别fi标fl“同音同形同类词”的“100˜词级 ¯蒙古语文数˘¿”1,“同音同形同类词” ˙¨¿、 ¿、类语¿,词currency1˚理fi¸ ˆ˝, ¢分˛计ˆ˝2和“同音同形同类词” 识 1ˇ — 日 200 11 20 ˇ 淑琴 ︵1︶ , ︵蒙古︶ ,内蒙古 Æ´,内蒙古大学 ª 。 那顺乌日图 ︵1 '︶ , ︵蒙古︶ ,内蒙古 Æ´,内蒙古大学ŁØ, ª Œº。 ˇ 此 æŁ £、国家语 语言文ı 标准‰ł 信息ø œ蒙古语语言 识¿的‰ 立ß ︵M 11' 0︶ ,国家 科学 œ的ł计fi实 ß ︵›0 0 4︶ 资助。 下文 称“100˜”。 2 词currency1˚理fi¸ ˆ˝和 ¢分˛计ˆ˝–以另文详述。 别fi标flˆ˝等。 二、“同音同形同类词信息词currency1” “同音同形同类词信息词currency1” 是“蒙古语语•信息词currency1”总¿的一个分¿,是总¿的细ø 和升级。该词currency1是采用Mi rosoft ss 200 来‰立的。词currency1中ł置了1 个属性ı段, — 录 形式、1 '›词,一个形式平均¯表2“'词。形式和词的对应表 下: 一个形式¯表的词数 形式总数 ˝体形式 2 '04 V , H 等 1 H , 0 0等 4 ' 0 0, H 等 ' 1› ,$ TV等 › ' VV, N ,T ,H , N ' , ig,T ,0 , 1 1.选词来源 从œ蒙古语语•信息词currency1ß总¿ ︵那顺乌日图等,内蒙古大学蒙古语文 »,电子版︶ 、 œ蒙文同形词ß ︵陈乃雄,内蒙古Ł 出版社,1 2︶ 、œ蒙汉词currency1ß ︵内蒙古大学蒙古语文 », 内蒙古大学出版社,1︶ 、œ蒙古语辞currency1ß ︵œ蒙古语辞currency1ß编纂¡,内蒙古´ 出版 社,1︶ 、“100˜”中选取了同音同形同类异义词。 分“同音同形同类异义词”fi“多义 词”时,采用 ´ ª学位论文中提出的“同形词”fi“多义词”的 分方•。 2.选词原则 2“1 完整性原则 ⑴ 选择一个形式¯表的»有的词。 ,“ H ”,œ词currency1ß中既要选择 为可数名词的三个词 ︵耳朵N 1 器皿耳子N 1 秧儿N 1︶ ,也要选择 为动词的词 ︵塞V 1︶ 。 ⑵ 机器只认形式,只要是形式上相同,机器都有必要–它们 别开来。 于这种考虑,œ词currency1ß 中选择了 能单独使用的复合词¢分、 ᠁ 形附加¢分、蒙古文ı符等。 , ︵P: N︶ , ︵P:N0 0︶ 。 2“2 经济性原则 蒙古语形态变ø非常丰富,œ ᠁ 形附加¢分信息词currency1ß中 — 录 1 ᠁ 形附加¢分,并且它 们可以层层缀‡。蒙古语语‹中的词大£分都是词干后面‡加1至' ᠁ 形附加¢分的有形态变ø 的词。œ词currency1ß 可能 且没必要 — 录»有的变ø形式。遵循“经济性”fi“能产性”原则,œ词 currency1ß中只 — 录词干形式。 .属性ı段fi取值 格 “1 fiœ蒙古语语•信息词currency1ß总¿的 有 fiœ蒙古语语•信息词currency1ß总¿的 有 为:M0N 0 ︵蒙古文书写形式︶ , ︵内大拉 丁︶ , M ︵词性︶ , H T ︵汉译︶ , ︵正ı•类型︶ , H ︵独立使用︶ , 3 下文 称œ词currency1ß。 ︵同音异形︶ 。 “2 属性ı段fi值的类别 »ł置的属性ı段 æ蒙古语正ı•、词•、¶•、语义、˙¨和频 等方面。 »填写的属性值类别为ı符型 ︵多选一型、复合型、释义型︶ ,逻辑型和数ı型。 “ 属性ı段 取值 格 ⑴ M0N 0 :填写蒙古文书写形式。 ,‘ ’。 ⑵ :根˘内蒙古大学蒙语»“ ¯蒙古语文数˘¿”拉丁转写方案,转写蒙古文词。 , ‘H ’。 M :根˘国家标准“信息处理用蒙古文词语标记集”填写词类标记。 ,‘N 2’。 HV: 和 M 个ı段值完 相同的情 下,根˘“100˜”中出 频 的大 小 填写 文大写ı 。 , N ︵N N H︶ 和 N ︵N N︶ 的 ı段值都为 N , M ı段值都为N 1,因此, 一个 N 填‘ ’,后一个 N 填‘ ’。 H T :根˘œ蒙汉词currency1ß ︵1︶ 填写汉译,œ蒙汉词currency1ß中没有译文的 要 译。 ,‘ˆ ’。 :填写“100˜”中的currency1型 ¶。 ,‘H H N ’。 H :填写同形 类词的 类标记。 ,0 ︵T 0︶ 填‘N 2’,0 ︵0 H︶ 填‘V 2’。 H T :对“100˜”进行词•分‚的 上,填写“100˜”中的词形 ︵︶ 频 。 , N 填‘›0 ’。 T :对“100 ˜”进行词•分‚的 上 , 填 写 “100 ˜”中的词 ︵, M , HV︶ 频 。 , N ︵N N H︶ 填 ‘ ›2’, N ︵N N︶ 填‘24 ’。 T N:根˘“蒙古文拉丁转写国 标准”转写蒙古文词。 ,‘ s ’。 : 音结 的词填‘1’,N 音结 的词填‘2’,非N 音结 的词填‘ ’, 音结 的词填‘4’。 ,H 填‘1’。 H:能够独立使用的词填‘N’, 能独立使用的¢分填‘ ’。 , ︵P: N︶ 填‘ ’。 HMT H:根˘œ蒙汉词currency1ß、œ蒙古语辞currency1ß、œ ¯蒙古语¡¢£语语•信息词currency1详⁄ß、“100 ˜”,填写 能独立使用的¢分的 ¢分。 , 填‘ 0 N’。 ¥ 0N 00:填写ƒ义相等 词形 同的词。 ,H ︵VN V H︶ 填‘H V’。 § :填写currency1音相同 词形 同的词。 , 填‘ ’。 ' 0N 00:填写词形相同 currency1音 同的词。 , 填‘ H ’。 “ N:填写“100˜”中出 的¶子¢分。 ,H 填‘ ’ ︵«语︶ 。 三、‹›集 我们在“100˜”中´ˆ识别fi标fl了“同音同形同类词”,并同时完¢了œ词currency1ß的选词、 属性值的填写等。 1.语‹¿的fi处理 ⑴ “100˜”文 文flŒ æMi rosoft ss 200 中,并ł置了 ︵–†︶ , ︵词语︶ , N ︵词干︶ , M ︵词性︶ , HV ︵同形︶ , T ︵词语频︶ , H T ︵词形频︶ , T ︵词干频︶ 等 个属性ı段。 ⑵ ‡除“100˜”的 · 别ı和 ¶后,数˘¿中 有1012 0 •记录,其中总词数为 4 ' ︵`标‚符†、„拉”数ı、´名和»名等︶ 。 根˘“信息处理用蒙古文词语标记集” ᠁ ‰“100˜”的 M ︵词性︶ ı段值。 对“100˜”进行词•分‚,并填写了 N ı段值。 用词currency1˚理fi¸ ˆ˝,填写 T 、H T 、 T 三个ı段值。 2.“同音同形同类词”的´ˆ识别fi标fl “同音同形同类词” ︵形式1 '›词︶ 在“100˜”中总 出 4 。我们在“100 ˜”中´ˆ识别fi标fl了“词currency1” ︵形式1 '›词︶ 中的 形式10 词,§“词currency1”的 '2“ «。 形式10 词在“100˜”中 出 4› 1 ,¿´ˆ分‚了4› 1 个¶子。 形式 10 词中24›形式、40 词出 在“100˜”中,分别§总数的›1“ «和 “›«。这 数˘一方面 表`了“蒙古文同音同形同类词”的应用´ ,另一方面ˆ`了“100˜”语‹ ˜的¯˘性。 下一˙–考虑 ¨⁄ 数˘˚¸ ˝。 ˛、˙¨¿、 ¿和类语¿ 根 ˘ “ 100 ˜ ” 中 出 的 频 , 我 们 选 择 了 “ N , V ,H0T ,0 , H ,0 0,H ,H ,H , H ”等10形式 2词 为 ᠁ ‰˙¨¿、 ¿和类语¿的 ,ˇ表1。 于œ蒙汉词currency1ß、œ蒙古语辞currency1ß、œ ¯蒙古语¡¢ £语语•信息词currency1详⁄ß、œ类语辞currency1ß、œ蒙古语 — 义词小词currency1ß等词currency1,用Mi rosoft ss 200 ᠁ ‰了“同音同形同类词”˙¨¿、 ¿和类语¿。 M HV H T N N 1 N N 1 级 V N 2 V N 2 H N 1 H N 1 H N 1 0 N 1 日 0 N 2 记性 0 N 2 0 N 2 0 V 2 0 V 2 Æ 0 s ︵ª呼︶ 0 0 N 1 0 0 N 1 位 0 0 N 2 0 0 V 2 进 H0T N 1 Æ H0T N 1 浩特 H0T ŁØ 家 H N 1 语言 H N 1 Œ H V 1 ˆ H N 2 º H N 2 ˆ H V 1 等 H V 1 ‡ — H N 1 耳 H N 1 耳´提 H N 1 秧儿 H V 1 塞 表1:10形式 2词 ˙¨¿中ł置了 ︵词语︶ , M ︵词性︶ , HV ︵同形︶ ,V V ︵˙¨︶ ˛个ı段; ¿中ł置了 ︵词语︶ , M ︵词性︶ , HV ︵同形︶ , HMT H ︵词︶ ˛个ı段;类语¿中ł置了 ︵词语︶ , M ︵词性︶ , HV ︵同形︶ , ︵类语︶ ˛个ı段。 , M , HV三个ı段中填写“词currency1”中的 , M , HV值 。 V V ı段中填写œ蒙汉词currency1ß和œ蒙古语辞currency1ß中的 词•、 子,œ ¯蒙古语¡¢£语语 •信息词currency1详⁄ß中的复合词,œ类语辞currency1ß中的 子。 ı段中填写œ类语辞currency1ß中的类语和œ蒙 古语 — 义词小词currency1ß中的 — 义词。HMT Hı段中填写˙¨¿中的˙¨词和类语¿中的类语。填写 ˙¨词、 词和类语时:选择词干形式;选择结 ‘ , ,0 ,V , , , ,H , , ’和 写‘ , ,0 ,V , , , ,H , , ’ 种 形式;‘ ,N ’等使用频 的 词 选。˙¨¿中 有 4 •记录,类语¿中 有4 • 记录, ¿中 有11 1•记录。 ˙¨¿、 ¿和类语¿的æ ˇ表2、表 、表4。 M HV V V H N 1 N H H N 1 T H H N 1 H H V 1 H N H 表2:˙¨¿ M HV HMT H H N 1 N H N 1 T H N 1 H V 1 H N 表 : ¿ M HV H N 1 0N0 H N 1 V H N 1 H V 1 T 表4:类语¿ 对“100˜”进行词•分‚和´ˆ识别标fl“同音同形同类词”的 上, 用˛计方• ︵频 、 信息、t值、 2分‚•等︶ ‰立“同音同形同类词”的 ¿。这£分ˆ –在另一 文 中详述。 ı、“同音同形同类词”的 动识别fi标fl 于 ¿,用Mi rosoft Vis si ›“0开发了“同音同形同类词”的 动识别标fl ˆ˝,并选择“20˜”4 为łø语‹。 1.标flœß ⑴ ¿中的“ ”ı段值fi“20˜”中的“ ”ı段值进行 ¨, ” ¨¢ 转 æ下一˙。 ⑵ ¿中的“ M ”ı段值fi“20˜”中的“ M ”ı段值进行 ¨, ” ¨ ¢ 转æ下一˙。 ” ¿中 记录的“ HV”ı段值 为 ,那么,“HMT H”ı段值fi“20˜” 的“ ”ı段 后¶子 围内进行 ¨。 ” ¨¢ ,在“20˜”的“ HV”ı段中填 写相应的“ HV”值。 “HMT H”ı段值fi “20˜”的“ ”ı段 后¶子 围内 ¨ 上,那么,在“20 ˜”的“ HV”ı段中填写“100˜”中频 的值“ ”。 遇æ歧义 时,填写“100˜”中频 的值“ ”。 ,‘ M H0T N M VN M ᠁ ’中‘H0T ’既可以往 ¡合¢‘ M H0T ’,也可以往后¡合¢‘H0T N M ’。 识别fi标fl过ß中»有的判断、 ¨都要考虑词干和变ø形式。 2.标fl结”分‚ 于 ¿在“20˜”中 动识别fi标fl了122 •记录,其中多余标fl1 •,未能标fl •,正确标fl 1•, · 误标fl21 •,准确 为 1“ «,召回 为 “ «。实验数˘表`该方 •对识别fi标fl“同音同形同类词”有很好的效”。 多余标fl的原因: ᠁ 词附加¢分fi ᠁ 形附加¢分同形 ︵,H ,0︶ 歧义»Œ致; 未能标fl的原因:‡加体附加¢分时 物fi 物相 转ø的动词 ︵,H︶ 未能 标fl; · 误标fl的原因:①“20˜”校对 一致, ,“20˜”中有0 0N N,0 0 N N 种形式② “20˜”词性标fl · 误, , H ︵N 1︶ 标fl为N 2③˙¨歧义, ,H H 的H 既可以标fl为“ ”,也可以标fl为“ ” ④比喻用•, ,‘N M 4 该语‹是由内蒙古大学蒙古语文 » 制的“100˜词级 ¯蒙古语文数˘¿”的一£分, 已´ˆ做好词•分‚和词性标fl。其 内 为:小学蒙语课文1 — 10 册;中学蒙语课文1 — 2册;œ春天的太阳从北京ß小ˆ;“内蒙古日报”1 年 月1 至 日;“实 践”月刊1 年1 至 。 VM VN V T HV , H N T 0 0 N V H HV ’⑤ ¿中没能 — 录。 下一˙我们– 断»扩充和完善 ¿,结合实 方•、 则方•、˛计方•来提 动识 别标fl“同音同形同类词”的准确 和召回 。 ˇ参考文献 ˇ1 那顺乌日图等“œ蒙古语语•信息词currency1ß ︵电子版︶ [︖ ]“内蒙古大学蒙古语文 »,200 “ ˇ2 俞ª汶等“œ ¯汉语语•信息词currency1详⁄ß ︵第二版︶ [M] “北京:清华大学出版社,200 “ ˇ 内蒙古大学蒙古语文 »“œ蒙汉词currency1ß ︵增订︶ [M] “ 呼和浩特:内蒙古大学出版社,1 “ ˇ4 œ蒙古语辞currency1ß编纂¡“œ蒙古语辞currency1ß[M] “ 呼和浩特:内蒙古´ 出版社,1 “ ˇ' œ蒙古文正ı•词currency1ß编 会“œ蒙古文正ı•词currency1ß[M] “ 呼和浩特:内蒙古´ 出版社,1 “ ˇ› 陈乃雄“œ蒙文同形词ß[M] “ 呼和浩特:内蒙古Ł 出版社,1 2“ ˇ 德 · 青格乐图等“œ ¯蒙古语¡¢£语语•信息词currency1详⁄ß[M] “呼和浩特:内蒙古Ł 出版社,200'“ ˇ 达 · 巴特尔“œ类语辞currency1ß[M] “ 呼和浩特:内蒙古´ 出版社,1 2“ ˇ 罗布桑旺丹,索米雅巴托“œ蒙古语 — 义词小词currency1ß[M] “呼和浩特:内蒙古Ł 出版社,1 '“ ˇ10 卫乃兴“œ词语˙¨的界¢fi 体系ß[M] “上海:上海交 大学出版社,2002“ ˇ11 那顺乌日图“œ蒙古语语•信息词currency1ß框架ł计[D] “内蒙古大学 ª学位论文,2000“ ˇ12 刘文涛“信息处理用同音同形词 [D] “山东º 大学硕ª学位论文“200 “ ˇ1 哈斯格日乐“面向信息处理的蒙文同类同音同形词 动识别 [D] “ 内蒙古大学硕ª学位论文,200 “ ˇ14 淑琴“œ蒙古语语•信息词currency1 ᠁ 形附加¢分分¿ß的ł计fi实 [D] “内蒙古大学硕ª学位论文,200'“ ˇ1' 华沙宝“对蒙古文语‹¿的词类标fl系˛ — M [J] “内蒙古大学学报 ︵´文社会科学版︶ ,1999, ︵5︶ . Th oØstr tioØ of MoØgo i Ø Homogr phs KØow dg s Shuqin, Nasun-urt ︵The Institute of Mongolian Studies, Inner Mongolia University, Hohhot 010021︶ [Abstract] Homographs are the organic part of the Mongolian vocabulary. Mongolian homographs account for 5.1% of dictionary in static circumstance, and account for 11.6% of corpus in dynamic circumstance. Mongolian homographs knowledge base includes homographs electronic dictionary, one million words corpus of manually recognized and tagged homographs, homographs’ collocation base, co-occurrence base and synonym base, the management and maintenance tool of the homographs electronic dictionary, the statistical tool of the co-occurrence components and an automatic recognition tool of the homographs. In this paper, we implement the homographs automatic recognition and tagging based on the co-occurrence base. The preliminary test shows that the recall rate reaches 99.8% with a precision rate of 81.7%. [Key words] Mongolian︔ homographs︔ knowledge base︔ construction