︹ ᠨᠠᠰᠤᠨ᠋ᠤ᠋ᠷᠲᠤ᠂ ᠮᠦᠷᠡᠩᠭᠤᠸᠠ᠂ ᠯᠢᠦ ᠴᠦᠨ᠂ ᠯᠢ ᠶᠢᠨ ᠲᠣᠣ᠂ ᠾᠥᠦ ᠬᠤᠩ ᠱᠦᠢ ︺ - ᠦᠭᠦᠯᠡᠯ (ᠬᠢᠲᠠᠳ)基于统计语言模型的蒙古文词切分
 3 内 蒙 古 自 然 科 学 基 金 项 目 ︵No. 200607010805︶ 、 国 家 973计 划 前 期 研 究 项 目 ︵No. 2007CB316503︶ 资 助 收 稿 日 期 : 2008 - 03 - 03︔ 修 回 日 期 : 2008 - 06 - 05 作 者 简 介 侯 宏 旭 ,男 , 1972年 生 ,副 教 授 ,主 要 研 究 方 向 为 中 文 信 息 处 理 . E2mail: cshhx@ imu. edu. cn. 刘 群 ,男 , 1966年 生 , 研 究 员 ,主 要 研 究 方 向 为 自 然 语 言 处 理 .那 顺 乌 日 图 ,男 , 1959年 生 ,教 授 ,主 要 研 究 方 向 为 计 算 语 言 学 . 牧 仁 高 娃 ,女 , 1982 年 生 ,硕 士 研 究 生 ,主 要 研 究 方 向 为 计 算 语 言 学 . 李 锦 涛 ,男 , 1962年 生 ,研 究 员 ,主 要 研 究 方 向 为 数 字 媒 体 处 理 技 术 . 基 于 统 计 语 言 模 型 的 蒙 古 文 词 切 分 3 侯 宏 旭 1, 2, 3 刘 群 1 那 顺 乌 日 图 2 牧 仁 高 娃 2 李 锦 涛 1 1 ︵中 国 科 学 院 计 算 技 术 研 究 所 智 能 信 息 处 理 重 点 实 验 室 北 京 100190︶ 2 ︵内 蒙 古 大 学 计 算 机 学 院 呼 和 浩 特 010021︶ 3 ︵中 国 科 学 院 研 究 生 院 北 京 100190︶ 摘 要 通 过 对 蒙 古 文 词 切 分 技 术 的 分 析 ,利 用 规 则 作 为 切 分 的 基 础 ,提 出 一 种 统 计 和 规 则 相 结 合 的 蒙 古 文 词 切 分 方 法 . 这 种 方 法 利 用 蒙 古 语 统 计 语 言 模 型 作 为 排 歧 依 据 ,使 用 的 语 言 模 型 有 基 于 词 性 的 语 言 模 型 和 Skip2N语 言 模 型 . 其 词 切 分 准 确 率 比 基 于 规 则 的 系 统 有 较 大 提 高 . 关 键 词 蒙 古 语 ,词 切 分 ,语 言 模 型 ,词 干 词 缀 中 图 法 分 类 号 TP 391 M ongolian W ord Segm en ta tion Ba sed on Sta tistica l Language M odel HOU Hong2Xu1, 2, 3 , L IU Qun1 , Nasanurtu2 , Murengaowa2 , L I J in2Tao1 1 ︵Key L aboratory of Intelligent Inform ation P rocessing, Institute of Com puting Technology, Ch inese A cadem y of Sciences, B eijing 100190︶ 2 ︵School of Com puter Science, InnerM ongolia U n iversity, Huhhot 010021︶ 3 ︵Graduate U niversity of Ch inese A cadem y of Sciences, B eijing 100190︶ ABSTRACT Based on the analysis of Mongolian segmentation technique and the rules used as the foundation of word segmentation, a hybrid word segmentation method is p roposed. It uses Mongolian statistical language model to elim inate the ambiguity in Mongolian word segmentation. A POS language model and a Skip2N language model are used, and an experiment system is thus created. The experimental results are better than those of the system based on rules. Key W ords Mongolian, Word Segmentation, Language Model, Etyma and Suffix 1 引 言 蒙 古 语 属 于 黏 着 型 语 言 . 蒙 古 语 的 构 词 、 构 形 都 是 通 过 在 词 干 后 面 缀 接 不 同 的 词 尾 来 实 现 的 . 而 且 还 可 以 不 断 缀 接 ,因 此 蒙 古 语 词 法 形 态 变 化 丰 富 且 复 杂 [ 1 - 2 ]. 在 基 于 语 料 库 的 机 器 翻 译 系 统 中 ,我 们 需 要 将 第 22卷 第 1期 模 式 识 别 与 人 工 智 能 Vol. 22 No. 1 2009年 2月 PR 2︶ 评 价 生 成 的 结 果 ,选 出 最 终 的 分 词 结 果 . 我 们 的 方 法 是 通 过 切 分 规 则 表 来 生 成 所 有 可 能 的 切 分 . 需 要 注 意 的 是 ,这 里 的 规 则 和 前 面 提 到 的 基 于 规 则 的 词 切 分 方 法 中 的 规 则 不 同 . 这 里 的 规 则 要 求 要 比 基 于 规 则 的 方 法 更 宽 泛 ,也 就 是 说 ,我 们 不 必 去 关 心 切 分 后 的 结 果 是 否 正 确 ,只 需 要 给 出 所 有 的 可 能 性 就 可 以 了 . 具 体 的 哪 些 正 确 、 哪 些 不 正 确 由 语 011 模 式 识 别 与 人 工 智 能 22卷 言 模 型 确 定 . 从 复 杂 度 上 来 看 是 用 规 则 作 为 切 分 依 据 的 方 法 能 够 生 成 的 切 分 情 况 最 少 、 复 杂 度 最 低 . 有 了 候 选 的 词 切 分 结 果 以 后 ,就 可 以 利 用 语 言 模 型 来 进 行 评 价 : logP ︵S︶ =λ 1 logP1 ︵S︶ +λ 2 logP2 ︵S︶ +λ 3 logP3 ︵S︶ . 这 里 的 3个 语 言 模 型 分 别 如 下 : 1︶ P1:基 于 词 干 /词 缀 的 n元 语 言 模 型︔ 2︶ P2:基 于 词 干 /词 缀 的 SKIP2N语 言 模 型︔ 3︶ P3:词 性 的 语 言 模 型 . 这 里 有 3个 权 值 .权 值 可 通 过 最 小 错 误 率 训 练 [13 ] 得 到 . 4 实 验 结 果 由 于 基 础 数 据 的 不 足 ,我 们 实 验 中 制 作 了 一 个 3 万 8千 句 的 蒙 古 语 单 语 语 料 ,约 含 33万 蒙 古 语 词 . 我 们 另 外 选 择 500个 蒙 古 文 句 子 作 为 测 试 集 , 并 人 工 编 写 这 些 句 子 的 参 考 答 案 . 每 个 句 子 有 一 个 参 考 答 案 . 评 价 方 法 采 用 准 确 率 ︵p rec︶ 和 召 回 率 ︵recall︶ 以 及 F1 值 . 其 定 义 如 下 : prec =正 确 的 切 分 单 元 个 数切 分 出 的 单 元 个 数 , reca ll = 正 确 的 切 分 单 元 个 数参 考 答 案 中 切 分 出 的 单 元 个 数 , F1 = 2 × prec × reca llprec + reca ll , 其 中 切 分 的 单 元 为 词 干 或 词 缀 . 原 始 语 料 A I︕ TERE N IGENTE N IGE VDAG _A SILGALTA2DV H IR I TENGCEGSEN UGE I B0LJA I, B I TEGUN2DU SEREMJ I OGBEL SAYIN. TEDE B0L M INU SAYIN NAYIJ I MON, TEGUSUGSEN2U DARAG _ A B I MON TEDEN2TE I HAR ILCAJV BAYIBAL SAYIN. NAYIJ I2YIN GER2TU N IGE H0N0N_A. 切 分 后 的 语 料 A I/ Is︕ TERE /R j N IGENTE /Dc N IGE /Mu VDAG_A /Qn SILGALTA2DV /Fc21 H IR I/Ne TENGCE /Ve +GSEN /Ft11 UGE I/Ve B0L /Ve +JA I/Fs11, B I/Rb TEGUN2DU /Fc21 SEREMJ I/Ne OG/V t +BEL /Fn71 SAYIN /Ac. TEDE /Rb B0L /Ve M I/N t +N /Fn3 +U /Zv2 SAYIN /Ac NAYIJ I/N tMON /Sb, TEGUSUGSEN2U /Fc11 DARAG_A /Oa B I/Rb MON /Sb TEDEN2TE I/Fc61 HAR ILCA /Ve +JV /Fn1 BA /Cw +YI/Fc32 +BAL /Fn71 SAYIN /Ac. 图 1 训 练 语 料 的 例 子 Fig. 1 Examp le for training corpus 测 试 集 NAYIJ I2YIN J0BALANG2IYAN T0GAC IHV2YI S0N0SBA. NAYIJ I2YIN2IYAN SANAG_A SEDH IL2I 0YILAGABA. NAYIJ I2DV N IGVCA2BAN HELEJU OGBE. N IGE N IGVCA2YI ILEC ILEN_E. 参 考 答 案 NAYIJ I2YIN /Fc11 J0BALANG2IYAN /Fx11 T0GAC IHV2YI/Fc31 S0N0S/V t +BA /Fs14. NAYIJ I2YIN2IYAN /Fx11 SANAG_A /Ne SEDH IL2I/Fc31 0YILA /V t +G/Fb31 +A /Zv1 +BA /Fs14. NAYIJ I2DV /Fc21 N IGVCA2BAN /Fx11 HELE /N t +JU /Fn1 OG/V t +BE /Fs14. N IGE /Mu N IGVCA2YI/Fc31 ILEC ILE /V t +N_E /Fs21. 图 2 词 切 分 的 测 试 集 和 参 考 答 案 Fig. 2 Test set and keys of word segmentation 实 验 中 我 们 首 先 采 用 规 则 进 行 粗 切 分 ,采 用 的 规 则 是 在 原 规 则 系 统 上 的 400多 条 规 则 中 添 加 了 几 条 不 确 定 的 切 分 规 则 ︵见 图 3︶ . 原 来 的 规 则 要 求 切 分 必 须 是 正 确 的 ,而 新 加 的 规 则 不 保 证 切 分 得 到 的 结 果 一 定 正 确 ,只 是 给 出 所 有 的 可 能 性 ,其 中 可 能 有 正 确 的 切 分 结 果 ,而 排 歧 通 过 语 言 模 型 进 行 . @ @ 3 AYI& → 3 A I/︕ + &/︕ @ @ 3 EYI& → 3 E I/︕ + &/︕ @ @ 3 0YI& → 3 0 I/︕ + &/︕ @ @ 3 VYI& → 3 V I/︕ + &/︕ @ @ TVNGG3 → TVN /V + G3 /3 @ @ 3 L0→ 3 L /3 + 0 /Zv2 图 3 部 分 切 分 规 则 Fig. 3 Some of segmentation rules 表 1 蒙 古 语 词 切 分 实 验 结 果 Table 1 Results ofMongolian word segmentation 准 确 率 召 回 率 F1 值 参 考 系 统 0. 860 — — 仅 规 则 0. 525 0. 666 0. 587 规 则 +三 元 语 言 模 型 0. 878 0. 852 0. 865 规 则 +三 元 语 言 模 型 + 严 格 词 性 的 语 言 模 型 0. 902 0. 851 0. 876 规 则 +三 元 语 言 模 型 + 模 糊 词 性 语 言 模 型 0. 914 0. 865 0. 889 规 则 +三 元 语 言 模 型 + 模 糊 词 性 语 言 模 型 + Skip2N语 言 模 型 0. 939 0. 867 0. 902 1111期 侯 宏 旭 等 :基 于 统 计 语 言 模 型 的 蒙 古 文 词 切 分 表 1是 使 用 不 同 方 法 的 实 验 结 果 . 在 表 1中 , 1︶ 参 考 系 统 是 文 献 [ 11 ]给 出 的 一 个 基 于 规 则 和 词 典 的 系 统 . 由 于 文 中 并 未 给 出 召 回 率 的 数 值 ,我 们 只 能 比 较 准 确 率 . 需 要 说 明 的 是 ,由 于 我 们 无 法 得 到 文 献 [ 11 ]的 测 试 环 境 ,因 此 两 者 的 测 试 环 境 有 一 定 的 差 别 ,数 值 比 较 只 能 作 为 参 考 . 2︶ 三 元 语 言 模 型 采 用 SR I开 发 的 SR ILM ︵SR I Language Model︶ 语 言 模 型 工 具 包 . 我 们 在 训 练 语 料 上 训 练 三 元 语 言 模 型 ,采 用 modified Kneser2Ney平 滑 算 法 . 3︶ 词 性 语 言 模 型 是 从 训 练 语 料 中 提 取 词 性 信 息 ,形 成 词 性 文 件 ,然 后 再 用 SR ILM训 练 出 一 个 词 性 层 面 的 三 元 语 言 模 型 . 4︶ SKIP2N语 言 模 型 采 用 我 们 自 行 编 写 的 语 言 模 型 的 训 练 程 序 . 表 1中 后 3个 系 统 分 别 是 加 上 不 同 语 言 模 型 后 得 到 的 结 果 . 第 3个 系 统 和 第 4个 系 统 分 别 采 用 严 格 词 性 的 语 言 模 型 和 模 糊 词 性 的 语 言 模 型 ,从 结 果 来 看 模 糊 词 性 的 语 言 模 型 效 果 要 更 好 一 些 . 从 实 验 结 果 可 以 看 到 ,利 用 语 言 模 型 可 得 到 较 满 意 的 词 切 分 结 果 . 5 结 束 语 虽 然 我 们 的 词 切 分 结 果 达 到 94%的 准 确 率 ,但 是 ,这 对 于 一 个 词 切 分 系 统 来 说 还 不 够 . 还 需 要 其 它 的 手 段 来 提 高 准 确 率 . 这 主 要 通 过 增 加 训 练 集 的 规 模 来 进 行 . 目 前 采 用 的 训 练 集 的 大 小 只 有 38 000 句 ,仍 然 属 于 较 小 的 ,会 在 今 后 不 断 扩 大 语 料 库 . 另 一 个 是 希 望 通 过 结 合 统 计 方 法 和 词 典 来 提 高 准 确 率 . 目 前 ,我 们 并 没 有 利 用 词 典 信 息 ,今 后 将 会 在 方 法 上 研 究 其 它 统 计 方 法 ,例 如 利 用 条 件 随 机 场 等 模 型 进 一 步 改 进 算 法 ,提 高 准 确 率 . 另 一 方 面 ,考 虑 到 蒙 古 语 的 独 特 特 点 ,我 们 希 望 能 够 通 过 研 究 更 好 的 蒙 古 语 语 言 模 型 架 构 来 改 进 蒙 古 语 语 言 模 型 的 计 算 ,并 以 此 提 高 蒙 古 文 词 切 分 的 准 确 率 . 参 考 文 献 [ 1 ] Nasanurtu. A Segmentation System of Mongolian Etyma, Stem and Affix. Journal of Inner Mongolia University: Humanities and Social Sciences, 1997, 29 ︵2︶ : 53 - 57 ︵in Chinese︶ ︵那 顺 乌 日 图 . 蒙 古 文 词 根 、 词 干 、 词 尾 自 动 切 分 系 统 . 内 蒙 古 大 学 学 报 :人 文 社 会 科 学 版 , 1997, 29 ︵2︶ : 53 - 57︶ [ 2 ] Hua Shabao. The POS Tagger System forMongolian Corpus. Journal of Inner Mongolia University: Humanities and Social Sciences, 1999, 31 ︵5︶ : 33 - 37 ︵in Chinese︶ ︵华 沙 宝 . 对 蒙 古 文 语 料 库 的 词 类 标 注 系 统 — — — AYIMAG. 内 蒙 古 大 学 学 报 : 人 文 社 会 科 学 版 , 1999, 31 ︵5︶ : 33 - 37︶ [ 3 ] Hou Hongxu, L iu Qun, Zhang Yujie, et al. Research and Imp le2 ment of the 2005 HTRDP ︵863︶ Evaluation on Machine Translation. Journal of Chinese Information Processing, 2006, 20 ︵Z1︶ : 7 - 18 ︵in Chinese︶ ︵侯 宏 旭 ,刘 群 ,张 玉 洁 ,等 . 2005年 度 863机 器 翻 译 评 测 方 法 研 究 与 实 施 . 中 文 信 息 学 报 , 2006, 20 ︵Z1︶ : 7 - 18︶ [ 4 ] Badma2Odsar. A Study of Part of Speech Classification ofMongolian Language. Journal of the CentralUniversity forNationalities: Philos2 ophy and Social Sciences Edition, 2004, 31 ︵3︶ : 94 - 100 ︵in Chi2 nese︶ ︵巴 达 玛 敖 德 斯 尔 . 面 向 信 息 处 理 的 蒙 古 语 词 语 分 类 体 系 研 究 . 中 央 民 族 大 学 学 报 :哲 学 社 会 科 学 版 , 2004, 31 ︵3︶ : 94 - 100︶ [ 5 ] Nasanurtu. Semantic Research for the Mongolian Language to Be O riented to Information Processing. Journal of Inner Mongolia Uni2 versity: Humanities and Social Sciences, 2002, 34 ︵5︶ : 43 - 48 ︵in Chinese︶ ︵那 顺 乌 日 图 . 关 于 面 向 信 息 处 理 的 蒙 古 语 语 义 研 究 . 内 蒙 古 大 学 学 报 :人 文 社 会 科 学 版 , 2002, 34 ︵5︶ : 43 - 48︶ [ 6 ] Hua Shabao. The Technological Countermeasure to Deal with the Net Information in Mongolian. M inority Languages of China, 2002, 6: 58 - 60 ︵in Chinese︶ ︵华 沙 宝 . 蒙 古 文 网 络 信 息 技 术 处 理 的 对 策 . 民 族 语 文 , 2002, 6: 58 - 60︶ [ 7 ] Hou Hongxu, Deng Dan, Zou Gang, et al. An EBMT System Based on Word A lignment / / Proc of the 4 th International Workshop of Spoken Language Translation. Trento, Italy, 2004: 47 - 49 [ 8 ] Zhang Huap ing, Yu Hongkui, Xiong Deyi, et al. HHMM2Based Chinese Lexical Analyzer ICTCLAS / / Proc of the 2nd SIGHAN Workshop on Chinese Language Processing. Sapporo, Japan, 2003: 184 - 187 [ 9 ] Ye Jiam ing. Research and Imp lement ofMongolian Lexical Analysis Based on Rules. Master D issertation. Beijing, China: Peking Uni2 versity. School of Electronics Engineering and Computer Science, 2005 ︵in Chinese︶ ︵叶 嘉 明 . 基 于 规 则 的 蒙 古 语 词 法 分 析 研 究 与 实 现 . 硕 士 学 位 论 文 . 北 京 :北 京 大 学 . 信 息 科 学 技 术 学 院 , 2005︶ [ 10 ] L iu Qun, Zhan W eidong, Chang Baobao, et al. ComputingModel and Language Model of Chinese2English Translation System / / Proc of the 3 rd Intelligent Interface and Intelligent App lication. Zhangjia2 jie, China, 1997: 253 - 258 ︵in Chinese︶ ︵刘 群 ,詹 卫 东 ,常 宝 宝 ,等 . 一 个 汉 英 机 器 翻 译 系 统 的 计 算 模 型 与 语 言 模 型 / /第 3届 全 国 智 能 接 口 与 智 能 应 用 学 术 会 议 . 张 家 界 , 1997: 253 - 258︶ [ 11 ]Hou Hongxu, L iu Qun, L iu Zhiwen. Skip2N Mongolian Statistical Language Model. Journal of InnerMongolia University: Natural Sci2 ences, 2008, 39 ︵2︶ : 220 - 224 ︵in Chinese︶ ︵侯 宏 旭 ,刘 群 ,刘 志 文 . Skip2N蒙 古 文 统 计 语 言 模 型 . 内 蒙 古 大 学 学 报 :自 然 科 学 版 , 2008, 39 ︵2︶ : 220 - 224︶ [ 12 ] Katz SM. Estimation of Probabilities from Sparse Data for the Lan2 guage Model Component of a Speech Recognizer. IEEE Trans on A2 coustics, Speech and Signal Processing, 1987, 35 ︵3︶ : 400 - 401 [ 13 ] Och F J. M inimum Error Rate Training in Statistical Machine Translation / / Proc of the 41 st Annual Meeting on A ssociation for Computational L inguistics. Sapporo, Japan, 2003: 160 - 167 211 模 式 识 别 与 人 工 智 能 22卷