︹ ᠨᠠᠰᠤᠨ᠋ᠤ᠋ᠷᠲᠤ᠂ ᠯᠢᠦ ᠴᠦᠨ᠂ ᠾᠦ ᠬᠤᠩ ᠰᠢᠦᠢ ︺ - ᠦᠭᠦᠯᠡᠯ - (ᠬᠢᠲᠠᠳ) 基于实例的汉蒙机器翻译
 第 21 卷 第 4 期 2007 年 7 月 中 文 信 息 学 报 J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN G Vol. 21 , No. 4 J ul. , 2007 文 章 编 号 : 100320077 ︵2007︶ 0420065208 基 于 实 例 的 汉 蒙 机 器 翻 译 侯 宏 旭 1 ,2 ,3 ,刘 群 1 ,那 顺 乌 日 图 2 ︵1. 中 国 科 学 院 计 算 技 术 研 究 所 智 能 信 息 处 理 重 点 实 验 室 北 京 100080︔ 2. 内 蒙 古 大 学 内 蒙 古 呼 和 浩 特 010021︔ 3. 中 国 科 学 院 研 究 生 院 北 京 100080︶ 摘 要 : 本 文 通 过 对 汉 蒙 机 器 翻 译 方 法 的 研 究 ,给 出 了 一 种 基 于 实 例 的 汉 蒙 机 器 翻 译 方 法 ,并 加 以 了 实 现 。 本 文 给 出 了 用 于 汉 蒙 EBM T 机 器 翻 译 的 实 例 搜 索 以 及 短 语 片 段 划 分 、 匹 配 、 组 合 的 方 法 。 本 文 给 出 的 方 法 是 基 于 词 语 对 齐 的 ,利 用 词 语 对 齐 进 行 词 语 的 匹 配 ,并 根 据 匹 配 词 数 和 长 度 计 算 相 似 度 ,选 取 最 好 的 实 例 。 通 过 对 齐 信 息 ,确 定 片 段 组 合 的 策 略 ,生 成 翻 译 结 果 。 通 过 对 方 法 的 实 现 和 实 验 ,完 成 了 一 个 基 于 实 例 的 汉 蒙 机 器 翻 译 系 统 。 关 键 词 : 人 工 智 能︔ 机 器 翻 译︔ 蒙 古 语︔ 基 于 实 例︔ 词 语 对 齐 中 图 分 类 号 : TP391 文 献 标 识 码 : A Example Based Chinese2Mongolian Machine Translation HOU Hong2xu1 ,2 ,3 , L IU Qun1 , Nasun Urt 2 ︵1. Institute of Computing Technology , Chinese Academy of Sciences , Beijing 100080 , China︔ 2. Inner Mongolia University , Huhhot 010021 , Inner Mongolia AR , China︔ 3. Graduated University of Chinese Academy of sciences , Beijing 100080 , China︶ Abstract : We have presented an example based Chinese2Mongolian machine translation method , and implemented it. The method is insist of several parts , includes example searching , segment splitting , matching and recombining. The method is based on word alignment. It is using word alignment information for segment matching , and compu2 ting the similarity by the number of matching words and length , and selects the best example. Using word alignment information , determined the method of segment recombining , and generates the translation result. Key words : artificial intelligence︔ machine translation︔ mongolian︔ example based︔ word alignment 收 稿 日 期 : 2007202201 定 稿 日 期 : 2007205210 基 金 项 目 : 国 家 自 然 基 金 资 助 项 目 ︵60573188︶︔ 国 家 863 计 划 资 助 项 目 ︵2003AA115510︶ 作 者 简 介 : 侯 宏 旭 ︵1972 —︶ ,男 ,硕 士 ,副 教 授 ,主 要 研 究 方 向 为 自 然 语 言 处 理︔ 刘 群 ︵1966 —︶ ,男 ,博 士 ,研 究 员 ,主 要 研 究 方 向 为 自 然 语 言 处 理︔ 那 顺 乌 日 图 ︵1959 —︶ ,男 ,博 士 ,教 授 ,主 要 研 究 方 向 为 蒙 古 文 信 息 处 理 、 计 算 语 言 学 。 1 引 言 蒙 古 语 是 我 国 重 要 的 少 数 民 族 语 言 ,也 是 蒙 古 国 的 官 方 语 言 ,在 国 际 上 具 有 很 重 要 的 地 位 。 作 为 我 国 蒙 古 族 自 治 地 方 的 官 方 语 言 ,使 用 的 范 围 是 非 常 大 的 。 这 样 ,蒙 古 语 的 信 息 处 理 就 成 为 了 语 言 信 息 处 理 的 重 要 研 究 方 面 。 其 中 ,汉 蒙 机 器 翻 译 是 将 汉 语 资 料 翻 译 成 蒙 古 语 的 重 要 工 具 。 但 是 ,由 于 蒙 古 语 自 身 的 原 因 ,以 及 研 究 投 入 不 够 的 问 题 ,导 致 汉 蒙 机 器 翻 译 的 研 究 进 展 相 对 比 较 缓 慢 。 目 前 ,国 内 外 汉 英 机 器 翻 译 的 研 究 如 火 如 荼 ,我 们 正 好 可 以 借 鉴 这 些 技 术 ,加 快 汉 蒙 机 器 翻 译 的 研 究 。 目 前 国 内 的 少 数 民 族 语 言 机 器 翻 译 的 研 究 还 处 在 初 级 阶 段 ,主 要 的 研 究 还 是 集 中 在 基 于 规 则 的 方 法 上 [2 ] 。 在 蒙 古 语 机 器 翻 译 的 研 究 上 ,国 内 外 的 研 究 和 相 关 文 献 都 比 较 少 ,目 前 的 研 究 还 主 要 集 中 在 研 究 的 基 础 阶 段 [11 ] 。 尤 其 是 在 基 于 语 料 库 的 方 法 上 还 没 有 深 入 的 研 究 ,而 且 ,在 由 内 蒙 古 大 学 和 中 国 科 学 院 计 算 技 术 研 究 所 合 作 研 究 的 基 于 规 则 的 汉 蒙 机 器 翻 译 ,是 目 前 我 们 能 够 了 解 到 的 真 正 达 到 部 分 实 用 的 汉 蒙 机 器 翻 译 技 术 ,但 是 其 方 法 上 能 够 取 得 的 进 展 也 依 然 比 较 有 限 ,无 法 达 到 比 较 好 的 实 用 效 果 [ 2 ] 。 因 此 ,基 于 语 料 库 的 汉 蒙 机 器 翻 译 方 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 中 文 信 息 学 报 2007 年 法 就 非 常 值 得 研 究 。 国 际 、 国 内 在 机 器 翻 译 的 研 究 方 面 主 要 集 中 在 RBM T、 EBM T 和 SM T 三 种 基 本 方 法 上 ,其 中 EB2 M T 和 SM T 是 基 于 语 料 库 的 , RBM T 是 基 于 规 则 的 。 早 年 ,国 内 外 的 机 器 翻 译 工 作 都 是 集 中 在 RB2 M T 方 面 的 ,但 是 RBM T 具 有 扩 充 困 难 等 问 题 ,所 以 目 前 相 关 研 究 较 少 。 EBM T 和 SM T 是 基 于 语 料 库 的 ,其 中 EBM T 是 80 年 代 长 尾 真 提 出 的 一 种 方 法 ,它 具 有 构 造 容 易 ,容 易 生 成 高 质 量 译 文 等 特 点 。 SM T 则 是 由 Brown 等 提 出 的 方 法 。 在 汉 蒙 机 器 翻 译 方 面 ,由 于 蒙 古 语 和 汉 语 都 属 于 语 法 比 较 复 杂 的 语 言 ,所 以 利 用 基 于 语 料 库 的 方 法 可 以 尽 量 减 少 语 言 知 识 上 面 的 投 入 ,能 够 尽 快 建 立 比 较 好 的 翻 译 系 统 。 作 为 今 后 SM T 研 究 的 基 础 ,我 们 选 择 了 更 容 易 实 现 和 看 到 效 果 的 EBM T 作 为 研 究 的 切 入 点 。 相 对 于 汉 英 机 器 翻 译 来 说 ,汉 蒙 机 器 翻 译 的 特 点 和 难 点 主 要 集 中 在 以 下 几 个 方 面 : 蒙 古 语 的 语 序 [7 ] 。 蒙 古 语 具 有 谓 语 在 句 子 的 末 尾 的 特 点 ,所 以 在 以 短 语 为 单 位 进 行 翻 译 的 时 候 ,存 在 长 距 离 的 调 序 。 而 相 对 来 说 汉 英 机 器 翻 译 中 这 样 的 调 序 并 不 多 。 这 样 ,就 给 汉 蒙 机 器 翻 译 的 调 序 带 来 相 对 更 大 的 困 难 。 蒙 古 语 的 词 形 变 化 [8 ] 。 蒙 古 语 的 词 形 化 非 常 复 杂 ,动 词 、 名 词 都 存 在 时 态 、 数 、 格 等 多 种 变 化 ,这 些 变 化 是 通 过 添 加 词 缀 的 方 法 实 现 的 。 这 些 变 化 在 使 用 统 计 的 机 器 翻 译 方 法 时 就 会 造 成 比 较 多 的 词 形 错 误 。 相 对 来 说 汉 英 机 器 翻 译 中 主 要 考 虑 的 只 是 单 复 数 等 比 较 简 单 的 变 化 ,而 且 相 对 数 量 比 较 少 。 很 多 蒙 古 语 词 ,尤 其 是 动 词 ,存 在 着 纷 繁 的 变 化 形 式 。 这 些 变 化 构 成 了 复 杂 的 词 干 — 多 词 缀 形 式 。 例 如 ,一 个 动 词 词 干 ,后 面 可 以 添 加 格 、 数 、 人 称 、 时 态 等 多 种 词 缀 ,例 如 ,在 一 个 20 万 词 的 语 料 中 ,动 词 词 干 ILA 可 以 衍 生 出 来 的 词 有 ILABA、 ILA GAD、 IL A GDABA 等 10 多 种 形 式 ,而 且 这 还 不 是 全 部 。 因 此 单 独 以 词 ︵包 含 词 干 词 缀 的 词︶ 为 单 位 来 进 行 汉 蒙 机 器 翻 译 是 远 远 不 够 的 。 和 RBM T 相 比 , EBM T 具 有 易 于 构 造 的 优 点 。 由 于 蒙 古 语 的 特 殊 复 杂 性 ,编 写 蒙 古 语 的 翻 译 规 则 是 非 常 复 杂 的 事 情 ,难 于 得 到 好 的 效 果 。 通 过 先 前 基 于 规 则 的 汉 蒙 机 器 翻 译 的 尝 试 ,我 们 发 现 ,虽 然 基 于 规 则 的 方 法 也 取 得 了 比 较 好 的 结 果 ,但 是 ,一 方 面 规 则 的 维 护 非 常 复 杂 ,进 一 步 提 高 翻 译 系 统 的 效 果 需 要 的 工 作 量 非 常 庞 大 ,另 一 方 面 在 语 料 不 断 的 积 累 中 ,这 些 语 料 很 难 应 用 到 系 统 中 ,无 法 从 语 料 规 模 的 扩 大 中 获 益 。 和 SM T 相 比 ,对 于 相 似 度 比 较 高 的 句 子 , EB2 M T 具 有 更 好 的 效 果 。 由 于 EBM T 是 基 于 实 例 的 , 因 此 ,如 果 能 够 选 择 到 比 较 好 的 实 例 ,那 么 经 过 简 单 的 替 换 就 可 以 生 成 非 常 好 的 翻 译 结 果 。 但 是 ,如 果 不 能 找 到 好 的 实 例 ,那 么 翻 译 效 果 就 会 变 差 。 因 此 , 结 合 EBM T 和 SM T 是 比 较 好 的 思 路 。 这 里 ,我 们 给 出 的 EBM T 实 现 的 汉 蒙 机 器 翻 译 就 可 以 为 今 后 的 工 作 打 下 基 础 。 本 文 第 2 节 将 给 出 这 个 基 于 实 例 的 汉 蒙 机 器 翻 译 系 统 的 总 体 架 构 ,第 3 节 给 出 构 建 实 例 库 的 方 法 , 第 4 节 给 出 实 例 的 匹 配 和 搜 索 的 方 法 ,第 5 节 给 出 片 段 的 匹 配 和 组 合 的 关 键 方 法 ,第 6 节 给 出 候 选 翻 译 结 果 的 评 价 方 法 ,第 7 节 给 出 系 统 的 实 现 及 初 步 实 验 的 结 果 。 2 总 体 架 构 我 们 知 道 ,EBM T 具 有 以 下 的 主 要 优 点 [3~ 5 ] : · 不 需 要 编 写 规 则 · 系 统 维 护 容 易 · 容 易 产 生 高 质 量 的 译 文 · 需 要 的 相 关 语 言 知 识 少 通 过 以 往 的 尝 试 ,我 们 发 现 ,由 于 汉 语 和 蒙 古 语 分 属 不 同 的 语 系 ,语 言 的 差 别 相 对 比 较 大 ,编 写 规 则 相 对 来 说 比 较 困 难 ,调 试 起 来 工 作 量 比 较 大 。 因 此 , 选 择 基 于 语 料 库 的 机 器 翻 译 方 法 就 是 比 较 合 适 的 。 通 过 分 析 论 证 ,考 虑 到 我 们 以 前 研 究 的 汉 蒙 双 语 对 齐 的 技 术 基 础 ,我 们 采 用 了 基 于 对 齐 的 EBM T 系 统 。 在 系 统 的 架 构 中 包 含 几 个 主 要 的 处 理 步 骤 : ︵1︶ 分 词 和 对 齐 将 待 翻 译 的 句 子 切 分 成 以 词 为 单 位 的 片 段 。 在 本 系 统 中 ,汉 语 的 分 词 采 用 的 是 中 国 科 学 院 计 算 技 术 研 究 所 研 发 的 ICTCL AS 汉 语 分 词 系 统 。 在 最 终 系 统 中 ,蒙 古 语 按 空 格 分 词 ,不 做 特 殊 处 理 。 将 双 语 语 料 库 中 的 汉 蒙 句 对 进 行 词 对 齐 。 这 里 是 利 用 汉 蒙 双 语 词 典 及 共 现 概 率 为 基 础 的 方 法 进 行 词 对 齐 。 经 过 对 齐 后 ,将 双 语 语 料 库 转 换 为 实 例 库 ,为 机 器 翻 译 提 供 实 例 。 ︵2︶ 实 例 搜 索 从 实 例 库 中 所 有 最 接 近 的 实 例 。 这 一 步 的 主 要 内 容 包 含 相 似 度 的 计 算 和 搜 索 两 个 部 分 。 ︵3︶ 片 段 匹 配 、 分 割 和 组 合 66 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 4 期 侯 宏 旭 等 : 基 于 实 例 的 汉 蒙 机 器 翻 译 在 待 翻 译 句 子 和 实 例 中 查 找 匹 配 和 不 匹 配 的 片 段 。 根 据 匹 配 和 不 匹 配 的 片 段 确 定 翻 译 结 果 片 段 。 将 翻 译 结 果 片 段 组 合 成 翻 译 结 果 。 ︵4︶ 评 价 从 候 选 的 翻 译 结 果 中 选 择 最 佳 的 翻 译 结 果 。 3 实 例 库 生 成 获 得 双 语 语 料 库 后 ,需 要 对 语 料 库 进 行 处 理 ,生 成 实 例 库 。 3. 1 原 始 语 料 库 采 用 拉 丁 转 写 的 原 始 语 料 库 的 存 储 格 式 是 以 xml 格 式 。 原 始 语 料 库 最 初 是 由 源 语 言 文 本 文 件 和 目 标 语 言 文 本 文 件 组 成 的 ,它 们 都 是 每 行 一 个 句 子 , 在 自 动 对 齐 时 生 成 xml 格 式 的 语 料 库 。 为 了 蒙 古 语 的 处 理 方 便 ,蒙 古 语 的 存 储 方 式 为 拉 丁 转 写 方 式 。 拉 丁 转 写 是 采 用 英 文 字 母 和 数 字 0 作 为 蒙 古 语 的 表 示 方 法 。 由 于 采 用 了 ASCII 表 示 蒙 古 语 ,在 存 储 和 处 理 时 就 非 常 方 便 了 。 在 具 体 显 示 的 时 候 ,再 转 换 为 蒙 古 文 的 显 现 格 式 。 3. 2 分 词 将 待 翻 译 的 句 子 切 分 成 以 词 为 单 位 的 片 段 。 在 本 系 统 中 ,汉 语 的 分 词 采 用 的 是 中 国 科 学 院 计 算 技 术 研 究 所 研 发 的 ICTCL AS 汉 语 分 词 系 统 。 在 最 终 系 统 中 ,蒙 古 语 按 空 格 分 词 ,不 做 特 殊 处 理 。 事 实 上 ,单 从 词 的 基 础 上 进 行 蒙 古 语 机 器 翻 译 的 研 究 还 是 不 够 的 ,我 们 需 要 在 词 根 、 词 干 、 后 缀 的 层 次 上 才 能 得 到 蒙 古 语 更 深 入 的 研 究 ,这 也 是 我 们 将 来 的 研 究 目 标 之 一 。 其 中 ,汉 语 分 词 结 果 中 包 含 每 个 词 的 词 性 ,词 性 的 标 记 集 是 ICTCL AS 的 词 性 标 记 集 。 蒙 古 语 没 有 标 注 词 性 。 3. 3 词 对 齐 本 系 统 的 词 语 对 齐 采 用 了 大 规 模 汉 蒙 词 典 。 双 语 词 典 含 有 大 量 的 词 语 互 译 信 息 ,用 双 语 词 典 进 行 词 语 对 齐 往 往 准 确 率 很 高 。 由 于 规 模 的 限 制 ,双 语 词 典 的 词 汇 覆 盖 面 往 往 不 够 ,因 此 用 双 语 词 典 进 行 词 语 对 齐 有 召 回 率 不 高 的 缺 点 。 在 我 们 的 方 法 中 , 利 用 双 语 词 典 计 算 的 词 语 相 似 度 、 位 置 等 信 息 进 行 词 语 对 齐 ,并 通 过 对 齐 窗 口 得 到 了 多 对 多 的 词 语 对 应 。 通 过 这 样 的 方 法 得 到 的 较 好 的 词 语 对 齐 结 果 。 经 过 自 动 对 齐 以 后 的 结 果 可 能 存 在 一 些 错 误 , 可 以 通 过 人 工 对 齐 工 具 进 行 校 对 。 3. 4 建 立 索 引 建 立 索 引 是 语 料 库 处 理 的 关 键 步 骤 [3 ] 。 通 过 索 引 的 建 立 为 实 例 库 的 搜 索 提 供 基 础 。 实 际 上 ,建 立 的 索 引 包 括 两 个 ,一 个 是 以 句 子 排 序 的 索 引 ,另 一 个 是 按 词 排 序 的 索 引 。 ︵1︶ 生 成 索 引 生 成 索 引 即 生 成 语 料 库 的 索 引 。 索 引 的 内 容 是 以 句 对 排 序 的 。 ︵2︶ 生 成 词 表 最 终 的 实 例 库 不 是 以 文 本 形 式 存 储 的 。 如 果 以 文 本 形 式 存 储 ,那 么 查 找 需 要 的 时 间 代 价 是 比 较 高 的 ,因 此 ,在 建 立 索 引 的 时 候 ,所 有 的 词 将 被 词 的 序 号 所 代 替 。 这 个 序 号 存 储 在 词 表 中 。 倒 查 表 中 存 储 词 表 中 所 有 的 词 在 哪 些 双 语 语 料 的 句 子 中 出 现 。 即 纪 录 某 个 词 出 现 的 所 有 句 子 的 序 号 。 ︵3︶ 生 成 倒 排 索 引 建 立 了 词 表 以 后 ,语 料 库 中 的 句 子 将 被 转 换 成 以 序 号 表 示 的 形 式 。 这 样 在 查 找 的 时 候 速 度 会 提 高 很 多 。 在 实 例 库 索 引 中 ,包 含 实 例 的 源 句 子 、 目 标 句 子 和 对 齐 信 息 。 3. 5 双 语 词 典 对 于 不 能 从 实 例 库 中 获 得 的 翻 译 ,可 以 利 用 双 语 词 典 进 行 翻 译 。 也 就 是 说 ,如 果 一 个 待 翻 译 的 句 子 无 法 找 到 接 近 的 实 例 的 话 ,将 会 退 化 成 基 于 词 典 的 翻 译 。 双 语 词 典 包 含 源 语 言 词 、 源 语 言 词 性 、 目 标 语 言 词 、 目 标 语 言 词 性 ︵蒙 古 语 的 词 性 是 忽 略 的︶ 以 及 一 个 致 信 度 。 4 实 例 搜 索 EBM T 的 关 键 点 之 一 就 是 从 庞 大 的 实 例 库 中 搜 索 到 所 有 相 似 的 实 例 。 这 里 主 要 包 含 两 个 指 标 : 正 确 性 和 完 备 性 。 也 就 是 说 ,一 方 面 要 尽 量 搜 得 所 有 相 似 的 实 例 ,另 一 方 面 要 更 准 确 的 评 价 相 似 程 度 。 因 此 ,在 实 例 搜 索 中 就 存 在 两 个 主 要 的 内 容 : 相 似 度 计 算 和 搜 索 算 法 。 相 似 度 计 算 的 方 法 很 多 ,例 如 利 用 功 能 词 的 相 似 度 计 算 方 法 ,利 用 编 辑 距 离 的 相 似 度 计 算 方 法 76 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 中 文 信 息 学 报 2007 年 等 [3~ 6 ] 。 在 设 计 算 法 的 时 候 ,我 们 既 要 考 虑 到 计 算 的 可 靠 性 ,又 要 注 意 计 算 的 速 度 [10 ] 。 因 此 ,我 们 采 用 了 下 面 的 方 法 。 4. 1 相 似 度 计 算 在 本 系 统 中 ,采 用 了 片 段 分 割 与 组 合 的 方 法 。 即 ,将 实 例 划 分 成 几 个 片 段 ,分 别 得 到 这 些 片 段 的 翻 译 ,然 后 组 合 成 最 终 的 句 子 。 这 样 ,相 似 度 的 主 要 评 价 指 标 就 是 如 何 使 得 匹 配 上 的 片 段 最 多 、 最 长 。 因 此 ,设 计 的 相 似 度 计 算 公 式 如 下 : m = ∑ w ︵pos ︵i︶︶ × match ︵i︶ × w2 ︵i︶ 这 里 , pos ︵i︶ 是 相 应 词 的 词 性 , w2 是 行 程 长 度 。 在 评 价 相 似 度 的 三 个 元 素 中 ,首 先 是 词 性 。 举 例 来 说 ,一 个 明 显 的 结 论 是 匹 配 上 的 动 词 要 比 匹 配 上 的 名 词 更 重 要 。 例 如 ,两 个 实 例 “ 我 有 一 支 笔 ” 和 “ 我 拿 走 了 一 支 铅 笔 ” 对 于 待 翻 译 的 句 子 “ 我 有 一 支 铅 笔 ” 来 说 ,显 然 动 词 匹 配 的 第 一 个 实 例 更 符 合 要 求 。 因 此 在 相 似 度 计 算 的 第 一 个 参 数 就 是 词 性 的 权 重 。 通 过 实 验 ,我 们 给 出 了 各 个 词 性 的 权 重 。 以 下 是 几 个 典 型 的 词 性 权 重 : 表 1 几 个 典 型 词 性 的 权 重 V 动 词 P 介 词 W 标 点 N 名 词 M 数 词 2. 0 1. 5 1. 2 0. 5 0. 6 第 二 个 既 是 匹 配 值 。 match ︵i︶ = 0 if w ︵i︶ = e ︵i︶ 1 if w ︵i︶ ≠ e ︵i︶ 其 中 w ︵i︶ 是 待 翻 译 句 子 中 的 词 , e ︵i︶ 是 实 例 句 子 中 的 词 。 第 三 个 是 行 程 长 度 。 考 虑 到 相 邻 匹 配 的 越 多 , 那 么 相 似 程 度 越 高 ,所 以 在 计 算 相 似 度 时 ,还 要 考 虑 连 续 匹 配 的 长 度 。 举 例 来 说 ,实 例 “ 我 有 一 支 笔 ” 和 “ 我 还 有 一 支 蓝 色 的 铅 笔 ” 对 于 待 翻 译 的 句 子 “ 我 有 一 支 铅 笔 ” 来 说 ,虽 然 后 一 个 实 例 的 匹 配 词 更 多 ,但 是 前 一 个 实 例 的 匹 配 片 段 要 长 ,实 际 上 ,还 是 前 一 个 实 例 更 合 适 。 4. 2 实 例 搜 索 由 于 实 例 空 间 相 对 比 较 大 ,所 以 搜 索 时 要 考 虑 搜 索 的 效 率 。 通 常 的 搜 索 方 法 就 是 顺 序 搜 索 ,这 样 将 计 算 所 有 实 例 的 相 似 度 。 这 样 的 方 法 最 准 确 ,但 是 效 率 也 最 低 。 我 们 采 用 的 方 法 是 ,利 用 词 的 倒 排 索 引 进 行 搜 索 。 其 基 本 方 法 是 ,根 据 待 翻 译 句 子 中 出 现 的 词 ,查 找 所 有 出 现 这 些 词 的 实 例 句 子 ,然 后 只 计 算 这 些 句 子 的 相 似 度 。 这 样 做 有 两 个 问 题 ,一 个 是 ,即 使 是 用 这 样 的 方 法 ,出 现 某 些 词 ,例 如 “ 的 ” ,“ 一 ” 等 的 句 子 非 常 多 ,还 是 不 能 有 效 地 减 少 搜 索 量 。 另 一 个 是 ,可 能 漏 掉 匹 配 比 较 好 的 句 子 ,例 如 实 例 “ 我 讨 厌 狗 ” 和 待 翻 译 句 子 “ 他 喜 欢 书 ” ,可 以 采 用 一 一 替 换 的 方 式 进 行 翻 译 ,可 能 是 比 较 好 的 例 子 。 对 于 第 二 个 问 题 ,我 们 认 为 ,这 样 的 匹 配 实 例 无 法 确 定 其 真 正 的 结 构 相 似 性 ,即 使 获 得 了 相 应 的 实 例 也 很 难 得 到 较 好 的 翻 译 结 果 。 所 以 ,在 实 际 处 理 中 ,这 种 情 况 不 考 虑 。 也 就 是 说 ,只 考 虑 有 多 个 词 匹 配 的 情 况 。 对 于 第 一 个 问 题 ,常 见 词 由 于 在 很 多 实 例 中 出 现 ,对 于 评 价 句 子 的 匹 配 程 度 的 贡 献 是 非 常 小 的 ,因 此 在 匹 配 的 时 候 ,这 些 词 都 被 过 滤 掉 了 。 目 前 ,被 过 滤 掉 的 词 性 包 含 cc、 ude、 w、 ns、 nr。 出 现 次 数 超 过 一 定 阈 值 的 也 被 过 滤 掉 。 5 片 段 的 匹 配 与 组 合 片 段 的 匹 配 与 组 合 是 构 成 翻 译 结 果 的 关 键 步 骤 。 首 先 ,将 匹 配 的 实 例 进 行 拆 分 ,拆 分 成 匹 配 和 不 能 匹 配 的 片 段 ,然 后 ,将 实 例 的 翻 译 结 果 分 割 成 与 上 述 片 段 对 应 的 翻 译 片 段 ,最 后 ,将 这 些 片 段 组 合 成 翻 译 结 果 。 5. 1 片 段 匹 配 片 段 匹 配 就 是 匹 配 实 例 和 待 翻 译 句 子 ,形 成 一 段 一 段 的 匹 配 和 不 匹 配 片 段 。 匹 配 片 段 中 的 词 有 两 种 情 况 ,一 种 是 词 本 身 完 全 相 同 的 ,称 为 完 全 匹 配 的 词 ,另 一 种 是 词 虽 然 不 同 ,但 是 ,词 性 相 同 的 ,称 为 词 性 匹 配 的 词 。 一 般 来 说 ,词 虽 然 不 同 ,但 是 词 性 相 同 的 词 可 以 通 过 查 词 典 的 方 法 直 接 得 到 翻 译 结 果 。 引 入 词 性 匹 配 的 概 念 ,可 以 更 好 地 利 用 实 例 。 经 过 这 样 的 匹 配 ,相 连 的 匹 配 词 就 构 成 匹 配 段 , 相 连 的 不 匹 配 的 词 就 构 成 了 不 匹 配 的 段 。 5. 2 片 段 分 割 片 段 分 割 部 分 是 整 个 翻 译 过 程 的 核 心 阶 段 。 如 何 86 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 4 期 侯 宏 旭 等 : 基 于 实 例 的 汉 蒙 机 器 翻 译 准 确 的 确 定 片 段 的 翻 译 是 这 部 分 要 解 决 的 主 要 问 题 。 本 系 统 采 用 了 基 于 词 语 对 齐 的 EBM T 方 法 。 片 段 分 割 的 核 心 就 是 对 齐 信 息 。 图 1 是 一 个 汉 蒙 机 器 翻 译 的 例 子 。 S : 要 / v 提 防 / v 小 偷 / n S1 : 要 / v 提 防 / v ︵1︶ 那 / r 个 / q 人 / n ︵2︶ 图 1 片 段 划 分 图 2 对 齐 S 是 待 翻 译 的 句 子 , S1 是 一 个 实 例 。 根 据 前 面 的 片 段 匹 配 规 则 ,形 成 了 两 个 片 段 ︵1︶ 和 ︵2︶ ,其 中 ︵1︶ 是 匹 配 片 断 , ︵2︶ 是 不 匹 配 的 片 段 。 图 2 是 实 例 S1及 其 翻 译 T1 ,连 接 两 者 的 线 就 是 词 语 对 齐 信 息 。 对 于 不 匹 配 的 片 段 “ 那 个 人 ” ,这 里 存 在 不 同 的 翻 译 片 段 的 可 能 , 其 中 “ TERE HOMON” 是 其 必 然 的 翻 译 ,因 为 它 们 之 间 存 在 连 线 。 可 后 面 的 蒙 古 语 附 加 成 分 “ - ECE” 是 它 的 翻 译 片 段 的 组 成 部 分 吗︖ 同 样 “ 提 防 ” 的 必 然 翻 译 是 “ HICIYE” ,那 么 附 加 成 分 “ + HU” 和 情 态 动 词 “ H EREGTEI” 是 不 是 “ 提 防 ” 的 翻 译 呢︖ 可 以 断 定 的 一 点 是 ,“ TERE HOMON” 不 是 “ 提 防 ” 这 个 词 的 翻 译 ,因 为 “ TERE HOMON” 和 “ 那 个 人 ” 是 对 齐 的 。 这 样 我 们 就 可 以 得 到 一 个 最 小 片 段 和 最 大 片 段 。 至 于 哪 种 分 割 更 合 适 ,交 给 评 价 阶 段 进 行 处 理 。 5. 3 片 段 组 合 获 得 片 段 的 翻 译 后 ,下 一 个 步 骤 就 是 将 片 段 组 合 成 一 个 翻 译 结 果 。 由 于 在 上 一 步 片 段 分 割 的 时 候 保 留 了 片 段 的 位 置 信 息 。 所 以 只 需 要 将 片 段 的 翻 译 置 入 相 对 的 位 置 就 可 以 了 。 以 下 是 一 个 翻 译 片 段 组 合 的 例 子 : S : 要 / v 提 防 / v 小 偷 / n S1 : 要 / v 提 防 / v 那 / r 个 / q 人 / n T1 : TERE HOMON - ECE HICIYE + HU H EREGTEI T : HVLA GA YICI - ECE HICIYE + HU H EREGTEI 6 生 成 结 果 的 评 价 从 上 面 的 例 子 可 以 看 出 来 ,生 成 的 翻 译 结 果 包 含 了 不 应 该 加 入 的 词 。 其 原 因 是 我 们 仅 仅 是 把 所 有 的 最 大 翻 译 片 段 简 单 地 合 在 了 一 起 ,而 不 管 它 是 不 是 真 正 的 翻 译 的 一 部 分 。 解 决 的 方 法 是 ,对 于 未 对 齐 的 部 分 ,生 成 若 干 保 留 或 者 不 保 留 的 两 个 结 果 ,这 样 就 形 成 了 一 个 翻 译 的 候 选 集 。 然 后 评 价 哪 个 结 果 更 适 合 作 为 翻 译 的 结 果 。 下 面 ,我 们 用 语 言 模 型 来 评 价 。 我 们 采 用 了 SRIL M ︵SRI 口 语 技 术 与 研 究 实 验 室 ︵SRI Speech Technology and Research Labora2 tory︶ 发 布 的 开 源 的 语 言 模 型 工 具 包︶ 。 在 训 练 中 选 用 了 两 个 参 数 : 2unk 保 留 ︿unk﹀ 和 2 kndiscount 采 用 modified Kneser2Ney 平 滑 算 法 。 以 下 是 一 个 汉 蒙 机 器 翻 译 的 例 子 : ︵290. 41︶ T1 : HVL A GA YICI - ECE HICIYE + HU H EREGTEI H EREGTEI ︵285. 758︶ T2 : HVLA GA YICI - ECE HICIYE + HU HEREGTEI 在 两 个 候 选 结 果 中 , T1和 T2分 别 利 用 语 言 模 型 进 行 打 分 。 其 中 T2的 得 分 要 好 于 T1 ,因 此 T2更 适 合 于 作 为 翻 译 结 果 。 当 然 ,从 语 法 上 来 说 ,上 面 的 两 个 句 子 都 不 是 最 好 的 结 果 。 事 实 上 , T2 中 有 明 显 的 语 法 错 误 ,即 “ HVL A GA YICI” 是 一 个 阳 性 词 ,而 其 后 的 附 加 成 分 “ - ECE” 却 是 阴 性 的 。 7 实 验 7. 1 蒙 古 语 的 表 示 实 例 库 是 由 原 始 的 汉 语 蒙 古 语 平 行 语 料 转 换 得 来 的 ,并 存 储 为 易 于 表 示 和 操 作 的 形 式 ,这 就 涉 及 到 蒙 古 语 的 表 示 问 题 。 蒙 古 语 文 本 的 表 示 是 近 几 年 来 研 究 比 较 多 的 问 题 [9 ] 。 由 于 蒙 古 语 是 竖 写 的 文 字 ,书 写 时 从 上 到 下 , 从 左 到 右 书 写 。 蒙 古 语 的 词 并 非 是 用 空 格 分 开 的 , 或 者 说 用 空 格 分 开 的 串 未 必 就 是 一 个 词 。 蒙 古 语 的 词 虽 然 是 由 字 母 顺 序 组 成 的 ,但 是 蒙 古 语 的 字 母 在 词 首 、 词 中 、 词 尾 会 有 不 同 的 形 式 变 化 ,这 也 给 蒙 古 96 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 中 文 信 息 学 报 2007 年 语 的 表 示 造 成 了 比 较 大 的 困 难 。 因 此 ,蒙 古 语 的 表 示 问 题 一 直 是 蒙 古 语 计 算 机 处 理 研 究 的 重 要 问 题 之 一 。 随 着 蒙