[ ᠨᠠᠰᠤᠨ᠋ᠤ᠋ᠷᠲᠤ᠂ ᠱᠤ᠋ ᠴᠢᠨ ︺ - ᠦᠭᠦᠯᠡᠯ - (ᠬᠢᠲᠠᠳ) - 面向EBMT系统的汉蒙双语语料库的构建
 2006年 1月 内 蒙 古 社 会 科 学 ︵汉 文 版︶ Jan. 2006 第 27卷 第 1期 INNER MONGOL IA SOC IAL SC IENCES Vol. 27 № . 1 面 向 EBMT系 统 的 汉 蒙 双 语 语 料 库 的 构 建 淑 琴 ,那 顺 乌 日 图 ︵内 蒙 古 大 学 蒙 古 学 学 院 蒙 古 语 文 研 究 所 , 内 蒙 古 呼 和 浩 特 010021︶ [摘 要 ]汉 蒙 对 照 双 语 语 料 库 是 建 设 综 合 型 语 言 知 识 库 的 有 机 组 成 部 分 ,又 是 基 于 实 例 的 机 器 翻 译 系 统 的 基 础 。 因 为 双 语 语 料 库 中 包 含 两 种 语 言 互 译 信 息 特 征 ,能 够 提 供 两 种 语 言 之 间 丰 富 的 匹 配 信 息 ,所 以 不 仅 在 翻 译 知 识 的 获 取 、 双 语 词 典 的 编 纂 、 基 于 语 料 库 的 词 义 消 歧 等 方 面 起 到 关 键 作 用 ,而 且 在 跨 语 言 文 献 检 索 、 跨 语 言 信 息 提 取 、 语 言 教 学 、 双 语 对 比 研 究 等 领 域 都 有 着 广 泛 的 应 用 前 景 。 作 为 语 言 信 息 处 理 所 需 要 的 语 言 资 源 ,并 行 语 料 库 必 须 有 一 套 统 一 的 标 准 和 规 范 才 能 实 现 资 源 共 享 。 早 日 制 定 蒙 古 语 语 料 库 切 分 、 标 注 规 范 对 后 续 工 作 意 义 重 大 。 同 时 实 现 不 同 层 次 的 对 齐 是 双 语 语 料 库 建 设 的 一 项 重 要 内 容 。 [关 键 词 ]汉 蒙 对 照 双 语 语 料 库︔ 语 料 标 注︔ 词 语 对 齐 [中 图 分 类 号 ]H212 [文 献 标 识 码 ]A [文 章 编 号 ]100325281 ︵2006︶ 0120140205 汉 蒙 对 照 双 语 语 料 库 是 建 设 综 合 型 语 言 知 识 库 的 有 机 组 成 部 分 ,又 是 基 于 实 例 的 机 器 翻 译 系 统 ︵Examp le - based Machine Translation System ,简 称 EBMT︶ 的 基 础 。 因 为 双 语 语 料 库 中 包 含 两 种 语 言 互 译 信 息 特 征 ,能 够 提 供 两 种 语 言 之 间 丰 富 的 匹 配 信 息 ,所 以 不 仅 在 翻 译 知 识 的 获 取 、 双 语 词 典 的 编 纂 、 基 于 语 料 库 的 词 义 消 歧 等 方 面 起 到 关 键 作 用 , 而 且 在 跨 语 言 文 献 检 索 、 跨 语 言 信 息 提 取 、 语 言 教 学 、 双 语 对 比 研 究 等 领 域 都 有 着 广 泛 的 应 用 前 景 。 近 年 来 ,国 内 外 很 多 研 究 机 构 都 致 力 于 双 语 语 料 库 的 建 设 ,并 以 这 些 语 料 库 作 为 知 识 依 托 ,进 行 了 很 多 卓 有 成 效 的 基 础 研 究 和 应 用 开 发 工 作 。 蒙 古 文 机 器 翻 译 工 作 是 从 上 世 纪 90年 代 末 开 始 的 ,在 机 器 翻 译 系 统 的 研 发 初 期 我 们 主 要 采 用 了 基 于 规 则 的 方 法 。 但 基 于 规 则 的 机 器 翻 译 ,因 其 规 则 库 庞 大 ,且 结 构 复 杂 ,到 一 定 程 度 以 后 规 则 本 身 的 冲 突 就 消 耗 大 量 时 间 和 精 力 ,对 译 文 质 量 的 提 高 也 产 生 很 大 制 约 。 所 以 ,近 期 在 国 家 863计 划 的 资 助 下 我 们 正 在 改 进 翻 译 系 统 ,将 原 有 的 基 于 规 则 的 翻 译 系 统 改 进 成 基 于 实 例 和 基 于 规 则 的 双 引 擎 系 统 。 目 前 ,在 没 有 任 何 种 类 的 、 涉 及 蒙 古 语 的 双 语 语 料 库 的 情 况 下 ,设 计 和 构 建 具 有 统 一 标 准 和 规 范 的 、 多 领 域 、 多 体 裁 的 大 规 模 汉 蒙 双 语 语 料 库 对 开 发 基 于 实 例 的 汉 蒙 机 器 翻 译 系 统 ︵Examp le - based Chinese - Mongolian Machine Translation System,简 称 EBCMMT︶ 及 建 立 双 语 语 言 知 识 库 意 义 重 大 。 一 、 汉 蒙 双 语 语 料 库 与 EBMT系 统 随 着 语 料 库 语 言 学 的 发 展 ,基 于 实 例 的 机 器 翻 041 3 基 金 项 目 :国 家 863计 划 ︵2003AA115510︶ 、 国 家 自 然 科 学 基 金 ︵36963005︶ 资 助 项 目 。 [收 稿 日 期 ]2005210228 [作 者 简 介 ]淑 琴 ,女 ,蒙 古 族 ,内 蒙 古 大 学 蒙 古 学 学 院 博 士 研 究 生︔ 那 顺 乌 日 图 ,男 ,蒙 古 族 ,内 蒙 古 大 学 蒙 古 学 学 院 教 授 ,博 士 生 导 师 。 译 方 法 成 为 机 器 翻 译 的 新 思 路 之 一 。 EBMT是 一 种 基 于 语 料 库 的 机 器 翻 译 方 法 ,主 要 知 识 源 是 双 语 对 照 的 翻 译 实 例 库 ,其 主 要 思 路 是 通 过 类 比 原 理 进 行 翻 译 。 翻 译 时 系 统 仅 对 被 翻 译 句 进 行 浅 层 分 析 , 把 它 切 分 成 语 段 ,然 后 根 据 上 下 文 从 双 语 语 料 库 中 找 出 各 语 段 的 最 佳 翻 译 ,再 把 它 们 按 一 定 的 顺 序 排 列 起 来 ,最 后 生 成 译 句 。 基 于 双 语 语 料 库 进 行 翻 译 词 典 的 编 纂 ︵词 对 词 翻 译 词 典 、 多 词 单 元 翻 译 词 典︶ 已 经 引 起 了 广 泛 关 注 ,它 将 在 EBMT系 统 中 起 到 重 要 辅 助 作 用 。 汉 蒙 双 语 语 料 库 及 其 加 工 ,将 对 实 现 基 于 实 例 的 汉 蒙 机 器 翻 译 系 统 起 到 决 定 性 作 用 。 蒙 古 语 语 言 知 识 资 源 ︵如 ,语 法 信 息 词 典 、 语 法 规 则 库︶ 与 数 据 资 源 ︵如 ,语 料 库 、 双 语 词 典︶ 、 EBCMMT系 统 之 间 的 相 互 关 系 见 下 图 。 蒙 古 语 语 言 知 识 资 源 与 数 据 资 源 、 EBCMMT系 统 的 相 互 关 系 图 为 便 于 数 据 交 换 和 共 享 ,我 们 主 张 尽 量 将 单 语 语 料 库 与 双 语 语 料 库 的 标 注 统 一 起 来 。 二 、 汉 蒙 双 语 语 料 库 的 来 源 和 规 模 目 前 ,人 们 很 容 易 从 互 联 网 上 收 集 到 大 量 的 汉 英 双 语 资 源 ,但 网 上 还 没 有 可 用 的 汉 蒙 双 语 资 源 , 汉 蒙 双 语 语 料 库 的 建 设 只 能 靠 人 工 收 集 。 我 们 手 头 有 汉 语 语 料 12万 多 条 句 子 ,题 材 涉 及 生 活 、 法 律 、 商 贸 、 政 府 文 献 及 口 语 。 汉 语 到 蒙 古 语 的 翻 译 , 从 理 论 上 说 翻 译 风 格 越 多 越 好 ,但 考 虑 到 翻 译 质 量 ,只 选 择 了 几 个 社 会 上 有 知 名 度 的 专 门 翻 译 人 员 的 译 文 。 现 已 人 工 翻 译 并 录 入 了 4万 多 条 句 子 ,其 中 有 一 部 分 语 料 ,是 在 研 制 面 向 政 府 文 献 的 汉 蒙 辅 助 机 器 翻 译 系 统 时 所 用 的 1万 余 对 已 经 过 人 工 翻 译 好 的 政 府 文 献 句 子 ︵主 要 是 复 句︶ 。 从 EBMT系 统 最 基 本 的 需 求 来 看 ,双 语 语 料 库 的 规 模 至 少 要 达 到 15万 对 句 子 。 蒙 古 语 语 料 库 的 内 部 存 储 采 用 拉 丁 文 转 写 的 方 式 ,这 样 便 于 进 行 各 种 切 分 、 标 注 和 资 源 共 享 。 因 为 蒙 古 文 编 码 标 准 ︵ISO10646, GB13000︶ 分 为 名 义 字 符 和 变 形 显 现 字 符 ,在 这 样 的 编 码 体 系 上 进 行 切 分 、 标 注 ,将 会 加 大 开 发 人 员 的 技 术 负 担 。 设 计 和 构 建 汉 蒙 双 语 语 料 库 的 工 作 量 非 常 大 ,需 要 投 入 大 量 的 时 间 、 人 力 、 物 力 及 财 力 。 三 、 汉 蒙 双 语 语 料 库 标 注 规 范 ① 对 于 语 言 信 息 处 理 各 个 层 面 上 所 需 要 的 语 言 资 源 ,必 须 有 一 套 统 一 标 准 和 规 范 才 能 实 现 资 源 共 享 。 早 日 制 定 蒙 古 语 语 料 文 本 标 注 规 范 ︵包 括 双 语 语 料 库 蒙 古 语 语 料 的 标 注︶ 对 后 续 工 作 意 义 重 大 。 为 了 满 足 蒙 古 文 信 息 处 理 更 深 层 次 的 要 求 ,尤 其 是 为 了 统 一 和 规 范 我 们 正 在 开 展 的 几 个 不 同 项 目 中 的 语 料 库 标 注 ,在 已 有 的 蒙 古 语 词 语 分 类 体 系 及 其 标 记 集 的 基 础 上 ,我 们 进 一 步 细 化 了 词 语 和 构 形 附 加 成 分 的 分 类 ,制 订 了 新 的 面 向 信 息 处 理 的 蒙 古 语 词 语 分 类 体 系 及 其 标 记 集 。 这 个 标 记 集 ,来 源 于 ︽蒙 古 语 语 法 信 息 词 典︾ 的 词 类 属 性 字 段 及 其 赋 值 ,所 以 具 有 较 强 的 通 用 性 和 约 束 力 。 面 向 信 息 处 理 的 蒙 古 语 词 语 分 类 体 系 及 其 标 记 集 总 共 包 含 了 25个 大 类 , 263个 标 记 。 其 中 包 括 构 形 附 加 成 分 ︵139个 标 记︶ 、 连 接 成 分 ︵6个 标 记︶ 、 字 符 ︵2个 标 141 ① 主 要 针 对 我 们 正 在 开 展 的 几 个 项 目 。 记︶ 和 标 点 符 号 ︵22个 标 记︶ 。 另 外 还 有 12个 短 语 标 记 。 很 显 然 这 种 分 类 大 大 超 过 了 语 法 研 究 的 词 类 概 念 ,因 为 它 是 针 对 语 言 信 息 处 理 更 为 广 泛 、 更 为 深 层 的 需 要 而 设 计 的 。 我 们 下 一 步 的 目 标 是 将 它 制 订 为 蒙 古 文 信 息 处 理 通 用 的 语 法 信 息 标 注 规 范 。 蒙 古 语 语 料 库 加 工 包 括 词 形 还 原 ① 问 题 ,我 们 已 经 概 括 出 了 名 词 、 动 词 词 干 还 原 规 则 。 汉 蒙 双 语 语 料 库 里 蒙 古 语 的 标 注 包 括 词 干 、 构 形 附 加 成 分 的 词 性 标 注 ,多 词 组 合 ︵固 定 短 语︶ 、 人 名 、 地 名 、 机 构 名 标 注 ,短 语 标 注 ,语 义 标 注 ,语 用 标 注 等 内 容 。 现 阶 段 我 们 没 有 触 及 语 义 、 语 用 标 注 ,本 文 主 要 讨 论 最 基 本 的 词 干 和 构 形 附 加 成 分 标 注 规 范 以 及 标 注 方 法 。 根 据 新 制 订 的 标 记 集 ,标 注 规 范 和 方 法 如 下 。 待 标 注 的 句 子 为 : ︵1︶ B I C IM _A - DV HABSVRCV ENE VC IR - I H IJU B0L0N_A VV︖ ︵我 可 以 帮 你 做 这 事 吗︖︶ ② ︵2︶ B I 0D0 DVMDADV AMeR IKA - YIN NO2 HORLEL - UN NEYIGEML IG - UN TER IGULEGC I YOHAN gRAN t ABVGA I - YI TAN ILCAGVLVY_A. ︵请 允 许 我 介 绍 中 美 友 好 协 会 主 席 约 翰 · 格 兰 特 先 生 。︶ ︵3︶ TAN - TA I TAN ILCAGAD MASI ONGGE GEREL - TE I SANAGDAJV BAYIN _A , T0MPS0N ABVGA I. ︵认 识 您 很 荣 幸 ,汤 普 森 先 生 。︶ ︵4︶ HOGJ IHU GEDEG NERETE I HOMON 0R0GAD IREL_ E. ︵名 字 叫 呼 格 吉 夫 的 人 走 进 来 了 。︶ ︵5︶ TA HERBE HEJ IY_E N IGEN EDUR C IK2 AG0 - DV IREBEL YAGAH IGSAN CV NAMAYI ERGIJU UJEGERE I. ︵如 果 你 什 么 时 候 来 芝 加 哥 , 请 务 必 来 看 我 。︶ ︵6︶ AP0LL0 ’ - YIN SARAN DEGER _ E GARVGSAN TVHA I EDU I TEDU I MEDEGE - YI 0LJV MEDEHU B0L0LCAG_A - TA I VV︖ ︵有 可 能 了 解 些 有 关 阿 波 罗 登 月 旅 行 的 消 息 吗︖︶ 标 注 后 的 结 果 为 ︵本 文 涉 及 的 标 记 所 代 表 的 类 别 请 参 看 文 后 的 符 号 说 明︶ : ︵1︶ B I/Rb C IM _A /Rb - DV /Fc31HABSVR /V t + CV /Fn1 ENE /R j VC IR /N t - I/Fc21H I/V t + JU / Fn1 B0L /Ve + 0 /Ze +N _A /Fs21VV /Sa︖ /W u7 ︵2︶ B I/Rb 0D0 /T {DVMDADV /LAMeR IKA / Ng - YIN /Fc11 NOHORLEL /Ne - UN / Fc11NEYIGEML IG/N t }③ /Nb - UN /Fc11 TER I2 GULEGC I/N t { Y0HAN gRAN t} /NhABVGA I/N t - YI/Fc21TAN ILCAGVL /V t + V /Ze + Y _A /Fb11 . / Wm2 ︵3︶ TAN /Rb - TA I/Fc6 TAN ILCA /Ve + GAD / Fn2MASI/Dh [ONGGE /N t GEREL /Ne ] /Yn - TE I/ Fc6 SANAGDA /Ve + JV /Fn1BAYI/Ve + N _ A / Fs21, /Wm1 { T0MPS0N} /NhABVGA I/N t. /Wm2 ︵4︶ { HOGJ IHU } /NhGE /Vc + DEG/ Ft21NERETE I/Ah HOMON /N t 0R0 /Ve + GAD / Fn2 IRE /Ve +L_E /Fs13 . /Wm2 ︵5︶ TA /Rb HERBE /Cs HEJ IY _ E /Ra N IGE / Mu + N /Fc8EDUR /N t { C IKAG0 } /Ng - DV / Fc31 IRE /Ve + BEL /Fn71YAGAH I/V r + GSAN / Ft11CV /ShNAMA /Rb + YI/Fc22ERGI/V t + JU / Fn1UJE /V t + GERE I/Fb22 . /Wm2 ︵6︶ {AP0LL0’} /Nn - YIN /Fc11SARA /Ne + N / Fc8DEGER _ E /Oa GAR /Ve + V /Ze + GSAN / Ft11TVHA I/Gt [ EDU I/R j TEDU I/R j ] /YrME2 DEGE /N t - YI/Fc210L /V t + JV /Fn1MEDE /V t + HU /Ft12B0L0LCAG _A /N t - TA I/Fc6 VV /Sa︖ / W u7④ 蒙 古 语 语 料 词 干 、 构 形 附 加 成 分 的 自 动 标 注 是 实 现 自 动 对 齐 的 基 础 ,标 注 加 工 的 质 量 将 直 接 影 响 到 对 齐 结 果 。 我 们 在 ︽蒙 古 语 语 法 信 息 词 典︾ ︵包 括 构 形 附 加 成 分︶ 的 名 词 、 动 词 词 干 还 原 规 则 的 基 础 上 ,正 在 开 发 蒙 古 语 语 料 库 词 语 自 动 切 分 标 注 ⑤ 软 件 。 其 主 要 工 作 流 程 如 下 : 第 一 步 ,通 过 匹 配 ︽蒙 古 语 语 法 信 息 词 典 总 库︾ ,直 接 进 行 词 性 标 注 。 第 二 步 ,如 果 ︽总 库︾ 直 接 匹 配 失 败 ,再 匹 配 ︽构 形 附 加 成 分 分 库︾ ,同 时 调 用 词 干 、 构 形 附 加 成 241 ① ② ③ ④ ⑤ 本 文 指 切 去 构 形 附 加 成 分 ,还 原 词 干 原 形 。 由 于 我 们 目 前 的 语 料 库 采 用 蒙 古 文 拉 丁 转 写 方 法 ,所 以 本 文 中 的 例 子 亦 采 用 拉 丁 转 写 方 法 。 花 括 号 表 示 专 有 名 词 ︵包 括 人 名 、 地 名 、 机 构 名 及 术 语︶ ,方 括 号 表 示 复 合 词 。 说 明 :“ - ” 表 示 与 词 干 分 写 的 附 加 成 分 ,“ + ” 表 示 与 词 干 连 写 的 附 加 成 分 ︵如 动 词 式 、 态 、 体 、 副 动 词 、 形 动 词︔ 名 词 的 复 数︶ , “ /” 右 边 是 词 性 ︵包 括 词 干 、 复 合 词 、 短 语 、 附 加 成 分 、 连 接 成 分 、 字 符 、 标 点 等︶ 标 记︔ “ - A” 、 “ - E” 是 一 个 词 的 组 成 部 分 , 可 作 为 词 干 末 位 标 记 。 主 要 指 构 形 附 加 成 分 切 分 和 标 注 、 词 干 词 性 标 注 。 分 还 原 。 第 三 步 ,未 登 录 词 另 行 处 理 。 四 、 汉 蒙 双 语 语 料 库 词 语 对 齐 研 究 对 齐 技 术 是 加 工 双 语 文 本 的 核 心 ,实 现 各 个 层 次 的 对 齐 是 双 语 语 料 库 建 设 的 一 项 重 要 内 容 ,双 语 对 齐 作 为 语 料 库 加 工 过 程 中 的 关 键 技 术 ,已 经 引 起 研 究 者 的 高 度 重 视 。 我 们 最 初 建 立 的 双 语 语 料 已 做 到 句 子 级 的 人 工 对 齐 ,所 以 目 前 不 涉 及 篇 章 、 段 落 及 句 子 的 自 动 对 齐 。 在 句 子 对 齐 的 基 础 上 展 开 词 语 对 齐 的 研 究 过 程 中 ,主 要 采 取 基 于 双 语 词 典 的 对 齐 方 法 ,并 正 在 研 制 词 语 自 动 对 齐 软 件 。 双 语 语 料 库 的 对 齐 互 译 关 系 通 过 双 语 对 齐 标 记 体 现 出 来 。 鉴 于 目 前 汉 蒙 双 语 语 料 库 的 特 点 ,词 语 对 齐 标 记 方 法 可 以 采 取 以 下 方 式 : 11语 料 属 性 信 息 ︵1︶ 领 域 : ᠁ 生 活 、 法 律 、 商 贸 、 政 府 文 献 ︵2︶ 语 体 : ᠁ 书 面 语 、 口 语 ︵3︶ 译 者 : ᠁ 实 际 译 者 名 字 21语 料 结 构 信 息 : 句 子 边 界 信 息 : ᠁ 词 边 界 信 息 : ᠁ 31双 语 对 齐 信 息 : 对 齐 单 位 : ᠁ 请 参 看 下 面 对 齐 关 系 标 记 的 一 个 示 例 。 对 齐 示 例 你 r C INU /Rb BAYIDAL /N t 最 d 近 v 0RC IM /Oa 怎 么 样 r YAMAR /Ra︖ w BAYI/Ve +N_A /Fs21︖ W u7 341 源 语 言 对 齐 单 位 、 目 标 语 言 对 齐 单 位 的 开 始 和 结 尾 边 界 均 用 “ ᠁ ” 来 标 记 ,源 语 言 对 齐 单 位 和 目 标 语 言 对 齐 单 位 的 对 齐 关 系 通 过 属 性 id来 描 述 ,对 齐 模 式 ︵可 以 有 1 ∶ 1、 1 ∶ n、 n ∶ 1、 0 ∶ n、 n ∶ 0、 m ∶ n模 式︶ 信 息 通 过 属 性 no来 记 录 。 上 面 例 子 中 源 语 言 对 齐 单 位 和 目 标 语 言 对 齐 单 位 属 于 2 ∶ 1对 齐 模 式 ,源 语 言 对 齐 单 位 和 目 标 语 言 对 齐 单 位 属 于 1 ∶ 2对 齐 模 式 。 其 中 id属 性 值 相 同 表 明 这 两 个 对 齐 单 位 互 为 译 文 有 对 齐 关 系 。 结 语 汉 蒙 对 照 双 语 语 料 库 的 规 模 和 加 工 深 度 直 接 影 响 基 于 实 例 的 汉 蒙 机 器 翻 译 系 统 的 质 量 。 为 有 效 支 持 汉 蒙 机 器 翻 译 系 统 ,我 们 下 一 步 的 工 作 将 在 优 化 蒙 古 语 语 料 库 词 语 自 动 切 分 标 注 软 件 的 基 础 上 ,深 入 开 展 汉 蒙 对 照 双 语 语 料 库 词 语 对 齐 研 究 , 并 致 力 于 将 汉 蒙 对 照 双 语 语 料 库 最 终 建 设 成 为 公 开 使 用 的 通 用 双 语 语 料 库 ,使 它 不 仅 成 为 研 究 语 言 的 得 力 工 具 ,而 且 真 正 成 为 语 言 信 息 处 理 的 知 识 资 源 和 技 术 资 源 。 附 :符 号 说 明 Ah:关 系 形 容 词 Cs:句 连 接 词 Dh:程 度 副 词 Gt:论 述 后 置 词 L:缩 略 语 Mu:蒙 古 文 数 词 Nb:机 构 名 Nh:人 名 Ng:地 名 Nn:术 语 N t:可 数 名 词 Ne:不 可 数 名 词 Oa:形 容 词 性 时 位 词 Ra:疑 问 代 词 Rb:人 称 代 词 R j:指 示 代 词 Sa:疑 问 语 气 词 Sh:强 调 语 气 词 T:时 间 词 V t:及 物 动 词 Ve:不 及 物 动 词 V r:代 动 词 Vc:联 系 动 词 Yn:复 合 名 词 Yr:复 合 代 词 Ze:连 接 元 音 Fb11, Fb22, Fc11, Fc21, Fc22, Fc31, Fc6, Fc8, Fn1, Fn2, Fn71, Fs13, Fs21, Ft11, Ft12, Ft21, Wm1, Wm2,W u7等 分 别 是 相 应 附 加 成 分 和 标 点 符 号 的 标 记 。 [参 考 书 目 ] [ 1 ]俞 士 汶 . 计 算 语 言 学 概 论 [M ]. 北 京 :商 务 印 书 馆 , 2003. [ 2 ]黄 昌 宁 ,李 涓 子 . 语 料 库 语 言 学 [M ]. 北 京 :商 务 印 书 馆 , 2002. [ 3 ]刘 非 凡 ,等 .大 规 模 非 限 定 领 域 汉 英 双 语 语 料 库 建 设 及 句 子 对 齐 方 法 研 究 [A ]. 语 言 计 算 与 基 于 内 容 的 文 本 处 理 — — — 全 国 第 七 届 计 算 语 言 学 联 合 学 术 会 议 JSCL — — — 2003论 文 集 [ C ]. 北 京 :清 华 大 学 出 版 社 , 2003. [ 4 ]李 维 刚 ,等 .双 语 料 库 段 落 重 组 对 齐 方 法 研 究 [A ].语 言 计 算 与 基 于 内 容 的 文 本 处 理 — — — 全 国 第 七 届 计 算 语 言 学 联 合 学 术 会 议 JSCL — — — 2003论 文 集 [ C ] 1北 京 :清 华 大 学 出 版 社 , 2003. [ 5 ]程 洁 ,杜 利 民 . EBMT系 统 中 的 多 词 单 元 翻 译 词 典 获 取 研 究 [ J ]. 中 文 信 息 学 报 , 2004, ︵1︶ . [ 6 ]俞 士 汶 ,等 . 北 大 语 料 库 加 工 规 范 :切 分 · 词 性 标 注 · 注 音 [ J ]. 汉 语 语 言 与 计 算 学 报 , 2003, ︵2︶ . [ 7 ]王 长 胜 ,刘 群 . 基 于 实 例 的 汉 英 机 器 翻 译 系 统 研 究 与 实 现 [ J ]. 计 算 机 工 程 与 应 用 , 2002, ︵8︶ . [ 8 ]屈 刚 ,等 . 一 个 基 于 范 例 推 理 的 机 器 翻 译 系 统 [ J ]. 计 算 机 工 程 , 2000, ︵10︶ . ︵责 任 编 辑 萨 其 荣 桂︶ 441