古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有...

8
—————————— 收稿日期:2007 9 18 92 18 现代教育技术 Vol. 18 2008 年第 1 Modern Educational Technology No.1 2008 古今汉语平行语料库的语料构建 * 宋继华 1 胡佳佳 3 孟蓬生 2 王宁 3 1.北京师范大学 信息科学与技术学院,北京 1008752.中国社会科学院 语言研究所,北京 1008753.北京师范大学 文学院,北京 100875【摘要】古今汉语之间的明显差异使得以古代汉语为载体的传统典籍难以被现代人理解。古今汉语平行语料库的建设旨在 为希望了解中国传统思想文化的普通读者及相关学科专家提供阅读、翻译、检索古代汉语典籍的平台。语料的构建是语料库建 设的基础,本文从古今汉语语料的设计、采集、格式化存储、双语对齐与 XML 标注等方面详细介绍了如何系统地构建大型古 今汉语平行语料库中的开放资源。 【关键词】古今汉语;平行语料库;语料;XML 标注;句子对齐 中图分类号G40-057 文献标识码B 论文编号10098097 (2008) 01009208 一 缘起 “汉语是世界上正在使用的语言中最古老的语种之一。 汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界 上都是无与伦比的。” 灿烂悠久的中国思想文化,通过这些 典籍得以保存、传承,在历经千载的延续过程中,又得后人 的认识和研究,融入新的内涵,由此构筑了中国的古代文明。 今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使 用着,尤其在人文学科领域的应用价值更是显而易见。同时, 随着大众文化水平的提高、经济的发展与对外往来的增加, 越来越多的非专业人士希望深入了解中国传统的思想文化, 但古代汉语与现代汉语之间存在着的明显差异使得很多现代 人难以理解以古汉语为载体的传统典籍。有鉴于此,我们提 出要建设一个大型、开放的古今汉语平行语料库及其应用平 台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代 汉语教学与研究以及辞书编纂提供基础资源,为需要了解中 国传统思想文化的普通读者及相关学科的专家提供阅读、翻 译、检索、统计服务,并为与现有的汉英双语语料库的对接 奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或 机器辅助翻译)创造条件。 平行语料原指使用不同语言撰写、相互间具有“翻译关 系”的文本,本文将其延展为基于同一语言且不同历史时期 兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。 平行语料库已被系统地应用到自然语言处理中,包括建立翻 译记忆、编纂词典和双语术语表、跨语言信息检索、计算机 辅助教学、语言对比研究等。国外涉及汉语的平行语料库中 影响较大的是与 Freiburg-LOB Corpus of British English(即 FLOB)平行对应的汉语语料库 LCMC The Lancaster Corpus of Mandarin Chinese)。国内的主要研究有北京大学计算语言 学研究所的汉英双语语料库以及北京外国语大学拥有的目前 国内最大的双语平行语料库(含汉英和汉日两个库)等 [1] 。就 目前来看,国内外涉及汉语的平行语料库基本上都是现代汉 语与外语的平行语料库,鲜见有影响的、大规模的古今汉语 平行语料库。 就应用层面而言,古今汉语平行语料库的价值主要体现 在:⑴ 为古今汉语的机器翻译或机器辅助翻译提供基础资 源。古今汉语平行语料库中对齐的语料或作为翻译资源使用, 或用作翻译统计建模的训练资源。⑵ 为古汉语教学与古今汉 语对比研究提供基础资源。普通用户通过该平台的阅读、翻 译、查询功能,既可以随时获取他们需要的有关古代典籍和 文化的信息,也可以接受系统的古代汉语专业训练。研究人 员则可以通过检索统计在语境中把握特定词或结构的语义和 句法特征,观察古今汉语之间的传承关系,归纳古今汉语的 发展规律。⑶ 提高古今汉语辞书的编纂质量和效率。到目前 为止,还没有基于大型语料库的古代汉语和现代汉语辞书问 世。该语料库及应用平台的构建将为辞书编纂中经常遇到的 字频和词频的统计、字头和词目的确立、书证和用例的选择、 字义和词义的表述等技术操作提供客观依据,从而为这类辞 书的问世创造条件。 与现有的一些语料库相比,古今汉语平行语料库的特点 是:⑴ 两种语料的平行对应性(古代汉语与现代汉语);⑵ 服

Transcript of 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有...

Page 1: 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以 外,还包含了许多页面显示的格式标记。为了保持语料的纯

—————————— 收稿日期:2007 年 9 月 18 日 92

第 18 卷 现代教育技术 Vol. 18

2008 年第 1 期 Modern Educational Technology No.1 2008

古今汉语平行语料库的语料构建*

宋继华 1 胡佳佳 3 孟蓬生 2 王宁 3

(1.北京师范大学 信息科学与技术学院,北京 100875;2.中国社会科学院 语言研究所,北京 100875;

3.北京师范大学 文学院,北京 100875)

【摘要】古今汉语之间的明显差异使得以古代汉语为载体的传统典籍难以被现代人理解。古今汉语平行语料库的建设旨在

为希望了解中国传统思想文化的普通读者及相关学科专家提供阅读、翻译、检索古代汉语典籍的平台。语料的构建是语料库建

设的基础,本文从古今汉语语料的设计、采集、格式化存储、双语对齐与 XML 标注等方面详细介绍了如何系统地构建大型古

今汉语平行语料库中的开放资源。

【关键词】古今汉语;平行语料库;语料;XML 标注;句子对齐

【中图分类号】G40-057 【文献标识码】B 【论文编号】1009—8097 (2008) 01—0092—08

一 缘起

“汉语是世界上正在使用的语言中 古老的语种之一。

汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界

上都是无与伦比的。”①灿烂悠久的中国思想文化,通过这些

典籍得以保存、传承,在历经千载的延续过程中,又得后人

的认识和研究,融入新的内涵,由此构筑了中国的古代文明。

今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使

用着,尤其在人文学科领域的应用价值更是显而易见。同时,

随着大众文化水平的提高、经济的发展与对外往来的增加,

越来越多的非专业人士希望深入了解中国传统的思想文化,

但古代汉语与现代汉语之间存在着的明显差异使得很多现代

人难以理解以古汉语为载体的传统典籍。有鉴于此,我们提

出要建设一个大型、开放的古今汉语平行语料库及其应用平

台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代

汉语教学与研究以及辞书编纂提供基础资源,为需要了解中

国传统思想文化的普通读者及相关学科的专家提供阅读、翻

译、检索、统计服务,并为与现有的汉英双语语料库的对接

奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或

机器辅助翻译)创造条件。

平行语料原指使用不同语言撰写、相互间具有“翻译关

系”的文本,本文将其延展为基于同一语言且不同历史时期

兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。

平行语料库已被系统地应用到自然语言处理中,包括建立翻

译记忆、编纂词典和双语术语表、跨语言信息检索、计算机

辅助教学、语言对比研究等。国外涉及汉语的平行语料库中

影响较大的是与 Freiburg-LOB Corpus of British English(即

FLOB)平行对应的汉语语料库 LCMC②(The Lancaster Corpus

of Mandarin Chinese)。国内的主要研究有北京大学计算语言

学研究所的汉英双语语料库以及北京外国语大学拥有的目前

国内 大的双语平行语料库(含汉英和汉日两个库)等[1]。就

目前来看,国内外涉及汉语的平行语料库基本上都是现代汉

语与外语的平行语料库,鲜见有影响的、大规模的古今汉语

平行语料库。

就应用层面而言,古今汉语平行语料库的价值主要体现

在:⑴ 为古今汉语的机器翻译或机器辅助翻译提供基础资

源。古今汉语平行语料库中对齐的语料或作为翻译资源使用,

或用作翻译统计建模的训练资源。⑵ 为古汉语教学与古今汉

语对比研究提供基础资源。普通用户通过该平台的阅读、翻

译、查询功能,既可以随时获取他们需要的有关古代典籍和

文化的信息,也可以接受系统的古代汉语专业训练。研究人

员则可以通过检索统计在语境中把握特定词或结构的语义和

句法特征,观察古今汉语之间的传承关系,归纳古今汉语的

发展规律。⑶ 提高古今汉语辞书的编纂质量和效率。到目前

为止,还没有基于大型语料库的古代汉语和现代汉语辞书问

世。该语料库及应用平台的构建将为辞书编纂中经常遇到的

字频和词频的统计、字头和词目的确立、书证和用例的选择、

字义和词义的表述等技术操作提供客观依据,从而为这类辞

书的问世创造条件。

与现有的一些语料库相比,古今汉语平行语料库的特点

是:⑴ 两种语料的平行对应性(古代汉语与现代汉语);⑵ 服

Page 2: 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以 外,还包含了许多页面显示的格式标记。为了保持语料的纯

93

务对象的广泛性(普通人群与专业研究人员);⑶ 实用性(研

究价值与应用价值兼顾);⑷ 通用性(采用 XML 标注体系);

⑸ 开放性(可以随时增加语料)。它的建设主要包括语料的

构建、组织与应用平台的开发三个方面。

图 1 古今汉语平行语料库构建模型

二 语料的构建

筹建语料库之初,首先应考虑的是语料库的建设目标,

这样才能决定选择语料的范围、分布、规模,建立可查询的

分类体系,进而采集实际的文本[2]。这里需要明确的是,我们

所说的古汉语是指文言,即以先秦口语为基础而形成的上古

汉语书面语,如《诗》、《书》、《礼》、《春秋》、《老子》、《论

语》、《荀子》等所使用的;以及后来历代作者仿古作品中所

使用的语言,如两汉诗文歌赋、唐宋散文等。

1 语料的选择

选择语料时要注意语料的代表性和质量。我国历史悠久,

文化遗产丰富,用文言记录的典章、制度、史料以及撰写的

文学作品多到不可计数。由于时间跨度大(上下三千多年),

不同时代、不同体裁的文言作品,其语言特点有很大差异。

能反映文言原貌的,莫过于先秦两汉的作品,其次是唐宋

以后的仿古文言文。所以,古代汉语的研究对象,应以先秦

两汉作品为主,兼及唐宋以后的仿古文言文。清朝康熙年间

吴楚材、吴调侯叔侄编选评注的《古文观止》,上起东周,下

至明末,选古代散文二百二十二篇;其中,先秦入选七十二

篇,唐代入选四十三篇,宋代入选五十一篇,共占选文的百

分之七十以上;先秦散文作为中国古代散文的源头,《左传》、

《国语》、《战国策》各有独特的成就,对后世有着深远的影

响;《古文观止》中《左传》有三十四篇、《国语》十四篇、《战

国策》十一篇,共占先秦部分的百分之九十五以上③。有鉴于

此,我们采用了先秦的三部史书《左传》、《国语》、《战国策》

的原文(计五十万字)与现代译文(计七十万字)共约一百

二十万字作为古今汉语平行语料库的首批语料录入。

由于我们建设的是古今汉语平行语料库,因此需要同时

考虑古文原文与今文译文的质量。古文原文的质量主要由选

取的版本所决定。为此,我们选择了上海古籍出版社 1983 年

版《黄侃手批白文十三经》中的《左传》、1998 年版的《国语》④(以《四部备要》排印清代士礼居翻刻明道本为底本,参校

了《四部丛刊》影印明代翻刻公序本)与 1985 年版《战国策》⑤(以姚本为底本,汇集鲍、吴诸人的注文以及清黄丕烈的《战

国策札记》)作为古文原文的依据。今文译文的质量比较难以

把握,也是古今汉语平行语料库建设的难点。考虑到语料库

的应用目标,统一采用直译方式,注重词汇和语法结构的对

应,由北京师范大学汉语言文字学专业的研究生⑥负责对已有

的译文进行复查和加工。

2 语料的采集

语料的采集有两种方法,一是通过光电扫描或键盘输入

制作电子文本,一是利用网络上已有的电子文本,并将其转

Page 3: 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以 外,还包含了许多页面显示的格式标记。为了保持语料的纯

94

化为所需的格式[2]。我们是在保证质量的前提下采用后一种方

式,这样不仅避免简单的重复劳动,又可以降低语料库的建

设成本,提高效率。目前网络上已有很多《左传》、《国语》

和《战国策》的免费共享资源,虽然所依据的版本不一、内

容不尽相同、格式也多种多样,但经过处理加工后,可以满

足课题的要求。因此,经过大量搜集、整理、比较之后,

终择定了三种不同的电子版来源,互为补充。需要强调的是,

这些电子版均是以前述确定的印刷本底本作为制作依据的。

表 1 电子版语料来源⑦

书名 印刷版依据 电子版 1 电子版 2 电子版 3 说明

http://www.mycnknow.com http://www.yjsy.ecnu.edu.cn/jszj

/史部-其他/國語/koyo1.htm

http://202.206.112.23/shkx/ts0560

01.pdf 来源

WORD HTML PDF 类型国语

上海古籍出版

社 1998 年《国

语》 繁体原文、书中每段页码 繁体原文、书中注释 繁体原文、书中注释、简体译文 内容

http://www.mycnknow.com http://www.yasue888.net/chin_g

wok_chak.html

http://book.joojle.net/view.asp?id

=148 来源

WORD HTML PDF 类型战国策

上海古籍出版

社 1985 年《战

国策》 繁体原文、书中每段页码

繁体原文、书中注释、繁体题

目 简体译文 内容

http://www.mycnknow.com http://book.httpcn.com/search/sh

ow/2916686013309.htm#1

http://www.yjsy.ecnu.edu.cn/jszj/

经部/左传/8.htm 来源

WORD HTML PDF 类型左传

上海古籍出版

社 1983 年《黄

侃手批白文十

三经》 繁体原文 繁体原文 简体译文 内容

3 语料的格式化

除了语料质量,还应保持语料库中语料存储的规范性。

从网上采集的原始语料需加工为统一的格式后才能进入到语

料库中。由表 1 可看出,网上语料的类型多种多样,常见的

有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以

外,还包含了许多页面显示的格式标记。为了保持语料的纯

洁性,我们将各种语料统一转化为纯文本(TEXT)格式,即

以.txt 文件的形式存储,以借助 TEXT 文档中不含任何页面显

示标记的特点避免“脏字符”对语料内容的干扰。同时,鉴

于这些原始语料所使用的字符集、字体、标点符号以及排版

格式也各不相同,需用进行规范化处理,因此我们规定:⑴ 语

料中的古文原文与注释采用繁体字,译文采用简体字;⑵ 使

用“宋体方正超大”字符集;⑶ 采用现代中文标点符号。(「」

用“”代替,『』用‘’代替,下划直线用[]代替,下划波浪

线用《》代替);⑷ 所有文本一律横排版;⑸ TEXT 文本设置

为“不自动换行”;⑹ 所有行一律左对齐,起始处没有空格;

⑺ 首段是题目,段与段之间空一行;⑻ 古文原文与今文译

文是一句一行(以冒号、句号、感叹号、问号为结束标志);

⑼ 每条注释单独一行,注释号为“1,2,……”,注释号与

注释之间不空格;⑽ 古文原文中注释项的结尾处标明注释

号,注释号同样为“1,2,……”;⑾ 古文每段段末有段的

起始页码,用中文括号括起,单独占一行。对于同一语料的

两个不同电子来源,我们采用了 Beyond Compare 软件⑧自动

比对两者的差异,过滤了大部分的错误,再以其中错误较少

的来源作为底本,进行人工校对,从而大大提高了工作效率

和语料质量。

网上下载的原始语料均是以“书”的形式存储的,粒度

太大,不易于语料库的灵活应用,需要对语料进行分割与命

名。《左传》是编年体史书,以《春秋》一万六千余字为经、

为纲,而自己为传、为目,补叙其历史原委的著作;《国语》

是国别体史书,全书二十一卷,记录了周、鲁、齐、晋、郑、

楚、吴、越八国的史事;《战国策》也是国别体史书,分 33

卷,按东周、西周、秦、齐、楚、赵、魏、韩、燕、宋、卫、

中山的次序,辑录与十二国有关的史事 497 条。为了保持语

料分割后的完整性和相对独立性,我们将语料按篇章级单位

存储。《国语》、《战国策》均以史事为篇章级别单位,《左传》

则以君王纪年为篇章级别单位。每一篇章,又分为古文原文、

今文译文与注释三个文件分别存储,篇章级间的对齐关系由

相同的文件号实现。同一篇文章的古文原文文件名为

Gxxyyzz,今文译文文件名为 Jxxyyzz,注释文件名为

Zxxyyzzz。xx 为书号(其中“01”表示《国语》,“02”表示《战

国策》,“03”表示《左传》);yy 为卷号(《左传》卷号与卷名

按君王谥号,如“01” 表示“卷一隐公”);zz 为卷内篇号(《左

传》的篇号即年号,如“01”表示“某公元年”,“00”表示“前

传”,只在“卷一隐公”中有;《国语》与《战国策》的篇号

篇名参考上海古籍出版社 1998 年《国语》与 1985 年《战国

策》的目录)。

4 语料的对齐

对于平行语料库而言,首先要对语料进行各级对齐工作,

所谓对齐也就是原文与译文之间互为翻译关系的篇章、段落、

句对以致短语、词汇的确定。其中 为重要的是句子一级的

对齐,这也是各种应用对平行语料库的一个 基本的需求。

Page 4: 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以 外,还包含了许多页面显示的格式标记。为了保持语料的纯

95

更深一层的加工包括:短语一级与词汇一级的对齐、句法标

注、短语标注、分词、词性标注、注音等[3]。

● 句子的对齐要求

如上文所述,我们语料库中 TEXT 类型的古文原文与今

文译文之间的篇章级对齐是由相同的文件号来实现的。段落

之间的对齐则是由相同的段落号来实现的。不同于以上两个

级别的对齐,句子之间的翻译关系除了基本的“1:1”模式外,

还存在“1:n”、“n:1”与“m:n”模式。为此,我们把互为翻

译关系的原文或译文中的一个或多个句子称为一个句子对齐

单位,简称句对。TEXT 文档中句子对齐单位之间的翻译关系

是由相同的行号实现的,即文档中独立的一行(注意我们在

语料格式化时是不允许 TEXT 文档自动换行的)就是一个句

子对齐单位,它可能包含一个或多个句子。上文提到,在语

料的格式化处理中,原译文中的句子都是一句一行,因此现

在需要人工进行句子一级的对齐。应该注意的是,文中的标

点符号如感叹号、问号、引号、句号、分号等往往会反映原

译文之间的翻译关系,需要对齐。此外,由于文言文喜用倒

装的关系,翻译时会出现句序问题。如国语卷六第一篇中“桓

公使請諸魯,如鮑叔之言。”应翻译为“于是照鲍叔说的那样,

桓公派人向鲁国提出要求。”也就是说原文对齐单位中有两个

句子 a、b,译文对齐单位中也有两个句子 c、d,且 c 与 b,d

与 a 构成实际的翻译关系;此时,需要人工在译文对齐单位

末尾标上“ba”,以表明单个句子间的对应关系。如果涉及三个

句子间的句序关系,则用“a”、“b”、“c”标记,以此类推。

● 辅助句子对齐工具

译文的质量,一定程度上,可以从句子一级的对齐工作

得以体现。为了保持句子级对齐时的规范性与统一性进而使

问题简单化,应尽量使原文的句子对齐单位只包含一个古文

句子。但鉴于在句子对齐时经常遇到的以下三种情况:⑴ 一

句原文对应多句译文,此时需要将译文的多行合并;⑵ 多句

原文对应一句译文,此时可能需要将译文的一行分割成多行;

⑶ 多句原文对应多句译文。因此需要特殊处理。

图 2 句子对齐工具

为此,本课题专门开发了一个用于句子级对齐的辅助工

具。如图 2 所示,界面分为三部分:左文本框用来显示古文

文本,右文本框用来显示今文文本,并在各自文本框左端显

示行号,且彼此具有对应关系;底部是两个编辑行,上面一

行显示左部当前行文本内容,下面一行显示右部当前行文本

内容。并设定各类功能键完成进行对齐工作时所需的全部相

关操作。

5 语料的 XML 标注

作为一种基础资源,语料库应以一种与平台无关的形式

存在并支持相对广泛的应用,从而便于统一管理以及语料的

共享与交换[4]。而纯文本类型的语料由于缺少其内容结构与含

义之间联系的标记,难于理解与应用。为了发挥语料库的作

用,需要对其进行标注。XML 作为一种元标记语言,允许用户

定义特定领域的标记来描述文档内容的结构和含义,因此又

可以看作一套定义语义标记的规则。作为基于 W3C 定制的开

放标准,XML 能支持广泛的应用,从而成为源文档与交换数据

的理想格式。同时由于知晓文档内容的结构与含义(根据 XML

的语法规则),所以很容易在 XML 文档中进行与上下文有关的

搜索,提高查全率与查准率。因此,我们决定采用 XML 作为

古今汉语平行语料库的标注语言。而语料库标注的内容与语

料加工的深度及应用的目标有关。表 2 是我们制定的句子一

级对齐的古今汉语平行语料库 XML 标注规范。

Page 5: 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以 外,还包含了许多页面显示的格式标记。为了保持语料的纯

96

表 2 古今汉语平行语料库 XML 标注规范

元素 标记 属性 内容

XML 声明 〈?xml version=“1.0”encoding=“GB231”?〉 XML 版本字符编码

文本 〈TEXT〉……〈/TEXT〉 ID=“文本号” 根元素

文本头 〈TH〉……〈/TH〉

类型 〈TYPE〉……〈/TYPE〉 原文|译文|注释

书 〈BOOK〉……〈/BOOK〉 国语|战国策|左传

卷 〈VOL〉……〈/VOL〉 SN=“卷号” 卷名

篇 〈TITLE〉……〈/TITLE〉 SN=“卷内篇号” 篇名

页 〈PAGE〉……〈/PAGE〉 起始页码

文本体 〈TB〉……〈/TB〉

段落 〈PH〉……〈/PH〉 SN=“篇内段落号”

PN=“每段起始页码”

句子对齐单位 〈AL〉……〈/AL〉

SN=“篇内对齐单位号”

SENUM=“句数”

ALC=“句序”

句子 〈SE〉……〈/SE〉 SN=“段内句子号” 句子内容

夹注 〈CO〉……〈/CO〉

SN=“段内注释号”

COC=“注释类型”

COA=“注者”

注释项|

注释内容

由于我们在语料的格式化和句子对齐过程中已经做好了

语料的结构化,因此古今汉语平行语料库的 XML 文档可由对

齐后的纯文本格式语料自动生成。鉴于 XML 文档的结构和内

容是由其语法定义的,因此 XML 支持对文档内容的验证。运

用 XML 模式(XML Schema)可以方便地验证文档的有效性。

表 3 是针对表 2 制定的古今汉语平行语料库的 XML Schema。

表3 古今汉语平行语料库XML Schema

<?xml version="1.0" encoding="GB2312"?>

<Schema name="古今汉语平行语料库标注规范" xmlns="urn:schemas-microsoft-com:xml-data"

xmlns:dt="urn:schemas-microsoft-com:datatypes">

<!--属性说明-->

<AttributeType name="ID" dt:type="id"><!--ID--></AttributeType>

<AttributeType name="SN" dt:type="ui1"><!--序号--></AttributeType>

<AttributeType name="PN" dt:type="ui2"/>

<AttributeType name="SENUM" dt:type="ui1" default="1"/>

<AttributeType name="ALC" dt:type="int" default="1"/>

<AttributeType name="COC" dt:type="enumeration" dt:values="人名 地名 …… 待填" default="待填"/>

<AttributeType name="COA" dt:type="string"/>

<!--顶层标签说明-->

<ElementType name="TEXT" content="eltOnly" order="seq">

<attribute type="ID" required="yes"><!--文本号--></attribute>

<element type="TH" minOccurs="1" maxOccurs="1"/>

<element type="TB" minOccurs="1" maxOccurs="1"/>

</ElementType>

<!--二级标签说明-->

<ElementType name="TH" content="eltOnly" order="seq">

Page 6: 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以 外,还包含了许多页面显示的格式标记。为了保持语料的纯

97

<element type="TYPE" minOccurs="1" maxOccurs="1"/>

<element type="BOOK" minOccurs="1" maxOccurs="1"/>

<element type="VOL" minOccurs="1" maxOccurs="1"/>

<element type="TITLE" minOccurs="1" maxOccurs="1"/>

<element type="PAGE" minOccurs="1" maxOccurs="1"/>

</ElementType>

<ElementType name="TB" content="mixed" order="many">

<element type="PH" minOccurs="1" maxOccurs="*"/>

</ElementType>

<!--TEXTHEAD三级标签说明-->

<ElementType name="TYPE" content="textOnly" dt:type="enumeration" dt:values="原文 译文 注释"/>

<ElementType name="BOOK" content="textOnly" dt:type="enumeration" dt:values="国语 战国策 左传"/>

<ElementType name="VOL" content="textOnly" dt:type="string">

<attribute type="SN" required="yes"><!--卷号--></attribute>

<!--卷名-->

</ElementType>

<ElementType name="TITLE" content="textOnly" dt:type="string">

<attribute type="SN" required="yes"><!--卷内篇号--></attribute>

<!--篇名-->

</ElementType>

<ElementType name="PAGE" content="textOnly" dt:type="ui2"><!--起始页码--></ElementType>

<!--TEXTBODY三级以下标签说明-->

<ElementType name="PH" content="mixed" order="many">

<attribute type="SN" required="yes"><!--文内段落号--></attribute>

<attribute type="PN" required="yes"><!--段起始页码--></attribute>

<element type="AL" minOccurs="1" maxOccurs="*"/>

<element type="CO" minOccurs="0" maxOccurs="*"/>

</ElementType>

<ElementType name="AL" content="mixed" order="many">

<attribute type="SN" required="yes"><!--文内句子对齐单位号--></attribute>

<attribute type="SENUM" required="yes"><!--对齐单位内句子数--></attribute>

<attribute type="ALC" required="yes"><!--对齐单位内句序--></attribute>

<element type="SE" minOccurs="1" maxOccurs="*"/>

</ElementType>

<ElementType name="SE" content="mixed" order="many">

<attribute type="SN" required="yes"><!--段内句子号--></attribute>

<!--句子-->

</ElementType>

<ElementType name="CO" content="textOnly" dt:type="string">

<attribute type="SN" required="yes"><!--段内注释号--></attribute>

<attribute type="COC" required="yes"><!--注释类型--></attribute>

<attribute type="COA" required="no"><!--注者--></attribute>

<!--原文中的注释项或注释中对应的注释内容-->

</ElementType>

</Schema>

Page 7: 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以 外,还包含了许多页面显示的格式标记。为了保持语料的纯

98

三 语料的组织与应用

大量经过 XML 标注的语料要如何有效地存储和查询是

能否充分发挥语料作用的关键。常用方法之一是在成熟的关

系数据库系统基础上扩充相应功能,使其能够胜任 XML 数据

的处理,又称为 XML 使能数据库[5]。微软开发的 SQL Server

2000 和 SQL XML Web Release 提供了强大的 XML 数据管

理功能,这些功能致力于关系数据和 XML 数据之间的映射。

可以使用带有批注的 XSD (AXSD) 来定义关系数据的 XML

视图,以便提供以 XML 为中心的方法,从而支持 XML 数

据的批量数据加载、查询和更新功能。Transact-SQL 扩展则

提供了以 SQL 为中心的方法,以便将关系查询结果映射到

XML(使用 FOR XML),以及从 XML 生成关系视图(使用

Open XML)。而 MS Microsoft SQL Server 2005 除了提供以上

的支持,还新增了原生 XML 支持:XML 值可以自然地存储

在 XML 数据类型列中,而后者可以根据 XML 架构集合进

行类型化,或者保持非类型化;可将 XML 列编入索引;使

用 XQuery 和 XML DML 可以支持细粒度的数据操作。从而

提供了一种强大的平台,以便针对半结构化和非结构化的数

据管理开发功能丰富的应用程序[6]。

鉴于古今汉语平行语料库的用户有普通人员和专业研究

人员之分,而不同方向的研究者由于对象与方法的不同,对

应用的需求亦存在差异,综合各类需求并参照国内外有关平

行语料库的平台系统,古今汉语平行语料库的平台除了应满

足简单便捷、易学易用的要求之外,应包括以下三个方面的

基础工具:⑴ 阅读工具:在各级语料对齐的基础上,实现原

文、译文、注释之间的一一对应与超文本阅读,并提供古文

的断句、古汉语词典以及电子笔记功能。⑵ 检索工具:用户

既可以对语料的范围、时间、作者、题材、体裁进行复合条

件的精确与模糊检索;也可以通过各级索引进行句对、短语、

词汇或任意字符串的集例检索(指在特定语料库中按指定范

围对目标出现的上下文进行提取所得的一个列表),上下文的

长度可由用户自行指定。检索结果既可以按检索项左右字符

的 Unicode 码排序,也可以按检索项左右字符的出现频率排

序。⑶ 统计工具:提供以下统计项的计算,字符串出现的频

次、比例,Bayes 估计,搭配间的互信息、相关度与共现度,

假设检验等。为进一步构建统计语言模型(2 元或 3 元模型,

以及 HMM 模型),实现古今汉语的机器翻译提供计量依据。

四 结束语

根据前述流程和原则,截止到目前,我们已经完成包括

《左转》、《国语》、《战国策》三部著作在内的原文及译文的

校验、对齐工作,得到语料 2988 篇(其中古文 996 篇,译文

996 篇,对齐文章 996 篇),古文约 50 万字,译文约 70 万字,

句子级对齐 37587 古今汉语互译句对。所有语料及对齐句对

都按照合理的规则存储在关系型数据库中。基于这些语料,

完成了自动句对齐算法研究、 相似古文句子检索研究以及

古今汉语平行语料库平台建设。进一步,推进了基于实例的

古汉语机器翻译问题研究,包括构建翻译任务的计算模型,

设计与实现一个实用、开放、易于扩展的古汉语翻译、研究、

应用为一体的工作站。总之,基于业已构建的古今汉语平行

语料库,衍生出了一系列非常有价值的研究课题,现在我们

正在从语料广度(扩充语料)和加工深度(字、词一级标注)

两个方面来进行建设,同时也在朝构建基于 Web 的、大型开

放式的平台方向演进。

运用现代计算语言学的理论、方法与技术来构建古今汉

语平行语料库,无疑会促进汉语语言的研究尤其是历时研究

向纵深发展,深化人们对汉语发展规律及古今汉语共性与差

异的认识。反过来,汉语语料尤其是古汉语语料本身的复杂

性和特殊性也会对中文信息处理技术提出一些新要求,如古

汉语的自动分词、词性标注,古今汉语的自动对齐等,而通

过对这些问题的处理可以促使我们对中文信息处理手段进行

反思,促进信息处理技术的发展和提高。

——————————

参考文献

[1]冯志伟.中国语料库研究的历史与现状[J]:汉语语言与计算

学报, 2002,11(2):127-136.

[2]黄昌宁、李涓子.语料库语言学[M].北京:商务印书馆,2002.

[3]柏晓静、常宝宝、詹卫东. 构建大规模的汉英双语平行语

料库[A]// 黄河燕.机器翻译研究进展——2002 全国机器翻

译研讨会文集.北京:电子工业出版社,2002:124-131.

[4]常宝宝、柏晓静.北京大学汉英双语语料库标记规范[J].汉语

语言与计算学报,2003,13(2):195-214.

[5]MARK GRAVES.XML 数据库设计[M].尹志军.北京:机械工

业出版社,2002.

[6]SHANKAR PAL. Microsoft SQL Server 2005 的 XML

佳 实 施 策 略 [OL]. 中 文 MSDN, [2004-05-07].

<http://www.microsoft.com/china/msdn/library/data/sqlserver/

USXMLandDatabasesql25xmlbp.mspx>.

注释

①胡俊峰 2001 年北京大学博士论文“基于词汇语义分析的唐

宋诗计算机辅助深层研究”

②兰开斯特汉语语料库是由兰开斯特大学语言学系承担建设

并 得 到 英 国 经 社 研 究 委 员 会 资 助 ( 项 目 代 号 :

RES-000-220135)的研究项目。

③以上统计数据源自岳麓书社 2002 年 11 月第 4 版的《古文

观止(言文对照) 》。

④《国语》相传为春秋时期左丘明所作。三国时期吴国韦昭

(204-273)的注本是现存的 早注本。《国语》现存的版本,

有宋代刻印的两种本子,一种是明道本,一种是公序本。

⑤《战国策》相传为战国时期各国史官或策士辑录。西汉时,

Page 8: 古今汉语平行语料库的语料构建mdw.bnu.edu.cn/UserFiles/File/QIANYAN/古今汉语平行...有 HTML、PDF、Word 等。这些文档类型的缺点是除了内容以 外,还包含了许多页面显示的格式标记。为了保持语料的纯

99

刘向进行了整理。东汉高诱曾为之作注。流传到北宋,正

文和注解都有散佚,曾巩作了校补。到了南宋,在曾巩校

补的基础上,出现了两种新本子:一种是姚宏的续注本,

另一种是鲍彪的重定次序的新注本。元吴师道在鲍本的基

础上,又作了补正。

⑥参加翻译校对的有孟琢、王诚、张翼飞、翟伟星、王子杨

等。

⑦表 1 中链接由北师大信息学院硕士研究生郭锐同学在 2005

年 6-7 月间采集,并不保证此时段以外的可用性。

⑧该软件来源 http://www.scootersoftware.com

The Construction of Corpora in a Classic-Cotemporary Chinese Parallel Corpus

SONG Ji-hua 1 HU Jia-jia 3 MENG Peng-sheng2 WANG Ning3

(1. College of Information, Beijing Normal University, Beijing 100875,China; 2. Institute of Linguistic, Chinese Academy of Social

Sciences 100875,China; 3. College of Chinese Language and Literature, Beijing Normal University, Beijing 100875,China)

Abstract: The apparent differences between Classic and Contemporary Chinese make traditional ancient works written in Classic

Chinese difficult to understand by modern people. The Classic and Contemporary Chinese parallel corpus has being built to provide a

platform for those who hope to appreciate Chinese traditional ideology and culture and experts in relative fields to read, translate, retrieve

and compute ancient Chinese works. The construction of corpora is the foundation of building a corpus. This paper explicates the

systematic construction of the open resources of a large Classic and Contemporary Chinese parallel corpus from five steps: designing,

collecting, formatting, bilingual aligning and XML marking.

Keyword: Classic-Cotemporary Chinese; Parallel Corpus; Corpora; XML Marking; Sentence Level Alignment

_____________________________________________________________________________________________________________

北京市推进教育信息化建设工作会议召开

12 月 4 日北京市召开推进教育信息化建设工作会议,会议全面总结了近年来教育信息化取得的工作成绩和基本经验,提出

了今后一个时期首都教育信息化的发展方向、重点工作和保障措施。这次大会是市委教育工委、市教委迅速落实党的十七大精

神一项重要举措。

会议强调,“十一五”期间首都教育信息化建设工作将坚持“统一标准、整合资源、服务为本、和谐发展”的方针,以提

高教育信息化应用服务水平为目标,以资源整合与共享为重心,以构建统一的基础保障环境为基础,以健全教育信息化管理和

运行机制为保障,通过信息化建设促进教育事业发展,逐步形成各级各类教育相互衔接、特色鲜明、优势互补、整体优化的教

育信息化服务体系,初步构建支撑学习型城市建设的基础信息环境。

会议指出,“十一五”期间首都教育信息化工作重点建设三大工程,即电子政务提升工程、数字化学习创新工程和基础设

施优化工程。通过逐级建立一把手挂帅的教育信息化建设决策机构,强化教育信息化建设和管理工作标准,加大信息化建设投

入力度,培养懂管理、业务精的信息化队伍,建立安全监督长效机制等措施,整体推进首都教育信息化发展,加快首都教育现

代化步伐。特别是重点保障基础信息网络和基础数据安全,支持高等院校建立健全信息安全学科和专业设置。

市教委主任刘利民在报告中从五个方面回顾了北京教育系统信息化建设取得的可喜成绩,一是基础设施建设快速推进,初

步搭建了安全、稳定的数字化教育环境;二是教育信息资源和应用建设全面启动,网络服务效益显著;三是运用信息技术提高

教育教学质量,促进教育教学改革;四是教育管理信息化稳步提升,电子政务快速发展;五是普及信息技术教育,提高师生信

息能力。总结了教育信息化建设取得的六条基本经验,一是坚持贯彻科学发展观,符合教育发展规律;二是坚持“一把手”原

则;三是坚持服务为本,为全局工作提供支撑;四是坚持各方面协调发展,推进与保障协调进行;五是坚持市委宏观引导,各

部门积极参与;六是坚持投入力度倾斜,扶持农村教育信息化建设。

副市长孙安民在讲话中强调,各级教育行政部门和学校要以科学发展观为指导,提高认识,加强领导,进一步增强做好信

息化工作的责任感和紧迫感。要采取有力措施,重点在统筹兼顾、资源共享、公共服务、宣传推广和投资渠道上有所创新和突

破,大力推进首都教育信息化建设,全面提升教育教学质量,办好人民满意的首都教育。

市委副秘书长李福祥、教育部和北京市有关委办局领导出席会议,各区县主管教育副书记、副区县长、区县有关委办局领

导、各级各类学校代表以及 IT 企业代表 1000 人参加大会。