基于汉语标点句的汉英双语语料库创建

    孙晓迪

    

    内容摘要:双语平行语料库对翻译研究、语言对比以及自然语言处理等领域有重要的影响。目前国内外对于双语语料库的研究已经较为成熟,但是仍存在很多问题,使其应用结果受到限制。本文主要考察现有的汉英双语语料库,并指出构建双语语料库需要考虑特定的语言特点对并且应该易于分析和操作,同时就汉英双语而言,本文提出以汉语标点句为对齐单位构建双语语料库。

    关键词:汉语标点句 汉英 双语语料库

    1.引言

    双语语料库是指源语文本和它所对应的目标语言翻译文本构成的文本集合,两种语言对应的文本对之间语言形式虽然不同,但是表达的内容是一致的,是一种双语对齐的语料库。双语语料库对翻译研究、语言对比以及自然语言处理等领域有重要的参考价值。

    构建双语语料库的关键技术之一是双语对齐,从已有的双语语料库的研究来看,有段落、句子、短语、词汇等不同语法层级的对齐,但更多的是句对齐双语语料库,例如最著名的双语对齐语料库就是英语与法语间的句对齐双语语料库(王斌,1999)。汉英双语句对齐语料库也是参照该语料库建立的,虽然国内语料库对于国外起步较晚,但是有关汉英双语语料库的建设及其研究也取得了一定的成就,如燕山大学刘泽权支持建立的“《红楼梦》中英文平行语料库”、北京外国语大学王克非主持研制的一亿词规模的“中国英汉平行语料库”以及上海交通大学杨慧中教授主持建立的JDEST科技英语语篇语料库等。

    目前对汉英双语语料库研究都集中于句对齐算法和模型的研究,但是汉语自身的独特性使得仅对双语对齐模型和算法研究是远远不够的,应该从语言本身出发,考察特定语言的语言特点。同时,句子为单位构建汉英双语语料库的准确率远远不如属于同一语系的英法对齐之间的准确率高。如Brown(1993)在加拿大Hansard语料进行法英句对齐,其准确率可以达到99.6%,而汉英对齐准确率却仅90.6%(李维刚,2006)。

    基于以上原因,本文总结分析已有的汉英双语语料库,指出构建汉英双语语料库从汉英两种语言的语言特点出发,并提出以汉语标点句为参照构建汉英双语语料库的设想。本文接下来的章节分别是第二章总结现有的汉英对齐语料库,第三章描述以汉语标点句为基础构建汉英双语语料库的过程,第四章是对全文的总结。

    2.汉语标点句

    汉语与英语不同,存在着很多省略的现象,尤其是对于主语的省略,此外,汉语句与句间的逻辑关系也少有显化的词来体现。因此,为使汉语和英语处于同一语法层级上,本文提出以汉语标点句为参照构建汉英双语语料库。

    标点句是指汉语书面语篇章中邻近的两个标点之间的词串。这里所说的标点,包括逗号、句号、分号、叹号、问号以及直接引语前的冒号。顿号、书名号、连接号、间隔号、着重号不看作标点句的边界,破折号和删节号出现较少,所以也不涉及(宋柔,2008)。

    在标点句中,如果一个成分或者整个标点句被另一些标点句谈论,也就是前者为后者的话题,后者为前者的说明。话题和它的所有说明组成一个话题结构。(宋柔,2008)例如:

    ①我们把保增长与调结构紧密结合起来;

    ②加快解决制约经济发展的结构性矛盾。

    上句中有两个标点句,其中标点句①具有完整的主谓结构,标点句②则缺少主语,其主语是标点句①中的“我们”。在话题结构中,“我们”被称为话题,该话题被标点句②共享,标点句②的内容是对于话题“我们”的说明。

    基于以上分析,标点句①具备了完整的话题和说明成分,因此是话题自足句,标点句②则只有说明部分,并不是一个完整的话题说明结构,但是由于其共享了标点句①的话题,因此被称作是潜在的话题自足句。大量的汉语语料分析显示,汉语标点句中绝大部分都是话题自足句或是潜在的话题自足句,这是以标点句为参照构建双语语料库的基本依据。

    上句对应的英文译文是:

    ①We closely integrated sustaining economic growth with economic restructuring,

    ②and moved more quickly to resolve structural problems limiting economic development.

    从英文译文看,汉语标点句①对应英文①,标点句②对应英文译文②,英文译文②也是缺少了主语,其主语共享了前一句的主语“We”。从结构上看,译文①是一个完整的主谓句,译文②补足主语后,依然是一个完整的主谓句,且两个主谓句内部不再嵌套其他主谓句,也就是说两部分译文的结构都具有单一性,都可以独立成为更大语言单位的组成部分。

    综上所述,汉语标点句具备使得汉英能够实现较高质量对齐的基本性质,即:(1)汉语标点句是可操作、高覆盖的。汉语的句子不易界定,但是标点句基本上没有歧义。(2)每一个标点句本身是(或潜在是)一个话题自足句,一个话题句就是一个成分完整的命题,而命题具有完整的语义内容,能够较好地在双语之间建立起对应关系,是较为理想的双语对齐单位。

    3.基于汉语标点句的汉英双语语料库创建

    语料库创建包括预料采集、语料对齐以及语料标注等步骤。

    本文自建的语料库是以语言研究为目的专门语料库,虽然理论上语料库的规模应该尽可能大,但是现实因素限制该语料库的规模不可能实现尽可能大,能够满足研究目标既可。为使其能充分代表整体并具有平衡性,本文选取近十年《政府工作报告》及小说《围城》(部分)为本文研究的语料,语料分为中文及其英语译文两部分,共包括16239对标点句对。

    语料对齐是使语料库能够具备语言分析的功能前提。双语对齐首先需要选取适合汉英两种语言的对齐单位,由于汉语标点句本身或者潜在是一个话题自足句,经过标注便能与注重形合的英语处于同一语法层面,因此本文选取以汉语标点句为双语对齐单位进行语料库的构建。双语对齐分为自动对齐和人工对齐两部分。第一步,进行机器对齐,首先输入汉英篇章級对齐的原始语料,根据标点将汉语切分成标点句,为每一个汉语标点句顺序寻找其对应的英文译文,如遇到汉语标点句语序与译文语序不对应的情况,则将汉语标点句合并,直到汉英双方的语序一致为止,最后输出汉语标点句及与之对应的英文译文。第二步,为了提高对齐准确率需在机器对齐的基础上辅以人工校对。

    为使语言特点显化需要对语料库增加文本语言的信息标注,包括词汇、句法、命名实体、语篇结构等,但具体需要根据研究目的确定信息的标注类型。本文为了能够更好实现汉英两种语言的对齐,对语料进行信息显化的标注,如:

    在上例中,汉语中①、③、④标点句都省略了话题“全国各族人民”,为了使每个标点句都变成话题和说明完整的话题自足句,标注出其隐藏的语言信息,其对应的英语译文也是如此,对①、③、④隐藏的信息“we the Chinese people”添加标注。经过标注的语料库基本可以实现中文和英文的一一对应,这是以汉语标点句为单位构建汉英双语语料库的优点,也为进一步提高机器翻译提供参考。

    4.总结

    目前,语料库成为语言研究的热点之一,其质量也直接影响着语言对比、翻译研究甚至自然语言处理的研究效果,而受汉语独特性的影响,现存的汉英双语语料库存在着一些缺点和不足。本文从汉语本身的特点出发,即每一个汉语标点句都可以是或补充成为话题说明完整的句子,因此以汉语标点句为参照构建汉英双语对齐语料库,并对其语言信息进行标注,可以建立一个高质量的汉英对齐语料库,为语言研究及自然语言处理提供更多的语言特征支持。

    参考文献

    [1]Brown P F , Lai J C , Mercer R L . Aligning sentences in parallel corpora[C]//Proceedings of the 29th annual meeting on Association for Computational Linguistics, 1991:169-176.

    [2]刘冬明.汉英双语平行语料库中对齐方法的研究[D].山西大学,2004.

    [3]李維刚,刘挺,张宇,等.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692.

    [4]牛洪梅.服务于汉维机器翻译系统的双语句子对齐的研究[D].新疆大学,2007.

    [5]宋柔,葛诗利.面向篇章机器翻译的英汉翻译单位和翻译模型研究[J].中文信息学报,2015,29(05):125-135.

    [6]宋柔.现代汉语跨标点句句法关系的性质研究[J].世界汉语教学,2008(02):26-44+2.

    [7]宋柔.汉语篇章广义话题结构的流水模型[J].中国语文,2013(06):483-494+575.

    [8]宋柔,葛诗利,尚英,卢达威.面向文本信息处理的汉语句子和小句[J].中文信息学报,2017,31(02):18-24+35.

    [9]尚英,宋柔,卢达威.广义话题结构理论视角下话题自足句成句性研究[J].中文信息学报,2014,28(06):107-113+136.

    [10]王斌.汉英双语语料库自动对齐研究[D].中国科学院研究生院(计算技术研究所),1999.

    (作者单位:青岛大学)