朱 筠 刘智颖 晋耀红
摘 要:词性作为划分词类的依据一直是信息处理中一项重要的知识属性。但是,词类更多地偏重于词语在句子中的语法功能,而忽略了词语意义对句子分析的作用,语言信息处理需要更有效、更细致的词语分类。为此,本文引入概念类别的信息,并且展示其在汉英机器翻译中的应用。通过具体描述给出概念类别及其与词性的对应关系,指出概念类别可划分为抽象概念和具体概念两大类型,抽象概念中又包括动态概念、静态概念、属性概念和逻辑概念,并对概念的所指及应用做出了描述。随后,本文对概念类别与词性的关系和差别做出了解释,并给出了概念类别与词性的对应关系。最后,本文描述了概念类别信息在汉英机器翻译中的具体应用,指出概念类别在汉英机器翻译的分析模块和转换模块(如小句转换、Eg识别、格式转换和辅块识别等)中均发挥着重要的作用。
教育期刊网 http://www.jyqkw.com
关键词 :词性 概念类别 机器翻译
一、引言
词性作为划分词类的依据一直是信息处理中一项重要的知识属性。在词语处理乃至句类结构分析中占有重要的地位。不过,词类更多地偏重于词语在句子中的语法功能,而忽略了词语意义对句子分析的作用,并且词类划分的标准过于粗略,未能从细节上对词语进行描述和区分。在语言信息处理中,对语言现象的分析和研究需要更有效更细致的区分,为此,HNC引入了词语的概念类别的信息。在概念类别中,不仅包含了词类的信息,同时还融入了语义的分类信息,并且构建了汉语词语知识库,对概念类别信息进行了标注。
在汉英及其翻译中,我们对概念类别与词类进行了对照,在源语言(汉语)分析阶段采用词类信息,并将词类信息中的关键类型LV概念作为句子分析的激活点,辅以相应的分析规则,完成目标语的分析。在目标语(英语)生成阶段,由于英语的形态特征比较明显,我们使用词性作为生成的依据,辅以相应的转换生成规则,完成目标语的转换与生成。
本文的工作已经应用于汉英专利文献机器语义翻译引擎中,作为语义翻译引擎的重要基础,发挥着支撑作用。经过测试,语义翻译引擎在小句转换、Eg识别、格式转换、辅块识别、并列结构识别中都有很好的应用效果,使得这些部分分析处理的正确率能够达到80%以上。
二、相关工作
概念层次网络理论[1]是一种服务于语言信息处理的关于语言的语义处理理论,自该理论产生之初,就已经提出了概念类别的划分方法,用以丰富单纯以词性作为划分词语的标准。
《HNC理论(导论)》[2]中,列出了概念类别划分的具体类型,并配以实例说明。但是概念类别的表述过于繁琐,且未对概念类别进行广义和狭义的区分。
长期以来,基于HNC理论的研究一直将概念类别作为重要的知识属性加以利用,在句类分析系统中,LV概念已经作为句类分析的激活点服务于句子结构的判断和语义块边界的辨识[3]。例:但这些信息未能直接在应用系统中进行检验。
概念关联知识是指概念节点、概念集群、概念类别之间关联性的各级类别表现。这是一张非常烦琐而脉络分明的关系网,其内容构成了概念关联知识库。
这些研究和应用都是在一种语言范围之内,尚未涉及到两种语言之间的对应问题。
张克亮[4]基于HNC理论开展了面向机器翻译的汉英句类及句式转换研究,探讨汉英句类及句式转换的一般性规律。李颖[5]研究了HNC机器翻译中语义块构成变换问题。
这些研究也仅停留在理论研究和构想阶段,对概念类别的描述仅是理论层面的,而且是片面的。对概念类别和词性之间的关系并未做具体的考察和对应,也未能对概念类别和词性两种信息在实际应用中的表现做出清晰的比较和判断。
本文集中于语义知识库中概念类别知识属性的研究,目前语义知识库已经包含了5万常用词语的知识,覆盖了500篇专利文献。另有30万专利领域词库,共计35万条词语。知识库服务的对象主要是汉英专利机器翻译系统。文本为说明概念类别而举的例子也都来自专利文献。
三、广义概念类别与狭义概念类别
本文的研究是建立在汉英机器翻译应用的基础上,所得的研究成果直接应用于汉英专利机器翻译的实际中。概念类别作为知识库中一项重要的知识属性,对其的标注直接得到翻译系统的检验,根据调试过程中反馈的结果对知识库进行修改和调整,做到知识库和翻译系统同步更新,极大地提高了翻译系统的性能。
概念类别是表述概念的语义类别特征的符号。概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识,是进一步调用其他知识的激活信息。
我们根据词语在汉英机器翻译具体应用中的表现,对概念类别进行了重新的调整和分类。首先,我们把概念类别划分为广义和狭义两大类,以服务于不同层面的语义分类需要。
(一)广义概念类别
广义概念类别是对词语语义信息的广义概括,可以看作是对词语语义的一级分类。分为人(P)、物(W)、静态概念(G)、动态概念、属性概念和逻辑概念六大类型。
概念是思维的基本形式之一,是人类在认识过程中把所感觉到的事物的共同特点抽取出来,加以概括而形成的。HNC首先把概念分为抽象概念和具体概念。抽象概念和具体概念是概念的两大分野,这一划分对知识表示具有非常重要的意义。具体概念可以分为人和物两大类(对应于名词),抽象概念可以分为动态概念(对应于动词)、静态概念(对应于名词)、属性概念(对应于形容词和副词)和逻辑概念(对应于虚词)四类。这些概念类型共同构成了广义概念类别的整体。见表1。
在知识库中,语义知识属性表示为Feature[Value]的形式,Feature表示知识属性名称,Value表示属性的取值。广义概念类别用GCC表示,如人员的广义概念类别是人,则表示为GCC[P];提供的广义概念类别是动态概念,则表示为GCC[V]。
(二)狭义概念类别
狭义概念类别是对词语语义信息的具体分类,概念类别的基元经过组合,可以构成复合型概念类别。这样,广义概念类别就可以细化为很多具体的概念小类,用以解释概念之间的细微差别。在汉英机器翻译应用中,我们共定义了41种狭义概念类别,相比汉代汉语13种词性的分类[6],更加细化。
1.具体概念
在广义概念类别中,具体概念包括人和物两大类。在狭义概念类别(以下简称概念类别)中,我们把物又分为两小类:自然物ww和人造物pw。用以区分该物的形成是否有人类活动参与,这一信息对于句子中谓语动词的语义角色选定具有重要的限制作用。
2.抽象概念
抽象概念在广义概念类别中划分为动态概念、静态概念、属性概念和逻辑概念四类,每一类又可分为若干小类,这就是狭义概念类别(CC)。下面分别描述。
(1)动态概念
动态概念是抽象概念五元组特性之一。抽象概念需要从动态、静态、属性、值和效应五个侧面加以表述,这就是抽象概念的五元组特性。在狭义概念类别中,动态概念分为“v”和“vv”两小类。
“v”是一般意义上的动词,如“提供”“公开”等。
“vv”是动词中的特殊小类,用以描述后面须接动词的“v”,如“试图”“进行”“予以”等。这些词语本身具有动态含义,但在句子中不能单独作为谓语,必须在其后补充一个动词共同构成谓语部分,后面的动词才是谓语的中心。vv类词语作为谓语的一部分出现在句子中。
(2)静态概念
静态概念是相对于动态概念而言,我们可以把它看作抽象概念中的名词类。包括:静态概念g、值概念z、效应概念r、时间概念j1、空间概念j2、数j3、名量概念zz、动量概念zzv、综合概念s。
可以这样认为,g是一般的名词,而z和r是从名词中分离出来的。z表达的是概念的“值”,对值的表达是与数量密切关联的,因此把这个特性独立出来表达显然有利于联想脉络的建立。例如:
(1)厚度为0.3毫米的白色人造纤维布料(0.3 millimeter white artificial silk cloth)
在这个短语中,汉语中“厚度为0.3毫米”是一个小句形式,作后面中心语的修饰成分,翻译为英语则是一个定中短语的形式。这种汉英结构上的转换只靠词性来区分是不够的,必须做进一步限定,汉语小句的结构是“z+为/是+j3+zz”,也就是说,在这个是字句中,主语由值的概念充当,宾语由数量概念充当。如果这样的小句结构做定语,那么转换为英语时,直接变为“j3+zz+z”的结构,也就是数量短语直接修饰值概念,放在值的前面。
g和r都是静态表达的名词,但分别代表因果两极。把两者区别开来,有利于概念的局部联想。
时间概念j1、空间概念j2和数j3都源自于基本概念语义网络,这些概念类别主要服务于时间短语、空间短语和数量短语的辨识。
综合概念s高度抽象的一类概念,主要服务于辅语义块后边界的辨识和包装句蜕的包装品(小句的外围部分)。如:
(2)含水涂料组合物可以通过浸涂或辊涂的方式来施加。(The aqueous coating composition can be applied by dip coating or roll coating.)(辅块)方法
(3)因玻璃渗漏或结构缺陷而失效的时间将推后。(The time to failure due to glass leaks or structural weakness will occur later.)
例句(2)中,“通过浸涂或辊涂的方式”在句子中做辅语义块,“方式”一词位于辅语义块的末尾,作为辅块和其后面的特征语义块(谓语部分)划分的边界。静态概念的分类及与词性的大体对应关系可如下表:
(3)属性概念
属性概念是修饰限定成分。大体上对应于词性中的形容词和副词。属性概念与被修饰限定成分之间的对应关系更为具体明晰。依据被修饰限定成分的不同,可以进一步分为若干小类,将形容词类属性二分为修饰具体概念的属性x、修饰抽象概念的属性ug和可独立做谓语的u属性;将副词类属性二分为修饰动态概念的属性uv和修饰属性概念的uu属性。具体如下:
x:是具体物的物性,修饰限定名词性具体概念人(P)和物(W),对应于形容词。如:“白色”的概念类别是x,所修饰限定的成分一定是具体物。可组合成白色光(white light),白色颗粒(white particles)等。
ug:静态概念的修饰性成分,修饰限定静态概念g、值z、效应r、综合概念s及时空概念等,对应于形容词。
u:独立的属性,用于描述可以独立作谓语的属性,也就是说,具有该属性的形容词类概念可以构成形容词谓语句。在英语语言中,也就是该类属性可以充当系表结构中的表语。这对汉英句式转换具有重要的指示作用。
uv:动态概念的修饰性成分,修饰限定动态概念v,对应于副词。
uu:描述属性的属性,修饰限定属性成分ug、u、uu、x等,也可以修饰限定动态概念。
属性概念的分类及与词性的大体对应关系可如下表:
(4)逻辑概念
逻辑概念是HNC语义网络中的一类重要概念。用于语言单位的组织与连接,大体相当于虚词。按语义及功用可分为语言逻辑、语法逻辑和基本逻辑。
1)语言逻辑
语言逻辑服务于语义块的整体辨识、语义块内部构成的分析及句间信息的提示和表达。具体如下表:
语言逻辑概念根据其在句子中所充当的作用及所处的位置,分为12小类。其中l0-l3服务于语义块的整体辨识,用来识别句子中主辅语块的前后边界。例如:
(4)使用者将某操作系统308安装到计算机310中。(A user loads an operating system 308 into a computer 310.)
这里“将”的概念类别是l0,由它把两个主要语块“使用者”和“某操作系统308”分开。
L4-l5作为语义块内部逻辑组合符号,服务于语义块内部构成的分析,用来连接词或短语片段,组成一个语块。例如:
(5)依照本发明的文档处理系统主要包括应用软件、接口层、文档库系统和存储设备。(The document processing system in accordance with the present invention includes an application,an interface layer,a docbase management system and a storage device.)
这个句子中,“包括”的各对象之间通过顿号和组合符号14“和”连接,共同构成宾语。
同样道理,L6-l7服务于特征语义块的内部构成,l8服务于辅语义块的内部构成,l9指代逻辑服务于广义对象语义块的构成,la和lb分别服务于句内和句间信息的提示和表达。
这一组概念类别的设立就是为语义块感知和后续的语义块组分处理提供激活信息。
2)语法逻辑
“语法”概念用于描述语言使用的习惯。服务于语言表达方式的辨认(包括修辞)和特指语词的辨认。语言中(以汉语为例)一些句式的表达涉及到语言习惯问题,构成这些句式的特征词就用语法逻辑概念描述。例如:正反问句的表达需要特征词“是否”“是不是”,这些都归为语法逻辑类型。
尽管这些特征词在很大程度上相当于副词的语法功能,但这些词更可能是作为连句成篇的构成单位,而且不同语种使用的手段也会不同,所以,把它从副词中单列出来。
3)基本逻辑
基本逻辑概念涉及基本判断,用于判断命题的基本内容:是否和有无。此处的基本逻辑概念类别主要描述的是充当属性概念的基本逻辑,这类概念一般位于特征语义块的前面作为特征语义块的逻辑修饰语。服务于特征语义块的情态辨认。如“能够”“应该”“必须”等,大体对应于词类中的情态动词。
概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识。对语言现象的描述有粗细之分,相应的概念类别也分为广义概念类别和狭义概念类别,用以匹配不同层级的知识特征。狭义概念类别是对广义概念类别的细化描述。在汉英机器翻译应用中,狭义概念类别的应用对语块的内部构成,语块边界的确定乃至整个句子的分析都具有重要的支撑作用。是知识库中一项重要的词语属性特征。
四、概念类别在汉英机器翻译中的应用
基于HNC理论搭建了面向专利文献的汉英机器翻译系统大体上包括预处理模块、源语言分析模块、过渡转换模块和目标语生成模块几个主要部分[7]。概念类别的知识在各个模块中都发挥着自己的作用。下面我们主要介绍概念类别在分析模块和转换模块中的应用。
(一)在分析模块中的应用
源语言分析模块主要依据知识库提供的各项知识与分析规则库对文本进行分析,得到句类分析树。
例如,在辅块识别中,对于辅块边界的辨识我们可以依据语言逻辑概念类别。对于辅块标志符我们可以用l1表示,在分析规则(0)LC_CC[l15]+(f){(1)LC_CC[l1h]}=>LC_TREE(L1,0,0)+LC_TREE[BK,0,1]+LC_TREE(L1H,1,1)$时,就主要利用了概念类别信息。“(0)”表示规则调用的起始位置,“LC_CC”表示在语块中词语所具有的概念类别信息,“LC_TREE”表示生成树节点。这条规则的含义是,如果在句子中找到一个词语的狭义概念类别为l15(辅块前边界标志符),且其后面还能找到一个狭义概念类别l1h(辅块后边界标志符),则将两个词语各自在句子中生成节点,且将其与中间的部分生成一个语块BK。这样,一个完整的辅块就可识别出来。
(二)在转换模块中的应用
过渡转换模块主要依据句类分析树以及转换规则库,通过各种调度操作,将汉语句类分析树转换为符合英文表达习惯的目标语句类树。
例如,在并列结构中,有标记名词性并列结构各并列成分的中心语在语义类上显现出一定的相似性,在我们的研究中更细化为词语的概念类别。我们可根据紧邻并列连接词前面的词的概念类别向后寻找相同概念类别的词作为后边界,根据紧邻并列连接词后面的词的概念类别向前寻找相同概念类别的词作为前边界[8],可描述为如下规则:
(-1)LCR+(0)CHN[、]+(f?){(1)CR}=>LC_TREE(AND_TH,1,1) +LC_TREE(ANDMK,0,0)$
(b?){(-1)CR}+(0)CHN[、]+(1)RCR=>LC_TREE(AND_TQ,-1,-1)+LC_TREE(ANDMK,0,0)$
其中“C”表示词语的概念类别(Category),“LCR、RCR”分别表示紧邻并列连接词前、后的词的概念类别,“CR”表示分别向前或向后找到的与LCR或RCR相同的概念类别。
五、结语
本文全面阐述了概念类别的具体内容并给出了概念类别与词性的对应关系,指出概念类别可划分为抽象概念和具体概念两大类型,抽象概念中又包括动态概念、静态概念、属性概念和逻辑概念,并对概念的所指及应用做出了描述。随后,本文对概念类别与词性的关系和差别做出了解释,并给出了概念类别与词性的对应关系。最后,本文描述了概念类别信息在汉英机器翻译中的具体应用,指出,概念类别在汉英机器翻译的分析模块和转换模块(如小句转换、Eg识别、格式转换和辅块识别等)中均发挥着重要的作用。
下一步的工作是,继续扩大词语知识库的规模,在对目标语(英语)的语言特征进行全面细致把握的基础上,标注英语词语的概念类别信息,并结合英语词语丰富的形态变化特征,配合汉英机器翻译引擎的研发,完成英语生成模块的知识库资源构建,以提高翻译系统的生成效果。
(本文受到国家高技术研究发展计划[863课题,项目号:2012AA011104]、中国博士后科学基金资助项目以及中央高校基本科研业务费专项资金的资助。)
教育期刊网 http://www.jyqkw.com
参考文献:
[1]黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版社,
1998.
[2]苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出
版社,2005.
[3]晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:
科学出版社,2006.
[4]张克亮.面向机器翻译的汉英句类及句式转换.开封:河南大学
出版社,2007.
[5]李颖,王侃,池毓焕.面向汉英机器翻译的语义块构成变换[M].
北京:科学出版社,2009.
[6]胡裕树.现代汉语[M].上海:上海教育出版社,1995.
[7]朱筠.基本句群处理及其在汉英专利机器翻译中的应用[D].北京:北京师范大学博士学位论文,2013.
(朱筠 刘智颖 晋耀红 北京师范大学中文信息处理研究所 100875)