摘 要:留学生汉语中介语语料库的建立与研究,有三个意义:第一,有利于对外汉语教学的多方面研究。第二,有利于全方位探索汉语学习者的语言特征。第三,有利于对外汉语的学科建设。汉语中介语语料库建设的基本思路如下:1.搜集各阶段留学生汉语学习者的语料,同时完整记录每份语料的背景信息,以及语料提供者的详细信息。2.对语料进行加工,包括偏误标注和基础标注。3.将加工后的语料分别存入错别字语料库和语句语料库这两个子库。每个子库包括生语料库、熟语料库、背景信息库三个部分。汉语中介语语料库建设的构成原则有三个:第一,语料的真实性原则;第二,语料的平衡性原则;第三,信息的完备性原则。
教育期刊网 http://www.jyqkw.com
关键词 :汉语 中介语 语料库
中介语(interlanguage)概念由美国学者Selinker于1969年提出,并于1972年在论文《中介语》中进行了详细论述。Selinker认为中介语是由不同心理过程生成的规则构成的一个单一语言系统。中介语理论在20世纪80年代引入我国,对对外汉语教学及相关研究领域发展产生了极大的促进作用。1984年,鲁健骥先生发表论文首次引进“偏误”与“中介语”两个概念,并分析了外国人学习汉语过程中产生语音偏误的五个原因。鲁先生认为,中介语是学习外语的人在学习过程中对于目的语规律所做的不正确的归纳和推论而产生的一个语言系统,这个语言系统既不同于学习者的母语,也区别于他所学的目的语(鲁健骥,1984)。[1]鲁先生的文章在国内学术界产生了巨大影响,此后越来越多的学者开始这方面的研究,使得偏误分析和中介语研究成为第二语言习得研究领域的主要课题。
一、汉语中介语语料库建立与研究的现状
语料是中介语研究的基本材料。而语料的搜集与整理是很繁琐费时的工作,因此,中介语语料库的建设就成了研究者迫切所需。针对留学生汉语学习的语料库是汉语中介语语料库,它是为研究母语非汉语的学生在学习汉语过程中的中介语现象而制作的专门用途语料库。按照国家标准术语的界定,语料库是“……文本的有序集合。各种分类、检索、综合、比较的基础。”[2]
随着计算机技术的发展,我国在20世纪90年代开始有了汉语中介语语料库的建设。第一个建成的是北京语言学院的汉语中介语语料库检索系统,该语料库对语料进行了分词和词性标注(储诚志、陈小荷,1993),收入经过处理的语料约104万字,内容为成篇成段的汉语作文或练习材料。随后有暨南大学留学生汉语中介语语料库,规模达300万字;中山大学留学生中介语语料库,初期收入语料近70万字(张舸,2008),该语料库收录2003年以来留学生的字句练习和作文资料,前期主要进行字、词、句加工标注,后期重点建设汉字偏误标注的语料库,目前语料总数达到约200万字(张瑞朋,2013);南京师范大学外国学生汉语中介语偏误信息语料库,收入作文、练习90万字(周文华、肖奚强,2009);北京语言大学的HSK动态作文语料库,2006年建成,该语料库从1992年至2005年期间两万多份留学生HSK考试试卷中选取了11569名考生的HSK作文答卷,总计424万字,并从字、词、句、篇以及标点符号等角度进行全面标注,是目前汉语中介语语料库中规模最大的语料库。上述语料库除北京语言大学的HSK动态作文语料库面向全社会开放外,其他都只供内部人员使用,外人难以了解实情,因而造成了这样的局面:一方面许多人想用却没法用,另一方面语料库的使用率并不高(任海波,2010)。而面对日益增长的对外汉语教学的多方面研究需求,已建成的五个汉语中介语语料库数量相对较少(张宝林,2010),远远不能满足需求。
目前我们能见到并且可以使用的仅有北京语言大学的HSK动态作文语料库。该语料库只收入参加高等考试的考生作文(初、中等没有写作考试),因而只能对高级阶段学习者的习得情况进行横向的断面考察,而无法对初级和中级学习者的情况进行考察,更无法对学习者的整个学习过程进行纵向的全面研究。其次,HSK动态作文语料库只收入文本语料,偏重的是词汇和句法的偏误标注,对汉字偏误处理较简单,对于汉字习得的研究也缺乏足够的语料支持。再次,HSK动态作文语料库虽然从字、词、句、篇以及标点符号等角度对全部语料中存在的偏误现象进行了标注,但对语料中正确的语言现象并未标注,也就是只有偏误标注而没有基础标注,这就会导致研究中出现某些尴尬的现象,比如查到了学生的偏误,却查不到学生相应的正确语言表达,从而使得全面考察学习者的语言习得情况受到较大限制。上述问题都给基于语料库的相关研究造成了诸多困难。
鉴于此,我们设想建立昆明理工大学的留学生汉语中介语语料库。首先,本语料库基于本校教育在线网络教育平台建立,面向全社会开放,以便资源共享。其次,本语料库将收入零起点、初级、中级、高级各阶段汉语学习者的语料。再次,本语料库将分设错别字语料库和语句语料库。虽然目前我校留学生规模尚不足以支持建立大型语料库,但我们可以先建立一个语料种类齐全,样本较多,标注内容较全面,能够反映各阶段汉语学习者的学习过程与特征的小型语料库。将来如果条件成熟,本语料库可以与其他兄弟院校或国家大型语料库实行对接,甚至共建语料库网,充分实现资源共享。
二、汉语中介语语料库建立与研究的意义
汉语中介语的研究离不开大量真实的中介语语料。而真实的留学生汉语中介语语料的收集,必须依据中介语理论和语料库语言学理论,建立专门针对留学生的汉语中介语语料库。基于昆明理工大学留学生的规模,我们考虑建立针对本校留学生的小型汉语中介语语料库。汉语中介语语料库的建立与研究,有如下几点意义:
第一,有利于对外汉语教学的多方面研究。本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库,依据本语料库可以对留学生汉语学习者的大量语言样本进行量化分析,为汉语中介语研究、汉语二语习得研究以及偏误分析提供真实可靠的语言数据。运用本语料库中的错别字、语句等语料来考察汉语学习者在汉字、词汇、语法等方面的习得情况,可以进行对外汉语教学的多方面研究,例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究以及从中介语的角度来进行汉语本体研究等等。
第二,有利于全方位探索汉语学习者的语言特征。汉语中介语语料库将比较全面地搜集能反映汉语学习者的各种语言属性、个体特征等信息,如姓名、性别、年龄、国籍、是否华裔、第一语言、文化程度、入校时间、年级、学习阶段、学习汉语年限、语料提供时间、语料来源、语料类别等,为全方位探索汉语学习者的语言特征提供参考依据。
第三,有利于对外汉语的学科建设。汉语中介语语料库的建设可以为用户提供一个考察和研究的基础平台,为对外汉语教学和研究服务。将汉语中介语语料库引入对外汉语教学课堂,可以使学生和教师得到丰富的语料资源和在线帮助,增加了汉语学习中的“真实材料”和真实交际,提高了学习的交互性。基于昆明理工大学教育在线网络教育平台,我们还能够以此平台为依托,加强与外界的沟通,促进昆明理工大学对外汉语学科建设的发展。
三、汉语中介语语料库建设思路与构成原则
汉语中介语语料库建设的主要应用是为对外汉语教学的一线教师提供教学和研究服务,以及为外国留学生的汉语学习提供辅助,因此语料库的建设主要注重以上两类服务对象的应用需求。基于此种要求,我们对汉语中介语语料库的建设做了以下几点考虑:
第一,汉语中介语语料库是为研究母语非汉语的学生在学习汉语过程中的中介语现象而制作的专门用途语料库。
第二,中介语语料包括书面语料和口语语料,由于技术层面的原因,口语语料的搜集与加工操作比较困难,我们现阶段只搜集书面语料。
第三,对语料的加工采取人工为主,计算机为辅的方式。具体操作是,在语料分词和词性标注上采用人机互助标注方式,其他语言学方面的标注则采用人工标注方式。
汉语中介语语料库建设的基本思路如下:
(一)搜集零起点、初级、中级、高级、本科各阶段留学生汉语学习者的语料,包括来自平时作业、练习、测试和学期课程考试、汉语水平考试的不同语料。同时完整记录每份语料的背景信息,以及语料提供者的详细信息,如姓名、性别、年龄、国籍、是否华裔、第一语言、文化程度、入校时间、年级、学习阶段、学习汉语年限、语料提供时间、语料来源、语料类别等。
(二)对语料进行加工,包括偏误标注和基础标注。
(三)将加工后的语料分别存入错别字语料库和语句语料库这两个子库。每个子库包括生语料库、熟语料库、背景信息库三个部分。生语料库用于存放扫描的原始图片或语音材料,熟语料库用于存放经过各种加工处理的语料,背景信息库用于存放学习者背景信息和语料信息。
汉语中介语语料库建设的构成原则有如下三个:
第一,语料的真实性原则。语料的真实性主要包含两个层面的意义,第一个方面是指语言水平的真实性,即收入的语料必须是外国留学生真实语言能力的产物,是留学生汉语学习过程中的原始语料,能真正反映留学生的语言水平状况。因此,我们选取的语料主要是留学生在课堂上的随堂练习、课后作业、平时测验和期末考试、汉语水平考试的材料。语料的真实性第二个方面是指语料的忠实性,即收入的语料必须不经任何篡改,要忠于语料的原始面貌,并且对字、词、标点、格式等错误均原样录入,后期对语料的标注也要尽量忠实于其本来面貌,对错误的保存和呈现要能体现出错误特征。
第二,语料的平衡性原则。语料的平衡性主要包含两个层面的意义,第一个方面是指语料来源国别的平衡性,即提供语料的留学生国别比例要尽量平衡。目前来华留学生中学习汉语的韩国、日本学生数量远超其他国家,因而,国内最大规模的语料库,北京语言大学HSK动态作文语料库收录韩、日学生语料数最多。尽管如此,语料库收录语料仍然要确保在一定规模下达到一种分布的平衡。昆明理工大学留学生以东南亚国家,如泰国、老挝、越南等国居多,欧美和非洲国家相对较少。因此,我们在选取语料时要尽量考虑保持语料来源国别的平衡性。语料的平衡性第二个方面是指层级的平衡性,即提供语料的留学生汉语水平分类要合适、比例要尽量平衡。我们对留学生汉语水平的分类按学生自然班级进行,包括“零起点、初级Ⅰ、初级Ⅱ、中级Ⅰ、中级Ⅱ、高级Ⅰ、高级Ⅱ、本科上、本科下”这九个层级。尽管随着学生的汉语水平不同和语言产出能力不同,所能提供的语料数量肯定不等,但在选取语料时我们也要尽量考虑保持各层级比例的平衡性。
第三,信息的完备性原则。信息的完备性主要包含两个层面的意义,一方面是指提供语料的留学生背景信息要全面完整。我们在语料库建设过程中,注重搜集能反映汉语学习者的各种语言属性、个体特征等信息,包括如姓名、性别、年龄、国籍、是否华裔、第一语言、文化程度、入校时间、年级、学习阶段、学习汉语年限、语料提供时间、语料来源、语料类别等,力求能全面覆盖语料提供者背景各方面细节。另一方面是指搜集的语料信息要全面完整,即保证每一篇语料能和学生背景信息一一对应,并且最好能随着学生阶段和水平的提升采集跟踪信息,使语料信息能覆盖语料提供者的各个学习阶段和不同水平层次。
四、结 语
留学生汉语中介语语料库的建立是个复杂的工程,要建成大规模的语料库,需要一个大型团队的力量和各方面技术的支撑。限于人员和技术的因素,目前我们仅能建设小型的汉语中介语语料库。但是在语料库的建设过程中,我们积累了宝贵的经验,对于整个语料库的建设流程有了深切的亲身体验,对于语料库建设过程中的一些困难与问题也有了体会和克服的经验,尽管由于能力所限,我们只能说是在语料库建设方面做了一些尝试,但这些有益的尝试为今后的进一步研究打下了良好的基础。
(本文为昆明理工大学人才培养基金项目,项目编号[KKZ3201253001]。)
教育期刊网 http://www.jyqkw.com
参考文献:
[1]鲁健骥.中介语理论与外国人学习汉语的语音偏误分析[J].语言教学与研究,1984,(3).
[2]国家标准总局.汉语信息处理词汇01部分:基本术语[M].北京:中国标准出版社,1997.
[3]储诚志,陈小荷.建立“汉语中介语语料库系统”的基本设想[J].世界汉语教学,1993,(3).
[4]张舸.程度副词结构作状语、谓语和补语的语义及句法差异[A].“第二届中青年学者汉语教学国际学术研讨会”资料汇编[C].北京,2008.
[5]张瑞朋.三个汉语中介语语料库若干问题的比较研究[J].语言文字应用,2013,(3).
[6]周文华.基于语料库的外国学生兼语句习得研究[J].语言教学与研究,2009,(3).
[7]任海波.关于中介语语料库建设的几点思考——以“HSK动态作文语料库”为例[J].语言教学与研究,2010,(6).
[8]张宝林.汉语中介语语料库建设的现状与对策[J].语言文字应用,2010,(3).
(王兰 云南昆明 昆明理工大学国际文化交流学院 650093)