日语二语习得研究与学习者语料库

时春慧，刘玉琴

（大连理工大学软件学院，辽宁大连116620）

摘要：随着英语学习者语料库的迅速发展，基于语料库的英语二语习得的研究成果令人瞩目。相比之下，日语二语习得研究范围狭窄，进步缓慢。这与日语学习者语料库建设的不完善有一定关系。日语学习者语料库在规模、设计、语料处理及功能等方面都存在不足，实用性低，导致很难开展基于语料库的习得研究。

教育期刊网 http://www.jyqkw.com
关键词：二语习得；日语；学习者语料库；中介语

中图分类号：H36文献标识码：A文章编号：1671—1580（2014）05—0117—03

基金项目：本文得到大连理工大学软件学院基本科研业务费人文社科专项资助。

收稿日期：2013—12—09

作者简介：时春慧（1979— ），女，黑龙江双鸭山人。大连理工大学软件学院，讲师，硕士，研究方向：应用语言学。

刘玉琴（1964— ），女，辽宁大连人。大连理工大学软件学院，副教授，博士，研究方向：应用语言学。

二语习得研究开始于20世纪60年代，经历了语言对比分析研究、错误分析研究，直至70年代中介语理论的提出，使得二语习得领域有了独立的研究方向，标志着一门独立学科的形成。

以欧美语言，特别是英语语言学习者为对象的习得研究经过50多年的蓬勃发展，无论从理论体系的构建，还是研究方法的多样化、研究内容的深度广度上都取得了丰硕成果。尤其是近年来，国内外大型英语学习者语料库相继建立，基于学习者语料库开展对学习者语言特征的研究越来越多，“成为二语习得研究的新兴领域”。［1］而与英语相比，日语二语习得研究、学习者语料库的建设与应用都存在不足，本文对此进行探讨，希望能为日语教学与相关研究提供一些启示。

一、日语二语习得研究的历程和特点

《日本语教育》（日本日语教育研究界的权威学术杂志）在20世纪70年代初刊载了“错误分析”的专题研究，这被认为是日语二语习得研究的开端。毛文伟曾对《日本语教育》中发表的二语习得相关论文做过统计分析，他指出，日语二语习得研究的发展历程是：20世纪70年代之前，二语习得类论文很少，日语本体研究与教学研究占主导。70年代以后，以日本在全世界范围内推广日语教育为契机，二语习得类论文不断增加，但长期停留在语言对比研究及学习者语言错误分析阶段。而此时欧美二语习得研究已逐渐将学习者语言看做是向目标语言不断发展的独特的语言体系，从学习者错误分析研究步入中介语研究阶段。在日本，直到90年代后，中介语理论才得到普遍认可与应用，各个领域的二语习得研究也逐渐增加。［2］

从以上分析可以看出，日本的二语习得研究虽然起步并不算晚，但与欧美的二语习得研究呈现出不同的特点。欧美语言学界非常注重研究的理论背景与方法论，而日本语言学界的普遍做法是针对某一具体语言现象进行深入分析与细致探讨。日语二语习得研究受这种传统理念影响，注重个案考察，缺少理论类研究，因此，日语二语习得研究发展较慢。在这种背景下，中国国内的日语习得研究空白比较大，仅从日语权威学术杂志《日语学习与研究》中没有设置二语习得栏目可窥一斑。并且，观察国内日语习得相关研究可以发现，语言对比分析与学习者错误研究较多，学习特征与发展规律研究较少；错误分析中罗列错误现象较多，深入细致分析较少；举例时大多摘录于教学中学习者的病句错词，缺乏代表性。这些特点无疑都会阻碍日语二语习得研究的发展。

二、二语习得研究与学习者语料库

目前，国际上许多研究者着重对学习者语言特征进行系统性考察。这就要求研究用的材料不仅要确保足够的数量，还要较为自然、全面，贴近学习者的自然产出，具有较好的代表性。［2］二语习得研究一般采用实证法，具体分为质化法和量化法。前者的典型代表为个案研究、人种志研究。比如，通过对某个学习者进行深入观察和记录，获得详细的特征分类后再解释与归纳，其不足是缺乏大量数据的支持；后者的典型研究方法包括问卷调查、实验研究等，如利用实验手段有意识地诱发学习者的某种语言行为，依靠统计学方法来获得一定量的数据作为论点的依据，但这种方法获得的语料与学习者的自然产出有较大区别，缺乏自然性和代表性。［3］那么，如何弥补两种方法的不足，使其既能保证语料的真实性，又能满足研究对样本数量的要求，便成为了研究者的目标。

语料库语言学的兴起启发了二语习得研究者。20世纪90年代开始，欧美许多学者开始建立学习者语料库，为二语习得研究提供了真实并且大量的语言素材。学习者语料库又称中介语语料库，是一种语言数据库，收集语言学习者的口语和书面语语料。其领军人物是比利时洛凡大学的Sylviane Granger，她于20世纪90年代初主持建立国际英语学习者书面语语料库和口语语料库。对于学习者语料库在二语习得研究中的地位，Granger是这样描述的：“与传统的语言习得研究语料相比，学习者语料库并非通过学习者的主观判断或事后回忆的诱导式方法获得，而是取自于学习者使用目的语的实况，因而具有材料真实、自然、量大、有代表性及用途广等优点。”［3］一个语料库、相同的语料可以同时为不同研究者所使用，从各个角度分析学习者的多种语言特征，验证不同的语言设想，从中不仅可以发现学习者的语言能力发展规律、二语习得过程与母语的内在联系，还可以掌握学习者语言运用中出现的问题和典型困难，为外语教学提供有益启示。

三、日语学习者语料库的现状

（一）发展及概况

1.日语学习者语料库的发展历程

日语不同于欧美语言，表记形式复杂，词语之间没有空格，这些瓶颈导致日本语料库的建设大幅度落后于欧美。日本国立国语研究所在2004年才完成“日语口语语料库”；2005年推出“太阳语料库”；拥有一亿词语的大规模语料库“现代日语书面语均衡语料库”在2011年公开使用。

在这种背景下，建设日语学习者语料库在客观上也存在困难。20世纪80年代末开始起步，90年代停滞不前，从2000年开始才逐渐得到发展，而近两年语料库建设已初具规模，在日语语言教学及二语习得研究领域发挥了一定的推动作用，但总体来看仍然存在很多问题。

2.日语学习者语料库简介

日本现有的日语学习者语料库分为口语语料库与书面语语料库。口语语料库主要有：（1）KYコーパス。（2）日本語学習者会話データベース。（3）BTSJによる多言語話し言葉コーパス。其中，（1）由镰田修等主持建立，1999年公开，收录了参加日语OPI（口语考试）测试的90名学习者话语的文字化语料。（2）由国立国语研究所开发，于2009年公开，包含横向调查篇、纵向调查篇，另外还有学习者与母语话者的对照数据库（発話対照DB）。其中，横向调查数据包含初级到超级水平的日语学习者339名的OPI文字化语料，纵向语料的调查对象有25名学习者，时间是1~2年。话语对照数据库的内容是190名学习者的演讲与对话。（3）的开发者是宇左美まゆみ，2009年公开，收录294组对话，总时长约66小时。其中，带有录音资料的共有136组对话，时间约20小时。［4］

书面语语料库主要有四个：（1）“外国人学習者の日本語誤用例の収集·整理と分析”，由寺村秀夫主持建设，资料报告书于1990年公开，数据库版本在2011年公开。语料采集自20多个国家、339名学习者的约21万字的书面语材料，包括自由作文、会话作文、看图作文等多种形式，并对语言素材中的错误进行了分类标注，但没有修正。（2）“作文対訳DB（日本語学習者による日本語作文とその母国語訳の対訳データベース）”，是国立国语研究所启动的项目，第一版公开时间为2000年，此后进行了几番修订，2009年版本中共收录了20个国家的学习者及日语母语话者的作文共1500多篇，对部分作文进行了类似于纸面批改式的标注。（3）“日本語学習者言語コーパス”，由东京外国语大学海野多枝主持建立， 2011年新版本包含1756篇作文，267442词，其中，有台湾、英国等学习者语料，也有日语母语话者语料。（4）“JLPTUFS作文コーパス”，由东京外国语大学留学生别科建成，并于2011年公开，收入来源于55个国家的1515篇作文。

以上介绍的是日语学界比较有代表性的学习者语料库。除此之外，最近，在日本，相继出现了网络开放式的学习者语料库检索系统，如东京工业大学仁科喜久子研究室开发的“学習者コーパスなたね”（2012年12月公开），筑波大学李在镐主持开发的“日本語学習者作文コーパス”（2013年3月公开）。［5］两者均对语料进行了错误赋码处理，分别收录310篇与540篇（2012年网上公开的仅有205篇）作文。另外，中国国内研究者也积极开展了学习者语料库的建设，上海外国语大学的“中国日语学习者语料库（CJLC）”项目于2008年启动，2012年建成，收录2007~2009年全国日语专业四、八级考试的命题作文2400篇，单词数共计18.8万左右，开发者已将该语料库的设计与应用的相关内容著书并出版。

（二）日语学习者语料库的问题分析

1.语料库规模小

相比英语学习者语料库，日语学习者语料库虽起步较晚，但最近几年呈现出较快的发展趋势。然而，不得不承认，语料库整体规模偏小，收入其中的学习者语料样本少，书面语料库最多为20万词语左右，口语语料库则更少，不能满足一些研究的需要。

2.语料不均衡

由于受收集条件限制，无论是口语语料库还是书面语语料库，其语料都表现出不均衡的特征。一方面，学习者的来源以韩国、中国等亚洲国家居多。语料内容有些是平时的作业、练习，有些则是考试资料。另一方面，有些语料库仅收集了初中级学习者的作文，无法对高级程度学习者的习得情况进行考察。而且，纵观现有的日语学习者语料库，几乎都是收集某一特定阶段的学习者语料，没有针对特定学习者进行长时间的连续性语料收集，也就是说，只能开展横向考察，无法实现纵向研究。

3.语料未经处理或处理不全

Granger曾指出，基于学习者语料库可以开展中介语对比分析和计算机辅助错误分析。前者是在本族语与学习者，或者不同母语背景的学习者之间，展开其输出语言的多元对比分析。后者是以学习者语言中出现的各种错误为对象，利用计算机技术对其进行标注、检索，分析错误产生的根源及对策。但两种研究的前提条件是需要对学习者语料进行词性赋码与错误标注。

很多日语学习者语料库为生语料库，既没有对语料进行词性标注，也没有对错误进行分类标注，如果要使用这些语料进行研究，必然需要研究者各自进行加工处理，届时就会产生不必要的重复作业，极大地影响研究效率。即使有些语料库对语料进行了处理，对学习者的语言错误进行了标注，但由于错误标注无统一标准，开发者基本只能根据主观判断进行分类和标注。此外，虽然目前日语自动词性赋码技术已经日趋成熟，但对语料中的错误进行标注主要还是依赖人工方式，标注质量不一，错标与漏标现象都存在，无法保证以此为基础的研究的准确性。

4.检索与统计功能不完备

建设语料库的最终目的是服务于使用者。如果只是收集了语料，而不能方便用户使用，将会大大降低其价值。成熟的语料库应具备检索与统计功能。观察现有的日语学习者语料库，只有最近开发的个别语料库实现了检索功能，可以上网直接检索，但检索功能有限，不能满足研究需要。比如，我们想调查助动词“ようだ”在学习者语料库中的使用情况，因为有些语料库没有进行分词处理，输入教育期刊网 http://www.jyqkw.com
关键词进行检索后就出现诸如“さようなら”这样的垃圾信息。如果能在检索系统中对词性进行限制，就会避免无用信息的出现。而统计功能的添加则有助于语料的定量分析，提高研究效率。但目前语料库的统计功能或是根本没有，或只是简单的数量合计，不方便使用。

四、结语

学习者语料库的建成为二语习得研究开辟了新途径，为发现学习者中介语形成的规律和特征提供了大量真实、自然的语料。近年来，日语学习者语料库得到了较大发展，但多数都存在一些不足。我们希望通过以上问题的分析，为今后的语料库建设提供有益的参考，同时也希望有更多的研究者参与到学习者语料库本体的研究当中，对语料库建设的标准、规范等展开广泛、深入的探讨，这样，才能开发出更为实用的学习者语料库，满足教师及研究者的多方面需求。

［教育期刊网 http://www.jyqkw.com
参考文献］

［1］文秋芳，王立非.二语习得研究方法35年：回顾与思考［J］.外国语， 2004（4）.

［2］谭晶华，毛文伟.中国日语学习者语料库的构建及应用［M］.上海：上海外语教育出版社，2012.

［3］何安平.语料库在外语教育中的应用：理论与实践［M］.广州：广东高等教育出版社，2004.

［4］望月通子.日本語教育における学習者コーパスの構築とICLEAJ ［C］.関西大学外国語学部紀要，2012（7）.

［5］李在鎬.タグ付き日本語学習者コーパスの開発［J］.計量国語学，2009（2）．