赵伶俐
摘要:2013年中国教育部启动的第二轮本科教学评估,与首轮评估最大不同点在于以“教学基本状态数据”为主要依据,对“人才培养目标与培养效果的实现状况”进行自查、专家审核与指导。同年问世的译著《大数据时代》,将大数据定义为基于网络收集和分析海量数据以明了现状、问题和预测趋势的一种方法,这正是第二次评估以“教学基本状态数据”为依据所必须面对和解决的问题。从《大数据时代》“量化一切”的世界观、数据思想、和富于创见的命题1“不是随机样本,而是全体数据”所提示的分析技术中获得有益启示,避免陷入命题2“不是精确性,而是混杂性”、命题3“不是因果关系,而是相关关系”的逻辑误区,是本轮教学评估必做的功课。
关键词:本科教学评估;大数据;量化一切;三大命题;启示;警示
中图分类号:G642.0文献标识码:A文章编号:1671-1610(2015)02-0095-08
基金项目:重庆市教育委员会重大委托项目“重庆市高校办学规模核定理论与模型研究”,项目编号:104520-40700214;重庆市社会科学规划重点委托项目“教师专化发展与视点结构教学理论技艺系统研究”,项目编号:2013TBWT02。
收稿日期:2014-10-23
作者简介:赵伶俐,女,心理学博士,西南大学教育学部教授,博士生导师,主要从事高等教育课程与教学论、高校美育研究;重庆,400715。
2013年,分别发生在教育界和出版界的两大事件,看似无关,却有内在不可小视的必然关联。一是中国教育部悄然启动的第二轮高校本科教学评估,即“本科教学审核评估” [1] ;一是译著《大数据时代》 的问世,及其伴之兴起的“大数据”观念、思维与技术向各行各业各领域的神速辐射。毫无疑问,参与本轮评估的学校和专家,以及本次教学评估实施过程方法与目标达成,将或显或隐受到后者积极或消极影响。基于第二轮教学评估的这一特点,讨论《大数据时代》和大数据分析问题,具理论价值,更具实在的现实价值。
一、“教学基本状态数据”依据与大数据
教育部领导和推行的全国高校第一轮本科教学评估(1997-2007),重在办学条件达标,且主要以实物与纸质文件为据;起于2013年的第二轮本科教学评估重点则发生了重大变化,在所颁发的《开展普通高校本科教学工作审核评估通知》(以下简称《通知》)中确定评估的要核是:对“学校人才培养目标及其实现状况”进行自查、专家审核与指导;并强调尊重办学自主权和推进多样化;而实现这一切的前提依据便是各校提供的 “教学基本状态数据”。配套颁发的《普通高等学校本科教学工作审核评估方案》(以下简称《方案》),将评估内容或范围具体化为“6大项目”、“24要素”和“64要点”,可简称“62464评估”(见表1)。
换句话说,每个受评估大学都必须按“62464评估范围”来建构或重组教学相关数据结构及分析模型,据此完成《方案》所规定的《自评报告》、《教学基本状态数据分析报告》和《本科教学质量报告》;专家对这三份报告进行考察审核,并结合查阅材料、个别和集体访谈、观摩课堂教学、考察实践教学与设施等,形成“写实性”《审核评估报告》。而“62464评估范围”或指标,对于动辄数千数万师生以及十分具体的教学运行信息来说,要转化成可以运算和分析的数据,这本身就是一个相当大的难题。再汇聚地区的数十所大学,全国的数千所大学的教学数据,那就是名副其实的“海量数据”!如果借助云计算平台, 就可以建立中国高校本科教学数据中心,随时随地分析中国大学本科教学总体和各级运行走势、质量、问题[2], 并有针对性调整教育政策了。这应该是本轮教学评估有望实现的理想预期。
某种意义上,能否建立具有国家系统参考价值的大数据库及分析模型,也成为了本轮各级各类高校教学管理信息化水平的展示与角力。
二、《大数据时代》 :量化一切与三大命题
与本轮教学评估启动同年出版的译著《大数据时代》 ,到2014年4月才一年零三个月,就已经印刷了11次,并获“中央国家机关2013年推荐读书”、“2013年度中国影响力图书”、央视首届“中国好书”等20多个奖项。360导航检索,“大数据”概念,65%以上与“大数据时代”或《大数据时代》相关。
该书从公元前3000年到当前,追述了人类量化万事万物的“雄心”,掷地有声地指出:“量化一切,数据化的核心”[3]105。数字化是用数字符号如1和0两个数字的组合来表征信息,或为信息命名;数据化,则是将数字化信息转化为可以参与计算或数学分析的数量。数据化的本质是对事物和现象的数量化,简称量化。谷歌将原来仅供阅览的数字化图书,进行了数据转化,于是这些图书就有了关键词检索、作者分析等更多用途。亚马逊早就有数据化图书,或许因版权问题,它的读者迄今也最多能在上面做阅读符号,不能进一步挖掘出数据潜在的价值[3]113。由此,《大数据时代》提炼出“本质上世界是由信息构成的” [3]125亦或“世界的本质就是数据” [4]推荐序二的量化世界观;以及与之相关的“不是随机样本,而是全体数据” [3]27、“不是因果关系,而是相关关系” [3]45、“不是精确性,而是混杂性” [3]67等三大实证方法论;并与“数据、思维、技术三足鼎立” [3]157 纵横交织,构成了论证体系[5]108-112。一个典型的TVS(Teaching of Viewpoint?Strueture Model)视点结构[6]。虽然本书所持观念和分析思想如下所述还有商榷余地,但其锐意创建、实例丰富,分析透彻,加之简明形象的文风,不愧此类“迄今为止我读过的最好的一本专著,中英文都算上。”[4]推荐序二
三大命题作为信息化的实证方法论和数据分析的基本指导思想,是对传统统计学理论与技术的颠覆。非同凡响,但是也存在偏颇。其对各行各业各领域,包括对第二次本科教学评估,启示与警示同在。
三、 教学数据采集:命题1“样本=总体”的启示
命题1“不是随机样本,而是全体数据”,也就是说“样本=总体”。[3]27 此乃《大数据时代》量化世界观[5]108-112的第一方法论。所谓总体“指具有某种特征的一类事物的全体又称母体”;“构成总体的每个基本单元称为个体”;“从总体中抽取出来的一部分个体,称为总体的一个样本。”[7] 信息化之前,要获得某系统尤其复杂系统的全数据或大数据,非常困难。于是传统统计学假设“样本可以代替总体”,且证明了这是在小数据情况下合概率的策略。因此“样本分析……也可以被视为那个时代的产物” [3]37。本文作者曾负责一项重大攻关项目的调查设计,按照11大类31小类公民群体,在全国31个省市、62个城市、1860个调查点,共抽取调查对象33480人。[8]仅发放回收和机读问卷、建立数据库和初步分析,就用了近两年时间。这称得上人文社科中较大规模的抽样调查了,但与“中国”总体相比,依然是样本小数据,且未必精准。
大数据(Big data),“是指不用随机分析法这样的捷径,而采用的所有数据分析的方法” [3]19。“所有”,指现存拥有的全部数据。如在某机构,或学校、教师、学生、管理者的计算机以及“感应器、手机导航、网站点击和Twitter”等中现存的,所有文字、图形、声音等各种类型的复杂的海量数据。“信息社会带来的最显性变化,就是每个人口袋里都揣有一部手机、每台办公桌上都放有一台电脑,每间办公室内都有一个大型局域” [3]8 等,这些电子设备随时随地为人们提供沟通方便,也随时随地收集和积累着每个人的心理与行为变化。大数据、云计算一提出来,就是冲着复杂性而来的,其“量大”,可以大到不是以G或T,而是以P(1000个T)、E(100万个T)或Z(10亿个T)来计量;其“复杂”可以包容所有类型信息的混杂。
迄今仍有学者坚持说人文社会学科不可量化。事实上,19世纪人类就已经创建了以量化和实验为基础的心理学(1879)和实验美学(1876)[9],且今天各种数字化、数据化的心理与艺术产品,比比皆是[10],各级各类教育教学积累的海量数据已甚为可观。“过去不可计量、存储、分析和共享的很多东西都被数据化了”,“标志着人类在寻求量化和认知世界的道路上前进了一大步” [3]23,“创造了前所未有的可量化的维度”故“更多的改变正蓄势待发” [3]17。
然而很遗憾,“我们的方法和思维却没有跟上这种改变” [3]37。笔者刚评审了一项有关学习与发展评价的重大招标课题,提交的四份投标报告,一份纯理论研究;三份拟采用问卷或田野调查法,清一色都在抽样思路上。首席专家们都未意识到在自己、学校和各级考试管理机构的计算机与网络等中,已触手可及大量相关数据,足可直接用以分析和实现课题目标。再费力费物费心去抽样获取数据,无异丢了西瓜拣芝麻。
大数据分析观念“样本=总体”下,传统分析方法的难度——数据采集——已经不是难度。要像谷歌,不要像亚马逊。仅仅这一数据化思想,对以“教学基本状态数据”为主要依据的教学评估来说,最直接的借鉴意义就是各被评估大学要统整旧有数据或新建数据库。至少根据“62464评估范围”规定的大小内容,从人才培养方案、目标,课程、到教师教学过程、备课、PPT、作业布置、修改和点评、文献阅读指导、考核、试题库,以及学生作业、听课笔记、学习日记、阅读痕迹、分享交流等,无论文本、图片、音频、视频等信息,都必须转化为可再编辑或运算的数据而不仅是数字。这就是所谓“当文字变成数据” [3]109、“当方位变成数据”[3]113、“当沟通变成数据” [3]119、当人从身体到心理都实现了“自我量化” [3]123,即实现了“世间万物的数据化” [3]123, “我们就可以在更多领域、更快、更大规模地进行数据处理了” [3]125。
最关键的问题是面对几乎无处不在的、类型复杂关系不清的海量数据,是否具有分析或数据“提纯”能力。在恰当的分析方法支持下,“数据就像一个神奇的钻石矿”,“取之不尽,用之不竭” [3]127,就能基于数据,知道过去,分析现在,预测未来了。而这,与数据观念、统计原理、概率数学、分析方法、IT科技、以及各自然学科、各人文社会学科、乃至哲学,世界观与方法论等等,都高跨度关联。
我们的大学,都已具备这样的“提纯”能力,有足够高跨度的专家和数据技术人才了吗?
四、教学数据分析:命题2、3的创见与警示
《大数据时代》命题2 “不是精确性,而是混杂性” [3]45、命题3“不是因果关系,而是相关关系” [3]67,阐述了大数据分析的基本思维和技术,创造性论证了对各种类型混杂数据进行相关分析的可能与价值,认为“建立在相关关系分析法基础上的预测是大数据的核心” [3]75 等。然而,其论证过程,明显存在重相关贬因果,重混杂贬精确的倾向,还有若干逻辑矛盾,使得这两个命题很快就演化成了要混杂,不要精确;要相关,不要因果,“我们乐于接受数据的纷繁复杂,而不再追求精确性”,“我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。”[3]29 “社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好处。”[3]23 “也就是说,只需要知道是什么,而不需要知道为什么。”[3]9 “当我们知道了‘是什么’的时候,‘为什么’其实没那么重要了。” [3]88-89
难怪有对该书的简介认为,《大数据时代》最具洞见之处是阐述了“放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道‘是什么’,而不需要知道‘为什么’。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战” [11] 等。
很遗憾,本文作者认为这不是洞见,恰是漏洞所在。
宇宙万物是普遍联系的(马克思主义哲学的基本命题之一)。A、B、C、D……同在一个系统中,彼此关联,互为因果。A是B的原因,相对Z就可能是结果。暂时不能确定哪是因哪是果,就统称有相关关系。故“因果关系只是一种特殊的相关关系”。[3]89 重视相关,绝不等于可以放弃因果,恰恰相反,是包含了因果在内。人才培养目标、生源、教材、教师、环境、人际、兴趣、制度、管理等因素,都与人才培养结果(发展质量)相关。按照《大数据时代》极端的相关分析思路,就不需要确知是何因素或哪几个主要因素导致了学生发展结果的优劣,只要方方面面肯定或指责一番即可。如此,各大学就难以有针对性地自我诊断、发现问题,分析原因,写出“实实在在”的《自我分析报告》;专家也难以有针对性地审核与指导,并提交“写实性报告”。
电子科技大学年仅27岁的博士生导师周涛为该书写“译者序”,用了一个很形象的标题“在路上,晃晃悠悠”,在热情洋溢的推介中保持了清醒的批判意识[3]译者序:
我在这里拼命叫好,是为了这本书卖得更多,但不代表作者的所有观点都是绝对真理。举个例子,我本人对于大数据时代“相关关系比因果关系更重要”这个观点就不认同……想想瑞士日内瓦的强子对讲机,我们在上面捕获了人类有史以来最大规模的单位时间数据。我们是希望找到或者验证某种相关关系吗?不是!我们试探回答的,正是人类所能问出的关于因果关系最伟大的问题:希格斯玻色子是否存在,我们的宇宙是否有可能用标准模型刻画……认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。
相关与因果,并不是有你无我的关系;精确与混杂,也不是非此即彼的关系。究其理,用其利,避其弊,这是我们在构建本科“教学基本状态数据”及分析系统时,不可不取的态度;也是我们接受外来思想文化时很容易缺失的态度。事实上,很多时候相关与因果、精确与混杂同在。
五、学用与商用:案例借鉴与警示
除三大命题外,《大数据时代》的很多大数据采集和分析实例,对教学基本数据的构建与分析也有借鉴价值,同时也必须谨慎把握其边界。译者估计《大数据时代》有“上百个学术和商业实例”。其实,绝大多数是商用实例。有少许教学实例[3]149:
Udacity、Coursera和EDX等在线课程通过跟踪学生的Web交互来寻找最佳的教学方法。班级人数成千上万,产生的数据也十分惊人。教授们现在可以看到,如果大部分学生需要再看一遍课程内容,就可能表明某些地方他们还不太清楚……通过分析学生看过的每个论坛帖子以及他们是否正确完成课外作业,来预测看过某个帖子之后的学生正确作答的概率,并由此来确定哪些论坛帖子最适合学生阅读。这些都是过去很难得知的,现在却永远地改变了教学方式。
Coursera,一家网上教育公司,深度地研究它收集的所有数据,比如学生重放过讲座视频的哪个片段,从而找出不明确或者很吸引人的地方,然后反馈给设计课程的团队。这在以前是做不到的。所以老师的教育方法一定会改变。[2]180
这类思路和算法提示我们,在网络教学过程中产生的任何数据,都可能成为观测学生学习效果,以及教师教学功夫与态度最客观的例证。传统评估,则通常采用满意度抽样调查来获取数据,学生是否认真填写问卷、对过于严肃教师的不满等,都会严重影响数据的真实性。
谷歌敏锐地注意到,人们经常搜索某个词及其相关词,点击进入后却未能找到想要的信息,于是又返回到搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接,或者是干脆放弃了所有搜索点击……如果许多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动地在随后的搜索中将它们提到页面中比较靠前的位置(广告也是如此)。[3]46
这样的商用思路与技术,可直接借用于批改学生作业。如首先由计算机记录每题的优先点击率,并与数据化教材内容做比对,区分出正误;再对错误一类,由教师上机判断或提交给学生群讨论判断,是真误还是有创新;然后总体显示每题的难易、正确、错误、创新等。屡次作业数据相关分析,就可得到所有学生或每位学生的作业方法、思维、态度的发展曲线。
然而,商业目的是“盈利”,教学目的是“育人”,学术目的是“求真”。不同目的,数据价值与分析取向有不同。《大数据时代》第一作者维克托((Viktor Mayer?Sch?nberger )被誉为“大数据商业应用第一人”,尽管他立意“从很多实例和经验,包括历史时间中萃取出普适性的观念”[3]译者序,但严格说它首先还是引领电子商业发展的大思路。来自谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等著名IT机构的大量商用实例分析,应该是本书之所以最先为商界热捧的原因;其重相关贬因果、重混杂贬精确的逻辑,与商业“唯利是图”的价值取向不无相关,用于教学、学术乃至更多领域分析时,需要格外小心。
如何恰如其分借鉴《大数据时代》的商用数据思维与分析方法,为“人才培养目标与实行效果”的主旨服务,是对当今大学人的一次智慧考量。
六、教学数据制度:确保开放流通共享
“中国要赶上这样一场大数据变革,各界应该首先开始尝试公开数据、方式与方法。如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求”[12]推荐序一。最理想的状态当然是“人们自愿在网络上分享信息”,且“这种分享的能力”要成为“网络服务的一个中心特征” [3]21。现实却是,很多人把数据封闭起来绝不与他人分享。“封闭”是双向的,阻隔他人同时也就阻隔了自己,只有在相互关联中才能获得共生双赢,这是后现代哲学倡导的价值观。但要付诸行动,却非易事。包括理应具有高度文化自觉性的大学在内。
数据,因潜在价值和产生过程中公私兼具的复杂属性,成为了IT时代一种极其特殊的财富和权利。界定数据权限,就是一个平衡各方利益的制度建设问题。本文作者近期参加一国际会议,做“基于大数据与云计算的高等教育质量指数编制研究”的大会发言后,几位美国学者回应说,在美国大数据和云计算如何应用于教育也是难题,而难点不在技术,在制度。
在了解和监视人类的行为方面,社会已经有了数千年的经验。但是,如何来监管一个算法系统呢?包括“保障个人的信息安全在大数据时代之前社会“已经建立起”的“庞大的规则体系”“都成了无用的马奇诺防线。”[3]21
以“教学基本状态数据”为据,意味着必须配套建立保障教学数据无障碍流通的,一个支撑大数据思维、数据汇聚、数据分析、数据共享、数据人才等的制度体系!麦肯锡全球研究所(Mckinsey Global Institute)的报告表明,目前美国需要150万精通数据的经理人员,以及14万至19万深度数据分析专家,于是美国若干大学应运设置了大数据技术课程和相应教学制度,以保障“数据科学家”和“大数据应用人才”的培养与成长。随着大数据处理核心人员的年轻化,人事制度向年轻一代的倾斜,无疑是本次教学评估有望可持续作用的,制度建设重中之重。
结语:变革的契机
从1980年《第三次浪潮》[13],1996年《数字化生存》[14],及至2013年的《大数据时代》,前后仅33年,展现了IT业从大起步、快速发展、到高峰乃至触及世界数据本质的惊人历程。《大数据时代》作者2013年还有阐述“大数据取舍之道”的《删除》[15] 一书出版,更详细论证大数据不因为“大”,而是因为“挖掘”得当才有价值;还是2013年,美国利普森(H.Lipson)和库曼(M.Kurman)的《3D打印:从想象到现实》中译本[16] 出版,揭示了基于数据化人类制造业的大变革,预示不久将来,学生的立体设计与制造品等,都可通过3D系统传真和打印出来;这些,都对以“教学基本状态数据”为主要依据的第二轮教学评估,产生重要影响。更美妙的是,这些出自IT科技人员之手的论著,都文笔生动、激情飞扬,科学理性与人文美感交融,足以修正科技冰冷的传统偏见。顺便提示,2013年十八大三中全会报告第42条提出“改进学校美育教学,提高学生审美和人文素质”[17] ,其中理当包括对大学生科技审美素质的教育,及其发展评价。但愿本次“教学的基本状态数据”,不会欠缺这部分内容。
“现代历史上的技术革命,中国均是学习者。而在这次云计算与大数据的新变革中,中国与世界的距离最小,在很多领域甚至还有着创新与领先的可能”[12]推荐序一。在这样的背景下第二次教学评估启航,迎来的不仅是“以教学基本状态数据”为依据的自查和专家审核指导,更是大学教育教学从观念、思维、技术到制度等系统变革的时代契机,是对《中国教育改革与发展规划纲要(2010-2020)》“信息技术对教育发展具有革命性影响”[18] 最深刻的诠释与践行。
[1]2013年10月教育部颁布《开展普通高校本科教学工作审核评估通知》和《普通高等学校本科教学工作审核评估方案》,为中国第二轮本科教学评估启动标志。
[2]赵伶俐.基于大数据与云计算高等教育质量指数编制——理论、技术、机制[J].复旦教育论坛,2013(11):52-57.
[3]舍恩伯格,V. M.;K.库克耶.大数据时代——生活、工作与思念的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[4]谢文.实实在在大数据[M]// 舍恩伯格,V. M. ;K.库克耶.大数据时代——生活、工作与思念的大变革.盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[5]赵伶俐.量化世界观与方法论———《大数据时代》点赞与批判[J].理论与改革,2014(11).
[6]赵伶俐.TVS:大学功能场.中国高教研究,2013(12):31-33;赵伶俐.跨界思维.2013国家精品视频课程 [EB/OL]. 爱课程网.(2013-05-30)[2015-01-10].http://www.icourses.cn/viewVCourse.
[7]张厚粲.心理与教育统计学[M].北京:北京师范大学出版社,1997:16-17.
[8]石亚军.教育部人文社会科学重大公关项目“中国公民人文素质调查与对策研究” ,编号:03JZD0028.
[9]波林,E.G.实验心理学史[M].高觉敷,译.北京:商务印书馆,1982:222;320-321.
[10]赵伶俐.多值逻辑与审美逻辑[J].西南师范大学学报,2003(2):22-27.
[11]佚名.大数据时代.内容介绍[EB/OL].图书.京东.(上载日期不祥)[2015-01-10].http://item.jd.com/11143153.html.
[12]田溯宁.拥抱大数据M]// 舍恩伯格,V. M.;K.库克耶.大数据时代——生活、工作与思念的大变革.盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[13]托夫勒,A .第三次浪潮[M].朱良炎,等,译.北京:生活.读书.新知三联书店,1983.
[14]尼葛洛庞帝.数字化生存[M].胡泳,等,译.海口:海南出版社,1997.
[15]舍恩伯格,V.W.删除(Delete: The Virtue of Forgetting in the Digital Age)[M].袁杰,译.杭州:浙江人民出版社,2013.
[16]利普森,H.;M.库曼. 3D打印——从想象到现实[M].赛迪研究院专家组,译. 北京:中信出版社,2013.
[17].十八届三中全会报告:中共中央关于全面深化改革若干重大问题的决定.2013年11月12日通过,第42条.
[18]中华人民共和国国务院.中国中长期教育改革与发展纲要(2010-2020)[EB/OL].新华网.(2010-07-29)[2015-01-10].http://news.xinhuanet.com/edu.
(责任编辑庞青山)