承继与创新:大数据背景下教育研究范式变革的反思及其动向

发布时间:2018-10-26

  [摘要]大数据的蓬勃发展深刻影响着教育领域,促进了教育系统的多重变革,尤其是给以理论假设、抽样调查、统计分析为主流的教育研究范式的发展带来了契机。在大数据背景下,探讨教育研究范式的转换与变革问题,应结合小数据时代的传统教育研究范式并审慎地厘清大数据的应用范围和作用边界。文章从三方面探讨教育研究范式的变革动向。首先,在研究进路方面,注重数据驱动型教育研究和理论驱动型教育研究的双向融合;其次,在研究方法方面,大数据助推研究方法的混合与并存;最后,在研究思维方面,既要看重相关关系又要探求因果关系。

  得益于智能感知、移动互联网、云计算等前沿信息技术的跃迁式发展,各类数据以指数形式暴增,大数据已成为人们广泛追捧的热词。作为一种时代潮流,大数据给科学研究、商业服务、公共卫生等领域带来了多重冲击与挑战。当前,大数据迅速成为教育研究关注的焦点话题,伴随着大数据技术在教育领域的持续推广和使用,其在教育领域的应用更是遍地开花。如服务于教育决策、学生评估、课程与教学变革、教育研究范式转变等方面。可以认为,依托源自于教育场域中的大数据而进行的教育研究将成为新常态[1]。尽管大数据驱动的教育研究具有巨大的发展前景,但缺少反思的盲目追逐可能导致大数据研究陷入概念炒作[2]。基于此,笔者在明晰大数据视域下教育研究范式变革的价值与局限性的基础上,结合小数据时代传统教育研究范式的特征,反思并探索大数据时代教育研究范式的变革动向及其推进策略。

  一、大数据的历史发展、内涵及其表征

  人类进入大数据时代已成共识,从历史视角来看,大数据也有其自身的演进轨迹。针对客观世界的数据刻画与记录由来已久,“古埃及、古希腊等时期都早已藉数据来记录事情、测量土地、观测天文等”[3]。其中,古希腊的毕达哥拉斯学派更是提出“数是万物的本体”[4]的哲学命题。17世纪初,以伽利略为代表的近代科学家将数据引入自然科学的研究中,“将数据的运用上升至科学方法论的地位”[5]。随后,因计算机和通信技术的崛起与发展,人类迈入信息时代并意识到数据是组成计算机网络技术的基本要素。进入20世纪80年代,阿尔温·托夫勒将信息爆炸列为未来信息社会的重要特征。在一定程度上,信息爆炸可以视为大数据的前身,但由于当时的技术水平有限,大数据未能受到应有的关注。直到21世纪,得益于互联网、智能移动终端、可穿戴技术等与人类生活的高度融合,数据体量达到了前所未有的规模,人类对海量数据的存储和计算也取得了新的突破。2008年,国际顶尖杂志Nature刊发“Big Data”专辑[6],集中探讨数据洪流所引发的技术挑战及其改进路径。至此,大数据迅速走红,并在全球掀起了相关研究和讨论的热潮。随着大数据理念的深入发展,世界多个国家竞相布局大数据发展战略。如美国的《大数据研究和发展倡议》、欧盟的《数据价值链战略计划》、法国的《数字化路线图》等,将发展大数据上升至国家意志层面,并将其称赞为“21世纪的石油”[7]。我国于2012年才开始大数据研究,并于2014年首次将其写入政府工作报告。2015年国务院发布的《促进大数据发展行动纲要》正式开启了发展大数据的新章程。

  大数据是21世纪信息技术蓬勃发展的必然产物,但人们对大数据的概念厘定仍存有争议。一般意义上,大数据是指普通软件工具难以在可接受的时间范围内感知、获取、处理和分析的海量、复杂、异质的数据资源。有研究者基于国内外学者、研究机构、企业等对大数据的理解,从数据规模、处理工具、利用价值三个维度对大数据的内涵进行概括性释义[8]:第一,较之于小数据,其数量巨大、来源分散;第二,常规的数据工具不足以应对大规模数据,需要引入全新的数据计算工具;第三,大数据能够带来巨大的经济、社会和科研价值。数据显示,2016年全球大数据市场规模达到453亿美元,同比增长25.8%[9]。此外,大数据商业应用第一人维克托·迈尔·舍恩伯格对大数据的相关问题进行了哲学考察[10],认为世界的一切都可用数据来表征,并提倡依据数据这一新视角来重审和刻画世界的真实面貌。还有研究者从本体论、认识论、方法论等层面系统地阐述了大数据的哲学问题[11]。在本体论上,万物皆数,将数据提升至哲学层面的本体地位;在认识论上,通过数据驱动的知识发现来探寻事物的发展规律;在方法论上,大数据的整体性思维促成了还原论方法和整体论方法的整合。可以说,作为一个复杂多变的概念,大数据不仅是一种新型的科学技术,更表征着一种全新的思路、方法和问题解决方案。因此,对大数据的理解不能过于宽泛,应从不同着眼点切入。首先,从大数据的技术属性和存在形态来讲,新的数据挖掘技术和数据特征可以攫取数据背后的信息、知识和智慧,从而帮助人们更加精准、有效地洞悉事物的发展规律和趋势。其次,从深层意义来讲,大数据是一种与人类认知图式、知识发现模式和学术研究密切相关的范式革新或重构。

  二、大数据背景下教育研究范式变革的价值与隐忧

  大数据在自然科学领域中的价值和实用性是有目共睹的,它不仅为科学研究提供了一种全新的技术工具,更引发了科学发现模式的变革和研究范式的转换。无独有偶,大数据也向语言学、心理学、政治学、教育学等社会科学领域逐渐延伸和渗透。正如一些研究者所言:“大数据以其独有的功能和优势作用于教育领域,促进了教育系统的多重变革。”[12]尤其是给以理论假设、抽样调查为主的教育研究范式带来了重大发展契机。从技术层面来看,大数据使信息资料的采集与分析更加快速、便捷。大数据时代,依托情境感知、互联网、云计算等热点信息技术,人类以及人类社会的各类数据都被客观、快速地记录,汇集成了巨量的数据。较之于传统教育研究中的抽样数据,我们获得的可能是全纳式数据。此外,Hadoop,Tableau,RapidMiner等一系列数据挖掘与分析工具能够协助研究者快速处理数据,实现数据的精准化、可视化。从研究思维来看,大数据所秉持的“注重相关关系、允许混杂性”[13]的思维,有益于教育研究者深度挖掘过去难以涉足或无法描述的现状或问题。从研究进路来看,大数据助推教育研究从“理论驱动转向数据驱动的知识发现”[14]。它以数据为驱动,借助新的工具采集数据,或者通过模拟方法产生数据,随即用工具处理,从而形成和确立新的规律及理论[15]。数据驱动的教育研究将数据视为科学发现的基础,并通过数据挖掘和分析技术将以往的经验归纳、发展为“大数据归纳法”[16]。从研究方法来看,大数据有利于消解定性研究和定量研究的对垒,推动研究方法的相互融合与渗透,使其更加趋向混合研究。在定性研究中,大数据能够依托海量或全样本数据,揭示隐匿在信息背后的现状或趋势,从而“既不需要控制变量来检验关联,又能规避定性方法在案例选择中的样本偏误”[17]。在定量研究中,利用大数据的优势既能克服量化研究小数据体量不足、类型单一的缺陷,又能将大数据技术运用到量化研究所青睐的数理统计方法中,从而形成高质量的数据链,进一步深化、量化研究。因此,大数据为定性和定量研究方法的结合提供了诸多可能,从而推动了混合研究的发展。

  虽然大数据给教育研究范式的变革带来了难得的发展机遇,但也存在一些消极的影响。其一,大数据坚守的全数据模式可能是一个“美丽的谎言”[18]。如互联网生成的大数据难以表征全体互联网用户的行为,因为“这些数据主要是由在网上留下痕迹的人群产生的”[19]。此外,大数据只能记录人类的客观行为,在描述和测量人类的思维、感受、情绪等主观意图方面差强人意。其二,大数据拥护者特别重视相关关系而不在乎甚至弃置因果关系。虽然大数据在寻求相关关系方面作用明显,借助相关关系可以从数据海洋中揭示某一事物的真实面貌。但是,大数据时代的教育研究并未停留于相关关系的揭示,“因为相关关系是因果关系的必要条件,它为探求因果关系奠定了基础”[20]。其三,大数据主义主张理论研究已经终结,甚至提出“有了足够的数据,理论就可以功德圆满”[21]的口号。尽管大数据时代的知识发现应始于数据,数据不能预先被理论所污染,但理论在知识发现中依旧发挥着作用,只是其作用机制改变了。正如有研究者所言:“大数据时代不应该也绝不会是理论消亡的时代,相反的,理论渗透于大数据研究的各个环节。”[22]

  三、大数据背景下教育研究范式的变革动向

  得益于大数据技术的迅猛发展、教育系统变革的深切吁求以及国际教育大数据政策的层出不穷,教育研究领域掀起了一股范式变革的浪潮。教育研究范式的大数据转向已然大势所趋。范式是库恩学术话语体系中的重要范畴,旨在研究自然科学的发展历程及其范式革命问题。在库恩的语境中,“范式具有不可通约性、不可共存性,科学革命是新范式替代旧范式的激进过程”[23],即新范式的勃兴和旧范式的衰落。社会科学家在借鉴与修正的基础上引入了范式概念,但并不像库恩笔下的自然科学那样带有“范式更替”的意味。正如艾尔·巴比所言:“在社会科学领域,理论范式只有是否受到欢迎的改变,很少会被完全舍弃……社会科学范式提供了不同的观点,每个范式都提及了其他范式忽略的观点。”[24]作为一门社会科学,教育学自改革开放以来,呈现出繁荣发展的局面,但不同的教育研究学说或门派间一直存在争议。尽管如此,教育研究范式的变革并不是对传统研究范式的全盘否定,而是在既有范式的基础上达成新的超越,是一种去粗取精、去伪存真式的融合与共存。目前流行的数据驱动型教育研究使教育研究范式呈现出一些新特征:“更加青睐总体样本、更加倡导相关关系、更加看重研究效率,”[25]这为我们审视教育研究中的问题和现象提供了新的思维。然而,上述观点仅论及大数据对教育研究范式的表层影响,尚未触及教育研究范式的结构变革。数据驱动的教育研究范式与小数据时代的传统教育研究范式不是非此即彼的二元对立关系,借助社会科学中的范式理论,前者是对后者的修正、拓展与完善。因此探求大数据时代教育研究范式的变革动向,应结合小数据研究在教育学中的价值和功用,从如下几点推进。

  (一)促进数据驱动与理论驱动的双向融合

  大数据时代的降临以及数据洪流的汇聚使知识发现的模式发生了巨大变化,促成了以数据为中心的知识发现新通道。与以往理论驱动的知识发现不同,数据驱动的知识发现是指“在先验假设尽可能少、甚至没有理论假设的条件下,借助数据挖掘、机器学习等先进数据处理技术,从海量的数据资源中提取隐藏在数据背后、能被人理解的知识和规律的过程”[26]。然而,由于数据挖掘技术与计算工具还不够成熟、数据的碎片化和模糊性问题以及教育研究的复杂性和不确定性等特点,数据难以实现彻底共享,纯粹依靠数据驱动的知识发现去揭示教育的所有规律是不符实际的,具有一定的局限性。虽然数据驱动的知识发现有意避开了传统教育研究的宏大叙事和理论论证模式,并重塑了教育知识的演绎和生成进路,但这并不代表着理论驱动型教育研究的消亡。因此,教育研究应将两种范式进行整合。正如有学者所言:“利用大数据的技术红利,在依靠理论驱动的知识发现的基础上,促成‘数据驱动’与‘理论驱动’的融合是大数据背景下教育学等社会科学研究范式转变的必然走向。”[27]

  在教育研究中,数据和理论驱动融合的研究范式的运行机制为:首先,研究人员从实际的教育现象和问题出发,结合一定的教育理论,确立研究框架并概括提炼出理论假设;其次,“以理论假设为导向,尽可能搜集与研究对象有关的全部原始数据”[28],同时通过大规模的数据挖掘与分析技术从中提取有价值的知识或信息;最后,借助上述流程中所概括出的有价值的信息来检验理论假设的合理性,进而揭示某一教育问题或事实的变化规律以及发展趋势。另外,在上述两种研究范式融合的过程中,尽管大数据分析技术存在于研究的各个方面,但教育研究者应“将特定的历史和社会文化内涵纳入数据之中”[29],对其进行意义解读与诠释,谨防大数据陷入崇尚工具理性、技术理性的泥潭。

  (二)助推研究方法的混合与并存

  研究方法是关系到教育研究水平和教育科学化的重要因素之一。20世纪以来,受西方主流教育研究方法的影响,国内教育研究方法经历了以思辨研究占据主导地位,转向实证研究的演进历程。其中,实证研究主要包括量化研究、质性研究和混合研究。就目前教育研究方法的发展趋势而言,“虽然教育研究方法正趋向多样化,但思辨研究依然把控主流话语权,量化研究和质性研究还存在很大发展空间”[30]。进入21世纪以来,迅猛发展的大数据以及开放的学术环境,不仅为教育研究提供了一种新的方法,缓解了多种研究方法之间的张力,同时推进了不同研究方法的混合与并存。

  与传统教育领域所使用的统计、分析方法相比,“大数据挖掘和分析涵盖数据库技术、模型识别、机器学习等领域”[31],能够描绘海量教育数据中存在的教育模式,从而预测教育现象的发展趋势,并提出相应的教育对策。例如,大数据方法能够全面、客观地记录某一时期内学习者的学习过程数据、成绩数据和生活数据,依托相应的分析方法和风险预测模型,能够分析学生的学业成就以及预测失学风险,从而为教师的教学提供有效的支持[32]。作为一种新的实证研究方法,大数据在丰富教育研究方法的同时,也促进了教育研究方法的多元并存。在一定程度上,“大数据的全数据模式和独特的数据特征促使教育中的定性和定量研究在数据收集与处理方面逐渐融合”[33],缓解了两种研究方法的分野。然而,大数据自身存在的局限性以及教育研究的复杂性、多样性和不确定性,使大数据方法难以替代以抽样调查、观察与访谈等为主的小数据时代的教育研究方法。大数据方法与上述研究方法的融合对于推进教育研究的进步具有重要意义。与大数据方法相比[34],抽样调查和收集数据可以更加精确描述教育研究对象的客观行为与主观态度,大数据方法与抽样调查的融合,一方面易于控制单个研究变量、拓展研究视域;另一方面可以规避大数据蕴含的碎片化、虚假的信息。观察与访谈能够更加深入地了解教育行为主体不断发展变化的行为表现以及心理特征,大数据方法与观察、访谈的结合能够深刻揭示数据背后行为主体的经验世界及其所处的现实境遇。因此,大数据时代的教育研究既要适当地运用大数据方法来描绘与预测教育发展变化的规律或趋势,又要运用基于事实和证据的实证研究确切地推断和解释教育现象背后的因果关系,同时还要运用哲学、人文、艺术的方法对教育领域的精神和信念进行诠释与批判。

  (三)既要看重相关关系更要探求因果关系

  大数据时代最受人关注的话题便是从追寻因果关系转向重视相关关系,即“我们只需要知道是什么,而不必知道为什么”[35]。换言之,人们不需要挖空心思地探究事物或现象间的因果,而仅需要找到数据之间的可能相关性来认知、把握、预测事物的发展趋向。因为“大数据的核心功能就是基于数据驱动的相关性分析对未来发展趋势进行可能性的预测”[36]。目前,大数据的相关关系研究在探究学生学习行为和学习需求、教学策略之间的关系以及学生校园消费行为与家庭经济之间的关系等方面有着独特的优势,对研究者更加直观地跟踪教育现象、挖掘教育变化规律、预知教育发展趋势具有重要意义。然而,探究因果关系是促进知识积累和学科体系建设的重要手段。自古希腊以来,西方的自然科学家和哲学家就开始探求事物发展背后的因果关系,并尝试在此基础上揭示事物的本质。相关关系只能分析事物间关联的表象,而因果关系则能把握和揭示事物间的内部运行机制,因此“科学研究离不开因果性,更无法超越它”[37]。那么,在教育研究领域,我们注重相关关系的同时,不能抛却对因果关系的挖掘,即不仅要知其然也要知其所以然。

  就教育研究来讲,“教育现象的动态生成,教育内部因素的异质多样、互相制约,教育过程中多种偶发和随机因素存在的可能性”[38],使大数据环境下的教育研究表征出种类繁多的相关关系。但是,“有些可能是伪相关、偶然的巧合甚至完全颠覆常识,自身并无太多价值”[39],此时就需要对某一教育现象进行符合学科知识逻辑的因果解释,进而保证教育决策的科学性和合理性。例如,有研究者通过大数据分析技术来探究学生的课堂表现与教师教学内容、策略、方法等变量之间的相关关系,认为教学的动态调整可以提高学习者的学习效率,有利于为学生提供个性化的学习路径和学习资源[40]。在此基础上,研究者又以“C语言程序设计”课程为例,采用实验研究的方法对上述研究结论进行因果解释,确保了研究结论的有效性与说服力。大数据时代相关关系和因果关系的并存为我们刻画了教育研究的新景象,促使教育研究者以大数据揭示的相关性为立足点,预知教育发展的趋势,继而以此作为基础进一步探索数据背后的因果关系,从而为教育研究和决策提供精准、确切的支持。

  大数据技术作为人类量化认知世界、探索未知领域的新工具,为教育研究的提升和研究范式的转变提供了巨大契机。继大数据在商业活动、政府治理、医疗卫生、机器翻译等领域大规模应用之后,大数据在教育领域的应用前景也是十分广阔的。然而,当前教育研究的大数据转向还处于起步阶段,一方面,“教育大数据自身存有技术应用与落地问题、数据信息的模糊性和碎片化问题、数据共享与隐私安全问题以及数据治理问题等”[41]。另一方面,受中国传统文化、教育研究者个人学术偏好以及人文社科背景等因素的影响,大多教育研究者缺少计算机科学、信息科学、统计学等数理学科知识,热衷于对宏大问题的理论思辨和逻辑论证,难以形成大数据时代教育研究所需的“数据素养”[42]。大数据时代教育研究范式的变革必定是一个渐进式的过程。我们在确信大数据对推动教育研究范式变革具有积极影响的前提下,更应清晰厘定大数据的应用范围和作用边界,积极促进其与小数据时代的传统教育研究方法相互补充、共同发展。