会道网
人文社科学术信息平台

大数据应用于社会科学研究的悖论

毫无疑问,大数据能够提升社会科学研究的质量,但近些年的研究表明,对大数据应用于社会学科研究的价值需要有更为理性的思考,既不能否定其积极的意义,也不能夸大其作用。舍恩伯格的《大数据时代》无疑推动了当前的大数据浪潮,在作者看来,从思维的角度讲大数据具有三大特征: “一是基于总体而非样本的思维,二是拥抱混杂性而非精确性,三是着眼于相关性而非因果性”。 这三点也是社会科学研究经常引用的“座右铭”,而对于这一具有革命性的论断,从当前的研究来看,已经引发了一系列的争议。我们发现在一些社会科学研究逻辑的基础性问题上,大数据存在着若干悖论。以下从舍恩伯格关于大数据思维的三个特征进行探讨。

( 一) 总体与样本的悖论: 大数据的采集与测量中,“一切皆可量化”的理想与数据获取现实之间存在较大差距

舍恩伯格的第一个思维是关于总体与样本关系的思维,他认为大数据时代的数据一定是基于总体的。按照舍恩伯格对大数据的解释,“世界的一切关系皆可用数据来表征,一切活动都会留下数据足迹,万物皆可被数据化,世界是一个数据化的世界,世界的本质就是数据” 。这一理解归结为一句话便是数据科学家们的座右铭“If you can't measure it,you can't fix it”( 唯有量化问题方能解决问题) 。大数据的鼓吹者们宣称一切“皆可量化”。传统的社会科学研究不得不以扩大样本量的办法获得描述性统计的精确性,但由于抽样框的限制,最大比例的样本量也不可能与抽样总体相一致,因此传统的描述性统计所用的样本再大也具有推论的性质。在大数据时代,全样本基础上的全数据成为可能性。

于是我们发现一切皆可量化的结果,按照舍恩伯格的逻辑来讲,应该获取总体的数据。虽然从研究方法上讲,社会科学乐见获得总体的数据,但在社会科学研究中却与舍恩伯格的愿望大相径庭,主要问题在于社会科学研究对象的特殊性,这主要包括两个方面的问题。

一是社会学科的研究对象本身的性质决定了难以获取总体数据。舍恩伯格所描述的能够量化的总体在社会科学研究中属于完美数据,是很少出现的,甚至没有出现过的。以舆情研究为例,通过现有传感器比如 twitter、facebook、新浪微博等平台,甚至整个互联网上的数据,都只能是部分舆情。因此,网络舆情从来就不等于网民民意,网民民意更不是国民民意。当前快速获得民意的方式主要是网络调查,而网络上的声音和意见是由网民发出的,从统计学角度讲,网民作为抽样框和其背后的人口总体结构之间难以匹配。对于我国而言,据《第 39 次中国互联网发展报告》显示,我国网络普及率为 53% ,网民的主要人口指标和实际人口结构有着强烈的差异,主要体现在: 一是性别差异,男性稍微多一点; 二是年龄差异,网民主要集中与 30 岁以下,超过 50% ,年轻人是主体; 三是城乡差异,城镇网民占七成多,远高于农村网民。四是文化差异,网民的文化程度总体较低,超过 80% 的网民的知识水平、学历层次不到大专水平。五是职业结构差异,最大的主体是学生,其次就是个体户、自由职业者,加上无正式工作下岗者,比例超过 50% ,而像党政领导干部、公务员、高级白领、部分的技术人员等,职业状况比较理想的大约只占不到 20% 。六是收入差异,3000 元以上的网民,有 60% 左右的网民月收入在 3000 元以下。从上面的差异中 ,可以看出我国网民结构的主要特征为“三多”———网民总体多、年轻人多、底层和边缘群体多,“三低”———年龄低、学历低、收入低。可以说,从历年的中国互联网数据来看,我国网民的主体特征从最初的“三高”为主( 年龄偏高、收入偏高、文化程度偏高) 向“三低”( 年龄偏低、收入偏低、文化程度偏低) 为主偏移。从数据上看七成五左右所谓的网民处于“收入不高、生活不稳定、社会地位不高”的状况。我国独特网民的结构特征,构成了我国网络舆论的社会背景,中国的互联网可能是世界上最嘈杂、最喧闹、最舆论化的网络。从网络应用来看,西方国家排序一般为电子商务、即时通信、信息搜索,而我国则是即时通讯、信息搜索、网络新闻,西方国家网民主要把网络作为实用工具,而我国网民则将网络视为重要的信息获取和意见表达平台。当前网络调查的手段已经从传统的小数据推断性研究,迅速发展到以大数据为基础的相关关系研究。但是无论是小数据还是大数据,只要是以网络调查为基础的信息采集,以全体公民为研究总体的民意调查,结构性偏差不可避免。

二是社会学科的研究对象本身难以通过测量获得大数据的概念体系。社会科学研究重在通过概念的操作性定义建构概念间的逻辑关系,而从存在环境上讲,大数据存在于各种形式的信息系统中,进行社会科学研究就要对研究对象进行精确的界定,如实证研究需要概念建构与测量的过程。这样,问题又回到了社会科学研究的一个基础性问题上,是不是所有的概念均可量化,进而建构概念之间的关系? 我们知道,社会科学的研究对象是人类社会的发展规律,而人文学科的研究对象则是人类的精神世界和精神文化; 人文学科研究中有人类社会研究内容的指向,而社会科学研究中也有人类精神世界的研究内涵,特别是在跨学科研究及新兴研究领域不断生成、不断扩展和深入的过程中,难以从学术理念及研究方法上真正切割各学科之间的边界。那么问题就还是聚焦在大数据的背景下,无论是人文学科还是社会科学在牵涉人类精神世界研究内容问题上的概念是否可以量化。如“美”这一概念,康德讲美是“无目的的合目和性”,黑格尔讲美是“绝对理念的精神显现”,经过社会科学方法的测量,结果却均为“美的”这一概念,而不是“美”。因此,大数据推崇者所说的“一切皆可量化”是要有限度的,至少在社会科学研究领域而言,在牵涉人类精神领域的概念测量方面,并不是至少潜在可观察可测量的人类社会那样,概念的描述性定义和操作性定义具有高度的一致性。

( 二) 混杂与精确的悖论: 大数据追求质量,但数据的混杂性与精确性却不可调和

舍恩伯格强调数据的精确性,但面对多元化来源的海量数据,他用数据的混杂性来解释大数据的特点,数据的混杂从何而来,主要是两个方面: 一是空间的混杂,这种混杂直接影响共时数据获取的质量; 二是时间的混杂,这种混杂的结果直接影响数据预测的精确。两者的混杂又构成了数据的盲目增长,而在这一过程中,无效数据的增长使得数据有效性或数据质量大打折扣。

第一,空间的混杂及影响。由于网络水军、五毛党或美分党在互联网上大量存在,以及其它的虚假信息的泛滥,经常使得我们所获取的来自互联网、移动互联网的数据的真实性、可靠性值得怀疑。正因为这样,舍恩伯格以混杂性为名对数据质量进行辩护,会引发大数据领域的社会科学研究基础问题的紊乱。

第二,时间的混杂及影响。大数据很重要的一个应用是对社会未来发展趋势的预测。在这一方面,有一个社会科学研究的精度问题,即高速获得的社会数据能不能精确描述社会的真实状况。有学者提出过这样的质疑,大数据以社会“人”作为研究样本,如果想得出与未来相关的可能结论,其理论基础是社会“人”的社会特征不变的情况下,社会“人”的态度倾向与行为逻辑相对固定。但是如果作为这一假设前提的社会特征发生变化,社会“人”的实际情况又该如何推论? 对于这一点,我们首先要认识到,无论数据如何海量积累,在进行了数据匹配处理后对于社会发展及社会“人”的推论结果永远是慢于社会前进的; 其实这也是大数据的速度追求的目标,至少相对于传统的数据采集方式,大数据已经进步了太多太多,随着采集与应用速度的提高,数据挖掘的深入,大数据分析的精度一定会有一个翻天覆地的变化。另一个问题是,如前所述,社会特征的改变使以过去的数据积累为基础所构建的相关关系消失,社会前进了是不是又可以通过数据的发展推测未来? 但通过分析过去而推断未来,其前提条件又回到了社会特征的稳定。因此,我们可以看到当前大数据的最大应用在于当前能够做到精确的相关性分析,以及在一定程度上的前瞻性研究; 对于精确的前瞻性研究,以及推断性统计所能提供的因果关系研究,这是大数据应用更进一步的追求。

第三,数据精确性直接相关的是数据有效性的问题。随着数据量的增大,有效数据与无效数据都在增大。数据越多是不是越好呢? 《信号与噪音》一书中对于信号属性的描述对我们研究大数据有着非常好的启发性意义。这本书里说“信息的增长速度远远超过了人们处理信息和分辨信息的速度”,我们可以受到以下启发: 不是数据越多越好,更不是数据越多越接近真理; 从通信工程信号与噪音的分析可以看出,信息越多,其中的噪音也越多,反而对我们的研究越有不利的影响,也可以讲知识的边际收益是随着数据量的增加而递减的。这也就是说,大数据中是有很大“水份”的,大数据本身质量的好坏就是大数据的“湿度”。大数据如何“取干除湿”,核心是要做数据清理,为数据挖掘奠定良好的基础。数据挖掘不是提前设定某个模型再去验证其正确性,而是在已经优化的数据库中自己寻找模型,并不需要假设或期待可能的结果,这是突破研究者的视野局限以及扩展研究范畴的重要应用。而当前形成的海量数据信息如何来用是问题的关键。过去没有高效的数据采集技术,数据量太少无法对非相关数据进行集中分析; 且即使数据采集足够,但找出各种数据相关性的工具却相对有限。所以,我们长时间做的工作是数据优化,也即是事前都有研究逻辑作为关系研究的基础,即便是进入大数据分析也是提前设定相关性而进行的数据整理和分析。

( 三) 相关与因果的悖论: 大数据的分析与研究范式,相关性的探索不能替代推断的价值实证研究中相关关系与因果关系的研究都有着重要的地位,而大数据应用于社会科学的主要功能则在于对相关性的探索。在这方面有三个问题需要讨论:

一是从相关性研究自身而言,大数据重在发现相关性,而难以解释相关性。在非大数据应用的情况下,相关性的探索主要依靠研究者对研究对象相关关系的提前设定,通过结构化的数据进行分析,对于提前设定的相关关系证实或证伪,这一过程我们可以称之为证明相关性。这种相关性无论是证明社会历史节点上不同变量的相关关系,还是证明社会历史变化过程中相同变量的相关关系,均是在研究者的视域内提前设定好的。如前所述,大数据更为重要的作用是通过非结构化或半结构化的数据进行数据挖掘,以发现相关性,无论发现的相关关系强弱如何、方向如何,甚至于真伪如何,均是超越研究者前期设定的新的“发现”。但发现相关性依然面临大数据预测遇到的同样问题,更确切的说是相关性存在的基础是建构在统计学之上的社会发展快速性与稳定性之间的矛盾。可以说大数据进行相关性分析真正解决的是能够发现相关性的问题,而不是解决相关性存在及能够进行描述的研究基础,也即社会变迁所带来的研究对象变化的问题。

二是从相关与因果关系而言,大数据无法阐释表象背后的本质。社会科学研究一直遵循“大胆假设,小心求证”的研究传统,而大数据的应用使研究有了从假设作为起点之外还可以从数据作为研究起点的另一选择。的确,大数据已然成为当前社会科学研究很多领域的前提,对于掌握研究对象的样貌、发现研究问题有着巨大的作用,但大数据获取的半结构化甚至非结构化数据背后却依然是纷繁复杂的社会现象,需要社会科学研究者在对研究对象和研究问题充分掌握的基础上,进行必要的数据清理和优化,而这一过程又是以假设为前提的因果关系研究过程。因此,针对舍恩伯格的第三个命题,国内学者罗俊提出“如果我们放弃对因果性的追求,等于研究者在数据的世界‘自甘堕落’,放弃了人类对批判性反思的追求” 。

三是从社会科学研究方法而言,质化研究的价值是大数据的相关分析所不具备的。社会科学的研究方法不仅是量化方法,还包括质化方法。而质化方法也是开展相关关系研究与因果关系研究之前进行探索性研究的主要方法,是凝结了研究者高度理论智慧的研究环节。质化研究以研究者与被研究对象的深度接触为基础,通过深度访谈、焦点小组讨论等方式获取信息,可以使研究者感知研究对象的思想与心灵。虽然其受到研究者研究能力与素养、研究现场互动的感觉等多方面的影响,使研究结论不一定真实可靠。但它所达到的人与人之间心灵世界的沟通是任何量化方法难以企及的,因为社会科学与自然科学不同,人类个性及其情感不能忽视。尽管大数据可以通过迅速地意见搜集,获取关于研究对象大量的价值判断、评价倾向、感觉好恶等方面信息,并能勾勒出社会总体的心理状态,但对于研究对象内在、理性的探究,仅有大数据具备的相关分析能力是不够的。

来源:倪万,唐锡光.大数据应用于社会科学研究的价值与悖论[J].东南学术,2017(04):68-78+247.

分享到:

评论 抢沙发

评论前必须登录!

 

会道网,社科学术信息平台

关于我们发布会讯
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册