会道网
人文社科学术信息平台

大数据对于传播学研究内容和方法的影响

一、大数据的特征

大数据一词已经渗透到各个学科领域, 其被用于承载各种类型的概念, 包括海量数据、实时数据、社交媒体分析、下一代数据管理能力等。关于大数据的概念也呈现出众说纷纭的状态, 业界中比较认可的是IBM公司提出的大数据4V特性, 即数量 (Volume) 、多样性 (Variety) 、速度 (Velocity) 和真实性 (Veracity) 。[3]但是这种对于特性的解读也使得无论业界还是学界都把不同的数据往里嵌套, 这样的局面使得大数据成为了一个空洞的名词, 对于开展科学研究并没有实质性的扩展和推动作用。

笔者认为大数据不仅需要从数据量上考量, 更需要从数据结构上进行区分。数据大是一个相对概念, 一般意义上, 大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。[4]传统意义中的仅几个服务器存储的数据库是不能称其为大数据的。

但是, 并不是数据量达到无限大时就是大数据, 如果这些数据是简单的、规律的、重复性高, 运用传统分析手段或简单的数据挖掘方式就能进行归类分析, 而无法探索出新的数据价值的话, 就不能算大数据。例如, A网站是一个新闻门户, 浏览量很大, 但用户只在A网站浏览新闻, 或者点击广告, 那么可能产生的数据量不小, 但是结构简单, 重复性高, 归类容易, 那么, 这个阶段的A网站的数据就还不能算大数据。B网站是一个社交媒体, 它是一个开放的平台, 用户可以浏览新闻、表达心情、网络购物等, 而且用户间可以在不同的层面间进行互动, 那么所有的网络行为被记录下来所形成的B网站的数据结构复杂, 数据间关系尚不清晰, 相互独立, 呈现数据碎片化态势, 但是在B网站上可以针对个人、群体、组织的网络行为和情绪喜好等多方面内容进行更深度的挖掘和复杂的建模, 可能挖掘出新的数据间的相关关系, 那么B网站的数据就是大数据。

总之, 大数据并不是这个星球上所有数据的统称, 也不是把传统业务进行简单的数据化录入而形成的。它在达到一定的数据规模之上, 还需要呈现出非结构化的特征。

二、传播学研究中关于大数据研究的对象和内容

1. 人、物融合的物联化

大数据研究的最大的贡献就在于, 把一切都归入了一个可量化的时代, 而其中最根本的就是人的行为。人的喜好会通过浏览、链接和记录展现出来, 人的情绪会通过文字的表达而展露出来, 人的选择和决策过程也能通过不同的浏览路径和沟通路径得以展示。而一旦把人们的想法、态度和行为都能综合分析起来的时候, 就能进行对现有社会的更完善的认知和对未来的预测, 预测人们的消费行为、生活日常行为、对新事物的评价等。这就能将人与真实的物品、地点以及虚拟的产品和构想的关系进行较为清晰的勾勒, 形成人、物融合。当这些关系都能被记录和分析时, 也就进入了更广范围的物联化时代, 将每一个“物”的传感器数据和人类的活动相结合起来, 也就赋予了每一个“物”以意义。

而大数据本身是一些非结构化的数据, 社会科学学者就是要从这些数据中找到其中的相关性。不同于传统的逻辑推理研究, 而是对数量巨大的数据做统计性的搜索、比较、聚类、分析等分析归纳, 从而得出相关性, 这反映的是两者在取值时相互有影响, 但并没有充分必要性, 也就是因果关系。比如我们在通过社交媒体分析大学生心理健康状况和观看的电影时, 统计结果显示“喜欢看战争片”和“学生的心理健康”显著相关时, 只能说明这二者有影响的关系, 而并不能得出“喜欢看战争片使得学生心理更健康”的结论。所以, 在庞杂的大数据中, 社会科学学者需要筛选数据分析某个行为、某个事件等的影响因素都有哪些, 其中哪几种因素的作用更大, 而很难推出“因为A, 导致了B”这种结论。

2. 社交媒体和移动互联网将更受关注

由于大数据对于数据量的需求, 使得社交媒体和移动互联网这两类能够产生大量的、复杂的、数据间有关联性的、数据呈现非结构化特征的媒体成为传播学者最为关注的两个方面。

首先, 社交媒体和移动互联网的数据真实可用。社交媒体和移动互联网的发展彻底摘掉了“网络虚拟化”的帽子, 无论你是否实名注册在社交媒体中, 你的活动圈子和关注内容已经将每个人的身份和归属展现在了网络中, 也就成为了一个数据集, 也在一定层面上实现了个体真实或者是群体真实。这就使得所有的数据都具有现实意义。

其次, 社交媒体和移动互联的数据实际上是一种整合, 不仅“大”而且“全”。社交媒体把现实关系移植到数据层中之后, 它已经作为一个载体, 在现实关系的基础上, 嵌入进其他已有媒体的各种形式, 比如聊天、信息获取、视频音频接受、购物、网络游戏等。它成为了一个大的开放的平台, 上面集纳了其他媒体功能和运用, 当然其基础是用户以及用户间牢固的关系。但是现有的社交媒体还没有完全实现这样的平台功能, 或者说实现得不够好, 因为各方面功能之间存在严重的脱节。

而移动互联网的强大在于它是一种传播媒介的革新。“移动”本身的数据就有丰富的价值, 不仅能为个人的行踪定位, 在物联化的社会中, 与人相关的所有交通工具和物品都有了可分析研究的可能。同时, 移动互联更多的是终端显示方式, 它里面的运用可以嵌入所有的网络功能, 包括社交媒体和其他。

另外, 移动互联并不仅仅指的是手机终端和平板电脑, 在科技发展中, 户外的各种媒介都可能介入互联网, 而我们传统意义上认为是“媒介在动”才是“移动”, 而今后也可能是媒介不动, 但是它可以探索和采集到人们的“动”, 或者是媒介和人都在“移动”。这里所说的人的“动”就是物理空间的移动和变化。例如, 今后的车载系统如果直接连入互联网, 并能与手机终端、家里的电器等物联, 那么车载系统就成为了移动互联, 无论是私家车还是租车, 这个终端和人并不需要一一对应, 这就呈现了相对的动与不动的关系。再例如, 户外展示传媒一旦接入互联网, 同时还开发出记录受者信息的功能后, 可以静止地或者在不同的地点记录移动的受者的反馈信息与互动记录, 这也是笔者认为的广义的移动互联。总之, 移动互联可以与物联化社会广泛融合, 给学者留下了大量的想象空间。

再次, 社交媒体和移动互联的先天网络关系属性决定了其数据的价值, 关系网络是数据背后的共性问题。网络有不少参数和性质, 如平均路径长度、度分布、聚集系数、核数、介数等, 这些性质和参数也许能刻画大数据背后网络的共性。因此, 大数据面临的科学问题本质上可能就是网络科学问题, 复杂网络分析就是发现网络数据产生、传播以及网络信息涌现的内在机制, 还要研究隐藏在数据背后的社会学、心理学、经济学的机理, 同时利用这些机理研究互联网对政治、经济、文化、教育、科研的影响。基于大数据对复杂系统内在机理进行整体性的研究, 也许将为研究复杂系统提供新的途径。

三、大数据中的传播学研究的方法和路径

1. 数据采集方式变革

大数据最根本的变革是数据生产方式的改变。人们“无意间”的网络行为成为了数据来源。这里的“无意”并不是说人们完全不知晓, 而是这个行为的目的并不是为了给平台公司或研究机构留下记录, 而是日常自己的工作和行为记录的再次运用。

对应到传播学研究中, 也就是说针对大数据的研究不再需要填写问卷、电话访问等方式, 让受访者知道自己的答案会被用于研究分析中。而且以往的这些方式的样本量总是有限的。

新的研究方式是运用一个开放的平台, 让人们主动地自己往上“填写”记录。就像自媒体时代的新闻生产方式, 很大一部分新闻来源都是每个个体在生产, 并发送到微博和博客上, 而微博和博客就是这样的平台, 上面的内容是由用户源源不断地主动地往上填充。

所以在传播学研究中, 就需要这样的平台来采集数据, 可以和现有的各种平台合作, 也可以自己搭建。

2. 抽样方法的前景

大数据会提高抽样研究的准确性, 但是抽样方式会发生改变。在传统的抽样研究中, 会假设一个全样本, 然后进行抽样设计, 但在实际操作过程中, 往往会受限于数据易得性, 而使得研究样本的代表性和信度受到质疑。

而在大数据环境中, 首先, 我们需要厘清大数据本身已经是数据的前端采集结果, 这是大数据的本质, 而它就是一个全样本。抽样的时候, 其实是对数据后端的一次再处理。也就是说, 大数据本身是伴随着分析处理方法的开发而诞生的, 比如mapreduce等, 运用这些方法直接分析数据的准确性最高, 但是需要传播学者进行计算机相关知识的学习, 或者跨学科间学者进行合作。只有在无法使用大数据分析工具的情况下, 传播学者才会使用抽样分析方法。

抽样方法的改变指的是样本来源的改变。原本的样本是在现实生活中采集, 而大数据下的样本是在大数据里面进行抽样, 这样一方面使得数据可得性大大提高, 按照科学抽样方式设计的可执行度高, 另一方面由于操作层面中的数据易得性也能促进抽样方法的发展和更新, 使得抽样方法更准确。

3. 非结构化数据的结构化分析

如前文分析, 传播学者对于大数据的运用是对数据后端的再运用, 那么这个再次的运用分析, 就是把数据的“大”往“小”的分析, 也是把“非结构化”的数据进行“结构化”的分析。换言之, 就是要从这些看似杂乱无章的数据中寻找到有价值的关系链和运用前景。

不同于自然科学数据的特点, 社会科学的数据不仅非结构化数据多, 而且实时性强, 大量数据都是随机动态产生, 根据网络数据做经济形势、安全形势、社会群体事件的预测却成为了可能。传播学者不是要获取更多的数据, 而是要首先得到大数据, 然后做去冗分类、去粗取精, 科学合理地二次抽样采集数据, 进一步进行数据挖掘。

4. 可视化分析:数据艺术家的诞生

伴随着大量数据的分析处理后的结果需要展示给客户或普通受众, 那么普通的图表已经无法展示大数据的数据处理结果, 只有可视化的结果才可以被接受。但是单就可视化的方法来看, 它的展现程度也不尽相同。好的可视化展示应该是通过清晰美观的图示, 能让人理解数据的真正含义或者它的真实面貌。而这对于科学传播和视觉传播的学者来说, 都是一个可探索的领域。能美观地、有趣地、便于理解地展示和分享有关计算的数据和故事, 是未来数据艺术家的努力方向。

节选自:胥琳佳.大数据对于传播学研究内容和方法的影响——基于社交媒体和移动互联网的思考[J].中国出版,2013(18):3-6.

分享到:

评论 抢沙发

评论前必须登录!

 

会道网,社科学术信息平台

关于我们发布会讯
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册