设为首页 收藏本站

社会观察

小数据研究学者对大数据提出六点质疑

新传研读社发表文章“大数据无所不能吗?来自小数据研究者的六点质疑”,华夏民意网节录文章核心内容与网友共同学习,以便于探讨借鉴。

大数据时代已经来临。计算机科学家、物理学家、经济学家、数学家、社会学家……都被冲入大数据的海洋之中。社交媒体中的互动、健康报告、电话记录、政府档案等数字痕迹,都成为了学者们热衷于追逐的研究素材。不过同时,一个重要的问题也浮现出来:大数据能否帮我们创造更大的公共价值?亦或者说,它只会成为窥探隐私和侵入式营销的工具而已?

大数据是一种技术现象,同时也是文化现象。它迎合了人们“数据越大、智识水平越高”的信念。人们相信,大数据携带着真理、客观和准确的光环,可以生产出我们从未企及的深度思考。另一方面,反乌托邦的观点则担心,大数据(big data)会成为一种新的老大哥(big brother),侵蚀人们的隐私空间、干扰公民行动的自由、增强国家权力。



如今,已经出现了不少对于大数据的研究。不过,我们仍旧有必要进行批判性的思考:何为大数据?谁有权力接近大数据?数据分析是怎样进行的?目的是什么?在这篇文章中,我们提供了有关大数据研究的六种反思,希望能在不同领域的研究者之间引发讨论。

反思01

大数据改变了知识的定义


大数据让我们以前所未有的广度和深度来收集数据,这也在认识论方面产生了深刻影响。也有研究者认为,大数据的问题恰恰在于,在洪流一般的信息背后,缺少哲学意义上的管控。

大数据有自己的局限性。研究者更可能去关注那些正在发生和刚刚发生的数据,因为历史数据几乎不可能挖掘到。真正有价值的问题似乎是:大数据如何改变了学习的意义,这种新的知识系统究竟提供了哪些可能性,又具有哪些局限呢?

思考02

大数据宣称的客观、准确是具有误导性的


大数据提供给人文学科一种新机遇,来实现量化科学和客观方法的梦想。它让更多的社会空间可被量化。不过事实上,在我们看来,大数据方法仍旧是主观的。

科学家们在决定研究设计时,他们也在解释。例如,对于社交媒体数据,存在着“数据清理”(data cleaning)这一道程序。哪些变量和属性要被保留?哪些要被删除?这个过程内在便具有主观性。

如果单纯拒绝解释,大数据还会让我们产生幻想性的错觉。例如,大数据研究经常会发现莫名其妙的相关性。

思考03

数据越大,不一定数据越好


社会科学家一直认为,数据收集和分析的系统性,保证了他们工作的缜密。不管是问卷调查还是实验法,都会提供给其他研究者评估研究效度的途径。

大数据并不意味着整体数据。如果不考虑到样本本身的特质,数据的规模就毫无意义。例如,如果一个学者试图理解Twitter广播的话题频率,但Twitter会自动隐藏那些有问题的内容(例如色情和垃圾信息),那么,无论我们收集多大的数据,结论都是不准确的。

在社会科学的计算转向过程中,我们更需要认识到“小数据”的价值。在任何数据层级上,都有可能产生研究洞见。某些时候,哪怕我们聚焦一个人,都有可能获得卓越的发现。

思考04:

剔除语境的大数据会失去意义


在大数据研究中,常见的两种社会网络是“节点网络”和“行为网络”,所谓节点网络,可以简单理解为好友列表。不过,我选择关注一个人,可能有不同的动机,比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公众人物,或者有意思的陌生人。所谓行为网络,指的是通过技术抓取到的交流信息。这种交流的种类也很多,例如给一个人流言、在照片上tag一个人等等、给一个人发私信,等等。

节点网络和行为网络对研究者具有重要的价值,不过,它们并不能被等同于人际网络。忽略具体的交流语境,仅仅通过交流频率或朋友列表示来测量关系强度,本身是有很大问题的。

思考05

可获得的数据并不一定就是道德的


学者不得不面对一个问题:在社交媒体上,所谓的“公开”(public)数据,究竟该如何使用?如何处理其中的研究伦理问题?一部分人已经意识到问题的严重性,并呼吁平台对用户隐私进行更好的保护。

对于大数据而言,其中的伦理意涵仍旧十分模糊。一个人在社交媒体上的广播应该被纳入到研究数据之中吗?万一TA的广播以一种脱离语境的方式被解读呢?对此,TA有知情权吗?如果TA在研究中遭受到了伤害,谁来负责呢?大数据研究中的知情同意应该如何操作呢?

在大数据的研究中,我们还需要关注真相、控制与权力问题。研究者拥有工具和渠道,但社交媒体用户却没有。他们的广播是在高度情景化的背景下生产的,也很可能不愿意自己的信息被用在其他地方。

思考06:

大数据的使用限制创造了新的数字鸿沟


大数据的狂热者们有理由相信,大数据提供了一种获得大规模数据的简便方法。不过,我们要询问的问题是:谁可以拥有这些数据?在何种情境下拥有?有何限制?

一些公司完全不提供关于自己的任何数据,另一些公司则用这些数据卖钱。这就造成了一种不平等:那些有钱的、有合作关系的研究者,可以生产出完全不同的研究。而不拥有这些资源的研究者,既不能进行这些研究,也没有机会去评估这些研究的方法论主张。

建造起一种基于“谁能读懂数据”的研究阶级。相应的,传统的社会科学研究者的价值可能会被低估。我们需要面临的另一项挑战是,如何才能培养出这样的学生——既通晓社会理论,又熟练掌握算法和数据分析?
 
版权所有:华夏民意网   备案号:晋ICP19014723号-1