大数据下存在的问题

培章 1172分享

  近年来,“大数据”被应用到很多领域中,包括社会科学。大数据带来的真正的风险在于社会研究不再由深度的社会调查来引导,而是被可用性、方法、营销以及学术时尚扭曲和塑造。大数据对社会科学提出的挑战并非全新的。事实上,社会学的核心问题是把个体间的微观互动与社会结构相关联。米尔斯把这种能力称为“社会学的想象力”。为了整合大数据,需要更大的社会学想象力,这也是社会研究的核心问题:如何把人类行为与社会历史相关联。

  大社会数据

  “大数据”引起持续关注的原因有两点。其一是它已经在支持社会科学研究的机构中根深蒂固。资源和资助的快速增长激励着大数据研究的增加。第二个原因,也是更重要的是,忽视大数据就是忽视社会研究的核心问题,忽视社会科学方法和理论的变革。大数据带来的最大机遇在于,把宏观的社会关系与微观的社会互动相关联。

  可以通过实例描述目前“大数据”领域的工作。很多“大数据”研究研究使用的是推特的数据,涉及内容分析、倾向性分析、检测社区和人际关系等。尽管我们可以把推特上的所有数据的集合视为“大数据”,但是,这些研究使用的都是全部数据集合的子集。“大数据”是否要求必须达到特定的数据规模呢?事实上,在一定程度上,推断统计与样本规模是不相关的。如果我们的目的是测量集中趋势,并不需要十亿的样本。此外,为寻找异常值而抽样无异于大海捞针,同样的,对网络抽样也是很困难的。总之,数据的规模应符合研究目的。

  除了推特,还有一些社交媒体也为收集社会互动数据提供了机会。由于线下行为也可能在线上留下痕迹,获得和使用大数据的可能性不断增加。最著名的例子是Google流感趋势会根据汇总的Google搜索数据,对全球当前的流感疫情进行估测。

  在实践中,“大社会数据”如何被记录、传递和使用同样值得关注。由于存储和增长的成本很低,因此如何获得和分析大数据是更重要的。

  理论的死亡与复兴

  科学研究中“大数据”研究的增多导致一种观点认为传统的科学方法,即假设、模型和检验以及理论终结了。如果拥有足够规模的数据,就可以在没有研究问题的情况下找到答案,寻求原因,理论就变成多余的了。然而,这种观点是错误的。

  第一,理论可以解释社会结构与社会变化。Google流感趋势是大数据带来的机遇的典范,但是在2013年,该产品惨遭失败,由于研究人员未分析为什么搜索关键词与流感趋势是相关的,因此失败的原因也是未知的。这场失败被视为对“大数据”狂热的警告。“大数据”研究中不仅有混淆变量的现象,甚至还有被验证了的虚假相关。因此,对于关系的推理以及理论解释是有必要的。

  用来预测传染病、候选人名气以及商品交易价格的模型固然重要,但这只是社会科学中的一个环节。社会科学之所以是科学,就是因为它解释社会结构和社会变化的诉求。大数据的使用方法并不是终点,而是实现理论解释的一个步骤。幸运的是,社会学是有相关经验的。

  社会理论的一个核心问题是社会如何塑造了个体行为以及被个体行为塑造。或者说,微观的个体行为是如何整合并且在更大范围上塑造了社会规则、期望、价值、欲望以及结构?从根本上讲,这个问题是一个大社会数据的问题:宏观社会结构是如何演化的,并且与我们的日常生活相关联。

  大数据致力于在日常经验的基础上构造宏大的社会理论。理论化提供了在社会规则之下理解个人行为的途径,但这一工作很难通过经验研究完成。通过民族志方法来进行的这项工作只能粗略地观察一般的社会结构。而理解社会的总体机构的尝试虽然可以对社会变化或社会控制提供内外一致的解释,但是它们往往过于抽象而缺乏实际意义和实用性。

  米尔斯警告过两种陷阱,其一,分析抽象的宏观理论会导致更加抽象;其二,抽象经验主义——“方法论吞噬了观点”。大社会数据使对个体微观互动集合的经验观察成为可能。当然,这种观察也可能面临一个风险,即规模很大但是缺乏理论基础。但是更危险的结果是被大数据吞噬,并假设它能完成研究者的工作。

  “狂热”之前的大数据

  社会调查历史久远且连贯,事实上,社会学根源于对大数据的探索。早期社会学的核心问题是个体行为如何与社会历史相关联,这一问题至今仍有很大影响。涂尔干在自杀研究中,发现、汇总、标准化以及分析数据的方法更类似于我们现在的“大数据”研究。

  从最初的研究开始,社会学就致力于追求收集与分析数据的新方法,统计技术的发展使我们可以分析复杂的数据。社会科学家早就使用统计软件包来分析大数据集,在大数据“诞生”之前,“数据科学家”就存在了。后来,社会科学研究逐渐理论化,但是现在,那些由于缺乏经验数据而难以检验的模型可以通过利用新的数据信息流来检验。

  那些不熟悉理论但更擅长与数据处理的研究者在一定程度上可以被原谅,因为他们进入了一个新时代。而现实的情况是,社会科学家未能掌握获得和处理大数据的技术。这会导致机会的丧失:社会学家和其他关注理论的学者的失声是职责的缺失。如果社会科学家希望使用大数据,他们需要考虑如何去使用。

  大数据的伦理问题

  大数据研究至少面临两个重要的伦理问题。

  政府收集和存储居民日常行为的信息的行为是令人不安的,居民并不了解政府收集了哪些信息,谁可以获得这些信息以及基于这些信息做出了什么决定。利用自己的平台收集数据的企业对大数据的使用同样是有问题的。由于企业使用大数据是为了商业目的,并且公众通常是在未知的情况下与企业达成了使用数据的协议,因此,企业的大数据研究对公众是不利的。

  此外,平台的拥有者控制大数据的使用权,这把不为企业服务的研究者置于不利地位,或者迫使研究者在伦理上做出让步。大多数企业以很高的价格出售数据,研究者如果想要获得数据,必须找到足够的资金或者与企业勾结。这可能造成研究者的两极分化。

  大多数研究把公众置于危险的境地,研究带给他们的益处能否抵消危险一直是个问题。与机构和政府联系紧密的研究者往往把对社会的益处放在首位。政府和机构之外的研究更有可能考虑伦理问题。而且,从理论上讲,这样的研究不太可能仅仅是一个“fishing expedition”——以牺牲公众的隐私为代价找到对他们有用的关系。

  视角转变与数据收集技巧

  尽管社会学和其他社会科学拥有使用大数据的优势,但是目前大社会数据的研究并不多。视角未转变和缺乏一套实用的技能是限制大数据研究的两个原因。我们需要回到米尔斯的“社会学的想象力”来应对这些问题。

  社会学的想象力要求社会学家把个体的“麻烦”与社会问题相关联。米尔斯认为我们需要识别社会问题,进而使用必要的工具深刻理解社会结构。这种观点把“解释”置于首位,并且认识到社会科学应当使用丰富的方法。我们应该把“大数据”视为理解社会结构的工具。

  近年来,人们越来越关注软件研究和算法的偏差。当我们用传统的方法从新的平台上收集数据时,环境是非常重要的,也就是说,特定的时间和特定的工具会影响我们收集到的数据。不幸的是,研究者很少关注我们收集数据的过程。

  社会学家已经成功地与那些有技术能力的人合作来进行他们的研究,合作者中的每一方都有特定的专业知识。社会科学家应当利用程序员的编程技术开展研究。但是,为了使合作更加高效,社会科学家也需要具备一定的编程和网络技术知识。成功的更大的社会学想象力在于培养新的社会科学家。

  大社会数据要求我们扩展我们的感知,并且构造我们自己的处理数据的工具。我们的工作都应该成为典范,并且我们要评估和收集那些优秀研究的案例。

    热门标签

    714652