商品详情
书名: 暗数据
定价: 69.00
作者: 戴维·汉德
出版社: 中信出版集团
出版日期: 2020-03-05
页码: 332
装帧: 假精装
开本: 16
ISBN: 9787521738087
1. 作者被称为“暗数据之父”
作者汉德教授是英国科学院院士、统计学家,他也为金融、健康、药学领域及政府分析大量资料,《暗数据》结集其中精华,堪称洞见制作,也有人将汉德教授称为“暗数据之父”。
2.统计学视角的通俗科普读物
书中为读者展现了一般人不易观察到的统计学分析角度:在备受推崇的大数据时代,大多数人都沉浸在只要掌握足够多的数据就无所不能的幻觉中。这本书指出其中的盲点,翻转视角,开辟另一片视野。
3.具有批判性思维
数据不可能体现完全客观,也并非真理。这本书告诉读者在阅读任何资料时,如何避免掉进“客观”的陷阱,对已获取、看似可掌握的资料,保有怀疑精神。
4. 案例鲜活丰富
作者深入剖析生活中实例,从耳熟能详或耸人听闻的经典案例入手,案例丰富鲜活且耐人寻味:作者写作经验丰富,以生动有条理的叙事,引导读者进入主题,阅读体验深刻且烧脑。
5. 了解暗数据,揭示问题的解决之道
涉及医疗、制药、政府治理、社会政策、金融业、制造业等各领域的暗数据现象,揭示问题的解决之道,就在于了解信息中不为人知的黑暗边角是如何扭曲我们的认知。
在大数据时代,我们常常以为自己拥有做出正确决策所需的所有信息。但事实上,我们拥有的信息从来都不完整,可能只是冰山一角。正如宇宙大部分是由暗物质组成的,尽管我们看不见,但它们仍然存在。在信息世界,如果我们忽视暗数据,则可能面临各种风险。
汉德教授以一个引人入胜、充满启迪和智慧的统计学视角总结了15种暗数据类型,并逐一阐释它们的发生机制和可能带来的风险。书中引用大量翔实的案例,这些案例来源于社会生活的方方面面,富含鲜活细节,包括人口普查、火箭发射、总统选举、飓风灾难、地方治安、历史考古、分数膨胀、学术造假、金融诈骗、财务管理等专业领域里的各种案例。汉德教授不仅揭示了深深埋藏在数据背后世界本来的样貌,还提醒要我们警惕未知事物带来的风险,并阐述了如何利用暗数据并从中获益,从而做出理智的决策。
暗数据无处不在。在我们知道的、不知道的每一处角落,暗数据如同一道发自暗处的光,终将照亮人类认知的盲区。
本书将带领我们开启一段奇妙而富有启蒙性的旅程,进入我们看不到的数据世界。
前 言 / V
第一部分 暗数据:原因与结果
第1 章 暗数据:塑造世界的无形力量 / 003
幽灵数据 / 003
你真的拥有全部数据吗? / 012
被忽略的“无事发生” / 016
暗数据的力量 / 020
就在我们身边 / 022
第2 章 探索暗数据:收集到的与没收集到的 / 026
来自各方的暗数据 / 026
数据废气、选择和自我选择 / 028
以小见大 / 039
实验数据 / 051
注意人性的弱点 / 060
第3 章 定义与暗数据:你想知道什么? / 064
定义差异与错误测量 / 064
你不能测量所有事物 / 071
筛查 / 080
基于过往表现的选择 / 083
第4 章 非故意的暗数据:说一套,做一套 / 087
大视界 / 087
汇总 / 091
人为差错 / 092
仪器限制 / 097
连接数据集 / 099
第5 章 方略性暗数据:博弈、反馈和信息不对称 / 102
博弈 / 102
反馈 / 109
信息不对称 / 115
逆向选择和算法 / 116
第6 章 故意的暗数据:欺诈与欺骗 / 126
欺诈 / 125
身份盗用与网络诈骗 / 129
个人财务诈骗 / 133
金融市场欺诈与内幕交易 / 136
保险诈骗 / 141
其他欺诈形式 / 145
第7 章 科学与暗数据:科学发现的本质 / 149
科学的本质 / 149
早知道就好了 / 154
暗数据碰出新世界 / 162
暗数据打开大视野 / 164
隐瞒事实 / 177
撤回 / 192
出处和可信度:谁告诉你的? / 194
第二部分 阐明和使用暗数据
第8 章 处理暗数据:让光照进来 / 201
希望 / 201
在已观测数据与缺失的数据之间建立关联 / 202
识别数据缺失机制 / 211
利用已有数据开展工作 / 212
超越数据:如果你先死怎么办? / 218
超越数据:插补 / 221
迭代 / 227
错误数据 / 230
第9 章 从暗数据中获益:重构问题 / 236
隐藏数据 / 236
对自己隐藏数据:随机对照试验 / 237
可能发生的事 / 239
复制的数据 / 243
想象的数据:贝叶斯先验性 / 249
隐私与机密保护 / 251
从暗处收集数据 / 259
第10 章 暗数据分类:走出迷宫之路 / 263
暗数据分类法 / 263
启示 / 270
译者后记 发自暗处的光 / 279
参考文献 / 285
戴维·汉德(David Hand),伦敦帝国学院数学荣誉教授、资深研究员,英国皇家统计学会前主席,英国科学院院士。汉德教授学术成就非凡,曾出版著作7部。
幽灵数据
先给大家讲个笑话。
几天前,我在路上碰到一个老头儿。他正在往路中央撒粉末,每隔50 英尺撒一小堆。我问他在干什么。“这是驱象粉。”他回答,“大象最怕这个,所以我用它来防大象。”
“但是,这里没有大象啊。”我说。
“这就对啦!”他答道,“驱象粉真灵啊。”
现在,言归正传。
每年有近10 万人死于麻疹,每500 名麻疹患者中会有一个死于并发症,剩下的人会遭受永久性的听力丧失或大脑损伤。所幸,这种病在美国很少见。举个例子,1999 年只报告了99 例。但是,2019年1 月,一场麻疹的暴发导致华盛顿全州进入紧急状态,同时,其他州也发现了大量增加的病例。1 类似情况其他地方也有报道。在乌克兰,2019 年2 月中旬的一次麻疹暴发导致超过21 000 人被传染。
欧洲2017 年发现25 863 例,但是到了2018 年,感染病例已经超过8.2 万例。3 从2016 年1 月1 日到2017 年3 月底,罗马尼亚报告了4 000 多例麻疹感染者,还有18 个死亡病例。
麻疹是一种危害极大的疾病,它扩散时不易被察觉,因为直到感染数星期,你都不会出现明显症状。它从你眼皮底下悄悄溜过,你还没反应过来,就已经中招了。
然而,这种疾病也是可以防控的。简单的疫苗接种就能让你获得麻疹病毒免疫力。确实,以这种方式实施的全民防疫,在美国取得了极大的成功。事实上,在实施了这类防疫项目的国家,绝大部分家长从未见过或者经历过这种可预防疾病导致的可怕后果。但正因如此,当疾病控制和预防中心(简称“疾控中心”)建议家长给孩子接种疫苗以预防某种疾病时,家长们自然会将信将疑。因为疾控中心提到的这种疾病,他们从未在身边的朋友和邻居身上看到或听到过,而且,根据疾控中心的说法,这种疾病在美国已经不再是地方性流行病了。
接种疫苗以预防某种疾病,但这种疾病在当地又不存在。这跟使用驱象粉有什么区别?然而与大象不同的是,得病的风险和以前一样真实存在。仅仅因为那些家长赖以做出决定的信息和数据缺失了,所以风险才变得不可见。
我把各种缺失的数据称为“暗数据”(dark data)。暗数据隐藏在我们的认知之外,这意味着我们可能出现误解,得出错误的结论,做出糟糕的决定。简言之,我们的无知意味着犯错。
“暗数据”这个术语与物理学中的暗物质相似。宇宙中大约27%的部分由暗物质这种神秘物质组成。暗物质与光或其他电磁辐射不发生作用,因此不可见。因为暗物质无法被看到,所以天文学家长久以来并未意识到它们的存在。直到后来,对银河系旋转运动的观测揭示出这样的现象:较远处的恒星,并不比靠近中心的恒星转动得更慢。这与我们根据重力原理得出的预期不一致。这种异常转动可以用一种假设来解释:通过我们用天文望远镜能看到的恒星和其他天体来判断,银河系的质量比看起来的大得多。我们看不见那些多出来的物体,所以称其为暗物质。然而,暗物质不是无意义的(我甚至认为它是很重要的):在我们所在的银河系中,暗物质的数量可能比普通物质的10 倍还多。
暗数据和暗物质有很多类似之处:我们看不到那些数据,它们没有被记录下来,但是它们仍然会对我们的判断、决定和行为产生重大影响。正如后来一些例子显示的那样,除非我们意识到这种可能性,即我们周遭一直潜伏着未被认知的事物,否则,后果可能是灾难性的,甚至是致命的。
本书的目的就是探索暗数据是如何形成的以及它为什么会形成。我们将考察不同类型的暗数据,并研究它们的起因。首先,我们会探讨采取什么措施可以避免暗数据的产生。其次,我们还将研究如果意识到暗数据被屏蔽,我们能做些什么。最后,我们还将看到,如果我们足够聪明,那么我们也有可能从暗数据中获益。尽管这些看起来既奇怪又矛盾,但是,恰当利用未知事物和暗数据的确可以帮助我们做出更好的决定,更好地实施相关行动。务实地说,这意味着我们可以通过巧妙地利用未知事物,过上更加健康的生活,赚更多钱,降低风险。这并不意味着我们应该向其他人隐瞒信息(尽管我们也将看到,被故意隐瞒的数据是一种常见的暗数据类型)。暗数据比那种被刻意隐瞒的数据微妙得多,所有人都能因其获益。
暗数据有许多形态,其成因也各种各样。基于成因,我把暗数据分为15 种类型。我的分类并不是穷尽式的,因为暗数据的成因非常多,列出所有类型几乎是不可能的。而且,任何特定的暗数据案例都会清晰地显示出不止一种类型——不同类型的暗数据能够共同起作用,甚至可以组合在一起产生不利的协同效应。尽管如此,对这些暗数据类型的认识,以及对显示暗数据的案例的检查,能帮助你判断问题何时出现,从而保护你免遭其害。我在本章最后列出了暗数据分类清单,按照相似性进行了大致排序,并在第10 章对各种类型进行了详细阐述。在本书中每种特定类型出现的地方,我都进行了说明。但是,我刻意避免采用详尽列举的方式,因为那样会造成干扰。
我们再来看一个新案例。
在医学上,创伤属于严重损伤,可能会造成长期的严重后果。它是导致早逝和残疾等影响寿命的最主要原因之一,也是40 岁以下人群最常见的死亡原因。创伤审查与研究网络(TARN)的创伤病患数据库是欧洲最大的医学创伤数据库。该数据库收集了来自200 多家医院(其中包括英格兰和威尔士93% 以上的医院,以及爱尔兰、荷兰和瑞士等国家的医院)的创伤病例。很明显,对于研究创伤干预治疗措施的预后和疗效来讲,这是个非常丰富的案例数据库。
叶夫根尼·米克斯医生和他英国莱斯特大学的同事查阅了这个数据库里的一些数据。4 从被考察的165 559 个创伤案例中,他们发现19 289 个病例的结果是未知的。在创伤研究中,“结果”指的是伤害发生至少30 天后病人是否依然存活。也就是说,超过11% 的病人的30 天后存活数据不得而知。这个案例展示了暗数据的一种常见形式,即第1 种暗数据:已知的缺失数据。我们知道这些病人都有各自的结果,但我们不知道他们的结果是什么。
没关系,你可能会这样想:让我们来分析一下已知其结果的146 270 个病人,以此为基础建立认知和进行预后。毕竟,146 270已经是个不小的数字了,在医学领域,这属于“大数据”。因此,我们当然会对此有信心:基于这些数据产生任何结论,都将确切无疑。
但是,这样行吗?或许,缺失的19 289 个病例比其他病人更特殊。毕竟,这些病例的确具有某种特殊性,因为他们的结果都是未知的,因此,我们怀疑他们可能在其他方面也有所不同,是有一定理由的。因此,相对于整个创伤病人群体,针对这146 270 个具有已知结果的患者进行的任何分析,都可能具有误导性。所以,基于这个分析而采取的治疗措施,也有可能是错误的,也许还会导致医生产生错误的判断,开出不正确的处方,采用不恰当的治疗方案,给病人造成不利甚至致命的后果。
举一个不切实际的、极端的例子:假设这146 270 名已知结果的患者在未经治疗的情况下,全都存活并康复了,但19 289 名未知结果的患者在入院后两天内全部死亡。如果忽略那些未知结果的患者,我们就会顺理成章地得出结论:没什么可担心的,所有创伤患者都康复了。在此基础上,我们将不会对任何新收治的创伤患者采取治疗措施,而是寄希望于自然康复。然后,我们会为超过11% 的死亡病例而感到震惊和困惑。
在故事继续深入之前,我想请读者们放心。我的极端设想只是最糟糕的场景,我们有理由期待现实情况不会那么糟,米克斯医生和他的同事都是分析缺失数据的专家。他们非常清楚这种风险,因此一直致力于开发统计学方法来应对这种问题,我将在本书后面的章节详述类似的方法。然而,从这个故事中得到的启示是:事情可能并非像它们看上去的那样。确实,如果本书对你有什么启示,那么它大概会是:虽然大量采集数据很有帮助,但是量并不代表一切。就理解正在运行的事物而言,比起你已经掌握的数据,更重要的可能是那些你没掌握的数据和尚不知晓的东西。在我们将要看到的任何例子中,暗数据问题都不仅仅是大数据问题,小的数据集也会出现这些问题。它们无所不在。
这个创伤病患数据库的故事可能有点儿夸张,但它的意义在于向我们发出警示。也许,19 289 名患者的结果没有被记录下来,正是因为他们都在30 天内死亡了。毕竟,如果结果来源于患者入院30 天后接受的访问,那么,已经死亡的患者根本不会回答问题。除非意识到这种可能性,否则,我们永远不会有患者死亡的记录。
听起来可能有点儿傻,但是事实上,这种情况经常出现。举例来说,为某类接受特定治疗的患者确定预后而建立的模型,要基于先前接受此类治疗的患者的结果。但是,如果没有足够的时间让先前所有病人都得出结果,那么会怎么样呢?对那些病人来说,其最终结果将成为未知结果。所以,仅仅建立在已知结果的患者数据上的模型,可能会对我们产生误导。
类似现象也出现在问卷调查上,没被回答的问卷,才是难题的根源。研究人员通常会有一份完整的人员名单,列出了他们理想化的答题者。但通常情况下,并不是每个人都会回复问卷。如果那些答题的人和没有答题的人在某些方面有所不同,那么研究人员有理由怀疑这些统计数据不能完全代表民众意向。毕竟,如果某杂志向它的订阅者发起问卷调查,只问一个问题:你会回复杂志的调查问卷吗?即使在所有的回收问卷中,100% 的人回答“是”,我们也不能把这种情形解释为所有订阅者都回复了此类调查。
前述案例阐明了第1 种类型的暗数据。我们知道,所有创伤患者的数据都存在,尽管这些数据没有全部被记录下来。我们知道,问卷调查的所有对象都有其答案,尽管他们不一定回复。也就是说,我们知道那些数据存在确定值,我们只是不知道那些数值具体是什么。
下面要讨论另外一种不同类型的暗数据(第2 种暗数据:未知的缺失数据)。
许多城市都有路面坑洞问题。水流进路面的小裂缝,并在冬季结冰,造成裂缝扩大,然后经过汽车轮胎的碾轧,裂缝进一步扩大。这会导致恶性循环,最终在路面上形成由于轮胎和车轴的碾轧形成的坑洞。波士顿市下决心用现代技术解决这个问题。他们发布了一款智能手机应用程序,利用手机的内部加速器来监测汽车轧过路面坑洞时产生的颠簸,然后利用GPS(全球定位系统)把路面坑洞的位置自动发送给城市管理部门。
现在,公路维护人员可以准确地知道要去哪里修补路面坑洞了。这个出色的问题解决方案,建立在现代数据分析技术的基础上,不过,它忽略了一个事实:拥有汽车和昂贵的智能手机的人,多集中在富裕地区。因此,贫困地区的路面坑洞很可能不会被发现,它们的位置不会被发送出去,一些地区的路面坑洞可能永远无法得到修复。
这种方法不但没有从整体上解决路面坑洞问题,甚至可能加剧社会不平等。这种情况不同于创伤患者案例。在创伤患者案例中,我们明确知道某些数据缺失了。而在这里,我们并没有意识到这一点。
下面是另外一个这种类型的暗数据例子。2012 年10 月下旬,飓风“桑迪”5 袭击了美国东海岸。当时,它造成了美国历史上第二大损失,是有记录以来最大的大西洋飓风。“桑迪”造成了大约750 亿美元的损失,导致8 个国家共200 多人死亡。“桑迪”波及美国24 个州,从佛罗里达到缅因、密歇根、威斯康星等,并且导致金融市场因为电力中断而关闭。它还间接导致了约9 个月之后的出生率激增。
同时,那也是一次现代媒体的胜利。伴随飓风“桑迪”的,是一场实时播报飓风情况的Twitter(推特)风暴。Twitter 的独特意义在于即时告诉你正在发生什么事情、事情发生在哪里以及发生在谁身上。
这种社交媒体平台是一种实时跟进事件进展的有效手段。这正是飓风“桑迪”肆虐期间的写照。从2012 年10 月27 日到2012 年11 月1 日,Twitter 上发布了超过2 000 万条播报飓风情况的帖子。很明显,我们可能会认为,这是一个理想的平台,让我们持续不断地了解风暴发展情况,以确定哪些地区受到了严重影响,哪些地区需要紧急救援。
但是,后来的分析表明,Twitter 上关于飓风“桑迪”的内容,大多数来自曼哈顿,只有少量内容来自洛克威、科尼岛等区域。这是否意味着洛克威、科尼岛的受灾情况轻一些?虽然曼哈顿的地铁和街道都被水淹没了,但是,那里并非受灾最严重的区域,甚至在整个纽约范围内也算不上。真相是,之所以某些地区在Twitter 上发布的内容较少,并不是因为那些地区受灾较轻,而仅仅是因为那里拥有智能手机、使用Twitter 的人更少。
事实上,我们可以再次设想一种极端情况:如果一个社区被“桑迪”彻底摧毁了,就根本不会有任何关于该社区的内容被发布在Twitter 上。这种情况反而会给人一种“那里的每个人都很好”的印象。可见,暗数据才是真相。
与第1 种类型的暗数据一样,第2 种暗数据,那些我们不知道哪些数据缺失了的例子,也是无处不在的。想想未被发现的欺诈行为,或者那些未能证明凶案发生的刑事犯罪调查。
对于前两种类型的暗数据,你可能会有点儿似曾相识的感觉。在一次著名的新闻发布会上,美国国防部前部长唐纳德·拉姆斯菲尔德将它们概括为一句话。他说:“既有已知的未知,也就是说,我们知道有些事情我们不知道;也有未知的未知——那些我们不知道自己不知道的东西。” 6 拉姆斯菲尔德的话略显佶屈聱牙,因此颇受媒体嘲讽。但他说得很有道理,而且肯定是真的。
先前说到的这两种类型,只是一个开头。在接下来的章节里,我们将陆续介绍其他类型的暗数据。这两种类型加上后面将提到的其他类型,就是本书的全部。正如我们所见,暗数据具有许多种形式。除非我们意识到,数据可能是不完整的,观察某一事物并不意味着观察一切事物,测量过程可能是不准确的,被测量的东西可能不是我们真正想要测量的对象,否则,我们对当下事物的认知,很有可能只是一种被严重误导的表象。没有人听见树在森林中倒下的声音,并不意味着没有发出声音。
- 中信出版社
- 中信出版社坚持“我们提供知识,以应对变化的世界”的出版理念,以高端优质的内容服务,多样化的内容展现形式,为读者提供高品质阅读与视听内容,满足大众多样化的知识与文化需求。
- 扫描二维码,访问我们的微信店铺