错觉 AI如何通过数据挖掘误导我们加里史密斯著合理利用数据和科技人工智能统计学模型中信出版社图书正版

￥43.50

运费：	¥ 0.00-15.00
库存：	56 件

立即购买

支付：: 微信支付银行卡支付宝

错觉 AI如何通过数据挖掘误导我们加里史密斯著合理利用数据和科技人工智能统计学模型中信出版社图书正版商品图0

错觉 AI如何通过数据挖掘误导我们加里史密斯著合理利用数据和科技人工智能统计学模型中信出版社图书正版商品图1

商品详情

挖掘大数据风行一时，但数据挖掘是人为，而非智能。计算机并没有区分好坏数据所需的人类判断力，没有分辨有理有据的和虚假伪造的统计学模型所需的人类智能。在人工智能时代我们如何合理利用数据和科技而不是盲目相信，本书为你揭晓答案。

书名：错觉

定价：58.00元

作者：加里史密斯

出版社：中信出版集团

出版日期：2019-11

页码：335

装帧：平装

开本：32开

ISBN：9787521709957

在人工智能异常火爆的今天，本书另辟蹊径，从反面探讨了AI研究中存在的一系列问题。开创性地提出了“得州神枪手谬误”和“史密斯测试”等来批判那些先有数据后有理论和模型的科学研究方式——数据挖掘。如今大数据、坏数据、假数据充斥着我们的生活，数据挖掘以相关关系取代了因果关系，AI到底是真的有智能还是只在服从？本书为你解答。

在人工智能异常火热的今天，很多人认为我们生活在一个不可思议的历史时期，人工智能和大数据可能比工业革命更能改变人的一生。然而这种说法未免言过其实，我们的生活确实可能有所改变，但并非是朝好的方面发展。我们过于武断地认为计算机搜索和处理堆积如山的数据时不会出差错，但计算机只是擅长收集、储存和搜索数据，它们没有常识或智慧，不知道数字和词语的意思，无法评估数据库中内容的相关性和有效性，它们没有区分真数据、假数据和坏数据所需的人类判断力，没有分辨有理有据和虚假伪造的统计学模型所需的人类智能。

计算机挖掘大数据风行一时，但数据挖掘是人为而非智能，也是非常艰巨、危险的人工智能形式。数据挖掘先是通过大量的数据走势、相关关系来发现让我们内心愉悦却无实践价值的模型，然后创造理论来解释这些模型。作者通过“史密斯测试”和“得州神枪手谬误”等实例说明，如果你挖掘和拷问数据的时间够长、数量够大，你总能得到自己想要的结果，然而这是相关关系却并不是因果关系，只是自我选择偏好，并没有理论基础也没有实用价值。

在人工智能时代，我们对计算机的热爱不应该掩盖我们对其局限性的思考，真正的危险不是计算机比我们更聪明，而是我们认为计算机具有人类的智慧和常识，数据挖掘就是“知识发现”，从而信任计算机为我们做出重要决定。更多的计算能力和更多的数据并不意味着更多的智能，我们需要对人类的智慧有更多的信心。

引言/007

第1章智能还是服从

井字游戏/008

国际跳棋/011

第2章盲从

思考之源和思维之火/024

计算机是超人吗？/031

将时间考虑在内/036

识别像素与产生情绪/037

批判性思维/039

图灵测试/041

第3章无语境的符号

翻译软件与理解语言/052

威诺格拉德模式挑战赛/057

计算机能阅读吗？/058

计算机能写作吗？/061

在语境中理解事物/066

猫与花瓶/071

第4章坏数据

自我选择偏好/077

相关系数并非因果关系/084

时间的力量/087

幸存者偏差/088

假数据/090

识别“坏数据”/092

第5章随机性模式

数据挖掘/102

黑匣子/107

大数据、大电脑、大麻烦/109

利益冲突/111

天生就会被骗/113

为模型所惑/114

第6章如果你拷问数据的时间足够长

孟德尔的豌豆研究/128

得州神枪手谬误/130

数据挖掘者/132

拷问数据/135

倒摄回忆/137

金钱启动效应/139

寻找就会发现/143

微笑曲线/149

从卓越降为优秀/154

攻击性和吸引力/157

达特茅斯三文鱼研究/159

骗子，骗子/161

第7章无所不包的“厨房水槽法”

预测总统大选/168

非线性模型/180

第8章新瓶装旧酒

逐步回归法/187

岭回归法/189

数据规约/193

神经网络算法/196

被数学蒙蔽双眼/199

第9章先吃两片阿司匹林

明早再给我打电话/204

我要再喝一杯咖啡/207

远程治疗/208

癌症群/211

最有理有据的疗法失效了/214

疾病诊断和治疗中的数据挖掘/217

糟糠过多，精粹不足/220

第10章完胜股市（上）

噪声/224

滑稽的理论/226

技术分析/230

抛硬币/235

《每周华尔街》的十项技术指标/237

推特，推特/242

技术大师/243

为乐趣和盈利投资的黑匣子/247

第11章完胜股市（下）

股市与天气/252

预留方案/259

真正的数据挖掘/264

趋同交易/265

高频交易/276

底线/281

第12章我们都在监视着你

妊娠预测指标/289

谷歌流感/291

机器人测试仪/293

就业申请/295

招聘广告/298

贷款申请/300

汽车保险/303

社会信用评分/305

黑匣子式歧视/306

不合理的搜查/307

看看你的手环/310

你需要整容吗？/312

摆弄系统/316

共同毁灭原则/319

结语/323

参考文献/329

加里·史密斯是波莫纳学院的经济学教授。他在耶鲁大学获得经济学博士学位。他曾两次获得教学奖，并撰写(或与他人合著)80多篇学术论文和12本书。他的研究曾被彭博广播网、CNBC、BrianLehrer、福布斯、纽约时报、华尔街日报、《新闻周刊》和《商业周刊》等媒体报道。

《危险边缘》是一档热门的电视智力竞赛节目，有多个版本，开播至今已有50多年。该节目的比赛内容为百科知识问答，其巧妙之处在于：参赛者要根据以答案形式提供的各种线索，给出与这个答案相对应的问题。例如，线索是“美国第16任总统”，正确的问题就是：“谁是亚伯拉罕·林肯？”每期节目均有三名参赛者，以摁按钮的方式口头抢答（除了最后一轮“终极危险边缘”以外，在其他环节三名参赛者均有30秒时间书写作答）。

从很多方面来看，这档节目都适合计算机参与，因为计算机能准确无误地存储和检索大量信息。在《危险边缘》青少年组比赛中，一名男孩因将“谁是安尼·弗兰克”误写成“谁是安妮·弗兰克”而痛失冠军。而计算机就不会犯这样的错误。

另外，线索有时通俗易懂，有时却晦涩难解。例如，线索是“把它打进去，你就输了比赛”，对只是资料库的计算机来说，很难得出以下正确问题：“什么是（台球）母球？”

还有一个难解的线索是：“翻译时，这支大联盟棒球队的名字会重复一次。”正确问题为：“什么是洛杉矶天使队？”（WhatistheLosAngelesangels？）

2005年，15名IBM（国际商用机器公司）的工程师合作设计了一款能与《危险边缘》最佳玩家同台对擂的计算机，取名“沃森”，以纪念IBM的首任CEO（首席执行官）托马斯·J.沃森。沃森在1914年接手IBM时，IBM还只是一家仅有1300名员工、年收入不足500万美元的小公司，到了1956年他去世的时候，IBM已经发展成为一家有7.25万名员工、年收入9亿美元的公司。

“沃森”程序存储了相当于2亿页纸的内容，每秒可处理相当于100万本书的信息。除了拥有海量内存和高速处理能力外，“沃森”还能理解自然语言，使用合成语音进行交流。与罗列相关文档或网站的搜索引擎不同，“沃森”可按照程序并根据线索得出具体答案。

“沃森”运用数百个软件程序，先识别线索中的关键字和词组，再与海量数据库中的关键字和词组相匹配，最后得出合理答案。按照编好的程序，如果线索是某个名字（如亚伯拉罕·林肯），“沃森”就会写出以“谁是……”开头的问题；如果线索为某一事件，它就会写出以“什么是……”开头的问题。单个软件程序与某个答案的一致性越高，“沃森”就越能确定此为正确答案。