商品详情
书名:科学计量大数据及其应用
定价:78.0
ISBN:9787030506221
作者:王贤文
版次:1
出版时间:2016-11
在线试读:
第*章 数字出版、互联网与科学计量大数据
1.1 科学论文出版:从纸质出版到数字出版
当获取科学论文的路程从双脚走向图书馆的路途变为手指在鼠标左键上的轻轻一击,当发表科学论文的载体从堆积如山的层叠纸张变为工整编码的数字文档,当传播科学论文的手段从费时往来的鸿雁飞鸽变为实时通信的网络社交媒体,科学论文出版,这一见证和推动人类历史文明兴盛繁荣的古老行业,乘着信息技术革命的疾风,悄然上演着从纸质迈向数字的蜕变。
出版,有史以来一直承担着留存和传播人类精神文化财富的重要使命。正是得益于出版这一文化活动,纵跃千年的哲思得以传承发扬,横跨东西的思想得以交流碰撞,人类文明的辉煌得以汗青传承。自第*本书诞生,到抄本时期再到印本时代,纸质出版物的每一页纸、每一丝纤维都浸透于历史的点滴之中,在记录财富的同时,自身也成了不朽财富的一部分。其后,报纸、杂志等快捷实时、连续定期的纸质出版物的出现在人类社会传递和接受信息、记录和见证时代变迁的过程中发挥着至关重要的作用。从阅读早报开始新一天的生活、浏览杂志消遣闲暇的时光到享受好书实现睡前的心安与助眠,纸质出版物早已融入人们的生活作息当中,成为随时随地都在手边和眼前的伙伴。
科学论文出版则是*饱含知识分量、*具有特殊意义和*要求尖端前沿的一种出版形式。科学论文是人类对于已经认识到的这个世界的某一部分的编码化表述,致力于描述和解释自然界、工程技术和人类社会等不同领域的现象和问题,发掘出其背后隐藏的规律。大到对世界本源孜孜不倦的追求、小到对生命个体行为细致入微的观察,科学论文圈定了人类可理解的世界的范畴。从古至今出版的科学论文所编织起来的繁荣茂盛的知识体系,铸成了科技文明稳固的根基。在此基础之上,人类在相比于地球寿命微不足道的短暂时间里,创造出了空前灿烂辉煌的成就。尽管相比于大众出版物,科学论文出版物的受众范围要小得多,但改变人类生产生活方式的所有产品和技术,无一例外地只有扎根在科学出版的肥沃土壤里,才得以开枝散叶、繁花似锦。因而,看似遥不可及、高不可攀的专业科学论文出版才是撑起人类光明蓝天的阿忒拉斯。
世界上第*本学术期刊是英国伦敦皇家学会创办的《哲学汇刊》,创刊于 1665年3月6日,从1665年一直连续出版到 1886年。时至今日,人们依然可以从该期刊的历史档案馆网站*检索全部期刊的所有论文。从 1887年开始,该刊分为Philosophical Transactions of the Royal Society A和 Philosophical Transactions of the Royal Soc-iety B两本期刊出版,前者主要覆盖物理学领域,后者主要覆盖生命科学领域,一直延续至今(图1.1)。
科学出版在推动科技进步的过程中,反过来也受到科技进步的深远影响。个人电脑、智能手机和电子书等阅读终端的推陈出新和迅速普及,带来了全新的阅读体验,悄然间重塑着人类的工作和阅读习惯。原本堆积如山、不可能随身携带的厚重书本,只保留了知识的重量而舍弃了物质的分量。一个小小的数字阅读终端足以集成一间图书室乃至一座图书馆的资料储备,极大地丰富了人们的阅读选择。
图 1.1.世界上第*本学术期刊《哲学汇刊》封面
与之相对应,出版业的“去纸化”运动如火如荼地开展起来。“持续的数字化变革应该是 21世纪任何一家严肃的科学出版商的核心工作”,2015年,已创刊近 150年的 Nature杂志的执行主编 Nick Campbell博士在接受《科学新闻》记者采访时如是说道。对于出版商来说,相比于纸质出版,数字出版节省了纸张和印刷费用,降低了出版成本;同时省略了大量繁杂的中间环节,提升了信息传递的时效性。数字出版物无论是获取、携带还是查阅,都具有纸质出版物无法比拟的先天优势,受到出版商和读者的日益青睐。伴随着出版商和读者的需求转换,数字出版不断挤占着纸质出版的市场份额。整个出版业在见证、凝视着数字化革新人类社会之时,数字化也在渗透着传统出版业。
科学论文出版在数字化浪潮中首当其冲地实现着自我转型。过去,绝大部分科学论文都发表在专业的学术期刊或者会议论文集上,这些期刊和论文集被印刷成厚厚的册子堆放在书架上,在扬尘岁月中安然等候着知识之海的拾贝者。这种古老的陈列方式也曾在冥冥之中给予智者以无穷启示 —“科学计量学之父”普赖斯(Derek de Solla Price)正是受到了按年份堆放的学术期刊顶端连接起来的颇具意味的指数曲线的启发,提出了科学论文的指数增长规律。现如今,大部分科学论文依旧发表在专业的学术期刊上,然而大部分学术期刊已然舍弃了纸质化的传播渠道,摇身一变成了没有实体的电子文档。抛弃实体换来的回报是,科学论文不再躺在昏暗的斗室之内翘首等待一个前来翻看它的人,数字化的身躯使得科学论文在世界各地成千上万的电子屏幕上闪亮。数字出版为科学论文搭建起一个广阔得多的舞台,并且为这个舞台开辟出无数条通达的道路。科学论文从发表到传播的各个阶段,很大程度上实现了速度的提升、影响范围的拓宽和受众规模的增大。
目前,全球范围内大小学术出版商几乎均已完成了数字化变革,以为读者提供顺应时代发展潮流的产品和服务。在 2015年 7月举办的第六届中国数字出版博览会上,中国学术数字出版联盟正式成立。数字出版环境下,国内学术出版生态圈的建设与重构工作也愈发受到业内重视。
相较于漫长的纸质出版史,科学论文的数字出版可谓刚刚拉开帷幕,而异彩纷呈、波澜壮阔的开端已经深刻改变了学术出版的面貌。在可以预见的未来,随着越来越多新兴技术的开发和应用,科学论文的数字出版之路还将耸立起一座座新的里程碑。
1.2 应运而生的科学计量大数据
互联网改变了世界。过去似乎还需要举出实例来验证这句话,而现在无论是说出这句话的人,还是听到这句话的人,就如同说出和听到太阳东升西落般习以为常。人类历史上从没有哪一项发明像互联网这样改变甚至颠覆着生产生活的方方面面。自 1969年起源,互联网用了近 50年的时间化身为覆盖裹挟全人类的另一种形态的空气——我们看不见它,我们也离不开它。
互联网恰如一个包容万物的沙盘,人类千万年来积累的政治、经济、文化的文明成果和遗产争先恐后地涌入其中,搜寻着得以在新时代立足的根基。“互联网 +”的思路催促着各行各业捧出多少年来尘封不动的产业内核,为其输送互联网的血液和养料。科学论文由纸质出版过渡到数字出版的涅槃也离不开互联网的淬火。
“SCI之父”尤金 ·加菲尔德(Eugene Garfield)认为,“互联网是引文索引的天然载体” a。不仅如此,互联网也是科学论文数字出版的天然载体。数字出版时代大门的打开,少不了互联网这把金钥匙。科研工作者了解领域前沿动态需要借助互联网进行检索,完成成果之后进行投稿需要借助互联网进行传送,成果的同行评议过程需要借助互联网进行反馈,成果发表之后需要借助互联网进行传播,成果所引起的反响和问题需要借助互联网进行统计和回复。科学论文出版的全过程已经离不开互联网的保驾护航。互联网为学术出版所提供的便利,符合科学研究所追求和秉持的高效前沿的精神气质,也正是这样,学术出版才能如此迅速而彻底地刮骨换血,纵情投身到数字出版时代之中。
在以互联网为载体的数字出版时代,一篇科学论文的信息量不再局限于论文本身,大量衍生数据随着科学论文的发表和传播而诞生。纸质出版时代,这些数据背后的读者行为也是存在的,只是缺乏有效的手段进行甄别和记录而无法形成数据。在互联网环境下,键盘敲击出的每一个字符,鼠标点击进入的每一个页面和手指轻触发出的每一个指令,都久久回荡在互联网浩渺广袤的无边空间里,形成一座座虚拟数据的宝库,也就是一团团现在令商界和学界均竞相追逐的“大数据”。
科学论文大数据既包括科学论文本身所包含的丰富的科学信息和出版信息(如期刊来源、作者、作者机构、基金资助及发表日期等),还包括论文在互联网环境中因用户使用行为,如引用(cite)、浏览(view)、下载(download)、点击(click)、存储(save)、分享(share)和讨论(discuss)等而产生的海量衍生数据。依托数据挖掘和处理技术,科学论文大数据为当代科学计量学研究开辟了诸多全新的研究领域,也回答了诸多以往传统数据类型所无法触及的新问题。
1.3 历史上IT技术引*科学计量学的大变革
1.3.1 SCI数据库——海量数据的处理和收录
在搜索引擎出现之前,我们的主要信息来源之一是图书馆。搜索引擎出现以后,其借助计算机和互联网,将人类世界海量的信息搜集、整理以后提供给用户进行查询,使得互联网成为比图书馆更为重要的信息来源,而搜索引擎则是提供信息来源的重要工具。作为*著名的搜索引擎之一,Google每日通过不同的服务,处理来自世界各地超过2亿次的查询。
同样,在 SCI数据库出现之前,科学知识的主要信息来源方式也是通过图书馆借阅。科研工作者们获取信息和知识的速度之慢、效率之低,在今天的研究者们看来简直无法想象。1955年,尤金 ·加菲尔德在 Science杂志上率先提出了科学引文索引的创意。1960年,其创办了美国科学情报研究所(American Science Information,ISI),并在 1964年将其发明的《科学引文索引》(SCI)正式出版。加菲尔德也因而被称为“SCI之父”。
其后,ISI又于 1969年和 1976年相继创建了社会科学引文索引(SSCI)和艺术与人文科学引文索引(A&HCI),旨在整合人文、艺术和社会科学类学术资源,为全球研究人员提供准确、可靠的信息。1997年,ISI将 SCI、SSCI和 A&HCI进行整合,利用互联网的开放环境,创建了网络版的多学科文摘数据库—Web of Science。直至今日,Web of Science数据库依旧在科学计量学的研究中占据着不可替代的地位,为全球科学计量学学者们源源不断地提供着丰富的原始数据材料。
孕育了 SCI的 20世纪 60年代,也是科学计量学作为一门独立的学科正式诞生的时期。SCI作为科学计量学*广为人知的一张名片,风雨兼程地伴随着科学计量学走过了“筚路蓝缕,以启山林”的光辉岁月。加菲尔德也因其发明 SCI的突出贡献,于 1984年荣获了首届科学计量学领域的*高荣誉—“普赖斯纪念奖章”。
2009年 9月,第五届网络计量、信息计量、科学计量国际会议暨第十届COLLNET会议在大连理工大学召开。受主办方大连理工大学 WISE实验室邀请,尤金·加菲尔德博士出席大会并受聘为大连理工大学荣誉教授。在去大连参加会议途中,加菲尔德博士在北京接受了科学网的访谈。在访谈中他这样提道:“*早的 SCI只是用手工打印的,到后来稍稍有了一些改进,用磁带,通过检索联系到 SCI的检索部分,到*后又把 SCI放到光盘上。当时我就提出这是很大的突破,检索就更容易,现在只需要几秒钟,过去则要用很长时间。所以计算机的发展推动了引文索引的发展。”①
1.3.2 科学知识图谱——科学知识的可视化展现
科学知识图谱,是以科学知识为研究对象(具体的研究载体为科学论文、专利等),将统计学、图形学、计算机技术和信息科学等学科的理论、方法与科学计量学方法相结合,以可视化的方法形象地展示学科体系的内在结构与发展历程的现代理论和技术。正如现实自然界有地图作为标引一样,科学知识图谱就是知识世界的地图。
科学知识图谱的起源由来已久,早在 20世纪 50年代,加菲尔德就手工绘制了 DNA研究领域的历史发展图谱;普赖斯也曾在他一系列经典著作,如《巴比伦以来的科学》《小科学,大科学》和《科学论文网络》中,进行知识
定价:78.0
ISBN:9787030506221
作者:王贤文
版次:1
出版时间:2016-11
在线试读:
第*章 数字出版、互联网与科学计量大数据
1.1 科学论文出版:从纸质出版到数字出版
当获取科学论文的路程从双脚走向图书馆的路途变为手指在鼠标左键上的轻轻一击,当发表科学论文的载体从堆积如山的层叠纸张变为工整编码的数字文档,当传播科学论文的手段从费时往来的鸿雁飞鸽变为实时通信的网络社交媒体,科学论文出版,这一见证和推动人类历史文明兴盛繁荣的古老行业,乘着信息技术革命的疾风,悄然上演着从纸质迈向数字的蜕变。
出版,有史以来一直承担着留存和传播人类精神文化财富的重要使命。正是得益于出版这一文化活动,纵跃千年的哲思得以传承发扬,横跨东西的思想得以交流碰撞,人类文明的辉煌得以汗青传承。自第*本书诞生,到抄本时期再到印本时代,纸质出版物的每一页纸、每一丝纤维都浸透于历史的点滴之中,在记录财富的同时,自身也成了不朽财富的一部分。其后,报纸、杂志等快捷实时、连续定期的纸质出版物的出现在人类社会传递和接受信息、记录和见证时代变迁的过程中发挥着至关重要的作用。从阅读早报开始新一天的生活、浏览杂志消遣闲暇的时光到享受好书实现睡前的心安与助眠,纸质出版物早已融入人们的生活作息当中,成为随时随地都在手边和眼前的伙伴。
科学论文出版则是*饱含知识分量、*具有特殊意义和*要求尖端前沿的一种出版形式。科学论文是人类对于已经认识到的这个世界的某一部分的编码化表述,致力于描述和解释自然界、工程技术和人类社会等不同领域的现象和问题,发掘出其背后隐藏的规律。大到对世界本源孜孜不倦的追求、小到对生命个体行为细致入微的观察,科学论文圈定了人类可理解的世界的范畴。从古至今出版的科学论文所编织起来的繁荣茂盛的知识体系,铸成了科技文明稳固的根基。在此基础之上,人类在相比于地球寿命微不足道的短暂时间里,创造出了空前灿烂辉煌的成就。尽管相比于大众出版物,科学论文出版物的受众范围要小得多,但改变人类生产生活方式的所有产品和技术,无一例外地只有扎根在科学出版的肥沃土壤里,才得以开枝散叶、繁花似锦。因而,看似遥不可及、高不可攀的专业科学论文出版才是撑起人类光明蓝天的阿忒拉斯。
世界上第*本学术期刊是英国伦敦皇家学会创办的《哲学汇刊》,创刊于 1665年3月6日,从1665年一直连续出版到 1886年。时至今日,人们依然可以从该期刊的历史档案馆网站*检索全部期刊的所有论文。从 1887年开始,该刊分为Philosophical Transactions of the Royal Society A和 Philosophical Transactions of the Royal Soc-iety B两本期刊出版,前者主要覆盖物理学领域,后者主要覆盖生命科学领域,一直延续至今(图1.1)。
科学出版在推动科技进步的过程中,反过来也受到科技进步的深远影响。个人电脑、智能手机和电子书等阅读终端的推陈出新和迅速普及,带来了全新的阅读体验,悄然间重塑着人类的工作和阅读习惯。原本堆积如山、不可能随身携带的厚重书本,只保留了知识的重量而舍弃了物质的分量。一个小小的数字阅读终端足以集成一间图书室乃至一座图书馆的资料储备,极大地丰富了人们的阅读选择。
图 1.1.世界上第*本学术期刊《哲学汇刊》封面
与之相对应,出版业的“去纸化”运动如火如荼地开展起来。“持续的数字化变革应该是 21世纪任何一家严肃的科学出版商的核心工作”,2015年,已创刊近 150年的 Nature杂志的执行主编 Nick Campbell博士在接受《科学新闻》记者采访时如是说道。对于出版商来说,相比于纸质出版,数字出版节省了纸张和印刷费用,降低了出版成本;同时省略了大量繁杂的中间环节,提升了信息传递的时效性。数字出版物无论是获取、携带还是查阅,都具有纸质出版物无法比拟的先天优势,受到出版商和读者的日益青睐。伴随着出版商和读者的需求转换,数字出版不断挤占着纸质出版的市场份额。整个出版业在见证、凝视着数字化革新人类社会之时,数字化也在渗透着传统出版业。
科学论文出版在数字化浪潮中首当其冲地实现着自我转型。过去,绝大部分科学论文都发表在专业的学术期刊或者会议论文集上,这些期刊和论文集被印刷成厚厚的册子堆放在书架上,在扬尘岁月中安然等候着知识之海的拾贝者。这种古老的陈列方式也曾在冥冥之中给予智者以无穷启示 —“科学计量学之父”普赖斯(Derek de Solla Price)正是受到了按年份堆放的学术期刊顶端连接起来的颇具意味的指数曲线的启发,提出了科学论文的指数增长规律。现如今,大部分科学论文依旧发表在专业的学术期刊上,然而大部分学术期刊已然舍弃了纸质化的传播渠道,摇身一变成了没有实体的电子文档。抛弃实体换来的回报是,科学论文不再躺在昏暗的斗室之内翘首等待一个前来翻看它的人,数字化的身躯使得科学论文在世界各地成千上万的电子屏幕上闪亮。数字出版为科学论文搭建起一个广阔得多的舞台,并且为这个舞台开辟出无数条通达的道路。科学论文从发表到传播的各个阶段,很大程度上实现了速度的提升、影响范围的拓宽和受众规模的增大。
目前,全球范围内大小学术出版商几乎均已完成了数字化变革,以为读者提供顺应时代发展潮流的产品和服务。在 2015年 7月举办的第六届中国数字出版博览会上,中国学术数字出版联盟正式成立。数字出版环境下,国内学术出版生态圈的建设与重构工作也愈发受到业内重视。
相较于漫长的纸质出版史,科学论文的数字出版可谓刚刚拉开帷幕,而异彩纷呈、波澜壮阔的开端已经深刻改变了学术出版的面貌。在可以预见的未来,随着越来越多新兴技术的开发和应用,科学论文的数字出版之路还将耸立起一座座新的里程碑。
1.2 应运而生的科学计量大数据
互联网改变了世界。过去似乎还需要举出实例来验证这句话,而现在无论是说出这句话的人,还是听到这句话的人,就如同说出和听到太阳东升西落般习以为常。人类历史上从没有哪一项发明像互联网这样改变甚至颠覆着生产生活的方方面面。自 1969年起源,互联网用了近 50年的时间化身为覆盖裹挟全人类的另一种形态的空气——我们看不见它,我们也离不开它。
互联网恰如一个包容万物的沙盘,人类千万年来积累的政治、经济、文化的文明成果和遗产争先恐后地涌入其中,搜寻着得以在新时代立足的根基。“互联网 +”的思路催促着各行各业捧出多少年来尘封不动的产业内核,为其输送互联网的血液和养料。科学论文由纸质出版过渡到数字出版的涅槃也离不开互联网的淬火。
“SCI之父”尤金 ·加菲尔德(Eugene Garfield)认为,“互联网是引文索引的天然载体” a。不仅如此,互联网也是科学论文数字出版的天然载体。数字出版时代大门的打开,少不了互联网这把金钥匙。科研工作者了解领域前沿动态需要借助互联网进行检索,完成成果之后进行投稿需要借助互联网进行传送,成果的同行评议过程需要借助互联网进行反馈,成果发表之后需要借助互联网进行传播,成果所引起的反响和问题需要借助互联网进行统计和回复。科学论文出版的全过程已经离不开互联网的保驾护航。互联网为学术出版所提供的便利,符合科学研究所追求和秉持的高效前沿的精神气质,也正是这样,学术出版才能如此迅速而彻底地刮骨换血,纵情投身到数字出版时代之中。
在以互联网为载体的数字出版时代,一篇科学论文的信息量不再局限于论文本身,大量衍生数据随着科学论文的发表和传播而诞生。纸质出版时代,这些数据背后的读者行为也是存在的,只是缺乏有效的手段进行甄别和记录而无法形成数据。在互联网环境下,键盘敲击出的每一个字符,鼠标点击进入的每一个页面和手指轻触发出的每一个指令,都久久回荡在互联网浩渺广袤的无边空间里,形成一座座虚拟数据的宝库,也就是一团团现在令商界和学界均竞相追逐的“大数据”。
科学论文大数据既包括科学论文本身所包含的丰富的科学信息和出版信息(如期刊来源、作者、作者机构、基金资助及发表日期等),还包括论文在互联网环境中因用户使用行为,如引用(cite)、浏览(view)、下载(download)、点击(click)、存储(save)、分享(share)和讨论(discuss)等而产生的海量衍生数据。依托数据挖掘和处理技术,科学论文大数据为当代科学计量学研究开辟了诸多全新的研究领域,也回答了诸多以往传统数据类型所无法触及的新问题。
1.3 历史上IT技术引*科学计量学的大变革
1.3.1 SCI数据库——海量数据的处理和收录
在搜索引擎出现之前,我们的主要信息来源之一是图书馆。搜索引擎出现以后,其借助计算机和互联网,将人类世界海量的信息搜集、整理以后提供给用户进行查询,使得互联网成为比图书馆更为重要的信息来源,而搜索引擎则是提供信息来源的重要工具。作为*著名的搜索引擎之一,Google每日通过不同的服务,处理来自世界各地超过2亿次的查询。
同样,在 SCI数据库出现之前,科学知识的主要信息来源方式也是通过图书馆借阅。科研工作者们获取信息和知识的速度之慢、效率之低,在今天的研究者们看来简直无法想象。1955年,尤金 ·加菲尔德在 Science杂志上率先提出了科学引文索引的创意。1960年,其创办了美国科学情报研究所(American Science Information,ISI),并在 1964年将其发明的《科学引文索引》(SCI)正式出版。加菲尔德也因而被称为“SCI之父”。
其后,ISI又于 1969年和 1976年相继创建了社会科学引文索引(SSCI)和艺术与人文科学引文索引(A&HCI),旨在整合人文、艺术和社会科学类学术资源,为全球研究人员提供准确、可靠的信息。1997年,ISI将 SCI、SSCI和 A&HCI进行整合,利用互联网的开放环境,创建了网络版的多学科文摘数据库—Web of Science。直至今日,Web of Science数据库依旧在科学计量学的研究中占据着不可替代的地位,为全球科学计量学学者们源源不断地提供着丰富的原始数据材料。
孕育了 SCI的 20世纪 60年代,也是科学计量学作为一门独立的学科正式诞生的时期。SCI作为科学计量学*广为人知的一张名片,风雨兼程地伴随着科学计量学走过了“筚路蓝缕,以启山林”的光辉岁月。加菲尔德也因其发明 SCI的突出贡献,于 1984年荣获了首届科学计量学领域的*高荣誉—“普赖斯纪念奖章”。
2009年 9月,第五届网络计量、信息计量、科学计量国际会议暨第十届COLLNET会议在大连理工大学召开。受主办方大连理工大学 WISE实验室邀请,尤金·加菲尔德博士出席大会并受聘为大连理工大学荣誉教授。在去大连参加会议途中,加菲尔德博士在北京接受了科学网的访谈。在访谈中他这样提道:“*早的 SCI只是用手工打印的,到后来稍稍有了一些改进,用磁带,通过检索联系到 SCI的检索部分,到*后又把 SCI放到光盘上。当时我就提出这是很大的突破,检索就更容易,现在只需要几秒钟,过去则要用很长时间。所以计算机的发展推动了引文索引的发展。”①
1.3.2 科学知识图谱——科学知识的可视化展现
科学知识图谱,是以科学知识为研究对象(具体的研究载体为科学论文、专利等),将统计学、图形学、计算机技术和信息科学等学科的理论、方法与科学计量学方法相结合,以可视化的方法形象地展示学科体系的内在结构与发展历程的现代理论和技术。正如现实自然界有地图作为标引一样,科学知识图谱就是知识世界的地图。
科学知识图谱的起源由来已久,早在 20世纪 50年代,加菲尔德就手工绘制了 DNA研究领域的历史发展图谱;普赖斯也曾在他一系列经典著作,如《巴比伦以来的科学》《小科学,大科学》和《科学论文网络》中,进行知识