2021科学结构图谱.pdf
报告由中国科学院发展规划局“情报研究与平台建设”项目资助 领域群组命名、特征词审核、热点前沿领域演变解读: 天文学与粒子物理:韩淋、王海名 物理学:黄龙光 化学、材料科学:张超星 农业科学、生物科学:袁建霞、徐萍 地球科学:谢秀芳 数学:刘小平 计算机、无线通信:陈挺 工程科学:孙健、孙浩源、吴界辰、陈启梅 医学:杜建 社会科学与商业经济:裴瑞敏 致谢 :本报告的研究和撰写得到了中国科学院发展规划局的指导和支持 。中国科学 院科技战略咨询研究院宋敦江老师帮助设计利用 GIS 软件显示热力图 。中国科学院科技 战略咨询研究院硕士研究生江布拉提 吾喜洪参与了图表绘制 、文字整理工作 。中国科 学院科技战略咨询研究院王海霞帮助邀请判读人员 ,冷伏海 、朱涛研究员等提出了许多 宝贵意见 。在此向资助机构 、人员及所有参与前几期科学结构图谱判读的专家 、提出宝 贵意见的专家致以衷心的感谢目录 i Mapping Science Structure 目录 CONTENTS 第一章 引言 第二章 研究方法与数据 一、利用深度学习模型基于同被引关系确定研究领域 6 二、科学结构图谱可视化 10 三、科学结构演变轨迹 11 四、研究领域特征词抽取 12 五、研究领域学科交叉性度量 13 六、数据说明 14 第三章 科学结构及其演变 一、科学结构图谱 20122017 18 二、基于科学结构图谱观察科学研究的发展趋势 26 (一)科学结构图谱中研究领域数量持续扩大 28 (二)科学结构的时序发展 28 三、快速发展的研究领域演变分析 33 (一)引力波演变分析 33 (二)量子物理演变分析 35科学结构图谱 2021 ii (三)先进能源领域演变分析 37 (四)钙钛矿材料与器件领域演变分析 40 (五)机器学习演变分析 41 (六)无线通信演变分析 43 (七)气候变化领域演变分析 45 (八)环境治理领域演变分析 48 (九)基因编辑与治疗领域演变分析 51 (十)表观遗传调控领域演变分析 52 (十一)肠道微生物与健康领域演变分析 54 (十二)肿瘤免疫治疗领域演变分析 57 第四章 研究领域的学科交叉性、新颖性以及对技术创新的影响 一、研究领域的学科交叉性 60 二、新兴热点研究领域 64 三、对技术创新有影响的研究领域 68 第五章 中国及代表性国家科学研究活跃度 一、中国及代表性国家整体科研活跃度时序发展 74 (一)核心论文份额分析 74 (二)施引论文份额分析 77 二、基于科学结构图谱观察中国及代表性国家科研活跃度时序发展 79 (一)中国及代表性国家科研覆盖及份额分布 79 (二)中国及代表性国家在科学结构图谱中各研究领域的科研活跃度 82 三、中国及科技强国在学科交叉研究领域的活跃度 86 四、中国及科技强国在新兴热点研究领域的活跃度 88 五、中国及科技强国在对技术创新有影响研究领域的活跃度 90目录 iii Mapping Science Structure 第六章 中国及代表性国家的国际合作 一、基于科学结构图谱观察世界国际合作 94 二、中国及代表性国家国际合作时序变化 95 三、基于科学结构图谱观察中国及代表性国家国际合作的变化 98 第七章 科学结构图谱上的科学资助情况分析 一、中国及代表性国家政府资助核心论文在科学结构图谱上的分布 105 二、重要国家政府资助机构资助核心论文分析 109 附 录 附录 1中国、美国高科研活跃度研究领域 112 附录 2中国、美国论文份额排名前 10 的学科交叉研究领域 117 附录 3中国、美国论文份额排名前 10 的新兴热点研究领域 119科学结构图谱 2021 1 第一章 引言 科技创新已成为推动经济社会发展的主要力量,新一轮科技革命和产业变革的重大历史机 遇期,要求我们始终以全球视野科学研判科技创新发展的趋势,抢占科技发展先机。为揭示科 学研究结构及寻找重点研究方向,科学结构发现与可视化分析方法研究组自 2007 年起开展相 关研究,每两年绘制一期科学结构图谱,周期性监测科学研究结构及其演变规律,监测科学发 展趋势第一章 引言 2 Mapping Science Structure 科学结构图谱 ,通过可视化技术 ,以直 观形象的图谱形式展现高度抽象的科学研究 的宏观结构 ,揭示了科学热点前沿间的关联 关系与发展进程 。传统的科学知识体系结构 及其演化趋势的研究通常是通过检索和分析 相关文献以了解学科发展 ,追踪同行科学研 究者的科研活动来掌握学科趋势 ,通过专家 研讨 、评议及专门的规划研究进一步判断可 能的突破方向 。但随着科技创新进入多学科 交叉融汇的阶段 ,面对海量科技文献 ,限于 固有的专业认知体系 ,科学研究者有时难以 观察到不熟悉但相关的领域 ,也难以把握它 们之间的复杂结构和相互影响 ,更难以发现 隐藏在复杂关系下的致变因素和潜在的发展 趋势 。因此 ,文献计量界逐步发展出利用科 技信息数据来揭示多维度关系的大问题领域 和大时间跨度的科学结构 ,并将科学结构作 为对科学布局 、相互作用及演变趋势进行描 述和分析的工具 。科学结构发现及可视化方 法比其他计量方法具有更独特的视角 ,揭示 了科学领域间的内在联系及发展规律。 研究组运用文献计量学和机器学习的理 论和方法 ,利用高被引论文之间同被引关系 的聚类分析 ,超越传统的学科分类 ,直接体 现科学研究者相互引证所表征的知识的相互 作用及知识的流动 、融汇和演变 ,帮助科学 研究者了解隐藏在大规模的复杂关联的数据 下面的科学研究结构及其变化 ,努力帮助科 学研究者把握大问题尺度和交叉融汇机制下 的知识结构 、新兴领域及其相互关系 ,逐步 帮助科学研究者揭示演变趋势 、预警新兴领 域 、发掘潜在合作对象 、遴选优先领域等 , 辅助决策者对科学发展的规划。 研究组先后出版了 科学结构地图 2009 科学结构地图 2012 科学结构地图 2015 科学结构图谱 2017四部著作 。鉴 于近年来人工智能与深度学习快速发展 ,本 期科学结构使用深度学习算法改进原有的网 络聚类及可视化算法 ,支持更大量的数据分 析 ,聚类结果更加均匀 、准确 ,揭示更为细 致的科学结构 ,并在可视化细节揭示上也有 较大改进。 本报告以科睿唯安 ( Clariv a t e Analytics ) 公司的基本科学指标数据库 ( Essential Sci - enc e Indic a t ors ,ESI)为信息源 ,提取了 20122017 年 10 223 个研究前沿中包含的 高被引论文 ,通过再次的同被引聚类分析 , 得到了 1 169 个研究领域 ( R ese ar ch Ar e as), 形成了全球视野的科学结构图谱 ,可视化地 展现 20122017 年的科学研究宏观结构及 其内在关系 ,揭示了国际社会普遍关注的热 点研究领域 。在此基础上 ,通过 20082013 年、20102015 和 20122017 年三个时期 科学结构图谱的演化变迁轨迹 ,分析了各个 学科研究领域的演变情况 。通过引入生物学 第三代多样性计量方法 ,度量了各个研究领 域的学科多样性 。基于科学结构图谱 ,分析 了新兴热点研究领域以及对技术创新有影响 的研究领域 。同时 ,基于科学结构图谱 ,从 国家科学研究的结构上反映了中国及代表性科学结构图谱 2021 3 国家在不同研究领域的活跃程度及其变化趋 势 ,通过国际合著率描述了中国及代表性国 家国际合作的总体趋势 。通过可视化展现中 国及代表性国家政府科学基金在科学结构图 谱上的资助分布 ,对比分析不同国家科学资 助或同一国家不同资助机构的资助布局。 本书术语解释 科学结构图谱:或称为科学知识图谱,是一系列描述科学结构的可视化图形,显示了科学知识结构关系与发展 进程,反映了科学知识之间的结构、互动、交叉、演化等诸多关系。 高被引论文(Highly Cited Paper) :ESI 对过去 10 年 SCI 论文被引频次进行统计,将 22 个学科领域中被引 频次 Top1% 的论文遴选为高被引论文。 研究前沿(Research Front,RF) :ESI 以 SCI 近 6 年的高被引论文为基础,利用论文之间的同被引关系聚类 产生的一系列论文集合。 研究领域(Research Area,RA) :在研究前沿基础上的再次聚类得到的一系列高被引论文集合。 同被引(Co-Cited) :一组论文共同被其他论文引用。 核心论文(Core Paper) :研究领域中的高被引论文。 施引论文(Citing Paper) :引用核心论文的论文。 平均年(Mean Year) :一组论文的出版年的平均值。 国家核心论文份额:该国发表的核心论文数占世界核心论文数的比例。 国家施引论文份额:该国引用核心论文的论文数占世界引用核心论文的论文数的比例。 国际合著率:一国有多国著者的论文数占该国总论文数的比例。 国家论文计数方法:本报告中论文份额统计中国家论文量采用分数计数法,按每篇论文中每个国家或机构的作 者占全部作者的比例计数。一篇论文的分数计数之和等于 1;国际合著率统计中国家论文量采用整体计数法, 每篇论文的作者中只要有 1 名作者属于这个国家或机构,该国或机构的论文数量加 1。一篇国际合著论文的整 数计数之和通常大于 1第一章 引言 4 Mapping Science Structure科学结构图谱”的主体分析单元是热点“研究领域” ,它通过对高被引论文的同被引关系 聚类产生。本期“科学结构图谱”的构建原理与往期一样,首先对高被引论文的同被引关系进 行聚类分析,产生若干“研究领域” ;其次根据各个研究领域间的关联关系降维计算其相对位 置并可视化。本期对聚类和可视化方法进行了改进。 第二章 研究方法与数据第二章 研究方法与数据 6 Mapping Science Structure 近年来人工智能与深度学习快速发展为 自然语言处理 、网络分析等提供了新的方法 与思路 。本期报告使用深度学习算法改进原 有的网络聚类及可视化算法 ,使聚类结果更 加均匀 、准确 ,揭示更细致的科学结构 ;改 进算法支持更大量的数据可视化 ,在可视化 细节揭示效果上也有较大提升。 在构建研究领域的布局后,通过文本分析 对研究领域中论文的题目和摘要抽取特征词以 标识各个研究领域的内容;结合研究领域热力 图,由科技情报研究人员审核以确定研究大类 和研究领域群组的名称并在图中标识。 一、利用深度学习模型基于同被引关系确定研究领域 同被引指一组论文共同被其他论文引用 , 当该组论文同时被引用的次数逐渐增加时 , 它们之间的内在关联不断加强 。同被引关系 可以反映在学科分类 、发表期刊 、作者机构 、 研究项目等方面看似毫无关联的该组论文可 能存在着某种关系 。同被引现象是作者自发 的引用行为 ,反映了科学研究内容和科学研 究活动的聚合关系 ,因此 ,可以超越传统的 学科分类限制 ,反映了科学研究内容的自组 织与科学结构。 本报告沿用二层同被引聚类法 ,但研究 领域的聚类使用深度学习模型改进了网络结 构特征抽取 ,并选择了更符合本报告数据特 征的聚类算法 。第一层的聚类结果 研究 前沿取自 ESI 于 2018 年 3 月发布的 2012 年 1 月至 2017 年 12 月的研究前沿 ,共 10 223 个 ,其中包含 47 889 篇高被引论文 。施引 论文集选自 SCI 和 S SCI,论文发表时间范围 为 20122017 年 。通过同被引聚类 ,形成 1 169 个研究领域 ,其中包含 9 854 个研究前 沿, 46 405 篇高被引论文(核心论文) 。 科学论文间的引用反映了科学研究的动 态交互 。同被引是指一组论文同时被其他论 文引用 ,如图 2 - 1 所 示, 论 文 A、B、C 同 时 被 论 文 1、2、3 引 用。 如 果 论 文 A、B、C 频 繁同被引 ,可以推测它们拥有相同或相近的 研究主题。 使用同被引的方法 ,计算高被引论文两 两之间的同被引关系 ,并根据同被引关系对 高被引论文进行聚类形成若干论文簇 ,称为 “ 研究前沿 ” ;在此基础上利用同被引关系对 上述研究前沿再次聚类 ,得到的若干论文簇 , 称为 “ 研究领域 ” 。高被引论文 、研究前沿及 研究领域之间的关系如图 2 - 2 所示。 本报告之前的科学结构采用改进的单链 接聚类算法对 E S I 研究前沿的同被引关系网科学结构图谱 2021 7 络进行聚类形成若干个 “ 研究领域 ” ,属于基 于网络社团划分的聚类法 。 E S I 研究前沿的 同被引网络包含了上万节点与上百万的关联 关系 ,具有十分复杂的隐性高维关系 ,在进 行社团划分 ( 聚类 )与可视化时都有很高的 技术难度和运算代价 ,因此处理的数据量有 一定限制 ;并且聚类形成的研究领域内包含 研究前沿数量分布极不均匀 。既有研究领域 包含的论文量过多 ,也有研究领域被切分的 过 小。 原 科 学 结 构 20102015 含 有 1 500 多 个聚类 ,类内包含 6 个研究前沿以上的研究 图 2-1通过同被引分析确定研究领域 A、B、C 为核心论文 图2 -2高被引论文、研究前沿、研究领域的关系 领域只有 2 0 2 个 ,仅仅涵盖 1 / 3 左右的研究 前沿 ,分布情况详见图 2 -3 。包含 6 个以下 的研究领域通常在后续分析中不予考虑 ,这 导致近一半的高被引论文在分析结果中无法 体现 。图 2 -3 中 ,含 1 0 0 篇以上论文的研究 领域有 4 9 个 ,占全部研究领域的 2 . 5 % ,包 含的论文占总论文的 3 1 % ; 5 0 篇以上的研究 领域有 1 3 6 个 ,占全部研究领域的 8 . 6 % ,包 含的论文占总论文的 4 7 % ,接近一半 ;其他 85% 以上的研究领域,论文量小于 35 篇,只 包含了 40% 左右的论文第二章 研究方法与数据 8 Mapping Science Structure 图2 -3使用改进单链接聚类的科学结构 20102015 研究领域分布 本期报告也尝试了科学计量界社团 划分聚类的最新研究成果 L e i d e n 算法对 2 0 1 0 2 0 1 5 年研究前沿进行聚类 ,产生的研 究领域分布如图 2 -4 。聚类簇包含的论文量 差异更加明显 ,最大的一个类中包含 1 2 4 8 篇 论文。含 100 篇以上论文的研究领域有 94 个, 包含论文占全部论文的 5 3 . 7 % ; 5 0 篇以上的 研究领域有 2 0 1 个 ,包含的论文占总论文的 占 70.2%,16.7% 的 研 究 领 域 包 含 了 70.2% 的论文 。小于 3 5 篇论文的研究领域占全部研 究领域的 7 7 . 1 % ,却仅仅包含了 2 3 . 1 % 的论 文 。由此可见 ,无论是改进单链接聚类还是 L e i d e n 聚类算法都存在聚类簇包含样本数量 a Gr over A, L esk ovec J . Node2vec: Sc alable f e a tur e le arning f or ne tworks. InPr oc eedings of the 22nd A CM SIGKDD int erna tional c onf er enc e on Knowledg e disc over y and da t a mining 2016 A ug 13 (pp . 855-864). 分布不均匀的问题。 为了改善上文提到的聚类问题 ,进一步 提高 “ 研究领域 ”聚类准确性 ,本报告不再 沿用网络结构聚类方法 ,而采用基于深度学 习的网络嵌入模型 a 结合机器学习聚类算法 (图 2 -5 ) 。首先通过网络嵌入模型发现 E S I 研究前沿的同被引网络中的节点与链接之间 的复杂关系 ,学习每个研究前沿隐含的高维 特征 ,将网络中节点转换成空间特征向量的 形式 。通过降维分析转换的研究前沿空间特 征向量 ,发现研究前沿在空间中分布很不均 匀 ,存在明显的离群点 。鉴于多数聚类算法 为硬聚类 ,离群点会干扰聚类算法的准确性科学结构图谱 2021 9 图2 -4使用 Leiden 聚类的科学结构 20102015 研究领域分布 因此在聚类前 ,先利用离群点探测模型去掉 了 9 8 个在空间中明显离群的研究前沿 ,使得 聚类之间轮廓更为清晰 。最后再通过经典机 器 学 习 Agglomer a tive(w ar d 距 离) 层 次 聚 类 算 法 划 分“研 究 领 域” , Agglomer a tive 聚 类能更好的适应不同密度与尺度分布下的聚 图2 -5利用深度学习模型划分热点研究领域流程 类 ,一定程度上避免了 “ 硬切分 ”类的现象 , 从而达到比往期更好的聚类效果。 图2 -6 为使用了新聚类方法得到的科学 结 构 20122017 的 研 究 领 域 分 布。100 篇 以 上的研究领域有 7 5 个 ,占全部研究领域的 6.4%, 包 含 的 论 文 占 总 论 文 的 22.5%;50 篇第二章 研究方法与数据 10 Mapping Science Structure 图2 -6基于深度学习划分研究领域的分布图 以上的研究领域有 3 3 1 个 ,占全部研究领域 的 2 8 . 3 % ,包含的论文占总论文的 6 0 % ;论 文量小于 35 篇有 56.1% 的研究领域,只占了 2 4 % 左右的论文 。对比直接使用社团划分聚 类 ,新方法的聚类分布更加均匀与准确 ,可 揭示细致的科学结构。 二、科学结构图谱可视化 本报告采用热力图来展现科学结构中研究 领域的布局 ,热力图使用了核密度函数表示每 个研究领域在二维平面上的密度分布 。该图如 同一张群岛图 ,图中蓝色的海洋没有论文分布 ; 岛屿上山峰越高颜色越暖 ,山峰的高度与论文 的相对数量和关联度相关 ,关联度与科学家对 论文的同被引强度成正比 。高密度山峰反映了 更多的科学家共同关注该科学问题 ,即是一个 研究热点。 前几期的科学结构图谱采用重力模型算 法通过研究领域之间的相互关系确定各个研 究领域在二维空间中的布局位置 。原有模型科学结构图谱 2021 11 在处理大量数据时布局稳定较差 ,局部细节 揭示能力较弱 。本期可视化布局算法采用了 高维数据可视化算法中最常用 、效果较稳定 的流型学习降维算法 t SNE(t Dis tribut ed S t ochas tic Neighbor Embedding )。首先将研 究前沿的同被引关系网络转换成高维特征向 量,然后利用 t - SNE 算法映射到二维平面中, 获得各个研究前沿的位置布局 ( 坐标 ) 。其 a Ting Chen, Guopeng Li, Qiping Deng, Xiaomei W ang. Using Ne twork Embedding t o Ob t ain a Richer and Mor e S t able Ne twork Layout f or a Lar g e Sc ale Bibliome tric Ne twork . Journal of Da t a and Inf orma tion Scienc e vol.6, no .1, 2021, pp .154- 177. 次 ,在获得位置布局后 ,采用核密度表示研 究前沿在二维平面上的密度分布。 相比以前的科学结构图谱 ,本期可视化方 法在保证大样本整体布局稳定的情况下 ,揭示 了更多的局部特征 ,不但不同学科研究领域在 图谱中有各自清晰的区域 ,在学科领域内部子 领域也出现了聚集效果 ,子领域之间呈现出明 显的轮廓 a 。 三、科学结构演变轨迹 研究领域的演变可以归纳为新增 、消失 、 分化 、合并 、延续五种模式 ,但是在知识的 演变过程中 ,分化和融合具有相互转化 、相 互渗透的辩证统一关系 ,融合往往意味着另 一种形式的分化 ,再精细的分化也总是伴随 着不同学科知识的交叉和融合 ,由此形成一 种演变模式综合交错的演变路径 。本报告采 用图 2 -7 所示的演变轨迹流图展现研究领域 演变路径 。图中圆圈代表研究领域 ,从左到 右分别表示 “科学结构图谱 20082013” “科 学 结 构 图 谱 20102015” “科 学 结 构 图 谱 2 0 1 2 2 0 1 7 ”三个时期 。圆圈的面积与所代 表研究领域核心论文数成正比 。圆圈右方对 该研究领域进行了标识和描述 :括号内数字 代表研究领域中的核心论文数 ,后面的数字 代表研究领域 I D 号 ,冒号后面跟着的是研究 领域所属的研究大类 ;分隔符后面是研究领 域的特征词 。圆圈之间的连线表示研究领域 之间有论文重叠 ,红色连线代表重叠度在 0 . 2 以上 ,灰色连线代表在 0 . 2 以下 ,线条粗细 和重叠度成正比 。圆圈的颜色根据中国在各 个研究领域的份额确定 ,蓝色 : 0 % ;绿色 : (0%,1%); 黄 色:1%,3%); 橙 色:3%,7%); 紫色:7%,12%);红色:12%,100%。 研究领域的演变关系基于两个时期科学 结构共同时间窗内 ( 4 年 )的重叠度 ( 重叠第二章 研究方法与数据 12 Mapping Science Structure 论文 ) ,重叠论文越多 ,表明研究领域之间的 继承关系越强。 如图 2 -8 所示 ,在公共时间窗口 ,前一 期科学结构图谱中的研究领域 P 有核心论文 N P ,后一期科学结构图谱中的研究领域 Q 有 核心论文 N Q ,两个研究领域有共同的核心论 文 N PQ ,定义两个研究领域的重叠度为 = 图 2-8研究领域的重叠 然后根据不同时期研究领域的重叠度对 研究领域进行聚类 ,聚在一起的研究领域形 成若干个演变轨迹流。 四、研究领域特征词抽取 研究领域是由多篇密切关联的高被引论 文组成的论文簇 。为有效把握科学研究的结 构 ,需要了解研究领域的内容信息 。早期研 究领域内容分析采用由具有学科背景的专业 人员参考核心论文列表对研究领域进行命名 与解读 ,然后由专家进行审核的方法 。由于 科学结构图谱反映的是全领域的科学结构 , 学科广泛 ,而且部分研究领域的知识涉及面 图2 -7研究领域演变轨迹科学结构图谱 2021 13 广 、研究方向多样 ,因此针对一个或几个相 关的研究领域请一位或若干位该领域的专家 进行判读效果比较好 。但这种方法耗时较长 , 也容易因为专家对新兴交叉领域的不熟悉而 造成命名误差。 为减少科学结构图谱的时滞性 ,本研究 尝试用文本挖掘手段 ,从研究领域核心论文 的题名和摘要中提取特征词辅助专业人员快 速理解 。为方便控制提取过程 ,本研究改用 合作伙伴北京理工大学知识管理与数据分析 实验室的术语抽取工具 ,主要利用 C - V alue 方法进行特征术语的提取 。 C - V alue 方 法 不 需要训练集 、语料库等前提条件 ,是一种独 立于领域的 、多词语的自动术语抽取方法 , 而且在嵌套术语的识别上有较高的精度 。流 程模型如图 2 -9 所示 ,主要分为四个阶段 : 分词和词性标注。运用语言学规则取得可 能术语列表。计算词语的术语度值,取得候 选术语列表;领域专家评估并确定术语。 本期每个研究领域选择术语度值前 1 0 的 特征词表征研究领域的研究内容 。由于新兴 交叉领域的专业词汇来源复杂 ,在新的领域 内词汇的含义可能发生变化 ,因此对特征词 的选取及研究领域的命名 ,历来具有挑战 。 限于专业知识的局限 ,目前的研究领域命名 可能存在不准确之处 。我们将继续完善内容 分析的方法与技术手段 ,更好地支持对研究 领域的了解和认识,也欢迎读者提出建议。 图 2-9术语抽取流程图 五、研究领域学科交叉性度量 学科间的相互交叉和渗透是当今大科学 时代的一大特征。 严格来说 ,每个研究领域很难完全属于 单一学科 ,普遍具有学科多样性 。出于延续 性和简单实用性的考虑 ,本报告保留了 科 学结构地图 2009中对研究领域所属学科的 判定规则 ,即只要有一个学科的核心论文比 例大于 60%,该研究领域就属于该学科 ,否 则,属于交叉学科。在此基础上,受生态学中 第三代测度生物多样化的伦斯特和科博尔德第二章 研究方法与数据 14 Mapping Science Structure ( L eins t er - Cobbold)指标 a 启发,本研究引入 了第三代学科多样性 2 D S 指标 b ,测度每个研究 领域的学科交叉程度。 L eins t er Cobbold 指标公式如下: 1 1 1 1 1 本研究参考 2 D S 指标 ,选择 q=2,计算每 个研究领域的学科交叉性。 a L eins t er T ., Cobbold C.A. 2012. Me asuring diversity: The import anc e of species similarity . E c olog y , 93(3), 477489. b Zhang L., R ousse au R., & Glnz el, W . 2016. Diversity of r ef er enc es as an indic a t or of the int er disciplinarity of journals: T aking similarity be tween subjec t fi elds int o ac c ount . Journal of the A ssocia tion f or Inf orma tion Scienc e and T echnolog y , 67(5):12571265. 首先计算每篇论文的学科交叉性 。其中 , P i 是学科类别 i 的占比,通过论文的参考文献 计 算,i 为参考文献中第 i 个学科 , n 为参考 文献中总的学科数 。 S = (S ij ) 是所有学科领域 (基于 ESI 22 个学科)间的同被引关系相似性 矩阵 。其次 ,平均研究领域中所有论文的学 科交叉性,即为研究领域的学科交叉性。 学科领域相似度矩阵由于利用全库数据 , 变化不大,采用上一期的计算结果。 六、数据说明 科学结构指研究领域的构成及研究领域 间的关系 ,反映了科学研究的整体结构 ;科 学结构图谱是一系列描述科学结构的可视化 图 ,直观地反映了世界科学研究领域的关联 关系以及演化进程 。科学结构图谱使用的高 被引论文和研究前沿取自科睿唯安公司的 E S I 数据库 ,其时间跨度是 6 年 。引用核心高被 引论文的施引论文论文集合选自 S C I 和 S S C I 。 本期研究前沿选取 2 0 1 8 年 3 月公布的 2 0 1 2 年 1 月至 2017 年 12 月的数据。 表2 -1 显示了六期科学结构图谱中高被 引论文 、 E S I 研究前沿 、研究领域的数量及覆 盖时间 。连续两期科学结构图谱的核心论文 时间间隔为 2 年 ,重叠 4 年 。需要说明的是 , 虽然两个时期科学结构图谱的时间窗有重叠 部分 ,但由于 E S I 数据库中不同时期高被引 论文遴选阈值的不同 ,两个时期科学结构图 谱在重叠窗口内的高被引论文不完全相同。 前五期科学结构使用原有方法 ,研究领 域选择二次聚类后包含至少 6 个研究前沿的科学结构图谱 2021 15 簇,仅包含三分之一左右的研究前沿和不到 2 万篇高被引论文 。改进方法的研究领域聚类 , 除了个别孤立点外 ,基本上包含了全部的研 究前沿及研究前沿中含有的论文 。除本期外 , 我们用新方法回溯计算了两期科学结构 ,数 量如表 2 - 1 所 示。20102015 年 高 被 引 论 文 和研究前沿数据即对应著作 科学结构图谱 2017中的数据。 图2 - 10 显 示 了 科 学 结 构 20122017 的 1 0 2 2 3 个研究前沿在 E S I 的 2 2 个学科中的分 布情况 ,其中与 “ 生命科学 ”相关的包括生 物与生物化学 、临床医学 、免疫学 、微生物 学 、分子生物学与遗传学 、神经科学与行为 科学 、精神病学与心理学 、药理学与毒物学 、 表2 -1六期科学结构图谱使用数据说明 科学结构图谱时间范围 2002 2007 年 2004 2009 年 2006 2011 年 2008 2013 年 2010 2015 年 2012 2017 年 高被引 论文层 高被引论文数 / 篇 53 892 56 840 66 033 74 903 82 478 90 012 研究 前沿层 选取时间 2008 年 7 月 2010 年 7 月 2012 年 7 月 2014 年 7 月 2016 年 3 月 2018 年 3 月 研究前沿数 / 个 6 094 8 529 7 418 9 150 9 546 10 223 高被引论文数 / 篇 38 117 40 203 44 934 43 354 45 657 47 889 研究领 域层 (改进 方法) 研究领域数 / 个 970 1 084 1 169 研究前沿数 / 个 8 656 9 237 9 854 高被引论文数 / 篇 41 568 44 495 46 405 施引论文数 / 篇 1 462 802 1 775 524 2 187 230 研究领 域层 (原方 法) 研究领域数 / 个 121 132 149 212 232 研究前沿数 / 个 2 300 2 094 2 402 3 250 3 464 高被引论文数 / 篇 18 203 16 397 19 259 18 498 19 850 施引论文数 / 篇 459 492 519 104 572 506 695 363 827 019第二章 研究方法与数据 16 Mapping Science Structure 植物学与动物学在内的 9 个学科共有 5 0 4 1 个 研究前沿 ,占 4 9 . 3 % 。这反映了 S C I 数据库 的学科结构不够平衡 ,来源期刊中生物医学 类占较大比例。 图2 -10ESI 22 个学科的研究前沿数科学结构图谱 2021 17 本章基于科学结构图谱进行科学结构及其演变的分析。研究领域的构成及研究领域间的关 系反映了科学研究的整体结构,即科学结构,科学结构图谱是一系列描述科学结构的可视化 图,直观地反映了世界科学研究领域的结构、之间的关联关系以及演变进程。 第三章 科学结构及其演变第三章 科学结构及其演变 18 Mapping Science Structure 一、科学结构图谱 20122017 本研究通过对 ESI 高被引论文的同被引 聚类进行分析 ,算法修改后 ,本期科学结构 20122017 研究领域数目为 1 169 个 ,包含 了研究前沿中 96% 的论文 ,比前期研究大幅 增加 ( 前期的算法选取了 200 多个研究领域 , 包含近一半的研究前沿论文 ) 。其中 ,最大的 研究领域包含 264 篇论文 ( 前期最大的研究 领域包含 678 篇论文 ) ,最小的研究领域包含 4 篇论文。 我们利用降维算法将各研究领域间的同 被引关系转化的高维向量映射在二维空间 中 ,形成研究领域之间的布局 ,生成科学结 构 图(图 3 - 1) ,直观地反映了当前的科学结 构及科学研究活动情况 。图中每一个圆代表 一个研究领域 ,由一组论文组成 ,圆的大小 与研究领域包含的核心论文数量成正比 ( 以 下同 ) 。各个圆之间的相对位置也反映出它们 之间的关联程度 ,距离越近 ,关联程度越高 。 图中的颜色对应于核心论文的密度 。 核心论 文密度集中的部分颜色较暖 ( 红 ) ,研究较 热 ,并且随着核心论文密度的降低 ,颜色逐 渐变冷(蓝) 。 图 3 - 1 绘制了科学结构图 ,图中虚线圈 标识出了大类。 本研究使用了高被引论文 ,由聚类生成 的研究领域反映了国际社会普遍关注的热点 研究领域 。科学结构的方法利用了论文间的 引用关系 ,突破了传统的分类体系 ,体现了 科学家科研活动的自组织聚合 ,对交叉领域 的发现具有优势 。我们通过研究发现 ,科学 结构的分析方法 ,聚在一起的论文通常是研 究解决某一科学问题的 ,这些研究问题可能 会涉及多学科的知识 ,存在多学科交叉的现 象 ;若干个研究领域会形成一片高密度区域 , 是因为他们研究解决共同的科学问题或使用 有关联的研究手段和方法而聚到一起的。 由于当前科学交叉融汇的程度越来越 高 ,学科知识之间的界限越来越模糊 ,因此 研究领域的学科分类成为一个难题 。前期的 科学结构采用人工判读方式将研究领域进行 了大类的划分 ,主体分成 “ 物理学 ” “ 纳米科 技 ” “ 合成与应用化学 ” “ 地球科学 ” “ 生物 学 ” “ 医学 ”六个学科领域 ,以及其他少量归 入 “ 数学 ” “ 工程科学 ” “ 计算机科学 ” “ 经济 学 ” “ 社会科学 ”和 “ 农业科学 ” 。算法修改 后 ,选入科学结构图中的论文增加了近一倍 , 结构更为细致 。通过分析发现 ,当前学科交 叉范围更加广泛 ,比如某些具体科学问题 , 既有生物学也有医学等的相关研究人员进行 研究 ,难以截然分开 ,按原来的学科分类不 够准确 ,并且科学结构的方法恰恰是有利于 发现科学研究的交叉融汇 。因此 ,本研究不科学结构图谱 2021 19 图3 -1科学结构 20122017 注 1. 每一个圆圈代表一个研究领域,圆的大小与研究领域包含的核心论文数量成正比 注 2. 研究领域的坐标位置由深度学习模型确定, 各个研究领域之间的相对位置反映出它们之间的关联程度,距离越近, 关联程度越高。图中上下左右的方位没有实际含义 注 3. 图中论文量越大,密度越大、颜色越暖;反之,论文量越小,密度越小、颜色越冷。图中圈出了一些研究领域大 类区域,标识主体研究内容是为了掌握科学结构的研究内容 注 4. 研究前沿数据由科睿唯安公司提供第三章 科学结构及其演变 20 Mapping Science Structure 以传统的学科分类为主 ,而是尽量从共同研 究解决的科学问题的角度进行归类 ,按照可 视化图中的密度区域划分出研究领域群 ,即 按照研究领域之间的相似性或其共享的概念 来划分群组 。只有当研究范围很大 ,无法聚 焦到比较具体的研究问题时 ,我们从研究对 象角度进行归类 ,如使用学科或子学科等对 该区域进行命名 。同时 ,由于科学结构中研 究领域在传统的学科分类上的论文数量不均 衡 ,不同学科相关的研究领域分类的层级不 尽相同 。比如 ,天文学 、数学等的研究领域 相对较少并且聚焦在一起 ;医学由于 S C I 数 据库中相关论文量较大 ,医学的研究领域数 量相应的也较多 ,因此医学的群组分类比较 具体。 总体上同一学科的研究论文在科学结构 图中具有一定的集聚性 。研究领域间的相对 位置基本固定 ,图的上下左右的方位没有实 际含义 ,因此整个图可以旋转 、翻转 。为保 持科学结构图谱与前期研究的连贯性 ,我们 将科学结构图谱 2 0 1 2 2 0 1 7 中的学科布局 总体上与前期研究保持一致 。位于图的顶部 是 “ 粒子物理与天文学 ” ,物理学位于 “ 粒子 物理与天文学 ”的右下方 ,包括了 “ 量子物 理 ” “ 自旋电子学 ” “ 非线性光学 ”及 “ 半导 体物理 ” ,其中 “ 二维材料 ”也属于 “ 纳米科 技 ” ;接下来以化学和材料科学为主 ,大部 分属于 “ 纳米科技 ” ,包括 “ 锂硫电池 ” “ 石 墨烯 ” “ 纳米电催化 ” “ 纳米光催化 ” “ 纳米催 化 ” “ 纳米生物医药 ”等 ,化学部分还有 “ 有 机合成方法学 ” “ 有机材料合成 ” “ 金属有机 框架 ”等 ;数学 、计算机科学 、工程科学位 于图的左