识别Web of Science中的研究前沿:从指标到内涵.pdf
识别 Web of Science 中的研究前沿: 从指标到内涵 全球研究报告 Martin Szomszor、 David Pendlebury、 Gordon Rogers 2020年9月 2 作者简介 立足过去,放眼未来 Martin Szomszor是科学信息研究所 负责人兼研究分析主管。他因与英格 兰高等教育资助委员会( HEFCE)合作 创建了“ REF2014影响力案例研究数据 库”,荣膺“ 2015年英国信息时代50强 数据领袖”称号。 David Pendlebury是科学信息研究所 的研究分析主管。自1983年以来,他一 直致力于使用 Web of Science数据来 探寻科学研究的结构和动态。他与ISI 创始人 Eugene Garfield共事多年,并与 Henry Small共同开发了基本科学指标 ( Essential Science Indicators)数据库。 Gordon Rogers是科学信息研究所的 高级数据科学家。他在文献计量学和 数据分析领域工作已有10年,一直致 力于支持世界各地的客户,评估其研 究项目和战略。 科学信息研究所(ISI) 科睿唯安旗下科学信息研究所( ISI) 半个多世纪以来一直引领着全球科研 信息的收集和整理。如今,它依然致力 于推动科研诚信,同时改善科学信息 的检索、解释和使用。 ISI负责维护公司 知识库,这是Web of Science引文索引 数据库及其相关信息与服务赖以建立 的基础。 ISI通过活动、出版物、以及会 议等形式对外进行知识传播,并开展 研究,以维护、扩展和改进知识库。 想了解更多信息,敬请访问: clarivate. com/ webofsciencegroup/solutions/ isi- institute-for-scientific-information/ ISBN 978-1-9160868-8-3 封面图片:南岛辫状冰川河, bterzesphoto 3 摘要 文献计量学和科研评估 我们的研究报告鼓励科研人员和管理 人员通过“研究前沿”数据对科研工 作进行更深入的评估,这些数据源自 Web of Science以及展现专业领域或 研究方向的结构与动态的地图。 科研评估和政策制定经常使用基于出 版物和引用数据的量化指标作为传统 专家同行评议的补充。研究共同体中 的大多数人都熟悉被引频次、 Web of Science期刊影响因子 ( Journal Impact Factor)或 h指数等标准指标。评分和 排名虽然有其作用,但不足以揭示科 研活动的多个方面以及覆盖研究贡献 的不同维度。目前,更全面、更翔实的 评估是可以实现的,但这样的评估方 法仍鲜少有人使用。 随着超大型数据集处理与可视化手段 的进步,通过文献的科学结构地图来 观察和探明科学和学术研究的前沿已 成为可能。此类地图通常会提供研究 领域和主题的二维或三维图景,基于 将出版物彼此连结的引文网络以及共 享术语而创建。文档间的相似性决定 着图景中的接近度,而出版物的不同 密度则会造就各种结构,如知识的“山 脉”或“岛屿”。分析师可以确定个人、 机构、资助方和期刊在这幅地形图上 的位置,并评估不同领域的组织参与 度以及随着时间推移而发生的变化。 这有助于更好地了解当前活动,如找 出主要参与者、热点主题和新兴主题。 科研评估历来着眼于科研过程:投入 (资金等资源);活动(研究项目);产出 (通常是成文文献,如学术论文或工 业专利);成果(论文获得引用以及越 来越多受到关注的社会和经济效益)。 大多数评估对最后一项涉及最少,因 为评估总是紧随科研活动之后,等不 及研究结果产生明显的效益就匆匆进 行。由此导致的一个后果是,全面而深 入的评估具有明显的追溯性,必须久 远回溯,设法评估多年前做出的投入。 即便发现科研投入未能达到资助方的 期望,想要补救也为时已晚。然而,科 研资金是有限的,无法为所有研究机 会提供经费支持。因此,尽可能高效且 有效地利用资源依然十分重要。 这就意味着我们不仅要支持由同行评 议判定的最有价值的研究课题,还要 从最具创新潜力、最有可能产生明显 社会和经济效益的研究方向上遴选研 究课题。 学科规范化引文影响力( CNCI)是一个 广泛使用的传统指标。学术论文被后 续文献引用,随着时间的推移,就会积 累引用量。根据一般推断,得到更多引 用的作品比得不到引用的作品影响力 更大,或更具学术影响力。然而,被引 频次不仅随时间而积累,其积累速度 也取决于学科,并且在不同文献类型 之间呈现出差异。平均来看,生命科学 的引用率高于技术类和应用科学,而 综述的被引频次通常高于同时期发表 的研究论文( article)。为反映此类差 异,需要将文献的被引频次与同年发 表、同一研究领域的同类文献的全球 平均水平相比较。文献被引频次与全 球均值的比值就是CNCI 。 随着超大型数据集 处理与可视化手段 的进步,通过文献 的科学地图来观察 和探明科学和学术 研究的前沿已成为 可能。 4 任何文献的CNCI都很容易计算, CNCI 平均值经常作为一个有用指标来考察 国家、机构或科研团体的科研产出。对 基于该指标的分析结果的解读潜藏着 一些陷阱,这一点大多数用户应该已 经意识到了。不过,有一点应该明确, 由于被引频次的积累需要时间,所以 高置信度的 CNCI指数的计算也需要时 间。 传统的、相对简单的追溯性指标显然 不能满足负责任的科研管理的要求。 因此,人们普遍希望找到一种更现代 的针对科研活动的视角来帮助解决这 一不足。 关键任务是将视角从科研过程评估转 为科研进程评估。传统指标注重过程: 基本上是对研究项目的结果进行分 析。但每个项目只是主干上的一个分 支,而主干才代表该研究领域的进展。 我们需要评估的是在主干的何处开始 分枝。 一个“项目分支”的发展、其产生的新 兴知识以及观点思路沿主干的演进发 展之间存在着众多反馈回路,这些回 路都反映在新旧出版物之间的交叉 引用上这正是尤金. 加菲尔德博 士( Eugene Garfield)在科学信息研究 所( ISI)开发的科学引文索引( Science Citation Index)的基础,他称之为“连 结想法的索引( an association-of-ideas index)”。他看到文献引用将特定主 题、概念和方法联系在一起:“引用是 对主题精确、清晰的表征,不需要解 释,也不受术语变化的影响。”( 1955) 从本质上看,引用是跨学科的,引文网 络中的连接并不局限于一个或几个领 域,而是在整个科研全景图中自然发 生。 在加菲尔德博士看来,引文数据提供 了建立科研结构地图、描绘其地形的 材料。一旦有了通过引用联系论文的 索引,我们就有了确定其知识关系的 依据,如 Derek de Solla Price( 1965)所 述:“书目参考文献呈现的引文规律能 够揭示科学研究前沿的本质。”此类引 文规律为我们提供了能够确定研究文 献位置的地图,并由此应用一个时间 轴,揭示学术发展方向。 我们能够确定主题在哪里,以及围绕 这个主题的研究方向是什么。不过在 Price的年代,他所想象的全球科学地 图尚未成为现实。 图1 科研过程和进程。引用反馈环路为我们了解研究进展提供了更多信息。 我们寻找的是更具影响力的科研工作,相关的多篇论文获得引用,并有望加快研究进程。 4 It is generally inferred that those works that are more frequently cited have greater influence or academic impact than uncited work. However, citations not only accumulate over time they do so at rates that are discipline dependent and that differ between types of documents. The life sciences have higher citation rates, on average, than technical and applied sciences and reviews tend to have higher citation counts than articles of the same age. To take account of these differences, the citation count for any document is compared to the global average for the same kind of document, published in the same year and in the same field of research. The ratio between the document count and the global average is the CNCI. The CNCI is readily calculated for any one document and the average CNCI is often taken as an informative indicator for the portfolio of a country, institution or research group. There are potential pitfalls in interpretation and most users should already be aware of these. It will be clear, however, that because it takes time for citation counts to build, so it takes time before a CNCI index can be calculated with any confidence. Conventional and relatively simple retrospective indicators are evidently not enough to satisfy responsible research management requirements. There has consequently been a widespread desire to develop a more contemporary view of research activity to h lp address this deficit. The key task is to shift the perspective from evaluation of the research process to the evaluation of research progress. Conventional indicators focus on the process: in essence, they analyze the outcomes of a research project. But each project is just a stem off a greater branch that represents the onward progress of that field of research. We need to evaluate where we are off that main branch. The many feedback loops between the development of a project branch, its emerging knowledge and the progress of ideas along the main stem are captured in the cross-references between newer and older publications. This is the basis of the Science Citation Index developed by Eugene Garfield at the Institute for Scientific Information (ISI) who referred to this as, an association-of-ideas index. He saw that citation links joined specific topics, concepts and methods: the citation is a precise, unambiguous representation of a subject that requires no interpretation and is immune to changes in terminology. (1955) It is inherently cross-disciplinary and connections in a citation network are not confined to one field or several but roam naturally throughout a research landscape. Citation data, Garfield saw, provided material to build a picture of the structure of scientific research and sketch its terrain. Once an index linking papers through their citations exists, we have the basis for determining their intellectual relationships and, as Derek de Solla Price (1965) noted, The pattern of bibliographic references indicates the nature of the scientific Research Front. This pattern provides for us a map in which we can locate a research publication and from this apply a time axis that shows us the direction of intellectual travel. We can work out where a topic is and what direction the research around that topic is taking. But, in Prices day, the global map of science he imagined was not yet a reality. Figure 1. Research Process and Research Progress. The citation feedback loops add information to our understanding of progress. We look for the more influential work where multiple papers direct their citations and that is likely to speed progress. 研究过程 影响力 引文后续成果 研究前沿 出版物 发现 基金资助 老的想法近来的想法 研究进程 新想法 5 什么是研究前沿? 如何绘制科学地图? Price认为研究有着可定义的“前沿”, 并利用引文规律来寻找这些前沿。 他提出一种“及时因子( immediacy factor)”,表现为与发表多年的文献相 比,施引文献聚类或不成比例地集中 于近年发表的文献,。他写道:“由于只 有一小部分早期文献与目前产出的论 文交织在一起,那么我们可以将这一 小部分文献看作某种不断发展的尖 端或表层,是一种活跃的研究前沿。” ( Price, 1963) 在过去的一个世纪,关于“研究前沿” 的文献稳步增长,并在近二十年加速 增长。目前,“研究前沿”一词已成为公 认术语,往往与科学研究、增长领域和 新兴领域或主题的发展趋势相关联。 这一切都说明一点:辨识创新和变革 的焦点是可行且可取的。这一术语所 固有的另一个要素就是“新颖”的概 念,这种新颖性既在于想法和思路,也 在于研究领域本身。于是,现有的任何 类型学或分类法往往都是不充分的, 甚至会对辨识这种创新的可能性造成 制约。 近年有关“研究前沿”的论文通常涉及 可视化,并强调对新兴主题的探获。可 视化将研究前沿的描述与更广泛的工 作相关联,即为所有学术知识创建地 图。关键问题首先在于如何创建这些地 图,其次是如何在地图中定位关键点。 没有足够的计算能力、存储能力和庞 大的数据,利用出版物及其引用数据 来分析研究前沿就不可避免地要用 人工方式有选择地进行。有许多方法 可以将学术出版物分组以创建聚类, 然后将它们聚合成域和网络。 Web of Science使用基于期刊的学科分类,但 不指定学科间具体的距离关系。 针对出版物,我们可以使用文本,例如 基于摘要或共同关键词的相似性,但 文本分析耗时费力,还需要详细的专 业辞典,因为同一个词在不同领域可 能有着截然不同的含义。其他可获得 的元数据包括文章中的参考文献列表 或对论文的引用。 Kessler( 1963)提出 文献耦合法,这种方法是根据共同引 用的参考文献的出现频率来评估文章 之间的主题相似度。 1973年, ISI的 Henry Small将 Kessler的 方法颠倒过来: “一种新型的文献耦合方法即共被 引,定义为两篇文献被同时引用的频 率。两篇科学论文被同时引用的频率 通过比较科学引文索引中施引文献列 表并清点相同的条目来确定。可针对 特定的科学研究方向,生成共被引论 文的网络。共被引论文簇提供了研究 科学专业方向结构的新途径。” 俄罗斯信息科学家Irena V. Marshakova- Shaikevich在同一时期提出了共被引 分析的概念,但她与Henry Small都不 知道彼此的工作这一现象被科学 社会学家Robert K. Merton称为“多重 发现”。 目前,“研究前沿” 一词已成为公认术 语,往往科学研究、 增长领域、新兴领 域或主题的发展趋 势相关联。 6 Henry Small根据两篇文章同时被引用 的频次即它们的共被引频率,对二者 的相似性进行测度。通过分析粒子物 理学论文,他发现同时被引的规律表 现出“主题相似性的概念”和“想法的 联系或共现”。他提出,被频繁引用的 论文能够反映出关键概念、方法或试 验,可用作共被引分析的起点,作为某 一特定研究方向上其社会和学术结构 的客观描述指标。 Price的“研究前沿” 是由数量相对较少的近年论文紧密连 结而成的, Henry Small也是如此 他发现共被引分析显示出的研究方向 是科学研究的自然组织单元,而非传 统定义的更大领域。此外,他发现可以 通过追踪此类组织单元随时间推移而 经历的演变来对其进行深入研究。 Henry Small继而与Belver C. Grif_fith (费 城德雷塞尔大学)共同开展研究,为 利用共被引分析来定义专业研究方 向奠定了基础。 Small和 Griffith( 1974; Griffith等, 1974)证明了可以对各个研 究前沿之间的相似性进行测度,从而 形成专业研究方向的核心。他们的地 图采用多维标度,将相似度定义为二 维下的接近度。 Price( 1979)称赞这一 成果“具有革命意义”。 在 1981年的 ISI科学图册:生物化学和 分子生物学( 1978/80)中,加菲尔德 博士将Small和 Griffith的基础研究转 化为信息产品。该图册包含102个“研 究前沿”,每个前沿都包括一张核心论 文及其多维标度关系的地图。一幅巨 大的折叠地图显示了根据相似性绘制 的全部102个研究前沿。 ISI的科学图 册没能流传下来,而加菲尔德博士和 Henry Small则继续开展对科学结构地 图的研究。为了定义“研究前沿”, Small ( 1985)提出了一项重要修正:分数形 式的共被引聚类。根据施引文献中参 考文献列表长度,以分数形式计算引 用频率,从而调整各个领域平均引用 频率之间的差异。结果发现,以数学 为例,分数形式下的引用频率高于整 数形式下的引用频率。 Small同时发现, “研究前沿”可以在高于单个前沿组 群的层次上实现相似性聚类。他和加 菲尔德( 1985)概括总结了这些进展, 根据科学引文索引( Science Citation Index TM )和社会科学引文索引( Social Sciences Citation Index)中的组合数 据发表了一份全球科学结构地图。 这里要强调的是,不存在研究文献聚 类的单一最优方法。科研“信息”分类 方面的挑战在于,我们没有黄金标准, 没有绝对的测试对错的方法可以参 考。我们有的是科研人员的文化观念, 这些文化观念受到他们的出身、训练、 经历及其所在领域观点的影响。化学 家不清楚数学领域的各个主题之间的 差异。对历史学家来说,纳米技术与化 学、材料学和数学领域的联系是拜占 庭式的神秘难解。 通过共被引分析来确定研究方向其实 就是描述一个反映相关学术工作的主 题,这些工作可能跨越多个熟悉的领 域。为进一步辅助科研管理和未来决 策,研究方向需要放在更大的地图中, 该地图能够显示可以识别的大的研究 领域和小的专业领域。只有这样才能 充分解释我们所选取的内容。 现在,全球有很多学术中心专注于绘 制科学结构地图,它们运用了多种多 样的方法和工具。印第安纳大学教授 Katy Borner的科学图册( 2010)对这 些后续发展进行了概括。其中尤为突 出的是德雷赛尔大学陈超美开发的 CiteSpace( 2006)以及莱顿大学科学 技术研究中心( CWTS)的 Nees-Jan Van Eck和 Ludo Waltman开发的VOSviewer ( 2010)。 关于科学结构地图,更详尽的背景 信息可以参考Eugenio Petrovich近期 的文献综述( 2020)和近年的一份科 技指标手册中的两篇概述( Boyack和 Klavans, 2019; Thijs, 2019)。 图2 Kessler的文献耦合(左)有别于Small和Marshakova的共被引分析(右) 6 Small measured the similarity of two documents in terms of the number of times they were cited together: this is their co-citation frequency. Analyzing papers from particle physics he found that co-citation patterns indicated the notion of subject similarity and the association or co-occurrence of ideas. He suggested that frequently cited papers, reflecting key concepts, methods or experiments, could be used as a starting point for a co-citation analysis as an objective descriptor of the social and intellectual structure of specialty areas. Like Prices Research Fronts, consisting of a relatively small group of recent papers tightly knit together, so too Small found co-citation analysis pointed to the specialty as the natural organizational unit of research, rather than traditionally defined and larger fields. He also saw that such organizational units could be studied through time as they evolved. Small then worked with Belver C. Griffith (Drexel University, Philadelphia) to lay the foundations for defining specialties using co-citation analysis. Small and Griffith (1974; Griffith et al., 1974) showed that individual Research Fronts could be measured for their similarity with one another and thus form the nucleus of a specialty. Their mapping used multidimensional scaling and similarity was plotted as proximity in two dimensions. Price (1979) hailed this as revolutionary in its implications. Garfield turned Small and Griffiths basic research into an information product in the 1981 ISI Atlas of Science: Biochemistry and Molecular Biology, 1978/80. The Atlas included 102 Research Fronts, each including a map of the core papers and their relationships laid out by multidimensional scaling. A large, fold-out map showed all 102 Research Fronts plotted according to their similarities. The ISI Atlas of Science did not survive but Garfield and Small continued their research in science mapping. Small (1985) introduced an important modification for defining Research Fronts: fractional co-citation clustering. By counting citation frequency fractionally, based on the length of the reference list in the citing papers, he adjusted for differences in the average rate of citation among fields. Consequently, mathematics, for example, emerged more strongly, having been under-represented by integer counting. Small also showed that Research Fronts could be clustered for similarity at levels higher than groupings of individual fronts. He and Garfield (1985) summarized these advances and published a global map of science based on a combination of data in the Science Citation Index and the Social Sciences Citation Index . It is important to emphasize that there is no one best method for clustering research publications. The challenge in grouping research information is that we have no gold standard, no absolute test of correctness, to which we can refer. What we have instead is an array of researchers cultural perceptions, influenced by their origins, training, experience and evolved view of their own field and others. To a chemist, the topical distinctions within mathematics will be unclear. To a historian, the span of nanotechnology across chemistry, materials and mathematics will be Byzantine. Identifying a specialty through co- citation analysis describes one topic capturing intellectually related work that may cross familiar fields. To be even more useful as a guide to research management and future decision making, a speciality needs to be located in a greater map that shows recognizable major and minor areas of research. Only then can we fully interpret what we have picked out. There are now many academic centers across the globe focusing on science mapping, using a wide variety of techniques and tools. These later developments are summarized in Indiana University Professor Katy Brners (2010) Atlas of Science. Of particular significance are CiteSpace developed by Chaomei Chen (2006) at Drexel University and VOSviewer developed by Nees-Jan Van Eck and Ludo Waltman (2010) at CWTS, Leiden University. For more detailed background on science mapping the reader is referred to Eugenio Petrovichs recent review (2020), as well as two overviews in a recent handbook of science and technology indicators (Boyack and Klavans 2019, Thijs 2019). AB C D E F A B C D E F Figure 2. How Kesslers citation coupling (left) differs from Small and Marshakovas co-citation analysis (right) 文献耦合 A项(引用) B项(被引用) B项(引用) A项(被引用) 被引用的论文 施引论文 施引文献 A和 B有关联,因为均 引用了论文 C、D、E 和 F 施引文献 A和 B有关联,因为均 引用了论文 C、D、E 和 F 共被引 7 Web of Science研究前沿的使用和价值 识别知识全景图中热点研究的“峰值” 能够提供重要信息。当这些峰值以高 被引论文为形式在研究前沿中具有关 联时,则可对其重要性赋予更多权重。 它们的施引文献与当前热点主题有交 叉关联,可以是现有领域中的突破,也 可以是新兴领域中的新颖的、跨学科 的研究方向的实现。 当研究前沿被准确定位在知识网络中 时,就会出现重要的科研管理机会,远 超过仅来自科研绩效指标的信息。 科研人员 发现研究前沿可以有助于塑造科研人 员的研究生涯。作者可以通过定位当 前的科研活动,了解自身工作与研究 前沿之间的联系。 科研机构 科研管理人员可以确定机构产出在整 个知识全景图中的分布,对其进行过 滤,找出近年或更长时间窗口的成果, 然后对自身研究主题与研究前沿的关 系进行评估。也可以与竞争对手机构 进行对标。 基金资助者 可通过辨识其所资助项目发表的论文 分布情况,了解其投入产生的成果是 否处于或接近研究前沿,也可以将基 金转向涉及前沿主题的项目。 政策制定者 一个国家的产出在科学研究全景图中 的分布无论对于进行国际对标,还是 衡量其参与研究前沿的程度,特别是 在相关政策引导的领域,都具有重要 意义。 出版机构 不仅可以在广泛的科研全景图中定位 其期刊内容,而且还可以了解与当前 最热门的研究前沿的关联情况。在适 当的情况下,可以相应调整编辑政策。 中国大陆和日本的国家级研究机构的 工作表明,识别研究前沿这项工作本 身具有重大的政策价值,能够为投资 决策提供信息、指明新的研究机会。 中国科学院( CAS) 中国科学院为何使用“研究前沿” 中国科学院发现ESI研究前沿中所 述的专业领域与其通过其他渠道 确定的热门研究方向相一致。 领域专家也确认,“研究前沿”的核 心论文大多是一个研究领域的经 典文献。因此,“研究前沿”可作为 科研人员的导