余厚强 梁以安 | 《基于图信号处理的颠覆性论文预测框架研究》
近日,我院余厚强副教授课题组在Information Processing & Management(SCI/SSCI,中科院一区TOP,影响因子:7.4)发表论文《A framework for predicting scientific disruption based on graph signal processing》(基于图信号处理的颠覆性论文预测框架研究)。
论文出处:
Yu H, Liang Y. A framework for predicting scientific disruption based on graph signal processing[J]. Information Processing & Management, 2024,61(6):103863. DOI: //doi.org/10.1016/j.ipm.2024.103863
一、研究简介
科学颠覆的识别向来是一项巨大挑战,预测则更为困难。为了将传统文献信号和替代计量信号等多种信号融合起来提高预测效率,本研究通过结合图信号处理(GSP)技术的兴起、科学演化的建模和颠覆的预测,提出一个基于GSP的、统一的、可扩展的科学颠覆预测框架。受到库恩经典理论的启发,该框架认为科学颠覆的特点是科学演化中的巨大变化,而这种演化通常可建模为一个图所表示的复杂系统。本研究将引文级联作为科学演化的图结构。随后,引文级联中的每一篇论文的内容、背景和引用结构信息被均被定义为图信号。最后计算图信号的总变差,以衡量科学演化的幅度,并将其作为预测的主要变量。
该框架在基准数据集上实现了约80%的平均AUC得分,比先前方法的性能平均高出13.4%。该框架是统一的,可融合多种维度的信息;并具有强可扩展性,可利用GSP的相关技术进一步增强。为了分别说明新框架的统一性和可扩展性,本研究使用替代计量数据(论文的在线提及)作为一种信号;并将另一个指标,图信号的散布熵分别用于预测,结果表明均能有效识别科学颠覆。
二、研究框架
研究所提出的科学颠覆预测框架如图1所示。在这个框架中,选择一个图结构作为科学演化的代理,然后可以在其上定义任意信号、执行图信号变换(可选)、评估图信号的特定特征,最后利用这些特征通过机器学习算法或其他算法预测颠覆性论文。

图1 所提出的科学颠覆预测框架概览
1. 实证研究的步骤
基于所提出的框架,有以下的实证研究。(1) 确定三组颠覆性论文的基准数据集:诺贝尔奖获奖论文、专家评议论文、社论评议论文。(2) 为上述步骤中的颠覆性论文选择对照组。(3) 为所有论文按时间顺序构建包含5000条边(可变的阈值)的引文级联。(4) 定义内容信号。利用Sci-Bert预训练模型,将论文的标题,摘要与关键词嵌入为信号。(5) 定义背景信号。论文的背景信息包括它们的期刊和作者。本研究创建了一个“作者-论文-期刊”的异质图,然后获取论文的嵌入,并将其定义为背景信号。(6) 定义结构信号。对于每个节点,计算度、度中心性、接近中心性、特征向量中心性和中介中心性作为结构信号。(7) 定义从一阶邻居到六阶邻居(可变的阈值)的信号。(8) 将引文级联区分为Citing级联、Citing-Cited级联、FP(Focus Paper)-Citing级联、FP-Cited级联。(9) 计算不同邻居节点之间在不同引文级联上的总变差。(10) 使用Wilcoxon检验及其效应量来评估从新框架中导出的变量的有效性。(11) 测试各种分类模型并选择最优模型,以五折交叉验证的平均AUC分数作为评估指标。(12) 由于本研究中的方法包含众多变量,因此需要进行特征选择。特征选择和模型选择将采用封装法和顺序搜索进行。
2. 级联引文的构建
本研究提出了一种新的级联引文构建方法,限制边的数量而不是跨度时间。考虑按时间顺序,构建引文级联的前5000条边。具体过程如图2.A、2.B和2.C所示。使用这种方法,引文级联的特征是固定的边数、可变的节点数和可变的跨度时间。同时,本研究不仅涉及Citing级联,还会添加焦点论文(FP,Focus Paper)在引文级联内的参考文献,如图2.D所示。相关定义和术语见图2.E。

图2 时序级联引文构建过程
3. 定义信号
在定义图结构(引文级联)之后,可以在图上定义任何信号。对于内容信号,Sci-Bert作为预训练模型,使用论文的标题、摘要、关键词获取内容嵌入,如图3.A所示。对于背景信号,构建了一个论文-期刊-作者的异质图来生成论文嵌入,如图3.B所示。对于结构信号,计算了节点的度和中心性指标,包括度数、度中心性、接近中心性、中介中心性和特征向量中心性,如图3.C所示。一旦定义了信号,它将被建立在图结构上。如果信号是二维的,将生成类似图3.D的数据结构。实际上,内容和背景信号分别是768维和64维的,而结构信号是一维的。

图3 定义信号的步骤
4. 变差的计算
图信号的总变差与拉普拉斯矩阵的二次型密切相关。图4.A中图拉普拉斯矩阵的二次型是一个节点与其邻居节点之间差异的平方和。然而,直接将拉普拉斯矩阵应用于本研究存在局限性。因此,本研究实施了具体的调整。在图4.B.1中,当对一个节点与其邻居节点之间的距离求和时可能存在不合理的正负抵消,在使用总变差测量科学演化的幅度时,这种抵消对本研究是不合理的。因此,在计算一个节点与其每个邻居节点之间的距离时,取距离的平方,如图4.A中的第一次调整所示。虽然可以控制引文级联中的边数,但在考虑二阶或更高阶邻居时,边的数量会有所不同,作为标准化,总变差将除以边的数量,如图4.A中的第二次调整所示。仅考虑一阶邻居的变差是有限的,如图4.B.2和4.B.3中的例子所示。高阶邻居之间的信号变差可以反映更多信息,因此,本研究考虑了高阶邻居的变差,包括1-6阶。

图4. 计算图信号变差的细节和调整
三、预测结果
在三个数据集中,AUC分数约为80%,达到了相对较好的结果。在诺贝尔奖获奖论文、专家评议论文和社论评议论文上的AUC分数分别为83.97%、78.08%和80.05%。
通过综述,确定了五个基线指标。(1) GSP指标:由我们框架生成的指标被命名为GSP指标。(2) TOPO指标。Min等使用引用级联的拓扑指标来预测诺贝尔奖获奖论文。节点数、边数、平均度、平均聚类系数和最大接近中心性都是有效的预测因子。由于我们构建引用级联的方法控制了边数,因此将其移除。(3) 颠覆性指数(DI)。 (4) ATYP指标。Uzzi等开发的参考文献期刊非典型组合指标(ATYP)。(5) 引文指标(CITA)。基于Min等的工作,引用级联的节点数将作为一个指标。然后,5年引用数和10年引用计数也将被包括在内。这些指标将被称为CITA指标。(6) PageRank指标(PR)。对于每个基线指标,使用其最佳模型。图5表明,上述指标在三个数据集中都显示出显著优势,平均超过先前方法17.4%、13.58%和9.7%,平均13.6%。

图5 与基线指标的预测效果对比
四、框架的统一性与可扩展性
1. 利用替代计量信号识别颠覆
本研究使用专家评议论文数据集来考察替代计量信号的总变差能否反映论文的颠覆性。同样,计算了1-6阶的替代计量信号变差。值得注意的是,Twitter成立于2006年,因此,这项实验重点在2006年之后发表的论文数据集上进行。当然,本研究还对整个数据集进行了实验。表1表明,替代计量信号的总变差能有效识别颠覆性论文。粗体表示显著(p<0.1)。
表1 使用替代计量识别颠覆论文

2. 使用散布熵识别颠覆
可扩展性指的是使用既定数理体系持续改进框架的能力。本研究在三个数据集的合集中考虑了1-6阶的散布熵。表2表明,图信号的散布熵可以在统计上识别科学颠覆。同样,粗体表示显著(p<0.1)。
表2 使用散布熵识别颠覆论文

五、研究结论
本研究引入了图信号处理(GSP)技术,开发了一个预测科学颠覆的框架。基于该框架,利用论文的内容、背景和结构信息来预测科学颠覆,平均AUC分数达到了约80%。这比之前的最佳AUC提高了13.6%。该框架有能力整合更多信息,丰富了替代计量的应用方向,且具有高度可扩展性,在未来还有提升预测效果的潜力。
作者简介

余厚强,管理学博士,成人色情小说 副教授,硕士生导师,成人色情小说 百人计划引进人才。长期从事信息资源管理的教研工作,主持国家自然科学基金项目2项、教育部人文社会科学基金项目2项,广东省社科基金1项,参与国家级省部级重要科研项目10余项。担任SSCI一区期刊编委,AP iNext委员,CSSI委员,SMP委员,国内外多种核心期刊和国家级项目的评审专家。

梁以安,成人色情小说 硕士研究生,曾获评国家奖学金、成人色情小说 一等奖学金等荣誉和奖励。研究方向是信息计量与科学评价。研究成果发表于IP&M、Scientometrics、HSSCOMM、《情报理论与实践》等期刊上。