本发明涉及期刊质量监测领域,尤其涉及一种期刊异常检测方法、设备及存储介质。
背景技术:
1、在当前的学术出版领域,文献引用通常被视为衡量学术影响力的关键指标。然而,过度自引的现象已成为一种扭曲学术贡献真实性的行为,这不仅损害了研究人员和期刊的声誉,还可能对整个学术领域的健康发展产生负面影响。尽管当前已有多种检测论文不端行为的方法,但针对期刊异常的检测研究相对较少。更为严峻的是,现有研究通常依赖于较小的数据集,这可能导致过拟合,从而无法真正学习到如何有效检测异常行为。
技术实现思路
1、为了解决目前的期刊异常检测中存在的过拟合及检测精度不高的技术问题,本发明提出了一种基于自编码器的方法,用于异常期刊的分类和检测。本发明的方法不仅在正常和异常期刊之间进行分类,而且能够识别整个数据集中的异常点。通过迁移学习,将自编码器从其在风控数据异常检测中的成功应用迁移到期刊异常检测领域。特别地,自编码器有效地学习了正常期刊的特征,识别出深层次和非线性的特征关系,这对于区分正常和异常期刊至关重要。
2、具体地,本发明提出一种期刊异常检测方法、设备及存储介质,其中方法包括以下步骤:
3、s1、收集正常期刊和异常期刊数据,得到数据集;
4、s2、对数据集进行第一处理,得到第一处理后的数据;
5、s3、对第一预处理后的数据进行第二处理,得到第二处理后的数据,将第二处理后的数据划分为训练集和测试集;所述第二处理采用多种采样技术的结合;
6、s4、构建复合式自编码器模型laesc,并且在其中引入注意力层;。
7、s5、采用自适应正则化方法和训练集对自编码器模型laesc进行深度训练,得到训练完成的模型;
8、s6、运用测试集及auc-prc指标进行训练完成的模型的性能评估。
9、一种存储介质,所述存储介质存储指令及数据用于实现所述的一种期刊异常检测方法。
10、一种期刊异常检测设备,包括:处理器及存储介质;所述处理器加载并执行存储介质中的指令及数据用于实现所述的一种期刊异常检测方法。
11、本发明提供的有益效果是:
12、(1)本发明提供的一种基于自编码器的非结构化文本分类方法,期刊的某些特征之间存在某种隐藏关系,故而该模型在数据中学到更丰富的特征表示,有效捕捉深层的隐藏关系,在面对复杂数据时模型泛化能力很强,在传统方式中这些很难实现;
13、(2)本发明采用dbscan结合tomek links和adasyn方法来处理样本不均衡问题,显著提升了数据集质量。dbscan精确移除噪声样本,清洁数据集,tomek links减少类别重叠,增强边界明确性。adasyn通过过采样少数类,平衡类别分布,提高模型对少数类的识别能力。这种方法不仅改善了模型的泛化能力,还降低了过拟合风险,增强了模型的可靠性和鲁棒性,为构建高效、准确的预测模型提供了有力支持。
1.一种期刊异常检测方法,其特征在于:包括以下步骤:
2.如权利要求1所述的一种期刊异常检测方法,其特征在于:步骤s2中,所述第一处理包括:特征选择和特征标准化。
3.如权利要求2所述的一种期刊异常检测方法,其特征在于:所述特征选择,选择得到的特征包括:自引率、近两年自引率和近三年自引率。
4.如权利要求2所述的一种期刊异常检测方法,其特征在于:所述特征标准化,指对特征进行归一化处理。
5.如权利要求1所述的一种期刊异常检测方法,其特征在于:步骤s3中,所述第二处理,首先采用dbscan聚类技术剔除噪声样本,随后采用tomeklinks进行欠采样,最后利用adasyn进行过采样,得到第二处理后的数据。
6.如权利要求1所述的一种期刊异常检测方法,其特征在于:步骤s5中,所述自适应正则化方法为adam算法。
7.一种存储介质,其特征在于:所述存储介质存储指令及数据用于实现权利要求1~7任一项所述的一种期刊异常检测方法。
8.一种期刊异常检测设备,其特征在于:包括:处理器及存储介质;所述处理器加载并执行存储介质中的指令及数据用于实现权利要求1~7任一项所述的一种期刊异常检测方法。