1.本发明涉及数据挖掘、机器学习和图嵌入技术,具体涉及一种复杂网络结构特征计算,处理以及对新闻生命周期预测的方法和系统。
背景技术:
2.近年来,随着互联网的普及和信息技术的快速发展,传统书籍和纸质媒体逐步被互联网产品取代。互联网作为用户交流信息的平台,在用户的工作生活中占据重要地位,用户可以通过互联网去获取各种资讯。如何去预测信息的生命周期就显得尤为重要。在现阶段,生命周期预测方法主要有经验判别法、数学模型法和联合法三大类。早期最常用的产品生命周期预测方法多侧重于定性经验判断,主要有类比法、增长率预测法和普及率分析及预测法。类比法,顾名思义,用已知信息推未知信息,根据以往类似产品生命周期变化规律来推测目标产品的生命周期。增长率法,则是采取分段判断的方式,以产品增长率的变化规律来预测目标产品生命周期。普及率分析及预测法利用样本数据计算所得的产品普及率来分析预测其所处的生命周期。但是这些传统的方法来预测生命周期,其结果存在一定的误差;同时由于新闻的多变性,这些方法不适合用来预测新闻的生命周期。
3.中国专利cn202110395553公开了一种停车场设备的生命周期预测方法及系统,该方法局限性较大;中国专利cn201910062267.6公开了结合复杂网络和机器学习的方法,将其应用在肿瘤驱动基因预测上;而在生命周期预测方面,很少有应用复杂网络的。
技术实现要素:
4.本发明要克服现有技术的上述缺点,提出一种基于复杂网络结构的新闻生命周期的预测方法及系统。
5.本发明主要拓展应用面,优化机器学习方法,结合复杂网络,提出特征融合方法,提供一种基于复杂网络结构的新闻生命周期的预测方法及系统。
6.本发明结合传统的层次聚类、随机森林、svm等机器学习方法,以及二分网络的图嵌入方法,通过优化层次聚类方法和随机森林方法,得到适合预测的特征向量,同时结合社交网络的网络结构特征,通过特征融合技术,形成全新的特征向量,通过优化的svm模型,预测新闻的生命周期。
7.本发明实现上述发明目的所采用的技术方案如下:
8.基于复杂网络结构的新闻生命周期的预测方法,包括以下步骤:
9.s1:获取一种带有时间序列的新闻数据集并清洗该数据;
10.s2:通过新闻下的评论关系以及新闻自身的特征,将用户对新闻的评价和新闻自身作为节点,评论之间的联系作为连边,构建超图网络,计算网络的特征向量;
11.s3:基于层次聚类算法计算回推值;
12.s4:通过lda主题提取算法生成新闻主题;
13.s5:计算新闻文本特征向量,通过图嵌入方法计算网络的结构特征向量,按一定比
例组合,再通过随机森林模型,将新闻分成较长生命周期,中等生命周期,较短生命周期三类;然后将得到的特征输入svm线性模型,预测新闻的生命周期时长。
14.优选的,所述步骤s1中:对获取的数据集进行清洗操作,将数据信息导入数据库中,筛选评论数量在一定范围内的新闻,删除缺少时间信息的新闻数据,将所有新闻的时间信息规则化;删除新闻文本信息中的符号,链接,图片等不规则信息;补全新闻数据中的残缺信息;该步骤有助于除去一些残差信息,方便后续的特征计算。
15.优选的,所述步骤s2中:根据用户跟新闻之间的联系,来构建新闻之间的关系网络,该网络中的每个节点表示新闻,然后将每个新闻下的评论作为另一种类型的节点,插入该网络,与相应的新闻节点形成复杂网络,其中新闻节点之间的连边表示用户的操作行为,评论节点之间的连边表示了评论的回复关系。
16.优选的,所述步骤s3中:选取新闻3个小时内的评论,根据发布时间,将评论正向排序,首先将每一条评论当作一个簇,计算任意两个簇之间的距离,合并这两个簇,直到最远的两个簇的距离超过阈值或者簇的个数到达上线,停止迭代,最后将簇的个数作为新闻的回推值;其中距离的计算公式为:
[0017][0018][0019][0020]
其中ci,cj表示两个不同的簇,p,q表示簇中的节点,表示一个簇内的平均距离;此步骤中,簇之间的阈值可以进行调节,可以更好的适应各大社交平台,提高了算法的普适性。
[0021]
优选的,所述步骤s4中:
[0022]
s4.1:根据获取的数据集,取一部分的数据作为训练集,将新闻标题进行分词操作,通过词语的共现信息,进行词频统计,得到单词共现频率的概率矩阵, 同时得到训练好的lda模型;
[0023]
s4.2:将剩下的数据的新闻标题文本作为测试集,首先进行分词操作,输入训练好的模型,选取最大的概率所属的主题,作为该新闻的主题;
[0024]
s4.3:统计得到的概率矩阵,计算每条新闻所包括的主题数量,只要概率大于一定的阈值,就当作该新闻属于该主题。
[0025]
优选的,所述步骤s5中:
[0026]
s5.1:根据获取的数据集,统计新闻内容句子数量的大小,新闻标题的长度,新闻前一个小时和前3个小时的评论数量,新闻发布者的权威性,新闻发布的时间段,组成新闻的文本特征向量;
[0027]
s5.2:通过图嵌入方法,计算复杂网络的结构特征,得到网络结构属性:邻居数、平均最短路径、度中心性、接近中心性、介数中心性、特征向量中心性,组成新闻网络的结构特征向量;
[0028]
s5.3:通过文本特征与结构特征之间的相关性与重要性分析,将结构特征的权重设置为30%,文本特征的权重设置为70%,重新组合,形成新的特征向量;
[0029]
s5.4:将清洗好的数据集按分成训练集和测试集,从划分好的用于训练的样本中随机采样m个样本,每个样本的特征属性均来自上述提取的特征向量,构成一个训练集,并训练一个决策树模型,其中训练过程中的新闻划分是以信息增益为准则选取特征属性划分决策树的,并且这里是从所有特征中随机抽取部分特征寻找最优解;然后进行n次采样,并训练得到n个决策树,将生成的n 个决策树组成随机森林,最后把划分好的用于测试的样本放入训练好的随机森林模型中进行分类,将新闻分成较长生命周期,中等生命周期,较短生命周期三类;
[0030]
s5.5:最后分析新闻生命周期类别的时长均值,新闻主题数,新闻主题类别的时长均值,新闻的回推值与生命周期时长做一个相关性系数计算,得到其结果,将其按照10%,20%,20%,50%的比例组成四维特征向量,构建支持向量机svm回归模型,使用线性核函数,然后进行通过网格算法寻找svm模型的参数最优值,之后进行十折交叉验证的方式,即对将数据随机分成10份,依次取其中的1份作测试样本,剩下的9份作训练样本,得出svm回归模型,预测新闻的生命周期时长。
[0031]
实现本发明的基于复杂网络结构的新闻生命周期的预测方法的系统,包括:预处理模块、网络构建模块、回推值计算模块、主题提取模块、特征向量构建模块、随机森林分类模块、svm预测模块;
[0032]
所述预处理模块对获取的数据集进行清洗操作,将数据信息导入数据库中,筛选评论数量在一定范围内的新闻,补全新闻数据中的残缺信息;
[0033]
所述网络构建模块根据用户跟新闻之间的联系,来构建新闻之间的关系网络,然后将每个新闻下的评论作为另一种类型的节点,插入该网络,与相应的新闻节点形成复杂网络;
[0034]
所述回推值计算模块利用层次聚类算法,计算每个新闻的回推次数;回推值主要是根据推荐算法在社交媒体中的应用提出的,每条新闻都会有一个热度时间,当热度退去,新闻的生命也会结束;但由于推荐系统的存在,当发生相类似的事件,该新闻大概率会被推荐系统推出来,重新暴露在大众的视野之中,回推值就是通过新闻评论的时间序列,以优化后的层次聚类的方法,来模拟这种效果;
[0035]
所述主题提取模块将新闻标题进行分词操作,通过词语的共现信息,进行词频统计,单词共现频率的概率矩阵,计算新闻包含的主题数量;
[0036]
所述特征向量构建模块通过图嵌入方法,计算复杂网络的结构特征,得到网络结构属性:邻居数、平均最短路径、度中心性、接近中心性、介数中心性、特征向量中心性;然后计算新闻文本特征:新闻内容句子数量的大小,新闻标题的长度,新闻前一个小时和前3个小时的评论数量,新闻发布者的权威性,新闻发布的时间段,将结构特征的权重设置为30%,文本特征的权重设置为70%, 组合成新的特征向量;
[0037]
所述随机森林分类模块输入形成的特征向量,形成决策树,将新闻分成三类;
[0038]
所述svm预测模块将新闻生命周期类别的时长均值,新闻主题数,新闻主题类别的时长均值,新闻的回推值与生命周期时长做一个相关性系数计算,得到其结果,将其按照10%,20%,20%,50%的比例组成四维特征向量然后,构建支持向量机svm回归模型,确定
核函数的选取,使用线性核函数,然后进行通过网格算法寻找svm模型的参数最优值,之后进行十折交叉验证的方式,即对将数据随机分成10份,依次取其中的1份作测试样本,剩下的9份作训练样本,得出svm回归模型,来预测新闻的生命周期时长;
[0039]
所述的预处理模块、网络构建模块、特征向量构建模块、随机森林分类模块顺序依次连接,与回推值计算模块,主题提取模块并行连接,最后一起连接到svm预测模块。
[0040]
本发明的有益效果为:
[0041]
(1).根据推荐系统在社交媒体上的应用,提出回推值的概念,符合新闻生命周期的被延长的实际情况(每条新闻都会有一个热度时间,当热度退去,新闻的生命也会结束;但由于推荐系统的存在,当发生相类似的事件,该新闻大概率会被推荐系统推出来,重新暴露在大众的视野之中),通过相关系数的计算,证明回推值与新闻生命周期有比较大的相关性。
[0042]
(2).通过相关系数的计算,找到适合最后特征融合的系数,提高了新闻生命周期预测的精度。
[0043]
(3).与其他的生命周期预测方法相比,本发明结合了当下流行的复杂网络和机器学习的方法,选取适合预测的特征,虽然在一定程度上增加了计算量,却大大增加了准确率;一方面,作为一种端到端的模型组块,可以只改动少许参数就可以适应多种不同的数据集;这样不仅可以简化算法的流程还可以降低它的复现难度以及提高模型算法的迁移性。
[0044]
(4).社交网络运营商将预测信息应用于市场分析及相关决策指导;这样,社交网站运营商可以对自己的产品进行相应的调整与推新,以利于社交网站的发展和用户满意度的提高。社交平台为广告依托的企业可以准确的判断社交平台的最佳投入时间点和投入力度,收获最佳效益。
[0045]
(5).本发明可以应用于各大社交网络,分析用户发出的推文,帖子等。通过预测系统,可以大致预测用户帖子的生命周期时长。进一步,分析特征对生命周期时长的重要性程度,通过调整特征值的大小,来增加新闻的生命周期时长,从而提交新闻的潜在价值。
附图说明
[0046]
图1是本发明的方法的流程图;
[0047]
图2是本发明的系统结构示意图;
[0048]
图3是复杂网络生成图。
具体实施方式
[0049]
下面结合附图,进一步说明本发明的技术方案。
[0050]
为了提高此类算法的效率,结合传统的层次聚类、随机森林、svm等机器学习方法,以及二分网络的图嵌入方法,通过优化层次聚类方法和随机森林方法,得到更适合预测的特征向量,同时结合新闻文本特征和社交网络的网络结构特征,通过特征融合,形成全新的特征向量,优化svm模型,预测新闻的生命周期。
[0051]
本发明实现上述发明目的所采用的技术方案如下:
[0052]
如图1所示,基于复杂网络结构的新闻生命周期的预测方法,包括以下步骤:
[0053]
s1:获取一种带有时间序列的新闻数据集并清洗该数据;
[0054]
s2:通过新闻下的评论关系以及新闻自身的特征,将用户对新闻的评价和新闻自身作为节点,评论之间的联系作为连边,构建超图网络,计算网络的特征向量;
[0055]
s3:基于层次聚类算法计算回推值;
[0056]
s4:通过lda主题提取算法生成新闻主题;
[0057]
s5:计算新闻文本特征向量,通过图嵌入方法计算网络的结构特征向量,按一定比例组合,再通过随机森林模型,将新闻分成较长生命周期,中等生命周期,较短生命周期三类;然后将得到的特征输入svm线性模型,预测新闻的生命周期时长。
[0058]
步骤s1中:对获取的数据集进行清洗操作,将数据信息导入数据库中,筛选评论数量在一定范围内的新闻,补全新闻数据中的残缺信息。
[0059]
步骤s2中:如图2所示,根据用户跟新闻之间的联系,来构建新闻之间的关系网络,该网络中的每个节点表示新闻,然后将每个新闻下的评论作为另一种类型的节点,插入该网络,与相应的新闻节点形成复杂网络,其中评论节点之间的连边表示了评论的回复关系。
[0060]
步骤s3中:
[0061]
选取新闻3个小时内的评论,根据发布时间,将评论正向排序,首先将每一条评论当作一个簇,计算任意两个簇之间的距离,合并这两个簇,直到最远的两个簇的距离超过阈值或者簇的个数到达上线,停止迭代,最后将簇的个数作为新闻的回推值;其中距离的计算公式为:
[0062][0063][0064][0065]
其中ci,cj表示两个不同的簇,p,q表示簇中的节点,表示一个簇内的平均距离。
[0066]
步骤s4具体包括:
[0067]
s4.1:根据获取的数据集,取一部分的数据作为训练集,将新闻标题进行分词操作,通过词语的共现信息,进行词频统计,得到单词共现频率的概率矩阵, 同时得到训练好的lda模型;
[0068]
s4.2:将剩下的数据作为训练集,首先进行分词操作,输入训练好的模型,选取最大的概率所属的主题,作为该新闻的主题;
[0069]
s4.3:统计概率矩阵,计算每条新闻所包括的主题数量,只要概率大于一定的阈值,就当作该新闻属于该主题。
[0070]
步骤s5具体包括:
[0071]
s5.1:根据获取的数据集,统计新闻内容句子数量的大小,新闻标题的长度,新闻前一个小时和前3个小时的评论数量,新闻发布者的权威性,新闻发布的时间段,组成新闻的文本特征向量;
[0072]
s5.2:通过图嵌入方法,计算复杂网络的结构特征,得到网络结构属性:邻居数、平
均最短路径、度中心性、接近中心性、介数中心性、特征向量中心性,组成新闻网络的结构特征向量;
[0073]
s5.3:通过文本特征与结构特征之间的相关性与重要性分析,将结构特征的权重设置为30%,文本特征的权重设置为70%,重新组合,形成新的特征向量;
[0074]
s5.4:将清洗好的数据集按分成训练集和测试集,从划分好的用于训练的样本中随机采样m个样本,每个样本的特征属性均来自上述提取的特征向量,构成一个训练集,并训练一个决策树模型,其中训练过程中的新闻划分是以信息增益为准则选取特征属性划分决策树的,并且这里是从所有特征中随机抽取部分特征寻找最优解;然后进行n次采样,并训练得到n个决策树,将生成的n 个决策树组成随机森林,最后把划分好的用于测试的样本放入训练好的随机森林模型中进行分类,将新闻分成较长生命周期,中等生命周期,较短生命周期三类;
[0075]
s5.5:最后分析新闻生命周期类别的时长均值,新闻主题数,新闻主题类别的时长均值,新闻的回推值与生命周期时长做一个相关性系数计算,得到其结果,将其按照10%,20%,20%,50%的比例组成四维特征向量,构建支持向量机svm回归模型,使用线性核函数,然后进行通过网格算法寻找svm模型的参数最优值,之后进行十折交叉验证的方式,即对将数据随机分成10份,依次取其中的1份作测试样本,剩下的9份作训练样本,得出svm回归模型,预测新闻的生命周期时长。
[0076]
如图3所示,实现本发明的基于复杂网络结构的新闻生命周期的预测系统,包括:预处理模块、网络构建模块、回推值计算模块、主题提取模块、特征向量构建模块、随机森林分类模块、svm预测模块;
[0077]
所述预处理模块对获取的数据集文件进行清洗操作,即使用定向筛选技术选取评论在一定范围内的新闻,具体包括:
[0078]
对获取的数据集进行清洗操作,将数据信息导入数据库中,筛选评论数量在一定范围内的新闻,删除缺少时间序列信息的新闻,同时根据均值法,补全新闻数据中的残缺信息;
[0079]
所述网络构建模块根据用户跟新闻之间的联系,来构建新闻之间的关系网络,然后将每个新闻下的评论作为另一种类型的节点,插入该网络,形成复杂网络,具体包括:
[0080]
首先统计用户的评论操作,根据用户操作构建新闻的关系网络,网络中的节点代表新闻,节点之间的连边表示新闻之间相关性,然后在新闻节点的基础上插入评论节点,根据评论与评论之间,评论和新闻之间的回复关系,构建连边,形成复杂网络。
[0081]
所述回推值计算模块利用层次聚类算法,计算每个新闻的回推次数,回推值主要是根据推荐算法在社交媒体中的应用提出的,每条新闻都会有一个热度时间,当热度退去,新闻的生命也会结束;但由于推荐系统的存在,当发生相类似的事件,该新闻大概率会被推荐系统推出来,重新暴露在大众的视野之中,回推值就是通过新闻评论的时间序列,以优化后的层次聚类的方法,来模拟这种效果,具体包括:
[0082]
选取新闻3个小时内的评论,根据发布时间,将评论正向排序,首先将每一条评论当作一个簇,计算任意两个簇之间的距离,合并这两个簇,直到最远的两个簇的距离超过阈值或者簇的个数到达上线,停止迭代,最后将簇的个数作为新闻的回推值;其中距离的计算公式为:
[0083][0084][0085][0086]
其中ci,cj表示两个不同的簇,p,q表示簇中的节点,表示一个簇内的平均距离;
[0087]
通过计算一天内社交平台的用户活跃的高峰期与低谷期的差值,将其作为时间阈值。
[0088]
所述主题提取模块将新闻标题进行分词操作,通过词语的共现信息,进行词频统计,得到单词共现频率的概率矩阵,计算新闻包含的主题数量,具体包括:
[0089]
首先将预处理模块得到的数据划分为训练集和测试集,将训练集中的新闻标题进行分词操作,去除一些基本的停词和表情符号等,然后通过词语的共现信息,进行词频统计,得到单词共现频率的概率矩阵;然后将测试集中的新闻标题的文本进行分词操作,进行一定的清洗,输入训练好的模型,选取最大的概率所属的主题,作为该新闻的主题;最后统计得到的概率矩阵,只要概率矩阵中的值大于0,就说明该条新闻属于该主题,从而计算每条新闻所包括的主题数量。
[0090]
所述特征向量构建模块通过图嵌入方法,计算特征结构向量,再将新闻文本向量并入结构向量,形成新的特征,具体包括:
[0091]
通过图嵌入方法,计算复杂网络的结构特征,得到网络结构属性:邻居数、平均最短路径、度中心性、接近中心性、介数中心性、特征向量中心性;然后计算新闻内容句子数量的大小,新闻标题的长度,新闻前一个小时和前3个小时的评论数量,新闻发布者的权威性,新闻发布的时间段,将结构特征的权重设置为30%,文本特征的权重设置为70%,组合成新的特征向量。
[0092]
所述随机森林分类模块输入特征向量构建模块生成的特征向量,形成决策树,将新闻分成三类,具体包括:
[0093]
将清洗好的数据集按分成训练集和测试集,从划分好的用于训练的样本中随机采样m个样本,每个样本的特征属性均来自上述提取的特征向量,构成一个训练集,并训练一个决策树模型,其中训练过程中的新闻划分是以信息增益为准则选取特征属性划分决策树的,并且这里是从所有特征中随机抽取部分特征寻找最优解;然后进行n次采样,并训练得到n个决策树,将生成的n个决策树组成随机森林,最后把划分好的用于测试的样本放入训练好的随机森林模型中进行分类,将新闻分成较长生命周期,中等生命周期,较短生命周期三类。
[0094]
所述svm预测模块将新闻生命周期类别,新闻主题数,新闻主题类别,新闻的回推值组成特征向量,输入svm线性模型,来预测新闻的生命周期时长,具体包括:
[0095]
将新闻生命周期类别的时长均值,新闻主题数,新闻主题类别的时长均值,新闻的回推值与生命周期时长做一个相关性系数计算,得到其结果,将其按照 10%,20%,20%,
50%的比例组成四维特征向量;首先,构建支持向量机svm 回归模型,确定核函数的选取,使用线性核函数,然后进行通过网格算法寻找svm模型的参数最优值,之后进行十折交叉验证的方式,即对将数据随机分成 10份,依次取其中的1份作测试样本,剩下的9份作训练样本,得出svm回归模型。
[0096]
所述的预处理模块、网络构建模块、特征向量构建模块、随机森林分类模块顺序依次连接,与回推值计算模块,主题提取模块并行连接,最后一起连接到svm预测模块。
[0097]
如上所述,本发明以网易,新浪,头条数据集为例,这些数据集为用户对新闻的评论数据和新闻的文本数据。进行文本处理后,结合机器学习算法和复杂网络方法,得到较好的预测精度。
[0098]
本发明可以从数据集中提取新闻的网络结构特征和文本信息。适用于多个社交平台的数据集,优化了预测的模型,提升了预测和模型的普适性。
[0099]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
转载请注明原文地址:https://win.8miu.com/read-1058641.html