一种基于注意力机制的细粒度混合谣言检测方法

专利检索2026-02-28  3


本发明涉及一种基于注意力机制的细粒度谣言检测方法,是针对社交媒体上的谣言检测的方法,属于工程应用与信息科学的交叉领域。


背景技术:

1、谣言(或虚假信息)是指未经证实的信息,它们可能是真实的,也可能是虚构的,或者可能是未经验证的。目前,尚未有一个确切的定义。谣言检测的主要目标是区分已被证实的信息和未经证实的信息,有时还会进一步对未经证实的信息进行分类。现有的主流谣言检测方法主要基于谣言的文本内容、用户特征和信息传播模式等。

2、基于内容的谣言检测方法依赖于文本内容来检测原始推文的真实性,这里的推文通常是指长文本。首先通过特征提取构建一系列有助于谣言检测的语义线索,然后基于机器学习的方法对提取出的线索进行建模。基于内容的谣言检测方法依赖于人工提取的特征信息,重点在于特征提取的规则。基于内容的谣言检测方法无法完全捕捉到复杂的语境,因此不能充分理解谣言的上下文信息。

3、基于用户特征的谣言检测方法通过对转发原始推文的用户相关信息进行建模,如“验证”状态、性别、家乡、关注者数量等。然后使用机器学习或深度学习的方法对用户特征进行学习。这种方法可以捕捉隐藏在文本内容之外的线索,能够用于追踪用户的行为和模式。但是其受到相关隐私政策的保护问题,而且在文本内容长度较大的情境下,这种方法仅具有一定程度的辅助作用。

4、基于传播模式的谣言检测方法利用谣言在社交网络中的传播结构来进行检测,通过使用传播树、传播图等结构来对谣言的传播过程进行建模,并使用注意力机制、图传播算法等相关算法进行特征学习。这种方法是目前的主流方法,获得的效果也是最好的,但是在文本长度较小或者传播结构较浅的情况下不能很好地进行检测。

5、混合的谣言检测方法通融合与谣言相关的多模态上下文信息来进行检测,这实际上是一种集成学习的方法。通过结合上述所有方法各自的优点,来改善谣言检测算法在不同场景下的检测性能。但是这种方法需要与谣言相关的全部信息,而且可能难以解释每一个决策的基础,在需要对谣言的可解释性作出说明的场景下,其适用性具有一定的限制。

6、在早期的研究中,这些方法都没有对谣言特征进行细粒度的建模,忽略了谣言传播过程中推文之间的潜在关系。比如,在现实情况下,传播谣言的不同用户以及相关的转发推文往往具有不同的影响力。而且,现有的模型未能充分考虑谣言的时间结构特征,而这一点对于谣言的检测也是至关重要的。


技术实现思路

1、发明目的:针对传统的谣言检测方法存在的一些问题:第一,现有的模型通常只对推文内容进行简单的向量化表示,未深入挖掘不同单词之间的关联性,也未进一步分析评论内容与原始推文之间的关联。第二,对社交上下文信息挖掘不足,过去的模型往往只关注于谣言传播的某一个方面,而未充分考虑到谣言传播是一个随时间变化的动态过程,这个过程涉及相关用户和推文。第三,现有的方法大多都是只关注文本内容或用户信息的其中一个方面,因此不具有很好的鲁棒性。本发明的目的是提供一种基于注意力机制的细粒度混合谣言检测方法,用于解决目前谣言检测方法中存在的这些问题。

2、技术方案:为实现上述目的,本发明提出一种基于注意力机制的细粒度混合谣言检测方法。本文提出了一种新的细粒度特征提取方法,该方法使用transformer对原始文本进行词嵌入,并融合推文的显著性表示作为最终的嵌入向量。在此基础上,使用基于图卷积网络的谣言传播结构学习算法,用来模拟谣言传播过程中的复杂依赖关系。此外,为了捕获谣言与时间相关的特征,引入了时间编码和立场检测器,提出了针对谣言的时间结构学习算法。同时,为了提取与谣言相关的用户特征,提出了用户传播结构学习算法,使用图神经网络学习用户特征,并运用注意力机制获取用户与原始推文之间的交互信息。最后,融合上述特征,使用全连接层对谣言进行检测。其具体的技术方案包括以下几个步骤:

3、步骤一:特征提取。

4、首先使用预训练的glove编码器对词进行编码,然后使用transformer进行细粒度编码,并加上显著性编码,作为模型文本内容的初始编码。使用用户在社交媒体上的元数据信息来表示每个用户的特征向量,然后用图神经网络对其进行学习,得到最终的用户编码表示。

5、(1)细粒度编码:由于传统的谣言检测方法对文本内容的编码大多是句向量级别,不能充分挖掘单词之间的关系,因此我们转换思路,采用transformer来进行单词级别的细粒度编码。首先,我们输入以单词为单位的文本序列,得到其对应的glove向量序列,然后将其放入transformer编码器中,得到其细粒度的编码。

6、(2)显著性编码:不同的转发推文对原始推文的检测重要性是不同的,因此需要对每一个转发原始推文的响应推文进行显著性学习。此外,推文的不同关键词也具有不同的重要性。为了让模型能够学习到这些知识,我们对与推文相关的转发数和推文中的关键词进行建模,来计算推文的显著性。

7、(3)用户编码:为了研究用户对谣言传播的参与过程,我们使用用户在社交媒体上的元数据信息(用户名称单词数量、自我描述单词数量、是否经过验证等)来表示每个用户的特征向量,然后使用图神经网络对其进行学习,得到最终的用户特征表示。

8、步骤二:特征学习。

9、(1)谣言的传播结构学习:基于图卷积网络对谣言传播结构进行学习,旨在模拟谣言传播过程中的复杂依赖关系。谣言传播图中涵盖了父子节点和兄弟节点之间的依赖关系,在图学习过程中,通过聚合不同类型的结点来获取各个结点的最终表示。

10、(2)谣言的时间结构学习:使用时间编码器和立场检测器,对谣言的时间结构进行学习。时间编码用于为细粒度编码器提取的特征添加时间信息,而立场检测器则用于提取不同转发推文对原始推文的态度。

11、(3)用户的传播结构学习:使用注意力机制获取用户与原始推文之间的交互信息,分别得到用户的注意力向量表示和每一条推文的注意力向量表示。

12、步骤三:谣言检测。

13、(1)随机抽取一个完整的谣言事件,采用上述方法获取对应的特征,并使用全连接层将其进行融合,最后使用softmax层得到对应的谣言分类。

14、有益效果:本发明针对谣言检测问题,提出了一种基于注意力机制的细粒度混合检测方法。该方法不仅关注谣言的传播结构,与时间相关的上下文语境特征,并且还关注用户对原始推文的传播行为,解决了特定场景下不能获取完整的用户信息或推文内容而导致的检测性能急剧下降的问题。此外,现有的大多数模型都只是在句子级别进行建模,因此对文本特征挖掘不充分,针对这一问题,本发明采用细粒度的特征提取算法获取文本特征的表示,从谣言周围的相关信息中挖掘突出的语言线索,有效的解决了目前存在的问题。



技术特征:

1.一种基于注意力机制的细粒度谣言检测方法,其主要特征包括如下步骤:

2.根据权利要求1所述的一种基于注意力机制的细粒度谣言检测方法,其特征在于,步骤(1)是谣言特征提取,其实现方法包括:

3.根据权利要求1所述的一种基于注意力机制的细粒度谣言检测方法,其特征在于,步骤(2)是谣言特征学习,其实现方法包括:

4.根据权利要求1所述的一种基于注意力机制的细粒度谣言检测方法,其特征在于,步骤(3)是谣言分类,其实现方法包括:


技术总结
本发明公开了一种基于注意力机制的细粒度混合谣言检测方法。首先使用基于Transformer的细粒度特征提取器来对推文内容进行细粒度的特征提取。在此基础上,采用图神经网络对谣言的传播结构特征进行学习。其次,使用细粒度特征提取器得到的特征与时间编码信息结合,以对谣言的时间结构进行建模。然后,引入了基于用户特征的注意力网络,来学习不同用户对于谣言传播的倾向。最后,通过全连接层将上述特征进行融合,并进行谣言的检测。本发明的优点是:使用细粒度的特征提取算法,能够从谣言周围的相关信息中挖掘突出的语言线索,提取出丰富的辅助特征,提升了谣言检测的准确度。

技术研发人员:皮德常,张克,徐悦
受保护的技术使用者:南京航空航天大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1161893.html

最新回复(0)