基于关键词匹配的文本聚类方法及系统与流程

专利检索2025-02-14  26


本公开涉及信息推广,具体而言,本公开涉及一种基于关键词匹配的文本聚类方法及系统。


背景技术:

1、随着网络的迅速发展,网络信息急剧增加,艺术类培训机构面临着线上获客的挑战,特别是如何从大量散乱的网络信息中快速、准确地识别和吸引潜在用户。目前,现有的机构营销方式往往缺乏对用户的实际需求及意向的分析,无法精确地进行差异化营销,以至于在实际操作过程中用户通过输入简单的关键词,所获得的搜索结果的覆盖范围较广泛,只存在少量内容符合该用户的实际需求,导致搜索命中率较低,难以满足用户的实际需求。因此,现有的机构营销方式的用户转化率较低,且获客效率低下。


技术实现思路

1、本公开实施例提供了一种基于关键词匹配的文本聚类方法及系统,用于解决现有的机构营销方式的获客效率低下的技术问题,能够有效提高用户转化率。

2、根据本公开实施例的一个方面,提供了一种基于关键词匹配的文本聚类方法,包括:

3、获取应用程序的应用数据及包含有至少一个待分析的应用数据的待分析应用数据集,所述应用数据包括针对展示于所述应用程序的多个课程产品的内容描述数据和用户评论数据、针对多个用户的搜索行为数据中的至少一种;

4、利用预设的数据分析模型对所述待分析应用数据集进行效率评价,以获得效率评价结果达到预设高效率阈值时对应的待分析的应用数据后形成高效数据;

5、将所述应用数据输入到由所述高效数据构建的关键词提取模型中,以输出至少一个关键词;

6、对所述关键词进行聚类分析,使得由聚类分析结果确定关于所述课程产品的推广策略,所述推广策略用于指示对所述课程产品进行推广。

7、在一个可能的实现方式中,所述利用预设的数据分析模型对所述待分析应用数据集进行效率评价,以获得效率评价结果达到预设高效率阈值时对应的待分析的应用数据后形成高效数据,包括:

8、确定输入变量和输出变量,以构建相应的数据分析模型;其中,所述输入变量包括文本长度和/或词汇复杂度,所述输出变量包括信息丰富度和/或信息影响度,所述信息丰富度包含有用于表征至少一个指定关键词的数据的关键词密度,所述信息影响度包含有用于表征用户与所述课程产品的交互的用户互动数据;

9、将所述待分析应用数据集输入到由所述数据分析模型中,以确定任一待分析的应用数据在所述输入变量及所述输出变量下的相对效率值,并将其作为效率评价结果;

10、确定所述效率评价结果达到预设高效率阈值时对应的待分析的应用数据为第一高效率数据。

11、在一个可能的实现方式中,所述利用预设的数据分析模型对所述待分析应用数据集进行效率评价,以获得效率评价结果达到预设高效率阈值时对应的待分析的应用数据后形成高效数据,还包括:

12、确定关于任一待分析的应用数据的效率标记值,所述效率标记值用于表征所述待分析的应用数据与所述指定关键词的相关性;

13、获取在由所述效率标记值与所述相对效率值组织而成的效率评估值达到预设的高效率评估阈值时对应的待分析的应用数据,并将其作为第二高效率数据;

14、根据所述第一高效率数据和/或所述第二高效率数据,形成高效数据。

15、在一个可能的实现方式中,通过如下步骤以确定待分析的应用数据的效率标记值,包括:

16、获取所述待分析的应用数据,其中,所述待分析的应用数据包括针对多个用户的待分析搜索行为数据,所述待分析搜索行为数据包含按时间排序的至少一个搜索行为日志,所述搜索行为日志记录有任一搜索词以及响应任一所述搜索词后获得的行为数据,所述行为数据包括用于表征响应搜索词后展示的至少一个课程产品的响应内容、与触发对所述响应内容中任一课程产品的浏览操作相关的浏览内容、浏览时长以及用于表征触发所述浏览操作的次数的浏览次数;

17、针对任一搜索词,将与所述搜索词对应的响应内容、浏览内容、浏览时长以及浏览次数组成第一搜索行为记录,将所述浏览内容以及查阅所述浏览内容后输入的下一搜索词组成第二搜索行为记录,以及将连续搜索的所述搜索词与下一搜索词组成第三搜索行为记录;

18、根据所述第一搜索行为记录,确定所述搜索词与所述浏览内容所对应的课程产品之间的第一相关性;

19、根据所述第二搜索行为记录,确定所述浏览内容所对应的课程产品与下一搜索词之间的第二相关性;

20、根据所述第三搜索行为记录,确定搜索词之间的第三相关性;

21、根据针对所述搜索词的第一相关性、第二相关性以及第三相关性,确定所述搜索词所属的搜索行为日志的效率标记值。

22、在一个可能的实现方式中,所述待分析的应用数据还包括关于多个所述课程产品的待分析内容描述数据和待分析用户评论数据;通过如下步骤以确定待分析的应用数据的效率标记值,还包括:

23、在任一待分析用户评论数据中,识别出关于所述指定关键词的关键词数量,并基于用户与所述课程产品的交互数据确定相应的用户满意度,使得基于所述关键词数量和所述用户满意度,确定所述待分析用户评论数据的效率标记值,其中,所述交互数据包括评论数据、回复数据以及点赞数据;

24、在任一待分析内容描述数据中,识别出关于所述指定关键词的内容关键词数量;基于所述第一搜索行为记录,确定用于表征所述响应内容所指示的课程产品与所述搜索词之间的第一关联关系以及用于表征所述浏览内容所指示的课程产品与所述搜索词之间的第二关联关系;基于针对任一课程产品的内容关键词数量、第一关联关系、第二关联关系以及用户满意度,确定所述待分析内容描述数据的效率标记值。

25、在一个可能的实现方式中,所述将所述应用数据输入到由所述高效数据构建的关键词提取模型中,以输出至少一个关键词,包括:

26、将所述高效数据转换为特征向量,并以所述特征向量作为训练数据;

27、利用所述训练数据对预设的神经网络模型进行训练,以获得关键词提取模型;

28、将所述应用数据输入到所述关键词提取模型中,以识别出针对所述课程产品的至少一个关键词;

29、针对任一课程产品,根据所述课程产品的特征数据与关键词之间的对应关系,建立关键词匹配规则以及关键词库,其中,所述特征数据包括课程需求及市场特性,所述关键词库用于存储与所述课程产品所属的课程类别相关的关键词。

30、在一个可能的实现方式中,通过如下步骤以对所述关键词进行聚类分析,包括:

31、迭代地执行以下步骤,直至聚类中心不变或达到预设的第一迭代次数,以获得包含有至少一个聚类的聚类分析结果:选取至少一个文本向量作为初始的聚类中心,所述文本向量由对所述关键词进行向量化转换后获得;计算其他的各文本向量到各所述聚类中心的距离;将其他的各文本向量分配到与其距离最短的聚类中心;计算当前各聚类中心的数值,以确定新的聚类中心;

32、识别出所述聚类分析结果中各所述聚类所指示的用户群体及对应的特征趋势。

33、在一个可能的实现方式中,通过如下步骤以对所述关键词进行聚类分析,包括:

34、迭代地执行以下步骤,直至预设的第二迭代次数,以获得包含有最终种群的聚类分析结果:基于由对所述关键词进行向量化转换后获得的至少一个文本向量,随机生成预设数量的初始的种群,每个种群由一个或多个用于表征聚类方案的个体组成;确定各个体的适应度,并按各个体的适应度从大到小进行排序,以形成个体序列,使得选取所述个体序列中排序在前r%的个体为父代个体,;对每个所述父代个体进行交叉操作,以获得新的个体;按照预设的变异概率对新的个体进行随机变异,以获得新一代的种群;

35、从最终种群中选择适应度最高的个体作为最终的聚类方案,并识别出最终的聚类方案所指示的至少一个主题类别,以确定与所述主题类别相关的用户群体及对应的特征趋势。

36、在一个可能的实现方式中,所述对所述关键词进行聚类分析,使得由聚类分析结果确定关于所述课程产品的推广策略,包括:

37、基于与任一课程产品相关的用户群体及特征趋势,确定相应的用户画像,所述用户画像包括所述用户群体的年龄层、兴趣特征及消费能力,所述课程产品包括一个或多个课程项目;

38、基于所述用户画像,识别出所述用户群体的需求层级,所述需求层级包括初学阶段、进阶阶段和专业阶段中的一种;

39、基于所述用户画像和所述需求层级,制定相应的推广策略,其中,所述推广策略包括目标内容和期望内容,所述目标内容包含所述需求层级与所述兴趣特征所需的至少一个目标课程项目,所述期望内容包含有按推广优先级排序的用于表征在同一需求层级下由所述目标课程项目及所述兴趣特征拓展得到的关联课程项目以及用于表征所述目标课程项目关于下一需求层级的阶段课程项目,所述推广优先级关联于由所述用户群体的年龄层和消费能力、课程项目的项目费用以及用于表征学习所述课程项目的学习周期所确定的推广分值。

40、根据本公开实施例的另一个方面,提供了一种基于关键词匹配的文本聚类系统,包括:

41、数据获取模块,用于获取应用程序的应用数据及包含有至少一个待分析的应用数据的待分析应用数据集,所述应用数据包括针对展示于所述应用程序的多个课程产品的内容描述数据和用户评论数据、针对多个用户的搜索行为数据中的至少一种;

42、效率评价模块,用于利用预设的数据分析模型对所述待分析应用数据集进行效率评价,以获得效率评价结果达到预设高效率阈值时对应的待分析的应用数据后形成高效数据;

43、关键词提取模块,用于将所述应用数据输入到由所述高效数据构建的关键词提取模型中,以输出至少一个关键词;

44、聚类分析模块,用于对所述关键词进行聚类分析,使得由聚类分析结果确定关于所述课程产品的推广策略,所述推广策略用于指示对所述课程产品进行推广。

45、本公开实施例提供的技术方案带来的有益效果是:

46、本公开实施例提供的基于关键词匹配的文本聚类方法,通过获取应用程序的应用数据及包含有至少一个待分析的应用数据的待分析应用数据集,所述应用数据包括针对展示于所述应用程序的多个课程产品的内容描述数据和用户评论数据、针对多个用户的搜索行为数据中的至少一种;利用预设的数据分析模型对所述待分析应用数据集进行效率评价,以获得效率评价结果达到预设高效率阈值时对应的待分析的应用数据后形成高效数据;将所述应用数据输入到由所述高效数据构建的关键词提取模型中,以输出至少一个关键词;对所述关键词进行聚类分析,使得由聚类分析结果确定关于所述课程产品的推广策略,所述推广策略用于指示对所述课程产品进行推广,这样,通过具有较高的信息价值和效率的高效数据来构建关键词提取模型,这使得提取到的关键词更为准确有效且能够全面反映用户需求、用户特征、课程产品特征等实际情况,从而实现精准地位目标用户群体,使得推广策略更为准确,更加精准地切合用户真实的搜索需求,提高了推送课程产品的准确度和针对性,解决现有的机构营销方式的获客效率低下的技术问题,能够有效提高用户转化率。

47、上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。


技术特征:

1.一种基于关键词匹配的文本聚类方法,其特征在于,包括:

2.根据权利要求1所述的基于关键词匹配的文本聚类方法,其特征在于,所述利用预设的数据分析模型对所述待分析应用数据集进行效率评价,以获得效率评价结果达到预设高效率阈值时对应的待分析的应用数据后形成高效数据,包括:

3.根据权利要求2所述的基于关键词匹配的文本聚类方法,其特征在于,所述利用预设的数据分析模型对所述待分析应用数据集进行效率评价,以获得效率评价结果达到预设高效率阈值时对应的待分析的应用数据后形成高效数据,还包括:

4.根据权利要求3所述的基于关键词匹配的文本聚类方法,其特征在于,通过如下步骤以确定待分析的应用数据的效率标记值,包括:

5.根据权利要求4所述的基于关键词匹配的文本聚类方法,其特征在于,所述待分析的应用数据还包括关于多个所述课程产品的待分析内容描述数据和待分析用户评论数据;通过如下步骤以确定待分析的应用数据的效率标记值,还包括:

6.根据权利要求2或5所述的基于关键词匹配的文本聚类方法,其特征在于,所述将所述应用数据输入到由所述高效数据构建的关键词提取模型中,以输出至少一个关键词,包括:

7.根据权利要求6所述的基于关键词匹配的文本聚类方法,其特征在于,通过如下步骤以对所述关键词进行聚类分析,包括:

8.根据权利要求6所述的基于关键词匹配的文本聚类方法,其特征在于,通过如下步骤以对所述关键词进行聚类分析,包括:

9.根据权利要求7或8所述的基于关键词匹配的文本聚类方法,其特征在于,所述对所述关键词进行聚类分析,使得由聚类分析结果确定关于所述课程产品的推广策略,包括:

10.一种基于关键词匹配的文本聚类系统,其特征在于,包括:


技术总结
本公开实施例提供了基于关键词匹配的文本聚类方法及系统,涉及信息推广技术领域。该方法包括:获取应用程序的应用数据及包含有至少一个待分析的应用数据的待分析应用数据集;利用数据分析模型对待分析应用数据集进行效率评价,以获得效率评价结果达到预设高效率阈值时对应的待分析的应用数据后形成高效数据;将应用数据输入到由高效数据构建的关键词提取模型中,以输出至少一个关键词;对所述关键词进行聚类分析,使得由聚类分析结果确定关于所述课程产品的推广策略,所述推广策略用于指示对所述课程产品进行推广。本公开实施例提高了获客效率及用户转化率。

技术研发人员:刘宏,姚富牛
受保护的技术使用者:深圳品阔信息技术有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1150073.html

最新回复(0)