本发明涉及数据分析与挖掘领域,尤其涉及一种频道节目单收视数据合并方法、装置、设备及存储介质。
背景技术:
1、在目前iptv行业大数据发展中,对于频道及其节目单的总收视数据及单个的收视数据,包含收视率、收视份额等的统计基本很成熟了。随着数据运营时代的进行,对频道合并及节目单合并的数据需求越发明显。
2、而目前对于此类需求,更多的是运营人员/数据分析师从bi系统上查询对应一段时间的数据,手工对需要合并的频道或节目单数据进行合并。运营人员/数据分析师需要花大量时间来处理,尤其是对于节目单数据,每天会有上万条数据,其中不乏一些不太规范的节目单命名,这里面会进一步增加手动合并的难度。
3、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供了一种频道节目单收视数据合并方法、装置、设备及存储介质,旨在解决现有技术频道合并和节目单合并人工处理耗时大、难度高、合并准确度不高的技术问题。
2、为实现上述目的,本发明提供了一种频道节目单收视数据合并方法,所述方法包括:
3、获取频道数据和节目单数据;
4、根据所述频道数据配置合并频道;
5、根据所述节目单数据,通过正则匹配规则配置所述合并频道下的第一节目单,得到第一合并节目单;
6、若存在所述正则匹配规则无法处理的第二节目单,则判断所述第二节目单是否有规律;
7、当所述第二节目单有规律时,获取特殊正则匹配规则配置第二合并节目单;
8、根据所述合并频道、所述第一合并节目单以及所述第二合并节目单,得到合并后的收视数据。
9、可选地,所述根据所述合并频道、所述第一合并节目单以及所述第二合并节目单,得到合并后的收视数据之前,还包括:
10、根据所述合并频道、所述第一合并节目单以及所述第二合并节目单,通过hive数据库创建合并频道表、第一合并节目单表以及第二合并节目单表;
11、通过union操作符,将所述合并频道表、所述第一合并节目单表以及所述第二合并节目单表合并,得到合并数据表;
12、通过group by操作符,将所述合并数据表按照频道和节目单进行分组,得到分组数据表;
13、通过avg函数,根据分组数据表,计算出所述合并频道、所述第一合并节目单以及所述第二合并节目单下的各个频道和各个节目单的收视加速数据;
14、根据所述收视加速数据,得到所述合并后的收视数据。
15、可选地,所述若存在所述正则匹配规则无法处理的第二节目单,则判断所述第二节目单是否有规律之后,还包括:
16、当所述第二节目单无规律时,将所述第二节目单添加至所述第一合并节目单中;
17、根据所述合并频道、所述第一合并节目单以及所述第二合并节目单,得到合并后的收视数据。
18、可选地,所述根据所述频道数据配置合并频道之后,还包括:
19、根据所述节目单数据,通过union操作符,得到合并频道下的第三节目单;
20、根据所述第三节目单,通过like模糊匹配操作符,得到第三合并节目单;
21、根据所述第三合并节目单,得到合并后的收视数据。
22、可选地,所述根据所述节目单数据,通过正则匹配规则配置所述合并频道下的第一节目单,得到第一合并节目单之前,还包括:
23、根据所述正则匹配规则,判断是否需要新增正则匹配规则;
24、当不需要新增正则匹配规则时,判断是否需要调整所述正则匹配规则的顺序;
25、当不需要调整所述正则匹配规则的顺序时,判断是否需要删除所述正则匹配规则;
26、若需要删除所述正则匹配规则,则删除所述正则匹配规则,并根据所述节目单数据,配置所述合并频道下的第一节目单,得到预设合并节目单;
27、当所述预设合并节目单满足预设要求时,根据所述预设合并节目单,得到第一合并节目单。
28、可选地,所述根据所述正则匹配规则,判断是否需要新增正则匹配规则之后,还包括:
29、若需要新增正则匹配规则,则添加新的正则匹配规则至所述正则匹配规则中,得到目标正则匹配规则;
30、根据所述节目单数据,通过目标正则匹配规则配置所述合并频道下的第四节目单,得到第四合并节目单;
31、若存在所述目标正则匹配规则无法处理的第五节目单,则判断所述第五节目单是否有规律;
32、当所述第五节目单有规律时,获取特殊正则匹配规则配置第五合并节目单;
33、根据所述合并频道、所述第四合并节目单以及所述第五合并节目单,得到合并后的收视数据。
34、可选地,所述当不需要新增正则匹配规则时,判断是否需要调整所述正则匹配规则的顺序之后,还包括:
35、若需要调整所述正则匹配规则的顺序,则根据所述节目单数据,通过调整后的正则匹配规则配置所述合并频道下的第六节目单,得到第六合并节目单;
36、若存在所述调整后的正则匹配规则无法处理的第七节目单,则判断所述第七节目单是否有规律;
37、当所述第七节目单有规律时,获取特殊正则匹配规则配置第七合并节目单;
38、根据所述合并频道、所述第六合并节目单以及所述第七合并节目单,得到合并后的收视数据。
39、此外,为实现上述目的,本发明还提出一种频道节目单收视数据合并装置,所述频道节目单收视数据合并装置包括:
40、获取模块,用于获取频道数据和节目单数据;
41、配置模块,用于根据所述频道数据配置合并频道;
42、所述配置模块,还用于根据所述节目单数据,通过正则匹配规则配置所述合并频道下的第一节目单,得到第一合并节目单;
43、判断模块,用于若存在所述正则匹配规则无法处理的第二节目单,则判断所述第二节目单是否有规律;
44、所述获取模块,还用于当所述第二节目单有规律时,获取特殊正则匹配规则配置第二合并节目单;
45、计算模块,用于根据所述合并频道、所述第一合并节目单以及所述第二合并节目单,得到合并后的收视数据。
46、此外,为实现上述目的,本发明还提出一种频道节目单收视数据合并设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的频道节目单收视数据合并程序,所述频道节目单收视数据合并程序配置为实现如上文所述的频道节目单收视数据合并方法的步骤。
47、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有频道节目单收视数据合并程序,所述频道节目单收视数据合并程序被处理器执行时实现如上文所述的频道节目单收视数据合并方法的步骤。
48、本发明提出的一种频道节目单收视数据合并方法、装置、设备及存储介质,该方法包括:获取频道数据和节目单数据;根据所述频道数据配置合并频道;根据所述节目单数据,通过正则匹配规则配置所述合并频道下的第一节目单,得到第一合并节目单;若存在所述正则匹配规则无法处理的第二节目单,则判断所述第二节目单是否有规律;当所述第二节目单有规律时,获取特殊正则匹配规则配置第二合并节目单;根据所述合并频道、所述第一合并节目单以及所述第二合并节目单,得到合并后的收视数据。本发明采用默认正则生成合并节目单及手工校准合并节目单,能够降低节目单合并的数据获取成本。因为采用了正则匹配,系统稳定运行一段时间后,可以做到几乎不需要调整默认规则和人工干预规则,就能便捷拿到合并节目单收视数据。同时即使需要调整,也能即时看到调整后的数据,大大降低了获取合并节目单数据的成本。因此本发明有利于减少频道合并和节目单合并的耗时、提高合并准确度。
1.一种频道节目单收视数据合并方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的频道节目单收视数据合并方法,其特征在于,所述根据所述合并频道、所述第一合并节目单以及所述第二合并节目单,得到合并后的收视数据之前,还包括:
3.如权利要求1所述的频道节目单收视数据合并方法,其特征在于,所述若存在所述正则匹配规则无法处理的第二节目单,则判断所述第二节目单是否有规律之后,还包括:
4.如权利要求1所述的频道节目单收视数据合并方法,其特征在于,所述根据所述频道数据配置合并频道之后,还包括:
5.如权利要求1所述的频道节目单收视数据合并方法,其特征在于,所述根据所述节目单数据,通过正则匹配规则配置所述合并频道下的第一节目单,得到第一合并节目单之前,还包括:
6.如权利要求5所述的频道节目单收视数据合并方法,其特征在于,所述根据所述正则匹配规则,判断是否需要新增正则匹配规则之后,还包括:
7.如权利要求5所述的频道节目单收视数据合并方法,其特征在于,所述当不需要新增正则匹配规则时,判断是否需要调整所述正则匹配规则的顺序之后,还包括:
8.一种频道节目单收视数据合并装置,其特征在于,所述频道节目单收视数据合并装置包括:
9.一种频道节目单收视数据合并设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的频道节目单收视数据合并程序,所述频道节目单收视数据合并程序配置为实现如权利要求1至7中任一项所述的频道节目单收视数据合并方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有频道节目单收视数据合并程序,所述频道节目单收视数据合并程序被处理器执行时实现如权利要求1至7中任一项所述的频道节目单收视数据合并方法的步骤。
