数据库查询语句的生成方法、装置、设备及介质与流程

专利检索2025-03-21  15


本公开涉及大数据和计算机,尤其涉及数据库查询语句的生成方法、装置、设备、介质和程序产品。


背景技术:

1、随着大数据时代的发展,涌现出各种各样的结构化和非结构化数据库储存和数据引擎计算。在各种领域,随着领域业务的扩增,数据量也会激增,散落在各种结构化和非结构化数据库中,从各种数据库中获取分析信息需要特定开发语言和技术,且查询效率各不相同导致不懂技术的人员获取数据的门槛变得极高。

2、在实施本公开的过程中发现,现有技术利用多种bi大数据分析工具和自研项目系统,从各种数据库中获取分析信息,但是都是针对特定场景数据指标,通用性差,同时需要大量研发投入和产品使用培训等,对于不懂技术的人员,在此种场景下,获取数据难度和成本均较高。


技术实现思路

1、鉴于上述问题,本公开提供了一种数据库查询语句的生成方法、装置、设备、介质和程序产品。

2、根据本公开的第一个方面,提供了一种数据库查询语句的生成方法,包括:构建针对文本查询请求信息中的多个词的初始序列特征向量,其中,初始序列特征向量包括多个排列的特征向量;从初始序列特征向量中提取与元数据特征向量相似的特征向量,并标记目标查询字段标识,其中,元数据特征向量是基于数据库中各个数据表构建的;基于特征向量的长度,从中间序列特征向量中提取预设特征向量,并标记目标查询条件标识,其中,中间序列向量是从初始序列向量中移除了与元数据特征向量相似的特征向量后得到的;根据数据库中各个数据表与字段信息的映射关系,确定目标查询数据表信息,并标记目标查询数据表标识;以及基于目标查询字段标识、目标查询条件标识以及目标查询数据表标识,生成与文本查询请求信息相对应的目标数据库查询语句。

3、根据本公开的实施例,数据库查询语句的生成方法还包括:在确定初始序列特征向量中存在与时间特征向量相似的特征向量的情况下,从初始序列特征向量中提取与时间特征向量相似的特征向量,其中,时间特征向量是基于时间特征构建的;将与时间特征向量相似的特征向量和预设特征向量,共同标记为目标查询条件标识。

4、根据本公开的实施例,从初始序列特征向量中提取与元数据特征向量相似的特征向量,包括:根据初始序列特征向量中的任意一个特征向量和元数据特征向量,确定相似度;在确定相似度超过相似度阈值的情况下,将初始序列特征向量中的特征向量确定为与元数据特征向量相似的特征向量;从初始序列特征向量中提取与元数据特征向量相似的特征向量。

5、根据本公开的实施例,根据初始序列特征向量中的任意一个特征向量和元数据特征向量,确定相似度,包括:根据杰卡德相似度计算方法,确定初始序列特征向量中的任意一个特征向量和元数据特征向量的杰卡德相似度系数;根据杰卡德相似度系数,确定相似度。

6、根据本公开的实施例,基于特征向量的长度,从中间序列特征向量中提取预设特征向量,包括:确定中间序列特征向量中每个特征向量的长度;从中间序列特征向量中提取特征向量的长度最大的特征向量,得到预设特征向量。

7、根据本公开的实施例,构建针对文本查询请求信息中的多个词的初始序列特征向量,包括:对文本查询请求信息进行分词处理,得到多个词;根据多个词的自然顺序,将多个词对应转化为多个特征向量;根据多个特征向量,构建初始序列特征向量。

8、根据本公开的实施例,文本查询请求信息包括自然语言问句文本信息;对文本查询请求信息进行分词处理,得到多个词,包括:基于分词字典库和停用词库,利用分词器对自然语言问句文本信息进行分词处理,得到多个词,其中,分词字典库包括多个用于描述字段信息的名词,分词器根据名词对自然语言问句文本信息进行分词;停用词库包括多个除名词之外的词。

9、根据本公开的实施例,对文本查询请求信息进行分词处理,得到多个词还包括:根据数据库中各个数据表中的字段信息,构建分词字典库;基于自然语言技术和业务问答信息,构建停用词库。

10、根据本公开的实施例,业务问答信息包括多条问答语句;基于自然语言技术和业务问答信息,构建停用词库,包括:根据自然语言技术,确定目标词在多条问答语句中出现的频次,其中,目标词是问答语句中的任意一个词;根据多条问答语句的数量以及包含目标词的问答语句的数量,确定逆向文件频率;根据频次和逆向文件频率,确定词频-逆向文件频率值;在确定词频-逆向文件频率值满足阈值的情况下,目标词用于构建停用词库。

11、根据本公开的实施例,基于目标查询字段标识、目标查询条件标识以及目标查询数据表标识,生成与文本查询请求信息相对应的目标数据库查询语句,包括:根据目标查询字段标识、目标查询条件标识以及目标查询数据表标识,生成目标数据库查询特征;根据执行引擎的类型和目标数据库查询特征,生成与文本查询请求信息相对应的目标数据库查询语句。

12、本公开的第二方面提供了一种数据库查询语句的生成装置,包括:构建模块,用于构建针对文本查询请求信息中的多个词的初始序列特征向量,其中,初始序列特征向量包括多个排列的特征向量;第一提取模块,用于从初始序列特征向量中提取与元数据特征向量相似的特征向量,并标记目标查询字段标识,其中,元数据特征向量是基于数据库中各个数据表构建的;第二提取模块,用于基于特征向量的长度,从中间序列特征向量中提取预设特征向量,并标记目标查询条件标识,其中,中间序列向量是从初始序列向量中移除了与元数据特征向量相似的特征向量后得到的;确定模块,用于根据数据库中各个数据表与字段信息的映射关系,确定目标查询数据表信息,并标记目标查询数据表标识;以及生成模块,用于基于目标查询字段标识、目标查询条件标识以及目标查询数据表标识,生成与文本查询请求信息相对应的目标数据库查询语句。

13、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述数据库查询语句的生成方法。

14、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述数据库查询语句的生成方法。

15、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述数据库查询语句的生成方法。

16、根据本公开的实施例,可以利用自然语言处理技术,对文本查询请求信息中的多个词,构建序列特征向量,通过在序列特征向量中提取特征向量,并确定目标查询字段标识、目标查询条件标识以及目标查询数据表标识,生成目标数据库查询语句,利用目标数据库查询语句可以获取查询内容,能够在不使用成本高的数据分析工具或其他系统的情况下,实现从数据库中获取查询内容,降低了查询成本和查询难度,而且在文本转化过程中无需训练模型,直接进行特征向量转化,提高了查询准确度。根据本公开提供的数据库查询语句的生成方法,对于任何不懂技术的人员,可以获取各域数据,降低数据获取门槛。



技术特征:

1.一种数据库查询语句的生成方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中,所述从所述初始序列特征向量中提取与元数据特征向量相似的特征向量,包括:

4.根据权利要求3所述的方法,其中,所述根据所述初始序列特征向量中的任意一个特征向量和所述元数据特征向量,确定相似度,包括:

5.根据权利要求1所述的方法,其中,所述基于所述特征向量的长度,从中间序列特征向量中提取预设特征向量,包括:

6.根据权利要求1所述的方法,其中,所述构建针对文本查询请求信息中的多个词的初始序列特征向量,包括:

7.根据权利要求6所述的方法,其中,所述文本查询请求信息包括自然语言问句文本信息;

8.根据权利要求7所述的方法,还包括:

9.根据权利要求8所述的方法,其中,所述业务问答信息包括多条问答语句;

10.根据权利要求1~9任一项所述的方法,其中,所述基于所述目标查询字段标识、所述目标查询条件标识以及所述目标查询数据表标识,生成与所述文本查询请求信息相对应的目标数据库查询语句,包括:

11.一种数据库查询语句的生成装置,包括:

12.一种电子设备,包括:

13.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至10中任一项所述的方法。

14.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。


技术总结
本公开提供了一种数据库查询语句的生成方法、装置、设备、介质和程序产品,可以应用于大数据和计算机技术领域。该方法包括:构建针对文本查询请求信息中的多个词的初始序列特征向量,其中,初始序列特征向量包括多个排列的特征向量;从初始序列特征向量中提取与元数据特征向量相似的特征向量,并标记目标查询字段标识;基于特征向量的长度,从中间序列特征向量中提取预设特征向量,并标记目标查询条件标识;根据数据库中各个数据表与字段信息的映射关系,确定目标查询数据表信息,并标记目标查询数据表标识;以及基于目标查询字段标识、目标查询条件标识以及目标查询数据表标识,生成与文本查询请求信息相对应的目标数据库查询语句。

技术研发人员:白正同,赵旭玲
受保护的技术使用者:北京沃东天骏信息技术有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1151236.html

最新回复(0)