一种提供分布式NLP能力服务的系统及方法与流程

专利检索2025-02-17  24


本发明涉及自然语言处理,具体地说,涉及一种提供分布式nlp能力服务的系统及方法。


背景技术:

1、分布式自然语言处理nlp能力服务是一种利用多台计算机或服务器来处理大规模文本数据的方法。传统上,nlp任务可能需要大量的计算资源和处理时间,因此使用分布式系统可以提高处理速度和效率。这种方法通常涉及将任务分解为多个子任务,然后将这些子任务分配给不同的计算节点进行并行处理,最后将结果合并以生成最终的输出。现有技术中,计算节点之间的数据传输和通讯会导致一定的通讯开销,特别是在数据量大或节点之间频繁交互的情况下,可能会影响系统的性能和吞吐量,因此,设计一种提供分布式nlp能力服务的系统及方法。


技术实现思路

1、本发明的目的在于提供一种提供分布式nlp能力服务的系统及方法,以解决上述背景技术中提出的数据量大或节点之间频繁交互的情况下,可能会影响系统的性能和吞吐量的问题。

2、为实现上述目的,本发明目的之一在于,提供了一种提供分布式nlp能力服务的系统,包括:

3、节点通讯单元:用于与计算节点进行通信,发送文本调度指令和接收执行结果;

4、任务调度单元:用于根据资源使用情况动态分配文本到各个计算节点,实现并行计算;

5、计算节点单元:用于对任务调度单元分配的文本进行处理,并生成相应npl的输出结果;

6、监控管理单元:用于对系统的运行状态性能和各个计算节点的资源使用情况进行实时监控;

7、其中,任务调度单元包括任务管理模块、调度策略模块和任务分配模块。

8、作为本技术方案的进一步改进,所述任务调度单元中的并行计算基于节点通讯单元中与计算节点进行通信,能够实现信号和数据的同步。

9、作为本技术方案的进一步改进,所述任务调度单元中,

10、任务管理模块用于接收用户请求处理的文本,基于文本长度、文本类型对接收的文本进行分类并字节分割;

11、调度策略模块用于根据文本的特性和每个节点的资源情况选择计算节点进行任务调度;

12、任务分配模块用于根据调度策略和系统负载,将文本分配给不同的计算节点进行处理。

13、作为本技术方案的进一步改进,所述任务管理模块的工作步骤如下:

14、s21:通过网络接口以及api接收用户的文本处理请求;

15、s22:计算接收到的文本数据的字符数或字节数,以确定其长度属性,并根据文本内容判断文本所属的类别;

16、s23:根据文本长度和文本类型对文本进行分类;

17、s24:对分类完成的文本进行相应的字节分割。

18、作为本技术方案的进一步改进,所述s22中根据文本内容判断文本所属的类别的具体步骤如下:

19、s231:对接收到的文本进行标准化、去除非文本字符以及分词;

20、s232:基于tf-idf量化文本中词组出现的频率;

21、s233:将词组映射到高维向量空间,捕捉语义关系,生成tf-idf加权平均词向量;

22、s234:根据tf-idf加权平均词向量确定文本所属的类别。

23、作为本技术方案的进一步改进,所述s222的表达式为:

24、

25、其中,是词组在文本中的值;为词组;为文本;是语料库;为词组在文本中出现的次数;为文本中所有词组的总数;为语料库中文本的总数;为包含词组的文本数。

26、作为本技术方案的进一步改进,在所述值的公式中引入权重和互信息,表达式为:

27、

28、其中,为引入权重和互信息后词组在文本中的值;和均为权重参数;为文本长度对tf的影响;为文本d的长度;为平均文本长度;为词组t和文本d同时出现的概率;为词组t单独出现的概率;为文本d单独出现的概率。

29、作为本技术方案的进一步改进,所述s23中文本分类的结果包括短文本、中长文本以及长文本。

30、作为本技术方案的进一步改进,所述计算节点单元中的节点对文本进行的处理包括字义识别处理、语序识别纠正处理和段义识别处理。

31、本发明目的之二在于,提供了一种提供分布式nlp能力服务的方法,基于上述的提供分布式nlp能力服务的系统,包括如下步骤:

32、s1:利用节点通讯单元与计算节点进行通信,确保信号与数据的同步;

33、s2:接收用户发送的文本,基于文本长度、文本类型对接收的文本进行分类并字节分割;

34、s3:根据文本的特性和每个节点的资源情况选择计算节点进行任务调度,并基于系统的负载将文本分配给计算节点单元进行处理;

35、s4:计算节点单元接收到文本后并行计算处理,并将处理的结果返回至节点通讯单元;

36、s5:监控管理单元实时监控系统的运行状态性能和各个计算节点的资源使用情况,为任务调度单元提供数据支持。

37、与现有技术相比,本发明的有益效果:

38、1、该提供分布式nlp能力服务的系统及方法中,在任务调度之前对文本进行分类,划分为短文本、中长文本以及长文本,通过将不同长度的文本分散到不同的计算节点进行处理,可以实现更好的负载均衡,避免某一类文本集中导致的处理延迟或服务中断;且能够根据系统负载、用户需求或业务策略动态调整各类文本的处理优先级;

39、2、该提供分布式nlp能力服务的系统及方法中,在判断文本所属的类别的值里引入权重和互信息,平滑处理和互信息考虑了词汇在不同上下文、不同类别间的共现模式,有助于模型更好地应对词汇形态变化、同义词替换等自然语言现象,互信息能够筛选出与类别强相关的词汇,过滤掉无关或噪声词汇,使得模型在面对含有噪声或干扰信息的文本时仍能保持较好的分类性能。



技术特征:

1.一种提供分布式nlp能力服务的系统,其特征在于,包括:

2.根据权利要求1所述的提供分布式nlp能力服务的系统,其特征在于:所述任务调度单元(2)中的并行计算基于节点通讯单元(1)中与计算节点进行通信,能够实现信号和数据的同步。

3.根据权利要求2所述的提供分布式nlp能力服务的系统,其特征在于,所述任务调度单元(2)中:

4.根据权利要求3所述的提供分布式nlp能力服务的系统,其特征在于,所述任务管理模块(21)的工作步骤如下:

5.根据权利要求4所述的提供分布式nlp能力服务的系统,其特征在于:s22中根据文本内容判断文本所属的类别的具体步骤如下:

6.根据权利要求5所述的提供分布式nlp能力服务的系统,其特征在于:s222的表达式为:

7.根据权利要求6所述的提供分布式nlp能力服务的系统,其特征在于:在值的公式中引入权重和互信息,表达式为:

8.根据权利要求7所述的提供分布式nlp能力服务的系统,其特征在于:s23中文本分类的结果包括短文本、中长文本以及长文本。

9.根据权利要求8所述的提供分布式nlp能力服务的系统,其特征在于:所述计算节点单元(3)中的节点对文本进行的处理包括字义识别处理、语序识别纠正处理和段义识别处理。

10.一种提供分布式nlp能力服务的方法,基于权利要求1-9任意一项所述的提供分布式nlp能力服务的系统,其特征在于,包括如下步骤:


技术总结
本发明涉及自然语言处理技术领域,具体地说,涉及一种提供分布式NLP能力服务的系统及方法。其包括节点通讯单元、任务调度单元、计算节点单元和监控管理单元;其中,任务调度单元包括任务管理模块、调度策略模块和任务分配模块。该提供分布式NLP能力服务的系统及方法中,在任务调度之前对文本进行分类,划分为短文本、中长文本以及长文本,通过将不同长度的文本分散到不同的计算节点进行处理,可以实现更好的负载均衡,避免某一类文本集中导致的处理延迟或服务中断;且能够根据系统负载、用户需求或业务策略动态调整各类文本的处理优先级。

技术研发人员:李先美,赖海斌
受保护的技术使用者:深圳中科保泰科技有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1150205.html

最新回复(0)