一种文本数据标注方法与流程

专利检索2025-08-11  10


本公开涉及文本处理,尤其涉及一种文本数据标注方法、系统和电子设备。


背景技术:

1、基于机器学习的ai技术需要大量标注数据作为学习材料,标注数据的产出是一项重要且有难度的工作。

2、面对大量标注数据,即使有标注规范作为指导,面对大量的真实数据、表达形式丰富多样的自然语言,标注任务对标注员来说还是有一定难度。在数据标注任务中,提高标注的效率、降低标注的认知难度、提高标注员之间的标注一致率一直是业内难题。

3、数据标注需要结合标注效率进行工作实施,除了对文本数据进行有序分类标注,还应当注意标注工作的结合。而现有文本标注基本是单一部门的纵向工作,不存在横向且交叉的标注工作,势必会影响整个部门的标注效率。


技术实现思路

1、为了解决上述问题,本技术提出一种文本数据标注方法、系统和电子设备。

2、本技术一方面,提出一种文本数据标注方法,适用于中短篇幅文本标注,包括以如下步骤:

3、获取全体待标注数据,并提取所述全体待标注数据的字符特征;

4、基于所述字符特征,对所述全体待标注数据中各个待标注数据进行特征标注;

5、对标注的各个待标注数据,进行自动分组,获得若干待标注数据组,并将所述待标注数据组上传至后台;

6、各组标注管理员从后台接收并分发完毕所述待标注数据组,进行同组数据的标注工作,并将标注后的全量标注数据反馈至后台。

7、作为本技术的一可选实施方案,可选地,获取全体待标注数据,包括:

8、通过后台下发指令,通知上报待标注的全量待标注数据;

9、接收并按照预设的数据信息规则,对所述全量待标注数据进行预处理,进行数据信息后,得到满足中短篇幅文本标注条件的所述全体待标注数据;

10、将所述全体待标注数据作为本次标注工作的任务数据,并存储至后台数据库中。

11、作为本技术的一可选实施方案,可选地,获取全体待标注数据,并提取所述全体待标注数据的字符特征,包括:

12、预设特征提取算法,并配置于后台上;

13、调取所述全体待标注数据,并采用所述特征提取算法对所述全体待标注数据中的每一条待标注数据进行特征提取,获取所述全体待标注数据中的每一条待标注数据的字符特征;

14、记录每一条待标注数据与其相对应的字符特征的映射关系,并存储至后台数据库。

15、作为本技术的一可选实施方案,可选地,基于所述字符特征,对所述全体待标注数据中各个待标注数据进行特征标注,包括:

16、预设特征标注算法,并配置于后台上;

17、采用所述特征标注算法,对每一条待标注数据的字符特征进行关键词提取,得到每一条待标注数据的特征关键词;

18、将所述特征关键词标注在对应的所述待标注数据上。

19、作为本技术的一可选实施方案,可选地,对标注的各个待标注数据,进行自动分组,获得若干待标注数据组,包括:

20、基于所述特征关键词,对每一条待标注数据进行特征关键词识别;

21、将所述特征关键词相同的所述待标注数据自动分为同一组,并生成对应所述特征关键词的待标注数据组;

22、按照上述步骤,将所述全体待标注数据分为不同特征关键词下的若干待标注数据组。

23、作为本技术的一可选实施方案,可选地,将所述待标注数据组上传至后台,包括:

24、将不同特征关键词下的若干待标注数据组,上报至后台,并存储至后台数据库中;

25、在后台建立本次标注工作的标注任务,并通过后台向不同组别的标注员发出标记任务通知,等待标注员响应;

26、接收各组标注员的响应并记录对应的工作id,将若干待标注数据组发布至后台的任务中转站,通知已在后台记录的各组标注员领取所述待标注数据组;

27、各组标注员登录后台并查看后台发布的待标注数据组,领取各自的待标注数据组,并由后台记录至对应的各组标注员的工作id之下。

28、作为本技术的一可选实施方案,可选地,各组标注管理员从后台接收并分发完毕所述待标注数据组,进行同组数据的标注工作,并将标注后的全量标注数据反馈至后台,包括:

29、各组标注员领取各自的待标注数据组,并查看当前所述待标注数据组的所述特征关键词;

30、基于所述特征关键词,在预先规划好的语义空间内查找对应的标注语料,并按照所述标注语料对当前所述待标注数据组进行批量标注;

31、当前所述待标注数据组标注完毕,得到本组标注后的全量标注数据,并将本组标注后的全量标注数据上报反馈至后台,由后台审核和登记。

32、作为本技术的一可选实施方案,可选地,各组标注管理员在对当前所述待标注数据组进行批量标注之时,还包括:

33、判断当前所述待标注数据组之中是否存在“存疑”的待标注数据:

34、若存在,则将“存疑”的待标注数据上报至后台,后台对各组标注员上报的“存疑”的待标注数据进行单独成组保存,生成对应的待标注数据存疑组,并单独下发至与前述各组标注员不存在交叉关系的一组标注员进行处理;

35、若不存在,则放弃。

36、本技术另一方面,提出一种实现所述文本数据标注方法的系统,包括:

37、字符特征提取模块,用于获取全体待标注数据,并提取所述全体待标注数据的字符特征;

38、特征标注模块,用于基于所述字符特征,对所述全体待标注数据中各个待标注数据进行特征标注;

39、自动分组模块,用于对标注的各个待标注数据,进行自动分组,获得若干待标注数据组,并将所述待标注数据组上传至后台;

40、数据标注管理模块,用于各组标注管理员从后台接收并分发完毕所述待标注数据组,进行同组数据的标注工作,并将标注后的全量标注数据反馈至后台。

41、本技术另一方面,还提出一种电子设备,包括:

42、处理器;

43、用于存储处理器可执行指令的存储器;

44、其中,所述处理器被配置为执行所述可执行指令时实现所述的一种文本数据标注方法。

45、本发明的技术效果:

46、本技术通过获取全体待标注数据,并提取所述全体待标注数据的字符特征;基于所述字符特征,对所述全体待标注数据中各个待标注数据进行特征标注;对标注的各个待标注数据,进行自动分组,获得若干待标注数据组,并将所述待标注数据组上传至后台;各组标注管理员从后台接收并分发完毕所述待标注数据组,进行同组数据的标注工作,并将标注后的全量标注数据反馈至后台。能够将不同特征标注的待标注数据组分配给不同标注部门进行批量标注,若是存在标注存疑的待标注数据,可以统一上报后台,让单独的其他无交叉的组员另行标注,以此按组进行批量标注语料文本,实现高效率的文本数据标注。通过在各个部门之间而非纵向进行各个类型的文本批量标注,大大缩短标注时间。

47、本方案对文本进行语义空间的划分,把文本字符特征和语义特征做交叉分析,在一个分组内便于发现语义相同、语义相似、语义相反的表述,给标注员提供充足的信息进行判断。这一操作可以提高标注员的标注效率、降低语义认知难度。

48、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。


技术特征:

1.一种文本数据标注方法,适用于中短篇幅文本标注,其特征在于,包括如下步骤:

2.根据权利要求1所述的文本数据标注方法,其特征在于,获取全体待标注数据,包括:

3.根据权利要求2所述的文本数据标注方法,其特征在于,获取全体待标注数据,并提取所述全体待标注数据的字符特征,包括:

4.根据权利要求1所述的文本数据标注方法,其特征在于,基于所述字符特征,对所述全体待标注数据中各个待标注数据进行特征标注,包括:

5.根据权利要求4所述的文本数据标注方法,其特征在于,对标注的各个待标注数据,进行自动分组,获得若干待标注数据组,包括:

6.根据权利要求5所述的文本数据标注方法,其特征在于,将所述待标注数据组上传至后台,包括:

7.根据权利要求6所述的文本数据标注方法,其特征在于,各组标注管理员从后台接收并分发完毕所述待标注数据组,进行同组数据的标注工作,并将标注后的全量标注数据反馈至后台,包括:

8.根据权利要求7所述的文本数据标注方法,其特征在于,各组标注管理员在对当前所述待标注数据组进行批量标注之时,还包括:

9.一种实现权利要求1-8中任一项所述文本数据标注方法的系统,其特征在于,包括:

10.一种电子设备,其特征在于,包括:


技术总结
本申请涉及一种文本数据标注方法,本申请能够将不同特征标注的待标注数据组分配给不同标注部门进行批量标注,若是存在标注存疑的待标注数据,可以统一上报后台,让单独的其他无交叉的组员另行标注,以此按组进行批量标注语料文本,实现高效率的文本数据标注。通过在各个部门之间而非纵向进行各个类型的文本批量标注,大大缩短标注时间。本方案对文本进行语义空间的划分,把文本字符特征和语义特征做交叉分析,在一个分组内便于发现语义相同、语义相似、语义相反的表述,给标注员提供充足的信息进行判断。这一操作可以提高标注员的标注效率、降低语义认知难度。

技术研发人员:简仁贤
受保护的技术使用者:竹间智能科技(上海)有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1157717.html

最新回复(0)