本发明涉及互联网领域,尤其涉及一种基于预训练嵌入模型和排序微调的网页元素剪枝方法。
背景技术:
1、随着互联网内容的快速增长,有效地从复杂的网页dom结构中提取和处理信息变得越来越重要。dom(document object model)即文档对象模型,是w3c制定的标准接口规范,是一种处理html和xml文件的标准api。dom提供了对整个文档的访问模型,将文档作为一个树形结构,树的每个结点表示了一个html标签或标签内的文本项。如图1所示,dom树结构精确地描述了html文档中标签间的相互关联性。将html或xml文档转化为dom树的过程称为解析(parse)。html文档被解析后,转化为dom树,因此对html文档的处理可以通过对dom树的操作实现。dom模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地访问、修改、添加和删除dom树的结点和内容。随着互联网技术的发展和网络信息的爆炸式增长,网页内容变得越来越丰富和复杂,也导致dom结构包含大量的节点。这些节点以树状结构组织,反映了网页的内容和布局。
2、如何有效地从这些复杂的dom结构中提取和处理信息,对于搜索引擎优化、网页内容分析、自动化测试、数据挖掘等领域至关重要。这些领域共同依赖于理解和处理网页内容,而dom提供了网页内容的结构化表示。比如在seo中,解析dom有助于提高网页在搜索结果中的排名;在内容分析任务中,它助于准确理解网页的主题和上下文,从而高效、准确地提取网页数据。
3、本发明关注网页导航任务场景下的dom剪枝。在网页导航任务中,dom发挥着至关重要的作用,因为它是理解和操作网页内容的基础。网页导航任务往往涉及根据用户需求或自动化脚本指令在网页中寻找特定信息、执行操作或进行特定的导航。dom解析是将网页从html格式转化为dom树的过程。dom解析的关键作用在于提供了对网页内容层次结构的深入理解,包括诸如段落、链接、表单和按钮等元素的组织方式。通过对dom的分析,可以精确地确定这些元素的位置及其相互关系,从而有效地导航至网页的特定部分或执行页面上的特定操作。此外,dom解析对于定位和选择特定元素至关重要,它使得可以通过各种选择器精确地选取和操作元素,如链接、按钮和输入框等。在模拟用户交互,如点击链接、填写表单或滚动页面等方面,dom解析同样发挥着核心作用,它允许脚本识别可交互元素并执行相应操作,从而实现自动化导航。考虑到现代网页常采用动态加载技术,内容可能会根据用户交互或其他因素发生变化,dom解析的另一个重要功能是实时监测这些变化,并相应地调整导航策略以确保任务的准确性和有效性。最后,在需要从网页中提取信息的导航任务中,dom解析也是关键,它使得可以有效地定位和提取数据,如文本、图像和链接等,以供后续处理或分析。
4、当前网页dom解析的常用方式主要包括利用各种自动化工具和库,如playwright和selenium,这些工具和库提供了与web浏览器交互的能力,允许以编程方式访问和操作网页内容。在这些工具完成dom解析后,dom剪枝过程成为至关重要的一环,它通过根据用户指令过滤掉与操作无关的节点,有效简化后续任务的观察范围和动作空间。这一过程对于显著提高网页导航的效率和准确性发挥着关键作用,尤其在处理复杂或庞大的网页结构时。
5、因此dom剪枝是一项关键的技术,旨在提高从复杂网页结构中提取关键信息的效率和准确性。在网页导航任务下,dom剪枝是指针对网页dom进行精确地选择和处理,以提高信息提取的效率和准确性的过程。dom剪枝的主要目的是去除与用户查询或特定任务无关的dom节点,从而简化网页结构,减少不必要的处理和分析,提高系统的性能。以下是dom剪枝在网页导航任务中的必要性的具体体现方面:
6、减少不必要的信息:在复杂的网页dom结构中,许多节点可能与特定任务无关,如广告、装饰性图像、辅助文本等。dom剪枝通过识别和移除这些无关的节点,可以显著减少需要处理的信息量。并且系统可以专注于那些与用户查询或任务目标相关的节点,这不仅提高了任务执行的效率,而且有助于提升结果的相关性和准确性。
7、提高性能和响应速度:通过剪枝过程,系统能够专注于分析和处理与用户查询或任务相关的dom节点,从而提高信息提取的准确性。去除无关节点可以减少干扰,提高网页导航操作的操作完成度和执行准确性。同时减少需要处理的dom节点数量可以降低后续计算和内存负担,从而提高应用程序的性能和响应速度。
8、灵活适应不同任务:dom剪枝可以根据不同的任务需求灵活调整。例如,在数据抓取任务中,可能需要剪除与目标数据无关的导航栏和页脚,而在自动化测试中,可能需要专注于表单和按钮等交互元素。
9、动态满足大语言模型输入限制:使用大型语言模型(llm)进行网页导航任务是一个有趣且具有挑战性的应用领域。大型语言模型,如gpt-3或bert等,由于其深度学习和自然语言处理能力,可以在多种任务中提供支持。当处理长网页时,dom的输入长度可能远远超过llm的输入内容长度限制。在这种情况下,dom剪枝成为一个有效的解决方案,因为它可以通过以下方式帮助减少输入长度以动态满足不同语言模型的输入限制,通过提供更精准、更高质量的输入数据,提高模型在特定任务上的性能和效果。
10、因此,本领域的技术人员致力于开发一种基于预训练嵌入模型和排序微调的网页元素剪枝方法。有效地从复杂的网页dom结构中提取和处理信息,克服现有技术在效率和准确性方面的局限。提供更高效、更智能的dom处理方法,满足日益增长的网络信息处理需求。
技术实现思路
1、有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是克服从复杂的网页dom结构中提取和处理信息,在效率和准确性方面的局限。
2、为实现上述目的,本发明提供了一种基于预训练嵌入模型和排序微调的网页元素剪枝方法,包括以下步骤:
3、步骤1、预训练嵌入模型阶段;
4、步骤2、排序微调阶段。
5、进一步地,基于检索型问答方法。
6、进一步地,所述步骤1,使用预训练的组件,预加载知识,模型访问和集成信息,无需额外的训练。
7、进一步地,所述步骤2,在业务场景下微调小的排序模型,将预训练模型迁移到网页导航任务。
8、进一步地,所述步骤1,使用bge模型处理输入查询和网页中的各个dom节点。
9、进一步地,所述步骤1,dom节点和输入查询转换成固定长度的向量。
10、进一步地,所述步骤2,采用ltr方法训练神经网络排序模型。
11、进一步地,所述步骤2,选取pairwise方法设计和训练排序微调模型。
12、进一步地,所述步骤2,评估每个dom节点与查询的相关性。
13、进一步地,所述步骤2,借鉴ranknet以pairwise方式对网页信息进行训练。
14、在本发明的较佳实施方式中,考虑到在网页导航任务中,dom发挥着至关重要的作用,是理解和操作网页内容的基础。而当前缺少网页导航任务下的网页节点剪枝方案。本发明提供一种创新的网页文档对象模型(dom)处理技术,由两阶段构成。是一种基于检索型问答方法的网页导航任务dom节点剪枝方法,用于提高网页元素剪枝的效率和准确性。
15、当前网页节点剪枝方案包括调用现有大语言模型api或在专业领域数据集上预训练语言模型,但无论是调用api还是模型训练都会带来高昂成本。与现有方法相比,本方法能减少模型训练成本。方法过程涉及两个关键阶段:预训练嵌入模型和排序微调模型,它们共同工作以筛选和优先处理最关键的dom节点。第一步中使用预训练的组件,预加载广泛的知识,允许模型访问和集成大量信息,而无需额外的训练。同时为了提高模型在具体任务的准确率与完成性,本方法通过第二步在业务场景下微调小的排序模型,将预训练模型迁移到网页导航任务,提高方法对任务场景与任务上下文的理解,进一步提高网页导航任务的节点剪枝准确率。
16、当前网页节点剪枝的方案存在找回准确率不高的缺陷,如在longtao zheng的2023年论文《synapse:trajectory-as-exemplar prompting with memory for computercontrol》中,网页节点的召回率只有53%,进一步影响到后续网页导航操作的执行准确率。本发明能够有效提取出与指令相关的网页节点,并保证在所有网页上都实现recall@150准确率为1。
17、本发明与现有技术相比较,具有如下显而易见的实质性特点和显著优点:
18、1.本发明提高从复杂网页结构中提取关键信息的效率和准确性,通过智能分析和精细操作网页dom,能够有效地识别和提取与用户查询或特定任务最相关的内容部分。
19、2.本发明通过第二阶段的排序模型微调避开了预训练模型的训练和微调成本。后续随着新的预训练组件组件不断更新,新的模型可以直接介入框架,减少训练成本。
20、3.本发明的核心目标在于其能够对复杂的网页dom结构进行有效的简化和精准的内容提取,这对于面对大量动态和多样化网页内容的现代网络环境尤为重要。
21、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
1.一种基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,基于检索型问答方法。
3.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,所述步骤1,使用预训练的组件,预加载知识,模型访问和集成信息,无需额外的训练。
4.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,所述步骤2,在业务场景下微调小的排序模型,将预训练模型迁移到网页导航任务。
5.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,所述步骤1,使用bge模型处理输入查询和网页中的各个dom节点。
6.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,所述步骤1,dom节点和输入查询转换成固定长度的向量。
7.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,所述步骤2,采用ltr方法训练神经网络排序模型。
8.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,所述步骤2,选取pairwise方法设计和训练排序微调模型。
9.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,所述步骤2,评估每个dom节点与查询的相关性。
10.如权利要求1所述的基于预训练嵌入模型和排序微调的网页元素剪枝方法,其特征在于,所述步骤2,借鉴ranknet以pairwise方式对网页信息进行训练。