一种基于大语言模型分步推理的检索增强决策控制器

专利检索2025-12-27 7

本发明涉及大语言模型控制器领域，尤其涉及一种基于大语言模型分步推理的检索增强决策控制器。

背景技术：

1、大语言模型(large language model，llm)[3,30]由于其广泛的知识和出色的文本理解与生成能力，在诸如问答[41]、聊天机器人[18]和代码合成[22]等各种任务中取得了巨大的成功。最近，一系列研究尝试基于llm构建性能出色的控制器，用于各种序列决策任务，包括基于文本的游戏[39]、在线购物[38]、网页导航[4]和信息检索[44]。

2、在现有的llm控制器中，有些是通过监督微调(supervised fine-tuning，sft)[7,8,16]使用大规模专家数据进行训练的，而有些则无需微调，直接使用少量专家示例利用上下文学习(in-context learning，icl)[12,32,40,42]。大多数现有基于icl的控制器在人工精心选择的专家轨迹的提示下表现良好[26,36,40]。然而，当能够使用包含大量专家轨迹的数据集或专家策略时，自动为每个任务指令选择合适的专家轨迹变得必要，这将对任务性能产生重要影响。

3、最近，zheng等人[42]研究了示范选择的问题，并提出了synapse方法。该方法通过任务元数据检索相关的专家轨迹，然后将这些检索到的轨迹作为llm的专家示例。synapse在计算机控制任务(miniwob++[25])和网页导航任务(mind2web[4])上表现良好。然而，在完整轨迹层面进行检索和编写提示词可能存在以下三个方面的问题。

4、(1)似是而非的专家示例：有时，对来自不同领域的数据进行泛化可能至关重要。例如，在mind2web的跨网站和跨领域子集中，控制器在训练集(即记忆)中未见过的网站上进行操作。在这种情况下，仅使用任务元数据检索轨迹很可能提供似是而非的专家示例，这些示例拥有与当前任务类似的指令，但对应的解决方案完全不同。正如[42]的实验证明的那样，似是而非的专家示例并不能比随机的专家示例提供更多的信息，甚至时常会误导llm做出错误的决策。

5、(2)大语言模型的输入上下文限制：面对所需步数较长和观测空间复杂的任务时，在提示词中使用完整轨迹作为示例将导致输入序列超过llm允许的上下文长度。因此，synapse必须减少轨迹示例的数量，甚至可能因为上下文长度的限制无法完成任务。尽管一些能够接收上下文的llm可以接收非常长的提示词，但由于长期遗忘的问题[29]，性能可能会受到影响。

6、(3)提示词中的无关信息：llm被发现对其提示词非常敏感，并且容易复制其最近的输入[10,20]。当前时间步的决策可能仅与检索到的轨迹中极少步骤相关，而其他步骤则不提供任何有用的信息。因此，不相关的步骤会对llm的决策产生不可预测的影响。而实验表明，这些无关步骤大多数时候都会对llm的决策性能产生负面影响。

7、近年来，利用预训练的大语言模型作为中央控制器以获得人类级别决策能力的趋势迅速增长[33]。在这些研究中，nakano等人[16]对gpt-3[3]模型进行了微调，以在基于文本的网页浏览器环境中进行问答；yao等人[38]开发了一个购物网站环境webshop，并使用模仿学习和强化学习对bert[5]模型进行了微调，yao等人[40]在观测输入和动作输出之间插入了一个推理环节，显著提高了在alfworld[28]和webshop[38]任务上的性能；shinn等人[26]通过接收语言任务的反馈信号并调整策略在[40]的基础上实现了进一步的性能改进；schick等人[24]通过简单的api以自监督学习的方式让llm学习使用外部工具；park等人[19]提出了generative agents，通过自然语言形式的外部记忆扩展llm，并动态检索这些记忆以规划llm的行为；wang等人[35]提出了一种交互式规划方法(deps)，通过整合计划执行过程的描述和失败反馈的解释，促进更好的错误校正，wang等人[32]采用了探索课程、不断扩张的技能库和新颖的迭代提示机制，提高了llm在minecraft上的表现；deng等人[4]从一些实际网页构建了mind2web数据集，包含需要不同泛化程度的三个子集，并比较了模仿学习(sft)和少样本学习(icl)的性能。

8、如上所述，大多数现有的llm控制器研究主要关注以下几个方面：1)通过直接微调来提高任务性能[4,16,38]；2)通过显式的提示词来增强llm的规划或推理[26,35,40]；3)通过引入外部记忆或工具库来扩展llm的应用场景[19,24,32]。然而，作为改善任务理解最基本的方式，在提示词中提供更多相关信息这一角度并未受到足够的关注。当本发明可以使用专家示例时，选择合适的示例是一种简单但非常有效的提高任务性能的方式，而这正是本发明研究的内容。

9、llm被发现在少样本学习方面表现出色[3]，上下文示例的合理选择则可以显著提高整体性能。liu等人[15]首次提出使用输入问题的k-近邻(k-nn)作为上下文示例，并在随机检索的基线上取得了改进。rubin等人[23]使用经过标签相似性训练的编码器选择相关样本，并相比于bm25和预训练编码器的基线取得更好的性能。wu等人[37]通过最小化输出的熵在从k-nn搜索中召回的子集中进一步选择示例。

10、ircot[31]在问答任务中使用推理步骤检索相关文档。然而，该方法包括使用完整的历史轨迹进行检索，并随着时间的推移累积检索到的相关示例，这使得该方法不能简单地迁移到复杂的序列决策任务上。非序列决策任务(如问答和情感分析)中上下文示例的选择问题已经得到了深入的研究。然而，对于序列决策任务来说，如何选择示例以提高整体性能的问题仍然没有清晰的结论。zheng等人[42]提出了一种轨迹级别的检索解决方案，但正如第1节所讨论的，期望有更精确的分步解决方案，这也构成了本领域人员研究的动机。本发明人提出使用推理(它可以被视为当前状态的一种抽象)作为检索的查询和键，需要指出的是，规划、代码注释以及包含有关当前状态全面信息的任何其他形式的文本都可以替代推理在本发明方法中的作用。因此，在这里特别回顾一些基于llm显式推理和规划的工作，它们大多与本发明的工作互补。

11、wei等人[36]首次引入了“思维链”(chain-of-thought，cot)的概念，通过在示例输出中提供显式的逐步推理过程，改进了llm在算术、常识和符号推理任务上的性能。wang等人[34]进一步发现采样单一推理路径可能导致次优的结果，并提出采样多个推理路径来解决该问题的“自一致性”(self-consistency)方法。为了高效而灵活地搜索推理路径，yao等人[39]使用具有自我评估的树搜索来找到全局最优的推理。besta等人[2]随后将树搜索扩展为图搜索，以获得更好的推理灵活性和整体性能。

12、上述工作涉及的通常是非序列的问题，或是在接收输入后可以通过单个完整的推理路径解决的问题。对于更为困难的序列决策问题：zhou等人[43]引入了least-to-most方法，通过分解问题并逐个解决子问题来解决较难的问题。yao等人提出的react[40]以“先推理后行动”的方式与环境交互，丰富了动作预测的上下文。code-as-policies[13]通过逐层扩展未定义程序来编写可执行的代码，为控制问题提供了一种隐式的推理或cot过程。liu等人提出了llm+p[14]，将原始问题转换为pddl[1]问题，通过传统的规划器解决问题，以发挥传统规划器的优势。hao等人[9]和ding等人[6]观点类似，即推理本质上与规划一致，[9]将llm用作世界模型，而[6]通过额外的轻量网络进行蒙特卡洛树搜索来实现推理路径的搜索。

13、总的来说，近年来llms的规划和推理一直受到研究人员的广泛关注，这使得本发明的工作可以借助更多更强大的规划和推理方法，有灵活的实现形式且容易改进。

14、因此，本领域的技术人员致力于开发一种基于大语言模型分步推理的检索增强决策控制器。

15、参考文献

16、[1]c.aeronautiques,a.howe,et al.1998.pddl|the planning domaindefinition language.technical report(1998).

17、[2]m.besta,n.blach,et al.2023.graph of thoughts:solving elaborateproblems with large language models.arxiv preprint arxiv:2308.09687(2023).

18、[3]t.brown,b.mann,et al.2020.language models are few-shot learners.inproceedings of the 34th advances in neural information processing systems(neurips).

19、[4]x.deng,y.gu,et al.2023.mind2web:towards a generalist agent for theweb.in proceedings of the 37th advances in neural information processingsystems(neurips).

20、[5]j.devlin,m.chang,et al.2018.bert:pre-training of deepbidirectional transformersfor language understanding.arxiv preprint arxiv:1810.04805(2018).

21、[6]r.ding,c.zhang,et al.2023.everything of thoughts:defying the lawof penrosetriangle for thought generation.arxiv preprint arxiv:2311.04254(2023).

22、[7]i.gur,h.furuta,et al.2024.a real-world webagent with planning,longcontextunderstanding,and program synthesis.in proceedings of the 12thinternational conferenceon learning representations(iclr).

23、[8]i.gur,o.nachum,et al.2023.understanding html with large languagemodels.in findings of the association for computational linguistics(emnlp).2803–2821.

24、[9]s.hao,y.gu,et al.2023.reasoning with language model is planningwith worldmodel.in proceedings of the 2023 conference on empirical methods innatural languageprocessing(emnlp).8154–8173.

25、[10]a.holtzman,j.buys,et al.2020.the curious case of neural textdegeneration.in proceedings of the 8th international conference on learningrepresentations(iclr).

26、[11]v.karpukhin,b.oguz,et al.2020.dense passage retrieval for open-domainquestion answering.in proceedings of the 2020 conference on empiricalmethods in naturallanguage processing(emnlp).6769–6781.

27、[12]g.kim,p.baldi,and stephen mcaleer.2023.language models cansolvecomputer tasks.in proceedings of the 37th advances in neural informationprocessingsystems(neurips).

28、[13]j.liang,w.huang,et al.2023.code as policies:language modelprograms forembodied control.in proceedings of 2023 ieee internationalconference on robotics andautomation(icra).9493–9500.

29、[14]b.liu,y.jiang,et al.2023.llm+p:empowering large language modelswithoptimal planning proficiency.arxiv preprint arxiv:2304.11477(2023).

30、[15]j.liu,d.shen,et al.2021.what makes good in-context examples forgpt-3？arxiv preprint arxiv:2101.06804(2021).

31、[16]r.nakano,j.hilton,et al.2021.webgpt:browser-assisted question-answeringwith human feedback.arxiv preprint arxiv:2112.09332(2021).

32、[17]openai.2023.gpt-4 technical report.arxiv preprint arxiv:2303.08774(2023).

33、[18]l.ouyang,j.wu,et al.2022.training language models to followinstructions withhuman feedback.in proceedings of the 36th advances in neuralinformation processingsystems(neurips).27730–27744.

34、[19]j.park,j.o’brien,et al.2023.generative agents:interactivesimulacra of humanbehavior.in proceedings of the 36th annual acm symposium onuser interface softwareand technology(uist).1–22.

35、[20]a.radford,j.wu,et al.2019.language models are unsupervisedmultitask learners.openai blog(2019).

36、[21]n.reimers and i.gurevych.2019.sentence-bert:sentence embeddingsusingsiamese bert-networks.in proceedings of the 2019 conference on empiricalmethods innatural language processing and the 9th international jointconference on natural languageprocessing(emnlp-ijcnlp).3980–3990.

37、[22]b.roziere,j.gehring,et al.2023.code llama:open foundation modelsfor code.arxiv preprint arxiv:2308.12950(2023).

38、[23]o.rubin,j.herzig,and jonathan berant.2022.learning to retrieveprompts forin-context learning.in proceedings of the 2022 conference of thenorth american chapterof the association for computational linguistics:humanlanguage technologies(naacl-hlt).2655–2671.

39、[24]t.schick,j.dwivedi-yu,et al.2023.toolformer:language models canteachthemselves to use tools.in proceedings of the 37th advances in neuralinformationprocessing systems(neurips).

40、[25]t.shi,a.karpathy,et al.2017.world of bits:an open-domain platformfor web-based agents.in proceedings of the 34th international conference onmachine learning(icml),vol.70.3135–3144.

41、[26]n.shinn,f.cassano,et al.2023.reflexion:language agents withverbalreinforcement learning.in proceedings of the 37th advances in neuralinformationprocessing systems(neurips).

42、[27]m.shridhar,j.thomason,et al.2020.alfred:a benchmark forinterpretinggrounded instructions for everyday tasks.in proceedings of the2020 ieee/cvf conferenceon computer vision and pattern recognition(cvpr).10737–10746.

43、[28]m.shridhar,x.yuan,et al.2021.alfworld:aligning text andembodiedenvironments for interactive learning.in proceedings of 9thinternational conference onlearning representations(iclr).

44、[29]the longchat team.2023.how long can open-source llms trulypromise oncontext length？https://lmsys.org/blog/2023-06-29-longchat/

45、[30]h.touvron,t.lavril,et al.2023.llama:open and efficientfoundationlanguage models.arxiv preprint arxiv:2302.13971(2023).

46、[31]h.trivedi,n.balasubramanian,et al.2023.interleaving retrievalwith chain-of-thought reasoning for knowledge-intensive multi-stepquestions.in proceedings of the61st annual meeting of the association forcomputational linguistics(acl).10014–10037.

47、[32]g.wang,y.xie,et al.2023.voyager:an open-ended embodied agent withlargelanguage models.arxiv preprint arxiv:2305.16291(2023).

48、[33]l.wang,c.ma,et al.2023.a survey on large language model basedautonomousagents.arxiv preprint arxiv:2308.11432(2023).

49、[34]x.wang,j.wei,et al.2023.self-consistency improves chain ofthoughtreasoning in language models.in proceedings of the 11th internationalconference onlearning representations,(iclr).

50、[35]z.wang,s.cai,et al.2023.describe,explain,plan and select:interactive planningwith large language models enables open-world multi-taskagents.in proceedings of the 37thadvances in neural information processingsystems(neurips).

51、[36]j.wei,x.wang,et al.2022.chain-of-thought prompting elicitsreasoning inlarge language models.in proceedings of the 36th advances inneural informationprocessing systems(neurips).

52、[37]z.wu,y.wang,et al.2023.self-adaptive in-context learning:aninformationcompression perspective for in-context example selection andordering.in proceedings ofthe 61st annual meeting of the association forcomputational linguistics(acl).1423–1436.

53、[38]s.yao,h.chen,et al.2022.webshop:towards scalable real-worldwebinteraction with grounded language agents.in proceedings of 36thconference on neuralinformation processing systems(neurips).

54、[39]s.yao,d.yu,et al.2023.tree of thoughts:deliberate problem solvingwith largelanguage models.in proceedings of 37th conference on neuralinformation processingsystems(neurips).

55、[40]s.yao,j.zhao,et al.2023.react:synergizing reasoning and acting inlanguagemodels.in proceedings of the 11th international conference onlearning representations(iclr).

56、[41]h.steven zheng,swaroop mishra,et al.2024.step-back promptingenablesreasoning via abstraction in large language models.in proceedings ofthe 12thinternational conference on learning representations(iclr).

57、[42]l.zheng,r.wang,et al.2024.synapse:trajectory-as-exemplarprompting withmemory for computer control.in proceedings of the 12thinternational conference onlearning representations(iclr).

58、[43]d.zhou,n.et al.2023.least-to-most prompting enablescomplex reasoning in large language models.in proceedings of the 11thinternational conference on learning representations(iclr).

59、[44]y.zhu,h.yuan,et al.2023.large language models for informationretrieval:asurvey.arxiv preprint arxiv:2308.07107(2023)

技术实现思路

1、有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是在完整轨迹层面进行检索和编写提示词存在似是而非示例、llm上下文限制和无关信息的问题。

2、为实现上述目的，本发明提供了一种基于大语言模型分步推理的检索增强决策控制器，其特征在于，所述检索增强决策控制器对所处的状态进行推理，根据推理内容从外部记忆中检索相似的步骤，并结合与检索结果在时序上相邻的步骤及其相对位置信息来预测动作，所述检索增强决策控制器包括大语言模型模块、推理标注模块、推理检索模块、增强决策模块和任务环境模块，其中，

3、所述大语言模型模块，利用预训练的大语言模型，基于当前观测及历史轨迹信息进行推理，并根据推理的内容从预先标注的外部记忆中检索最相似的专家步骤，预测最终的动作输出；

4、所述推理标注模块，为外部记忆中的每个示例步骤提供推理过程；

5、所述推理检索模块，基于所述外部记忆中所有步骤的标注推理内容，利用分步推理检索方法，为每个时间步选择相关示例，所述标注推理内容作为分步检索的键；

6、所述增强决策模块，对检索出的专家步骤样例进行处理，并将处理后的所述专家步骤样例作为示例，由所述检索增强决策控制器预测最终的动作输出；

7、所述任务环境模块，在每个任务流程开始时，给出与任务有关的元数据，所述检索增强决策控制器在分步推理时使用根据所述元数据检索的相关轨迹作为示例。

8、进一步地，所述检索增强决策控制器为序列决策任务提供更多相关示例，并减少无关上下文；所述检索增强决策控制器在不同时间步骤中检索完全不同的步骤，并为检索结果补充时序信息；所述检索增强决策控制器为记忆中的专家轨迹准备接近最优的推理过程，以便在原始数据不包含推理过程的情况下实现检索，并将单步推理同时用作查询和键进行精确检索。

9、进一步地，在测试开始前，使用所述大语言模型模块基于少量人类示例为外部记忆中的所有专家交互数据产生推理内容；每个任务流程开始时，所述任务环境模块给出与任务有关的元数据，所述元数据包括任务指令和任务领域信息，所述检索增强决策控制器在分步推理时使用根据所述元数据检索的相关轨迹作为示例，任务流程的每一步中，所述大语言模型模块给定当前观测及历史轨迹信息进行推理，并根据推理的内容从预先标注的外部记忆中检索最相似的专家步骤，所述专家步骤样例经过所述增强决策模块处理后作为示例，由所述检索增强决策控制器预测最终的动作输出。

10、进一步地，所述推理标注模块为外部记忆中的每个示例步骤提供推理过程包括如下步骤：

11、s101：从外部记忆的一个子集开始，为其中的每一步提供由人类专家编写的推理过程；

12、s103：将所述小子集作为提示词中的示例，利用所述大语言模型模块为一个完整的外部记忆标注推理过程；

13、s105：所述大语言模型模块生成与专家动作一致的推理，输出支持任务元数据轨迹检索和推理内容检索的推理增强记忆。

14、进一步地，所述推理检索模块实现的分步推理检索方法，包括如下步骤：

15、s201：利用任务元数据进行轨迹层面的示例检索，得到专家轨迹示例；

16、s202：基于所述专家轨迹示例，利用所述大语言模型模块对每个时间步上生成一段用于分步检索的推理，所述推理为当前状态的抽象；

17、s203：利用生成的所述推理进行检索，找到推理增强记忆中的相关专家步骤。

18、进一步地，在所述步骤s203中，使用在大型语料库上预训练用于检索的编码器对所述推理进行编码，所述推理设置为查询和键，通过所述查询和键的余弦相似性，收集属于互不相同轨迹的前k个相似性最高的所述相关专家步骤，将所述相关专家步骤作为示例。

19、进一步地，使用所述推理内容检索得到的所述相关专家步骤，获取到当前状态更为具体的抽象作为检索的查询和键，减少似是而非的示例；通过使用检索得到的所述相关专家步骤而非完整轨迹作为示例，减轻大语言模型输入上下文限制以及无关输入导致的问题。

20、进一步地，所述增强决策模块利用增强决策方法，在决策过程中整合更多信息，减少前后序时间步缺失带来的信息损失，通过检索到的步骤及其时间位置信息相关的步骤来完善所述推理。

21、进一步地，所述增强决策方法包括如下步骤：

22、时序扩展：对于每个检索到的步骤，将所述步骤扩展为一个包括b个过去步骤和f个未来步骤的步骤序列，所述步骤序列设置为最多b+1+f个在时序上连续的步骤；

23、相对位置标记：对所述时序扩展得到的所述步骤序列中的每个步骤插入一个标记，所述标记指示所述步骤的相对位置，所述相对位置为所述步骤相对于检索到的步骤的位置，并在所述大语言模型模块决策的提示词中显式说明所述标记的规则；

24、历史对齐：在当前输入之前插入b+f个最近的历史输入-输出对，将当前输入转换为专家示例的格式。

25、进一步地，在所述相对位置标记中，将检索到的所述步骤之前的最后一步标记为[step-1]，检索到的所述步骤为[step 0]，检索到的所述步骤之后的第一步为[step 1]，所述相对位置标记为(b+1+f)×k个示例步骤提供时序信息，便于所述大语言模型模块从专家示例中获取信息。

26、在本发明的较佳实施方式中，和现有技术相比，本发明具有如下有益效果：

27、1、本发明在决策任务的每一步，分别根据当前状态某种形式的抽象选取合适的专家示例，能够针对性选取与当前状态相关的示例，避免任务相近但解决路径不同的情形，检索得到的专家示例与决策状态更相关、更能提升决策性能。

28、2、本发明在大语言模型的提示词中使用单步或部分轨迹形式的专家示例，一条轨迹可包含数个乃至数十个时间步，仅输入少量时间步即显著减少输入内容，减轻了使用完整轨迹导致提示词过长、超出大语言模型输入上下文长度限制的问题。

29、3、本发明选取与当前状态有关的专家示例，并在大语言模型提示词中以单步或部分轨迹形式输入，仅输入相关的时间步可以尽可能保留相关信息而减少无关信息，减少了专家示例中的无关信息，提升了大语言模型的决策性能。

30、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

技术特征：

1.一种基于大语言模型分步推理的检索增强决策控制器，其特征在于，所述检索增强决策控制器对所处的状态进行推理，根据推理内容从外部记忆中检索相似的步骤，并结合与检索结果在时序上相邻的步骤及其相对位置信息来预测动作，所述检索增强决策控制器包括大语言模型模块、推理标注模块、推理检索模块、增强决策模块和任务环境模块，其中，

2.如权利要求1所述的检索增强决策控制器，其特征在于，所述检索增强决策控制器为序列决策任务提供更多相关示例，并减少无关上下文；所述检索增强决策控制器在不同时间步骤中检索完全不同的步骤，并为检索结果补充时序信息；所述检索增强决策控制器为记忆中的专家轨迹准备接近最优的推理过程，以便在原始数据不包含推理过程的情况下实现检索，并将单步推理同时用作查询和键进行精确检索。

3.如权利要求2所述的检索增强决策控制器，其特征在于，在测试开始前，使用所述大语言模型模块基于少量人类示例为外部记忆中的所有专家交互数据产生推理内容；每个任务流程开始时，所述任务环境模块给出与任务有关的元数据，所述元数据包括任务指令和任务领域信息，所述检索增强决策控制器在分步推理时使用根据所述元数据检索的相关轨迹作为示例，任务流程的每一步中，所述大语言模型模块给定当前观测及历史轨迹信息进行推理，并根据推理的内容从预先标注的外部记忆中检索最相似的专家步骤，所述专家步骤样例经过所述增强决策模块处理后作为示例，由所述检索增强决策控制器预测最终的动作输出。

4.如权利要求3所述的检索增强决策控制器，其特征在于，所述推理标注模块为外部记忆中的每个示例步骤提供推理过程包括如下步骤：

5.如权利要求4所述的检索增强决策控制器，其特征在于，所述推理检索模块实现的分步推理检索方法，包括如下步骤：

6.如权利要求5所述的检索增强决策控制器，其特征在于，在所述步骤s203中，使用在大型语料库上预训练用于检索的编码器对所述推理进行编码，所述推理设置为查询和键，通过所述查询和键的余弦相似性，收集属于互不相同轨迹的前k个相似性最高的所述相关专家步骤，将所述相关专家步骤作为示例。

7.如权利要求6所述的检索增强决策控制器，其特征在于，使用所述推理内容检索得到的所述相关专家步骤，获取到当前状态更为具体的抽象作为检索的查询和键，减少似是而非的示例；通过使用检索得到的所述相关专家步骤而非完整轨迹作为示例，减轻大语言模型输入上下文限制以及无关输入导致的问题。

8.如权利要求7所述的检索增强决策控制器，其特征在于，所述增强决策模块利用增强决策方法，在决策过程中整合更多信息，减少前后序时间步缺失带来的信息损失，通过检索到的步骤及其时间位置信息相关的步骤来完善所述推理。

9.如权利要求8所述的检索增强决策控制器，其特征在于，所述增强决策方法包括如下步骤：

10.如权利要求9所述的检索增强决策控制器，其特征在于，在所述相对位置标记中，将检索到的所述步骤之前的最后一步标记为[step-1]，检索到的所述步骤为[step0]，检索到的所述步骤之后的第一步为[step 1]，所述相对位置标记为(b+1+f)×k个示例步骤提供时序信息，便于所述大语言模型模块从专家示例中获取信息。

技术总结
本发明公开了一种基于大语言模型分步推理的检索增强决策控制器，涉及大语言模型控制器领域，大语言模型模块利用预训练的大语言模型，基于当前观测及历史轨迹信息进行推理，并根据推理的内容从预先标注的外部记忆中检索最相似的专家步骤，预测最终的动作输出；推理标注模块为外部记忆中的每个示例步骤提供推理过程；推理检索模块基于外部记忆中所有步骤的标注推理内容，利用分步推理检索方法，为每个时间步选择相关示例；增强决策模块对检索出的专家步骤样例进行处理，并将处理后的专家步骤样例作为示例。本发明在决策任务的每一步根据当前状态某种形式的抽象选取合适的专家示例，检索得到的专家示例与决策状态更相关、更能提升决策性能。

技术研发人员：张伟楠,周睿文,杨滢轩,温睦宁,温颖,徐国强
受保护的技术使用者：上海交通大学
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1159612.html

专利

最新回复(0)