1.本技术涉及人工智能技术领域,尤其涉及一种基于数据驱动的创新方案设计方法和系统。
背景技术:
2.数据驱动是通过移动互联网或者其他的相关软件为手段采集海量的数据,将数据进行组织形成信息,之后对相关的信息进行整合和提炼,在数据的基础上经过训练和拟合形成自动化的决策模型。数字化时代,海量数据的快速积累既给设计师搜索外部知识带来了负担和挑战,同时也为高效的挖掘数据和扩展知识空间带来了机遇。因此,数据驱动为设计师设计创新方案提供了很大帮助。
3.但是相关技术中,基于数据驱动的创新方案设计方法不够智能,仍需依靠设计师自身的知识和经验来获取知识资源。
技术实现要素:
4.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
5.为此,本技术的第一个目的在于提出一种基于数据驱动的创新方案设计方法,以解决基于数据驱动的创新方案设计方法不够智能,仍需依靠设计师自身的知识和经验来获取知识资源的技术问题。
6.本技术的第二个目的在于提出一种基于数据驱动的创新方案设计系统。
7.为达到上述目的,本技术第一方面实施例提出的一种基于数据驱动的创新方案设计方法,包括:确定创新概念文本以及知识文本数据库,根据所述创新概念文本以及知识文本数据库确定所述创新概念文本以及知识文本数据库中的特征簇;根据所述特征簇确定所述创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值;根据所述相似度值确定知识文本数据库中的推荐文本,根据所述推荐文本确定创新方案。
8.可选地,在本技术的一个实施例中,所述确定创新概念文本以及知识文本数据库,包括:根据数据获取工具确定知识文本数据库中的知识文本;所述数据获取工具包括以下至少一种工具:网络爬虫工具、api工具;所述知识文本包括以下至少一种文本:科技文献文本、产品设计网站中的设计案例文本、专利文本、百度百科文本、产品设计知识库中的文本、设计归档文本、设计知识文本。
9.可选地,在本技术的一个实施例中,所述根据所述创新概念文本以及知识文本数据库确定所述创新概念文本以及知识文本数据库中的特征簇,包括:根据自然语言处理工具将所述知识文本数据库中的知识文本构建为训练语料;根据所述训练语料训练语言模型,根据训练好的语言模型确定所述创新概念文本以及知识文本数据库中的特征簇;所述特征簇包括以下至少一种簇:结构特征簇、组件特征簇。
10.可选地,在本技术的一个实施例中,所述根据训练好的语言模型确定所述创新概念文本以及知识文本数据库中的特征簇,包括:根据自然语言处理工具从所述知识文本中抽取特征词汇,所述特征词汇包括以下至少一种:名词、形容词与名词的组合、名词与名词的组合;根据所述特征词汇确定知识文本数据库对应的特征词汇集合;根据训练好的语言模型确定所述特征词汇集合中每一个特征词汇对应的向量;根据所述特征词汇对应的向量确定特征词汇之间的语义相似度;基于所述语义相似度利用聚类算法对所述特征词汇对应的向量进行聚类得到多个特征簇。
11.可选地,在本技术的一个实施例中,所述自然语言处理工具包括以下至少一种:词句分割、词性标注、词形还原、名词分块。
12.可选地,在本技术的一个实施例中,所述根据所述特征簇确定所述创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量,包括:根据所述特征簇的数量确定任一文本对应的向量的维度,每一个特征簇对应一个向量的维度;根据特征簇中的特征词汇在任一文本中出现的次数确定任一文本对应的向量中特征簇对应的维度的数值;所述文本包括创新概念文本以及知识文本数据库中所有知识文本。
13.可选地,在本技术的一个实施例中,所述确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值,包括:对每一个知识文本对应的向量以及创新概念文本对应的向量进行归一化处理,得每一个知识文本对应的归一化向量以及创新概念文本对应的归一化向量;根据所述每一个知识文本对应的归一化向量以及创新概念文本对应的归一化向量确定所述相似度值。
14.可选地,在本技术的一个实施例中,所述确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值,包括:根据以下至少一种方法确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值:余弦相似度、欧氏距离、马氏距离、相关系数。
15.可选地,在本技术的一个实施例中,所述根据所述相似度值确定知识文本数据库中的推荐文本,根据所述推荐文本确定创新方案,包括:按照相似度值递减的顺序对知识文本数据库进行排序,前n个知识文本为推荐文本,n为推荐阈值;根据所述推荐文本得到多个设计方案,对每一个设计方案进行方案评估得到最终
的创新方案。
16.综上,本技术第一方面实施例提出的方法,通过确定创新概念文本以及知识文本数据库,根据所述创新概念文本以及知识文本数据库确定所述创新概念文本以及知识文本数据库中的特征簇;根据所述特征簇确定所述创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值;根据所述相似度值确定知识文本数据库中的推荐文本,根据所述推荐文本确定创新方案。本技术通过以大量的文本数据为基础,为设计师推荐与创新概念有语义关联的知识,可以辅助设计师将产生的创新概念发展成为设计方案,无需依靠设计师自身的知识和经验来获取知识资源。
17.为达到上述目的,本技术第二方面实施例提出的一种基于数据驱动的创新方案设计系统,包括:用户交互模块,用于确定创新概念文本以及根据所述推荐文本确定创新方案;数据获取模块,用于确定知识文本数据库;特征确定模块,用于根据所述创新概念文本以及知识文本数据库确定所述创新概念文本以及知识文本数据库中的特征簇;文本计算模块,用于根据所述特征簇确定所述创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值;文本推荐模块,用于根据所述相似度值确定知识文本数据库中的推荐文本。
18.综上,本技术第二方面实施例提出的系统,通过用户交互模块确定创新概念文本以及根据所述推荐文本确定创新方案;数据获取模块确定知识文本数据库;特征确定模块根据所述创新概念文本以及知识文本数据库确定所述创新概念文本以及知识文本数据库中的特征簇;文本计算模块根据所述特征簇确定所述创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量,之后确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值;文本推荐模块根据所述相似度值确定知识文本数据库中的推荐文本。本技术通过以大量的文本数据为基础,为设计师推荐与创新概念有语义关联的知识,可以辅助设计师将产生的创新概念发展成为设计方案,无需依靠设计师自身的知识和经验来获取知识资源。
19.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
20.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本技术实施例所提供的数据驱动概念设计的流程图;图2为本技术实施例所提供的一种基于数据驱动的创新方案设计方法的流程图;图3为本技术实施例所提供的数据驱动概念设计中方案设计阶段的流程图;图4为本技术实施例所提供的结构特征词汇的抽取、表示与聚类的流程图;图5为本技术实施例所提供的二维空间下的余弦相似度示意图;
图6为本技术实施例所提供的一种基于数据驱动的创新方案设计系统的结构示意图;图7为本技术实施例所提供的创新方案设计系统的架构示意图。
具体实施方式
21.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能理解为对本技术的限制。相反,本技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
22.近年来,数据驱动设计(data-driven design)为辅助设计师产生创新概念提供了很大帮助,图1为本技术实施例所提供的数据驱动概念设计的流程图。如图1所示,在数据驱动设计辅助设计师进行概念设计的过程中,终端通过接收设计师输入的设计问题来生成创新概念,并根据该创新概念进行方案设计,最终对设计的方案进行评价得到设计师需要的创新方案。
23.然而,相关技术中,数据驱动概念设计阶段的研究主要关注于概念产生阶段,即激励设计师产生创新概念,例如:提供广泛的外部灵感激励激发设计构思,挖掘设计机会,很少有研究将数据驱动的方法引入到方案设计阶段的研究中,即利用数据驱动的方法辅助创新概念发展为设计方案的过程,其中,方案设计过程更多的依靠设计师自身的知识和经验以及采用关键词检索的方式获取知识资源,进而由设计师整合相关知识形成设计方案。但是,传统的知识检索为基于关键词的全文索引,设计师主要依靠关键字搜索来获取文本文档。只要任务文档包含查询关键词,基于关键词匹配的传统文档检索就会返回此搜索结果,这无法满足工程设计中设计师对知识文档检索的一些特定需求。
24.实施例1图2为本技术实施例所提供的一种基于数据驱动的创新方案设计方法的流程图。
25.如图2所示,本技术实施例提供的一种基于数据驱动的创新方案设计方法。该方法可依赖于计算机程序实现,可运行于进行创新方案设计的装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
26.其中,创新方案设计装置可以是具有创新方案设计功能的终端,该终端包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,pda)、第五代移动通信技术(5th generation mobile communication technology,5g)网络、第四代移动通信技术(the 4th generation mobile communication technology,4g)网络、第三代移动通信技术(3rd-generation,3g)网络或未来演进网络中的终端等。
27.具体的,该创新方案设计方法包括以下步骤:步骤110,确定创新概念文本以及知识文本数据库,根据创新概念文本以及知识文
本数据库确定创新概念文本以及知识文本数据库中的特征簇;步骤120,根据特征簇确定创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;步骤130,确定每一个知识文本对应的向量与创新概念文本对应的向量之间的相似度值;步骤140,根据相似度值确定知识文本数据库中的推荐文本,根据推荐文本确定创新方案。
28.在本技术实施例中,确定创新概念文本以及知识文本数据库,包括:根据数据获取工具确定知识文本数据库中的知识文本;数据获取工具包括以下至少一种工具:网络爬虫工具、api工具;知识文本包括以下至少一种文本:科技文献文本、产品设计网站中的设计案例文本、专利文本、百度百科文本、产品设计知识库中的文本、设计归档文本、设计知识文本。
29.在本技术实施例中,根据创新概念文本以及知识文本数据库确定创新概念文本以及知识文本数据库中的特征簇,包括:根据自然语言处理工具将知识文本数据库中的知识文本构建为训练语料;根据训练语料训练语言模型,根据训练好的语言模型确定创新概念文本以及知识文本数据库中的特征簇;特征簇包括以下至少一种簇:结构特征簇、组件特征簇。
30.根据一些实施例,特征簇指的是由至少一个具备相同特征的词汇汇聚而成的集合。该特征簇并不特指某一固定簇。例如,当知识文本数据库发生变化时,该特征簇也可以发生变化。当知识文本数据库发生变化时,该特征簇也可以发生变化。该特征簇包括但不限于结构特征簇、组件特征簇等等。
31.在一些实施例中,当终端采用结构特征簇和组件特征簇获取推荐文本时,结构特征簇和组件特征簇对应于产品的实体,可以为设计师提供与创新概念文本有关的结构信息和组件信息能辅助设计师开展结构设计,完成方案设计,可以提高推荐文件获取的准确性,进而提高用户的使用体验。
32.需要说明的是,相关技术中利用数据驱动的方法辅助创新概念发展为设计方案的过程中,单纯的将各文本经过神经网络训练表示为向量,再计算相似性,属于有监督表示学习方法。而本技术实施例基于结构与组件视角来进行相似度计算,不需要标注数据,将知识文本表示为向量时不需要训练网络,属于无监督表示学习方法,更适用于将创新概念发展为具体的创新方案。
33.具体地,产品的结构和组件是构成产品的基本物件,设计师利用这些基本物件对产品的设计进行详细的描述,在仅考虑产品描述的文本数据情况下,所有的产品描述文本即创新概念文本都是用自然语言撰写的,而且产品描述文本中的特征词汇反映了产品的具体结构和组件信息。
34.具体地,图3为本技术实施例所提供的数据驱动概念设计中方案设计阶段的流程图。如图3所示,终端可以从知识文本数据库和创新概念文本中抽取结构特征词汇以及组件特征词汇。终端可以基于该结构特征词汇以及组件特征词汇确定知识文本数据库和创新概念文本对应的结构特征簇以及组件特征簇。进而终端可以基于该结构特征簇以及组件特征
簇确定创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量。最终,终端可以根据创新概念文本对应的向量以及知识文本数据库中每一个知识文本对应的向量确定知识文本数据库中的推荐文本,从而可以为设计师推送含有潜在结构信息的知识文本。
35.在一些实施例。
36.在本技术实施例中,根据训练好的语言模型确定创新概念文本以及知识文本数据库中的特征簇,包括:根据自然语言处理工具从知识文本中抽取特征词汇,特征词汇包括以下至少一种:名词、形容词与名词的组合、名词与名词的组合;根据特征词汇确定知识文本数据库对应的特征词汇集合;根据训练好的语言模型确定特征词汇集合中每一个特征词汇对应的向量;根据特征词汇对应的向量确定特征词汇之间的语义相似度;基于语义相似度利用聚类算法对特征词汇对应的向量进行聚类得到多个特征簇。
37.具体地,特征词汇为名词性术语。
38.具体地,语言模型包括但不限于bert模型、word2vec模型。
39.进一步地,bert模型是一种无监督学习模型,能够将输入文本中的词语表示为分布式低维稠密向量。因此,通过使用bert模型,训练语料中的所有词汇均可以被表示为向量,这些向量之间的余弦相似性反应了训练语料中词汇之间的语义相似性。由于结构特征集合中的词汇是从知识文本中获取的,所以结构特征集合是训练语料中所有词汇的子集,因此,结构特征集合中的每一个词汇都被表示为了一个稠密向量。
40.具体地,利用聚类算法对结构特征词汇进行聚类,即将语义相近的词汇分到同一个簇中,用簇中的词汇对文本中的词汇进行统计和表达,由此,通过聚类的结果来实现文本向量表达的降维。
41.进一步地,聚类簇的数量可以根据需要进行设定。
42.进一步地,结构特征词汇的抽取、表示与聚类的流程如图4所示,其中,在获取到每个结构特征词汇所对应的向量后,使用k均值聚类算法(k-means clustering algorithm)对结构特征词汇进行聚类计算,处于同一个聚类簇中的结构特征被认为是相似的。
43.在本技术实施例中,自然语言处理工具包括以下至少一种:词句分割、词性标注、词形还原、名词分块。
44.在本技术实施例中,根据特征簇确定创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量,包括:根据特征簇的数量确定任一文本对应的向量的维度,每一个特征簇对应一个向量的维度;根据特征簇中的特征词汇在任一文本中出现的次数确定任一文本对应的向量中特征簇对应的维度的数值;文本包括创新概念文本以及知识文本数据库中所有知识文本。
45.在本技术实施例中,确定每一个知识文本对应的向量与创新概念文本对应的向量之间的相似度值,包括:对每一个知识文本对应的向量以及创新概念文本对应的向量进行归一化处理,得
每一个知识文本对应的归一化向量以及创新概念文本对应的归一化向量;根据每一个知识文本对应的归一化向量以及创新概念文本对应的归一化向量确定相似度值。
46.具体地,使用向量空间映射模型将每一个文本表示为一个向量时,向量的维度可以表示为聚类簇的数量,进而可以通过统计每一个聚类簇中的所有词汇在一篇文本中出现的次数,作为此文本的向量中该维度的数值。
47.例如,当利用聚类算法对结构特征词汇进行聚类时,可以获取到包括车辆vehicle、流动性mobility、无人水面艇(unmanned surface vehicle, usv)对应的聚类簇在内的n个聚类簇。进而,可以对创新概念文本、知识文本a中的这n个聚类簇的词频分别进行统计,其中,创新概念文本中存在三个词汇属于流动性mobility对应的聚类簇,存在2个词汇属于聚类簇n,则表示创新概念文本的向量表达的第2维向量数值为3,第n维向量数值为2;知识文本a中存在一个词汇属于车辆vehicle聚类簇,存在三个词汇属于无人水面艇usv聚类簇,则表示知识文本a的向量表达的第1维向量数值为1,第3维向量数值为3。随后,将创新概念文本和所有的知识文本基于文本词频表示成向量,并且对向量做归一化处理,其中,创新概念文本对应的归一化向量中,第2维向量数值归一化为0.0156,第n维向量数值归一化为0.0019;知识文本a对应的归一化向量中,第1维向量数值归一化为0.0067,第3维向量数值归一化为0.0395。
48.在本技术实施例中,确定每一个知识文本对应的向量与创新概念文本对应的向量之间的相似度值,包括:根据以下至少一种方法确定每一个知识文本对应的向量与创新概念文本对应的向量之间的相似度值:余弦相似度、欧氏距离、马氏距离、相关系数。
49.具体地,当根据余弦相似度值确定每一个知识文本对应的向量与创新概念文本对应的向量之间的余弦相似度值时,根据下式确定余弦相似度值:其中,cos(w1,w2)为余弦相似度值,w1=(a1,a2,
⋯
,an)为创新概念文本对应的向量,w2=(b1,b2,
⋯
,bn)为知识文本数据库中任一知识文本对应的向量。
50.具体地,二维空间下的余弦相似度如图5所示,其中,w1与w2更相似。
51.在本技术实施例中,根据相似度值确定知识文本数据库中的推荐文本,根据推荐文本确定创新方案,包括:按照相似度值递减的顺序对知识文本数据库进行排序,前n个知识文本为推荐文本,n为推荐阈值;根据推荐文本得到多个设计方案,对每一个设计方案进行方案评估得到最终的创新方案。
52.以一种场景举例,将从uspto(united states patent and trademark office)获取到的国际专利文本作为知识文本,构建知识文本数据库。将一种无人水面艇(unmanned surface vehicle, usv)的结构描述作为创新概念文本,利用本技术实施例提出的方法从结构和组件的角度为设计师提供丰富的产品设计信息,以辅助设计师利用这些信息配置组
件和结构设计,完成方案设计,具体包括以下步骤:步骤210,确定创新概念文本;usv对水环境的监测有着巨大的帮助,它能够代替人们前往地形复杂、危险的区域进行水质监测,且具有成本低、机动性和效率高等优点。usv作为一个水面平台,一般具有船体、推进系统、动力系统、控制单元和采样装置等结构和组件。因此,将usv的创新概念文本描述如下:水环境是地球生态的重要组成部分,河流系统、湖泊、水库和海洋对社区的可持续发展和人类的生存有着重大影响。水质监测是全世界保护生态环境的重要工作之一。然而,传统技术,如手动水采样和检测、固定监测站和浮标,都有明显的缺点。由于水下河床地形复杂,水流和风会随时间变化以及存在障碍物,人们在河边、湖边和海岸乘船手动采集水样非常危险,效率也很低。在水环境中巡航的无人水面艇(usv)可以自动完成水体采样,具有成本低、机动性高、效率高等优点。这种设计思想是一种可以在整个监测区域内进行水取样的水面平台。usv可以自动或远程控制驱动到指定位置自动采集水样,并记录采集点的全球定位系统(gps)位置信息。此外,平台还配备了障碍物检测、实时路径规划、导航动态控制等功能,在巡航过程中进行避障,采样完成后根据gps路径信息自动返回。
53.步骤220,确定知识文本数据库并根据知识文本数据库训练语言模型;采用2019年在uspto公开的所有专利文本作为知识文本数据库。总共获取到的专利数量为300,386个,由获取的专利标题、摘要和描述内容构建文本语料,同时基于获取的专利文本构建结构词汇集合,获得199,421个结构特征词汇。将获取的专利文本语料构建成训练语料,用于训练bert模型。训练结束后,包括结构特征词汇在内,语料中的每一个词汇均被表示为稠密向量。
54.步骤230,结构特征词汇聚类;利用余弦相似度计算结构特征词汇之间的语义相似度,并基于结构特征词汇之间的语义相似度执行kmeans聚类。结构特征词汇被划分到了400个簇中,例如,第一聚类簇中的词汇包括但不限于平面plane, 角度angle, 速度velocity, 运动motion, 轴axis, 偏心率eccentricity, 重力gravity等等;第二聚类簇中的词汇包括但不限于体积bulk, 生成generation, 容量capacity, 移动性mobility, 保真度fidelity, 微观结构micro-structured等等;第n聚类簇中的词汇包括但不限于化合物compound, 溶剂化物solvate, 同位素isotopic,醇酸盐 alcoholates, 包合物clathrate, 大环macrocycle等等。其中,簇中的词汇均具有较高的语义相似性,不同簇之间则体现了相应的语义距离。
55.步骤240,推荐产品设计信息;基于聚类结果将创新概念文本和300,386个专利文本表示为维度400的稠密向量,通过计算它们之间的余弦相似度完成排序并推荐前200个专利。当从推荐专利中获取到相应的结构部件信息与组件信息时,还可以获取到每个专利对应的附图信息,以及可以从推荐专利中得到相应的结构部件信息与组件信息。
56.例如,可以获取到船体设计ship-hull design对应的美国专利号10414084、10435274、10435118、10399642;可以获取到推进系统propulsion对应的美国专利号10213815、10392763、10427770;可以获取到动力源power source对应的美国专利号10422311、10415539、10407153、10394246;可以获取到控制单元control unit对应的美国专利号10394246、10346766、10402663、10401852;可以获取到采样装置sampling apparatus对应的美国专利号10379012、10350441、10426098、10232505。
57.步骤250,通过组合推荐文本中出现的不同的结构部件信息和组件信息形成数个设计方案,然后通过方案评估筛选出进入实体设计阶段的创新方案。
58.进一步地,将本技术实施例提出的方法与uspto的关键词检索工具进行对比以评估本技术实施例提出的方法,从多学科跨领域知识的角度进行评估推荐效果,具体提出以下两个量化指标对推荐的专利知识进行评估:第一个量化指标:推荐专利涵盖的类别;uspto中的专利均标注了ipc分类标签,且ipc分类含有131个三位数类(3-digit class)的分类号。在评估本技术实施例提出的方法时评估前200个专利涵盖的三位数分类号的数量;涵盖的分类号越多,说明推荐的专利含有更多的多学科跨领域知识。
59.第二个量化指标:各类别中专利分布的方差;统计前200个专利涵盖的三位数分类号中每一个三位数分类号包含的专利数量,前200个推荐专利在131个ipc类别中的分布情况;并计算此数据分布的方差。方差反应了各个类别中专利数量的波动情况,方差越小,说明推荐专利在各个类别中的分布更均匀,即在不同领域均提供了一定数量的设计知识,而非仅集中于几个类别。这有利于跨领域的知识迁移和类比。
60.进一步地,推荐专利在分类号中的分布情况中,共131个分类号。根据对创新概念文本的分析,采用3个关键词在uspto中进行检索,分别是:“无人水面艇unmanned surface vehicle”、“水采样器water sampler”、“unmanned surface vehicle & water sampler”,uspto关键词检索工具返回的结果分别为:124条、159条、0条结果,检索关键词“unmanned surface vehicle”共返回124条检索结果,检索关键词“water sampler”共返回159条检索结果,由于关键词“unmanned surface vehicle & water sampler”返回0条结果。
61.进一步地,本技术实施例提出的方法与uspto检索工具的专利检索对比显示,本技术实施例提出的方法涵盖的ipc类别数最高,达到76个,uspto检索工具涵盖的类别仅为56个;本技术实施例提出的方法返回结果的方差与采用关键词“unmanned surface vehicle”检索返回的结果的方差比较接近,分别为39.497、38.157;而uspto检索工具采用关键词“water sampler”检索返回的结果的方差则高达110.566。从两个量化指标对推荐的专利知识进行评估来分析,本技术实施例提出的方法在多学科跨领域知识的推荐上有很好的效果,这说明本技术实施例提出的方法有助于设计师从数据驱动的角度来进行创新方案设计。
62.综上,本技术实施例提出的方法,通过确定创新概念文本以及知识文本数据库,根据创新概念文本以及知识文本数据库确定创新概念文本以及知识文本数据库中的特征簇;根据特征簇确定创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;确定每一个知识文本对应的向量与创新概念文本对应的向量之间的相似度值;根据相似度值确定知识文本数据库中的推荐文本,根据推荐文本确定创新方案。本技术通过以大量的文本数据为基础,为设计师推荐与创新概念有语义关联的知识,辅助设计师将产生的创新概念发展成为设计方案,无需依靠设计师自身的知识和经验来获取知识资源。
63.为了实现上述实施例,本技术还提出一种基于数据驱动的创新方案设计系统。
64.图6为本技术实施例提供的一种基于数据驱动的创新方案设计系统的结构示意图。
65.如图6所示,一种基于数据驱动的创新方案设计系统,包括:
用户交互模块121,用于确定创新概念文本以及根据推荐文本确定创新方案;数据获取模块122,用于确定知识文本数据库;特征确定模块123,用于根据创新概念文本以及知识文本数据库确定创新概念文本以及知识文本数据库中的特征簇;文本计算模块124,用于根据特征簇确定创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;确定每一个知识文本对应的向量与创新概念文本对应的向量之间的相似度值;文本推荐模块125,用于根据相似度值确定知识文本数据库中的推荐文本。
66.以一个场景举例,本技术实施例提供的创新方案设计系统的架构如图7所示,包括:用户交互模块和知识库模块;知识库模块用于存储和管理数据,以及支持交互模块的工作;具体地,知识库模块包括:网络数据获取模块,由数据获取工具组成,包括但不限于网络爬虫、api工具,用于获取互联网或数据库中的数据,如科技文献数据、产品设计网站上的设计案例、专利数据、百度百科数据等;本地知识库存储模块,包括产品设计知识库、设计归档文件、设计知识文档、文本数据索引、结构映射关系、语义词典,其中,产品设计知识库例如可以是osu的设计知识库,设计归档文件例如可以是设计活动中记录的各种描述性文档,设计知识文档例如可以是科学效应知识;网络数据获取模块获取的知识文本与本地知识库存储模块存储的知识文本共同构成知识文本数据库;文本计算模块,由计算工具构成,包括但不限于语义计算工具、信息抽取工具、结构词汇提取工具、矢量表达工具、聚类工具,用于对文本数据进行处理,以支持设计方法的实现。
67.综上,本技术实施例提出的系统,通过用户交互模块确定创新概念文本以及根据推荐文本确定创新方案;数据获取模块确定知识文本数据库;特征确定模块根据创新概念文本以及知识文本数据库确定创新概念文本以及知识文本数据库中的特征簇;文本计算模块根据特征簇确定创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量,之后确定每一个知识文本对应的向量与创新概念文本对应的向量之间的相似度值;文本推荐模块根据相似度值确定知识文本数据库中的推荐文本。本技术通过以大量的文本数据为基础,为设计师推荐与创新概念有语义关联的知识,辅助设计师将产生的创新概念发展成为设计方案,无需依靠设计师自身的知识和经验来获取知识资源。
68.需要说明的是,在本技术的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
69.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
70.应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
71.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
72.此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
73.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
74.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
75.尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
技术特征:
1.一种基于数据驱动的创新方案设计方法,其特征在于,所述方法包括:确定创新概念文本以及知识文本数据库,根据所述创新概念文本以及知识文本数据库确定所述创新概念文本以及知识文本数据库中的特征簇;根据所述特征簇确定所述创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值;根据所述相似度值确定知识文本数据库中的推荐文本,根据所述推荐文本确定创新方案。2.如权利要求1所述的方法,其特征在于,所述确定创新概念文本以及知识文本数据库,包括:根据数据获取工具确定知识文本数据库中的知识文本;所述数据获取工具包括以下至少一种工具:网络爬虫工具、api工具;所述知识文本包括以下至少一种文本:科技文献文本、产品设计网站中的设计案例文本、专利文本、百度百科文本、产品设计知识库中的文本、设计归档文本、设计知识文本。3.如权利要求1所述的方法,其特征在于,所述根据所述创新概念文本以及知识文本数据库确定所述创新概念文本以及知识文本数据库中的特征簇,包括:根据自然语言处理工具将所述知识文本数据库中的知识文本构建为训练语料;根据所述训练语料训练语言模型,根据训练好的语言模型确定所述创新概念文本以及知识文本数据库中的特征簇;所述特征簇包括以下至少一种簇:结构特征簇、组件特征簇。4.如权利要求3所述的方法,其特征在于,所述根据训练好的语言模型确定所述创新概念文本以及知识文本数据库中的特征簇,包括:根据自然语言处理工具从所述知识文本中抽取特征词汇,所述特征词汇包括以下至少一种:名词、形容词与名词的组合、名词与名词的组合;根据所述特征词汇确定知识文本数据库对应的特征词汇集合;根据训练好的语言模型确定所述特征词汇集合中每一个特征词汇对应的向量;根据所述特征词汇对应的向量确定特征词汇之间的语义相似度;基于所述语义相似度利用聚类算法对所述特征词汇对应的向量进行聚类得到多个特征簇。5.如权利要求3或4所述的方法,其特征在于,所述自然语言处理工具包括以下至少一种:词句分割、词性标注、词形还原、名词分块。6.如权利要求1所述的方法,其特征在于,所述根据所述特征簇确定所述创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量,包括:根据所述特征簇的数量确定任一文本对应的向量的维度,每一个特征簇对应一个向量的维度;根据特征簇中的特征词汇在任一文本中出现的次数确定任一文本对应的向量中特征簇对应的维度的数值;所述文本包括创新概念文本以及知识文本数据库中所有知识文本。7.如权利要求1所述的方法,其特征在于,所述确定每一个知识文本对应的向量与所述
创新概念文本对应的向量之间的相似度值,包括:对每一个知识文本对应的向量以及创新概念文本对应的向量进行归一化处理,得每一个知识文本对应的归一化向量以及创新概念文本对应的归一化向量;根据所述每一个知识文本对应的归一化向量以及创新概念文本对应的归一化向量确定所述相似度值。8.如权利要求1所述的方法,其特征在于,所述确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值,包括:根据以下至少一种方法确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值:余弦相似度、欧氏距离、马氏距离、相关系数。9.如权利要求1所述的方法,其特征在于,所述根据所述相似度值确定知识文本数据库中的推荐文本,根据所述推荐文本确定创新方案,包括:按照相似度值递减的顺序对知识文本数据库进行排序,前n个知识文本为推荐文本,n为推荐阈值;根据所述推荐文本得到多个设计方案,对每一个设计方案进行方案评估得到最终的创新方案。10.一种基于数据驱动的创新方案设计系统,其特征在于,所述系统包括:用户交互模块,用于确定创新概念文本以及根据所述推荐文本确定创新方案;数据获取模块,用于确定知识文本数据库;特征确定模块,用于根据所述创新概念文本以及知识文本数据库确定所述创新概念文本以及知识文本数据库中的特征簇;文本计算模块,用于根据所述特征簇确定所述创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;确定每一个知识文本对应的向量与所述创新概念文本对应的向量之间的相似度值;文本推荐模块,用于根据所述相似度值确定知识文本数据库中的推荐文本。
技术总结
本申请涉及人工智能技术领域,尤其涉及一种基于数据驱动的创新方案设计方法和系统。其中,一种基于数据驱动的创新方案设计方法,包括:确定创新概念文本以及知识文本数据库,根据创新概念文本以及知识文本数据库确定创新概念文本以及知识文本数据库中的特征簇;根据特征簇确定创新概念文本对应的向量以及知识文本数据库中所有知识文本对应的向量;确定每一个知识文本对应的向量与创新概念文本对应的向量之间的相似度值;根据相似度值确定知识文本数据库中的推荐文本,根据推荐文本确定创新方案。采用上述方案的本申请可以为设计师推荐与创新概念有语义关联的知识,可以辅助设计师将产生的创新概念发展成为设计方案。师将产生的创新概念发展成为设计方案。师将产生的创新概念发展成为设计方案。
技术研发人员:王凯 王恒 刘启虞 李彦 赵武 李文强 李翔龙
受保护的技术使用者:四川大学
技术研发日:2022.03.10
技术公布日:2022/4/15
转载请注明原文地址:https://win.8miu.com/read-1144748.html