一种基于呕吐物气味的疾病预测系统的制作方法

专利检索2022-05-11 30

1.本发明涉及人工智能领域，尤其涉及一种基于呕吐物气味的疾病预测系统。

背景技术：

2.一般来说，人体是没有异常气味的，当人患某些疾病时,有时可以通过身体皮肤粘膜、呼吸道分泌物、胃肠道的呕吐物和排泄物发出异常气味，通过辨别这些异常气味可以帮助我们预测疾病，了解健康状况。
3.现有的临床医学上对呕吐物气味的鉴别诊断方法都是通过检测人员对呕吐物样本进行气味鉴别，并根据气味相似性进行归类，实际上，有些疾病之间的症状非常相似，所以通过人工辨别的方法并不准确。

技术实现要素：

4.有鉴于此，本发明提出了一种基于呕吐物气味的疾病预测系统，用于解决现有技术中一些呕吐物气味非常相似，难以区分，从而影响疾病诊断结果的问题。
5.本发明的技术方案是这样实现的：
6.本发明提供了一种基于呕吐物气味的疾病预测系统，所述基于呕吐物气味的疾病预测系统包括：信息获取模块、词典建立模块、匹配模块以及预测模块；
7.信息获取模块，用于采集历史呕吐物气味数据，获取历史呕吐物气味特征信息以及对应的疾病征兆特征信息；
8.词典建立模块，用于根据历史呕吐物气味的特征信息及对应的疾病征兆特征信息，计算每个历史呕吐物气味特征信息的权重值，建立词典集合；
9.匹配模块，用于获取待检测呕吐物气味数据，通过改进的lda算法对待检测呕吐物气味数据进行特征提取，得到待匹配呕吐物气味特征信息，通过斯皮尔曼等级相关系数计算待匹配呕吐物气味特征信息与词典集合中呕吐物气味特征信息的相似度，根据相似度确定呕吐物气味特征信息及对应的权重值；
10.预测模块，用于根据待检测呕吐物气味数据中待匹配呕吐物气味特征信息对应的权重值确定待匹配呕吐物气味对应的疾病征兆特征信息，并生成疾病预测报告。
11.在以上技术方案的基础上，优选的，所述词典建立模块包括权重值计算模块，用于计算历史呕吐物气味特征信息中每个历史呕吐物气味特征信息出现的次数，根据出现的次数给每个历史呕吐物特征信息赋予权重值，出现的次数越多则权重值越大。
12.进一步优选的，所述词典建立模块还包括关系库组成模块，用于将带有权重值的历史呕吐物信息特征信息与对应的疾病征兆特征信息进行关联，每个疾病征兆特征信息至少关联一个带有权重值的历史呕吐物特征信息。
13.在以上技术方案的基础上，优选的，所述匹配模块包括特征提取模块，用于通过改进的lda算法建立lda模型对待检测呕吐物气味数据进行特征提取。
14.进一步优选的，所述通过改进的lda算法建立lda模型的主要步骤包括：
15.s1，通过textrank算法从待检测呕吐物气味数据中获取各个候选的关键特征，所有的关键特征构成语料库，对其中每个文档的每个词语随机分配一个主题编号z；
16.s2，对语料库进行扫描，语料库中的每个词语w，都要通过吉布斯抽样对每个词语进行抽样；
17.s3，对步骤s2进行迭代，当吉布斯抽样收敛停止时，得到参数α和β的值；
18.s4，对语料库中的文档-主题矩阵和主题-词语矩阵频率进行统计，得到经过训练的lda模型。
19.进一步优选的，步骤s1过程中，通过textrank算法从待检测呕吐物气味数据中获取各个候选的关键特征，还包括：
20.将给定的文档数据进行分词处理，将每个分词视为一个节点，将各个节点之间的联系作为边构建词图模型，该模型可以定义为：
21.g＝(v,e)
22.式中，v是节点集合，由文档中的词语组成；e是这些节点之间边的集合；
23.给定一个目标节点vi，其计算公式为：
[0024][0025]
式中，ws(vi)表示目标节点vi所在的句子i的权重，d为阻尼系数，1-d表示某一节点跳到另一节点的概率，in(vi)表示对于特定节点vi，方向指向该节点的点集合，out(vj)表示节点vj指向其他节点的集合，w
ji
和w
jk
指两节点之间的边的权重值。
[0026]
进一步优选的，步骤s2中，通过吉布斯抽样对每个词语进行抽样，还包括：lda模型的采样公式为：
[0027][0028]
式中，zi表示语料库中第i个词对应的主题，其中，i＝(m,n)是一个二维下标，即语料库中第i个词对应的第m篇文档中的第n个词，我们用表示去除下标为i的词，表示任一坐标轴i对应的条件分布，k表示第m篇文章中主题的总数，表示第m篇文档中第k个主题的词的个数，v表示第k个主题中词的总数，表示第k个主题中中第t个词的个数，α和β为狄利克雷分布的参数向量。
[0029]
进一步优选的，对lda进行高斯加权，以提高中频词语的权重，降低高频词语的权重；
[0030]
对文档中的任一词语进行加权，计算公式为：
[0031][0032]
其中，σ2表示方差，fw表示词语w在文档中的词频数，fi表示在整个词频数集合中词
频居中的词语i的词频数。
[0033]
在以上技术方案的基础上，优选的，所述匹配模块还包括相似度比较模块，用于通过斯皮尔曼等级相关系数计算待匹配呕吐物气味特征信息与词典集合中呕吐物气味特征信息的相似度，根据待匹配呕吐物气味特征信息将词典集合中相似度最大的呕吐物气味特征信息进行标记，并获取该呕吐物气味特征信息对应的权重值。
[0034]
进一步优选的，所述预测模块具体用于获取与待匹配呕吐物气味特征信息相似的词典集合中的呕吐物气味特征信息权重值，并找到对应的疾病征兆特征信息；
[0035]
若该疾病征兆特征信息在词典集合中仅关联一个与待匹配呕吐物气味特征信息相似的呕吐物气味特征信息，那么将该呕吐物气味特征信息作为最终的权重值；
[0036]
若该疾病征兆特征信息在词典集合中关联两个或两个以上与待匹配呕吐物气味特征信息相似的呕吐物气味特征信息，那么将所有相似的呕吐物气味特征信息权重值进行累加，得到最终权重值；
[0037]
对所有最终权重值进行比较，将最终权重值最大的疾病征兆特征信息作为最终疾病预测结果，生成疾病预测报告。
[0038]
本发明的一种基于呕吐物气味的疾病预测系统，相对于现有技术具有以下有益效果：
[0039]
(1)通过获取历史呕吐物气味特征信息以及对应的疾病征兆信息建立词典集合，并给每个历史呕吐物气味数据赋予权重值，然后比较待匹配呕吐物气味特征信息与词典集合中的呕吐物气味特征信息的相似度，获取不同的呕吐物气味特征信息权重值，将对应的权重值进行累加和比较，提高对疾病预测的准确性；
[0040]
(2)通过改进的lda算法提取待检测呕吐物气味数据中的特征信息，能够提取出更加准确的关键词，从而实现精确的疾病预测；
[0041]
(3)通过textrank算法优化lda算法，利用textrank算法初步筛选出各个候选的关键特征，再通过lda算法对各个候选的关键特征进行扩展，提高了最终得到的特征信息的精确性和有效性；
[0042]
(4)对lda算法中的中频词语进行加权，提高了中频词语的权重，降低了高频词语的权重，有利于筛选出更加关键的特征信息。
附图说明
[0043]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0044]
图1为本发明一种基于呕吐物气味的疾病预测系统的结构图；
[0045]
图2为本发明一种基于呕吐物气味的疾病预测系统中采用改进的lda算法建立lda模型的步骤流程图；
具体实施方式
[0046]
下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地
描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。
[0047]
本实施例提供一种基于呕吐物气味的疾病预测系统，如图1所示，其包括：信息获取模块10、词典建立模块20、匹配模块30以及预测模块40；
[0048]
信息获取模块10，用于采集历史呕吐物气味数据，获取历史呕吐物气味特征信息以及对应的疾病征兆特征信息；
[0049]
应当理解的是，通过呕吐物气味的特征信息能够确认对应的疾病征兆特征信息。例如：呕吐物呈粪臭味，其疾病征兆为在小肠后部因呕吐物已成为粪便，一般可能为肠梗阻、便秘等疾病；呕吐物气味带发酵、腐败气味其疾病表现为胃潴留；呕吐物气味呈腐臭味，可能为误食腐败变质肉类食物中毒；呕吐物有粪臭味儿，考虑很可能是肠梗阻引起的症状；呕吐物气味带有蒜臭味，可能为磷化锌中毒；呕吐物气味呈核桃臭味，可能为氰氢酸食物中毒，即过食杏仁、桃仁等。
[0050]
词典建立模块20，用于根据历史呕吐物气味的特征信息及对应的疾病征兆特征信息，计算每个历史呕吐物气味特征信息的权重值，建立词典集合；
[0051]
应当理解的是，将呕吐物气味的特征信息及其对应的疾病征兆特征信息进行关联。例如：呕吐物气味如果带有一种特殊的酸腐气味，那么一般提示食物在胃中停留时间过长，形成了积食或积滞；另外，积食或积滞的主要症状有：腹胀、腹痛、嗳气、打嗝、呕吐、反酸等。积食呕吐物一般带有酸腐味气味；再比如，如果呕吐物颜色呈黄色或草绿色，呈现苦味，一般提示为幽门功能紊乱的胆汁返流性胃炎；另外，汁反流性胃炎的症状主要有烧心、反酸、腹痛、腹胀、恶心、呕吐、纳差等。汁反流性胃炎的呕吐物一般带有胆汁的气味等等；基于上述样本，进行自然语言出理与标注如下：积食或积滞的词典模型为：呕吐—呕吐物—酸腐味气味，表现：腹胀、腹痛、嗳气、打嗝、呕吐、反酸等。；胆汁返流性胃炎的词典模型为：呕吐—呕吐物—胆汁气味—呈现苦味，表现：烧心、反酸、腹痛、腹胀、恶心、呕吐、纳差等。
[0052]
所述词典建立模块20包括权重值计算模块201，用于计算历史呕吐物气味特征信息中每个历史呕吐物气味特征信息出现的次数，根据出现的次数给每个历史呕吐物特征信息赋予权重值，出现的次数越多则权重值越大。
[0053]
所述词典建立模块20还包括关系库组成模块202，用于将带有权重值的历史呕吐物信息特征信息与对应的疾病征兆特征信息进行关联，每个疾病征兆特征信息至少关联一个带有权重值的历史呕吐物特征信息。
[0054]
匹配模块30，用于获取待检测呕吐物气味数据，通过改进的lda算法对待检测呕吐物气味数据进行特征提取，得到待匹配呕吐物气味特征信息，通过斯皮尔曼等级相关系数计算待匹配呕吐物气味特征信息与词典集合中呕吐物气味特征信息的相似度，根据相似度确定呕吐物气味特征信息及对应的权重值；
[0055]
所述匹配模块30包括特征提取模块301，用于通过改进的lda算法建立lda模型对待检测呕吐物气味数据进行特征提取；
[0056]
所述匹配模块30还包括相似度比较模块302，用于通过斯皮尔曼等级相关系计算待匹配呕吐物气味特征信息与词典集合中呕吐物气味特征信息的相似度，根据待匹配呕吐物气味特征信息将词典集合中相似度最大的呕吐物气味特征信息进行标记，并获取该呕吐
物气味特征信息对应的权重值。
[0057]
可以理解的是，lda是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布，lda是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息，但是ld模型所使用的词袋假设不能很好地考虑单词和句子的位置以及句子、文档和文档集合之间的结构关系，textrank是一种简单好用的特征提取算法，其优点是完全可以脱离语料库的背景，仅仅通过一篇文档内部词语之间的共现信息就能够直接在其中抽取一个关键词，其在计算句子权重过程中充分考虑词项之间、句子之间或词与句子之间的全局关系，因此，将两种算法相结合，恰好可以弥补lda模型的不足。
[0058]
如图2所示，本实施例通过改进的lda算法建立lda模型的主要步骤包括：
[0059]
s1，通过textrank算法从待检测呕吐物气味数据中获取各个候选的关键特征，所有的关键特征构成语料库，对其中每个文档的每个词语随机分配一个主题编号z；
[0060]
s2，对语料库进行扫描，语料库中的每个词语w，都要通过吉布斯抽样对每个词语进行抽样；
[0061]
s3，对步骤s2进行迭代，当吉布斯抽样收敛停止时，得到参数α和β的值；
[0062]
s4，对语料库中的文档-主题矩阵和主题-词语矩阵频率进行统计，得到经过训练的lda模型。
[0063]
步骤s1过程中，通过textrank算法从待检测呕吐物气味数据中获取各个候选的关键特征，还包括：
[0064]
将给定的文档数据进行分词处理，将每个分词视为一个节点，将各个节点之间的联系作为边构建词图模型，该模型可以定义为：
[0065]
g＝(v,e)
[0066]
式中，v是节点集合，由文档中的词语组成；e是这些节点之间边的集合；
[0067]
给定一个目标节点vi，其计算公式为：
[0068][0069]
式中，ws(vi)表示目标节点vi所在的句子i的权重，d为阻尼系数，1-d表示某一节点跳到另一节点的概率，in(vi)表示对于特定节点vi，方向指向该节点的点集合，out(vj)表示节点vj指向其他节点的集合，w
ji
和w
jk
指两节点之间的边的权重值。
[0070]
步骤s2中，通过吉布斯抽样对每个词语进行抽样，还包括：lda模型的采样公式为：
[0071][0072]
式中，zi表示语料库中第i个词对应的主题，其中，i＝(m,n)是一个二维下标，即语料库中第i个词对应的第m篇文档中的第n个词，我们用表示去除下标为i的词，
表示任一坐标轴i对应的条件分布，k表示第m篇文章中主题的总数，表示第m篇文档中第k个主题的词的个数，v表示第k个主题中词的总数，表示第k个主题中中第t个词的个数，α和β为狄利克雷分布的参数向量。
[0073]
lda算法经过训练得到的主题分布一般会偏向高频词汇，针对词汇的幂率分布问题，需要对中频词语进行加权，因此，在本实施例中，对lda进行高斯加权，以提高中频词语的权重，降低高频词语的权重；
[0074]
对文档中的任一词语进行加权，计算公式为：
[0075][0076]
其中，σ2表示方差，fw表示词语w在文档中的词频数，fi表示在整个词频数集合中词频居中的词语i的词频数。
[0077]
预测模块40，用于根据待检测呕吐物气味数据中待匹配呕吐物气味特征信息对应的权重值确定待匹配呕吐物气味对应的疾病征兆特征信息，并生成疾病预测报告。
[0078]
可以理解的是，计算待匹配呕吐物气味特征信息与词典集合中呕吐物气味特征信息的相似度的方法有很多种，例如余弦相似度、皮尔森相关系数、jaccard相似系数、tanimoto系数，均为现有技术，本实施例中采用的是斯皮尔曼等级相关数来计算。
[0079]
以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

转载请注明原文地址:https://win.8miu.com/read-950324.html

专利

最新回复(0)