本发明涉及机器学习,具体涉及一种基于逐层特征提取的非对称多层网络聚类方法。
背景技术:
1、聚类算法是无监督学习的一种,其目的是在这些未标记的数据中发现自然分组或模式,它不依赖数据样本的人工标注,在使用过程中会按照特定的标准将数据集样本划分为不同的类或簇,使得类间数据样本区别较大,类内数据样本较为相似,从而达到划分数据集区分样本的目的。
2、传统聚类算法例如k-means++算法,尽管该算法能保持初始簇心不变,但是随着聚类数量的增加,各个簇之间的结果可能变得相似,结果不够明显,此外,该算法的聚类结果在同一层次,不能有效地揭示数据的内部结构,难以对数据进行深层次的探究。因此,本发明旨在提出一种基于逐层特征提取的非对称多层网络聚类方法,该模型在不随意改变初始簇心基础上,通过多层次聚类,使得聚类结果更加清晰立体化,有效揭示数据的内部结构,非对称的聚类在对数据深入分析的同时,避免了分析过度化,使得聚类结构层次明显,有利于在高维空间中得到更好的聚类结果。
技术实现思路
1、(一)解决的技术问题
2、有鉴于此,为了达到上述目的,本发明的目的是提供一种基于逐层特征提取的非对称多层网络聚类方法
3、(二)技术方案
4、为了达到上述目的,本发明采用以下的技术方案:
5、一种基于逐层特征提取的非对称多层网络聚类方法,包括以下步骤:
6、步骤1:数据导入,通过处理重复值、缺失值、异常值对数据进行预处理,提取关键特征;
7、步骤2:确定非对称多层网络聚类框架中第n(n∈z+,n从1开始取值)层的最佳聚类数量,选择最优k值;
8、步骤3:对第n层进行逐层特征提取的非对称多层网络聚类;
9、步骤4:迭代步骤2和3,进行逐层顺次聚类,直到聚类结果不再显示任何显著特征;
10、步骤5:聚类结果输出与可视化。
11、(三)有益效果
12、本发明相比于传统k-means++聚类算法,本算法在不随意改变初始簇心基础上,通过多层次聚类,使得聚类结果更加清晰立体化,非对称的聚类在对数据深入分析的同时,避免了分析过度化,使得聚类结构层次明显,有利于在高维空间中得到更好的聚类结果。
1.一种基于逐层特征提取的非对称多层网络聚类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于逐层特征提取的非对称多层网络聚类方法,其特征在于,步骤1中数据导入,通过处理重复值、缺失值、异常值对数据进行预处理,提取关键特征,数据预处理选择包括对数据的整理和清洗,如删除重复项,根据数据类型填补缺失值(如中位数或者众数填充),分类变量设置为虚拟变量等,通过深入分析数据集,选择那些对于聚类目标最具影响力的特征。
3.根据权利要求1所述的一种基于逐层特征提取的非对称多层网络聚类方法,其特征在于,步骤2中的确定非对称多层网络聚类框架中第n(n∈z+,n从1开始取值)层的最佳聚类数量,选择最优k值,根据肘部法则确定最佳聚类数量(k值),肘部法则计算公式如下:
4.根据权利要求1所述的一种基于逐层特征提取的非对称多层网络聚类方法,其特征在于,步骤3中对第n层进行逐层特征提取的非对称多层网络聚类为:
5.根据权利要求1所述的一种基于逐层特征提取的非对称多层网络聚类方法,其特征在于,步骤4中迭代步骤2和3,进行逐层顺次聚类,直到聚类结果不再显示任何显著特征,具体为分析当前聚类结果并识别聚类结果中的显著特征。若聚类显示出明显的特征,则根据这一特征将数据进一步细分,并在这些子集上重新执行聚类过程(步骤2-3)。此过程将逐层顺次进行,直到聚类结果不再显示任何显著特征。
