基于随机森林的肝脏疾病数据分类规则提取的方法

本发明提出一种基于随机森林的肝脏疾病数据分类规则提取的方法,包括:步骤1:对肝脏疾病中不平衡或者不规则的数据进行预处理,通过SMOTE(合成少数过采样技术)获得肝脏疾病数据集;步骤2:利用随机森林模型对肝脏疾病数据集进行二进制稀疏编码,获得肝脏疾病规则集;步骤3:对肝脏疾病规则集进行弹性范数稀疏编码规则提取,获得编码肝脏疾病规则集;步骤5:进行原始数据验证,生成最终规则集。本发明提出的结合L1和L2范数的弹性范数规则提取和特征选择方法使本发明方法不仅可以选择相对较少的特征,并可以提高泛化能力,提高分类精度。本发明提出的二次规则提取与验证方法大大提升了生成规则的可信度。 The inventio...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Format: Patent
Sprache:chi
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:本发明提出一种基于随机森林的肝脏疾病数据分类规则提取的方法,包括:步骤1:对肝脏疾病中不平衡或者不规则的数据进行预处理,通过SMOTE(合成少数过采样技术)获得肝脏疾病数据集;步骤2:利用随机森林模型对肝脏疾病数据集进行二进制稀疏编码,获得肝脏疾病规则集;步骤3:对肝脏疾病规则集进行弹性范数稀疏编码规则提取,获得编码肝脏疾病规则集;步骤5:进行原始数据验证,生成最终规则集。本发明提出的结合L1和L2范数的弹性范数规则提取和特征选择方法使本发明方法不仅可以选择相对较少的特征,并可以提高泛化能力,提高分类精度。本发明提出的二次规则提取与验证方法大大提升了生成规则的可信度。 The invention provides a random forest-based liver disease data classification rule extraction method, which comprises the following steps of: 1, preprocessing unbalanced or irregular data in liver diseases, and obtaining a liver disease data set through SMOTE (synthetic minority of oversampling technologies); 2, performing binary sparse coding on the liver disease data set by utilizing a random forest model to obtain a liver disease rule set; Step 3, performing elastic norm sparse coding rule extraction on the liver disease rule set to obtain a coded liver disease rule set; and 5, verifying the original data to generate a final rule set. According to the elastic norm rule extraction and feature selection method combining the