基于迭代二分聚类的K-匿名机制

TP391; 随着数据共享在各个领域的深入应用,对于数据所包含的个体隐私保护问题日益突出,同时K-匿名作为一种隐私保护的先进理论也被广泛应用于数据的共享与分发.但是K-匿名作为一种通过概化数据实现隐私保护的方式,不可避免地会造成一定的信息损失,因此如何在满足K-匿名的前提下,尽可能保证数据可用性、减少信息损失量则是一个值得研究的问题.对于此,针对数值型数据提出了一种基于迭代二分聚类的K-匿名算法KABIBC(K-anonymous algorithm based on iterative binary clustering)实现 K-匿名.首先定义了组内距离之和 WGSD(within-gro...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	信息安全研究 2023, Vol.9 (5), p.402-411
Hauptverfasser:	王涛, 谭虎, 徐亭亭, 辛保江, 刘刚, 周潘
Format:	Artikel
Sprache:	chi
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	TP391; 随着数据共享在各个领域的深入应用,对于数据所包含的个体隐私保护问题日益突出,同时K-匿名作为一种隐私保护的先进理论也被广泛应用于数据的共享与分发.但是K-匿名作为一种通过概化数据实现隐私保护的方式,不可避免地会造成一定的信息损失,因此如何在满足K-匿名的前提下,尽可能保证数据可用性、减少信息损失量则是一个值得研究的问题.对于此,针对数值型数据提出了一种基于迭代二分聚类的K-匿名算法KABIBC(K-anonymous algorithm based on iterative binary clustering)实现 K-匿名.首先定义了组内距离之和 WGSD(within-group sum of distance),并将数据表中的所有元组视为一个聚类,而后采用迭代的策略对其进行二分聚类,对于得到的子聚类采用同样的方式递归进行处理,并且在二分聚类时基于最小化信息损失量的原则合理调整2个子聚类的元组分配,直到得到满足K-匿名要求的最小子聚类,从而保证信息损失量趋于最优.给出了理论和实验分析,表明此机制有效减少了信息损失,同时有较高的运行效率.
ISSN:	2096-1057
DOI:	10.12379/j.issn.2096-1057.2023.05.01