Privacy Preserving Approximate K-means Clustering Chandan notes

Biswas C, Ganguly D, Roy D, et al. Privacy Preserving Approximate K-means Clustering[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019: 1321-1330.

CIKM 19

Abstract

保护隐私的计算在云计算环境中十分重要，因为客户端需要上传数据到不可信的网络中，网络如果被窃听或者服务器上的恶意软件都会造成信息的泄露。为了防止这种事情，本文提出把输入数据编码以达到两个要求：编码后的数据很难被解码回去；计算结果要和使用原始数据的差别不大。本文针对的K-means聚类算法在数据挖掘中很常用，提出的方案将只需要二进制编码数据，不允许在计算的其他阶段有任何介入。在计算的中间阶段，可以有效的处理具有不完整信息的输入，以寻求产生相对接近于完整信息（未编码）的输出。实验结果表明在图像聚类(MNIST-8M dataset)上可以达到与标准K-means差不多的效果，在文本聚类(ODPtweets dataset)上比标准K-means还好。