Biswas C, Ganguly D, Roy D, et al. Privacy Preserving Approximate K-means Clustering[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019: 1321-1330.
CIKM 19
Abstract
保护隐私的计算在云计算环境中十分重要,因为客户端需要上传数据到不可信的网络中,网络如果被窃听或者服务器上的恶意软件都会造成信息的泄露。为了防止这种事情,本文提出把输入数据编码以达到两个要求:编码后的数据很难被解码回去;计算结果要和使用原始数据的差别不大。本文针对的K-means聚类算法在数据挖掘中很常用,提出的方案将只需要二进制编码数据,不允许在计算的其他阶段有任何介入。在计算的中间阶段,可以有效的处理具有不完整信息的输入,以寻求产生相对接近于完整信息(未编码)的输出。 实验结果表明在图像聚类(MNIST-8M dataset)上可以达到与标准K-means差不多的效果,在文本聚类(ODPtweets dataset)上比标准K-means还好。