几何结构的信息保留,是GDP 方法最大的亮点。在做数据挖掘时,多模型其实都是靠这些多维结构来提效的,比如聚类分类回归这些任务。GDP 不是那种一味加噪音的扰动方法,而是更聪明地保留了重要结构,这点蛮值得一试。

GDP 方法的私密性也挺有意思。作者还搞了个多列隐私评估框架,可以评估在不同攻击手法下的防护效果。尤其适合那种数据外包到云端的应用场景,既保护了隐私,又不牺牲模型效果。

实验部分也挺给力。对比了随机投影等其他方法,GDP 的模型表现还挺稳,隐私也没掉链子。如果你经常搞隐私计算或者数据共享相关的项目,这篇文章的思路和方法可以参考参考,真不是纸上谈兵。

顺带说下,作者陈可可之前在数据扰动这一块就做了不少工作,这篇也算是她这条线上的深化升级。嗯,推荐给你,是做云计算安全数据挖掘的,拿去试试。