几何结构的信息保留,是GDP 方法
最大的亮点。在做数据挖掘时,多模型其实都是靠这些多维结构来提效的,比如聚类
、分类
、回归
这些任务。GDP 不是那种一味加噪音的扰动方法,而是更聪明地保留了重要结构,这点蛮值得一试。
GDP 方法的私密性也挺有意思。作者还搞了个多列隐私评估框架
,可以评估在不同攻击手法下的防护效果。尤其适合那种数据外包到云端的应用场景,既保护了隐私,又不牺牲模型效果。
实验部分也挺给力。对比了随机投影
等其他方法,GDP 的模型表现还挺稳,隐私也没掉链子。如果你经常搞隐私计算
或者数据共享
相关的项目,这篇文章的思路和方法可以参考参考,真不是纸上谈兵。
顺带说下,作者陈可可之前在数据扰动
这一块就做了不少工作,这篇也算是她这条线上的深化升级。嗯,推荐给你,是做云计算
、安全数据挖掘
的,拿去试试。