频繁模式挖掘的隐私保护,老实说还挺让人头疼的。一方面你得保证数据挖得准,另一方面又不能让用户的隐私裸奔。差分隐私就挺有意思,它靠往数据里加点“噪声”,让你挖不出具体个人的信息,但整体模式又还能看出来。

这篇综述对差分隐私下的几种频繁模式挖掘方法讲得蛮细,像基于直方图的、基于树结构的,还有基于压缩数据结构的。每种都举了例子,优缺点也得清楚,不会太枯燥,适合你了解当前都有哪些主流做法。

对比部分也挺实用,比如哪种方法适合大数据场景、哪种适合模式量多的情况。读完之后心里会比较有谱,知道该选哪条路去试。

文章还提了几个未来的方向,像是结合联邦学习、引入深度模型啥的,嗯...有点前沿但不虚浮,给人启发挺大的。

如果你平时搞数据挖掘,或者正折腾隐私保护相关功能,建议收藏下来。有空的时候翻一翻,灵感就来了。