Web 序列模式挖掘的玩法挺有意思,WAP 算法算是老牌选手了,不过论文研究-NJW 在离群数据挖掘中的应用研究.pdf
里讲了个小改进,挺实用。嗯,少了条件树那道坎,跑得快,代码也简单,适合做二次开发。
序列模式挖掘里,PrefixSpan也比较火,跟 WAP 对比着学效果更好。要是用Python
撸个小工具,推荐看下Python 编程实现序列模式挖掘算法,样例清晰。
搞离群数据挖掘,别忘了性能,改算法的时候多打点日志,看看运行时间
和内存。哦,对了,顺手可以看下序列模式挖掘研究综述,对比一下方法。
如果你要在生产上跑,记得条件树越少越稳,数据量大的话,不如先用PrefixSpan
跑小样本测测。