数据挖掘算法的代码集合,真的是个宝藏。分类、聚类、关联、图挖掘、序列模式通通都有,像Apriori、KMeans、PageRank这些经典的都有代码实现,写得挺清楚的。
每种算法都有对应的包名
和目录结构
,而且大部分还带了调用方法。比如你想试下KNN
,直接看对应的Client
类就能跑起来,输入格式也都有规范示例,挺省事。
算法分得也比较细:分类(Classification)、聚类(Clustering)、序列模式(SequentialPatterns)、统计学习(StatisticalLearning)等,连粗糙集和图挖掘都有照顾到,像gSpan
和RoughSets
,这类在平时项目中不常见但研究时挺有用的。
而且还有一堆经典算法的扩展版本,比如MSApriori
(多支持度 Apriori)和GA_Maze
(遗传算法解迷宫),看着就有点意思,适合喜欢鼓捣算法的朋友。
你要是正好在研究 DM 算法,又想找点能跑的代码试试,不妨翻翻这个资源,结构清晰,调用也方便,适合拿来测试和练手。如果你是搞教学、竞赛、建模实验的,也挺合适。