数据挖掘算法的合集资源还挺难找的,尤其是带源码和文档的那种。这份叫DataMining20070102
的压缩包就蛮实用,主要聚焦在四个经典算法上:关联规则、K-均值聚类、模糊聚类和K-中心点聚类,都是老少咸宜的“硬菜”。
用过Apriori
的你肯定知道,挖掘“买了 A 也会买 B”这种规律适合搞促销和推荐系统,里面有完整的逻辑,support
和confidence
的计算方式也说得清楚,嗯,挺适合初学者。
K-均值聚类部分,写得比较细,尤其是怎么选K
值,有提到肘部法则
这些常用技巧。你要是数据量大点,它的速度还是蛮可观的。源码部分用的也是MATLAB
,跑起来挺顺。
说到模糊聚类,多人一开始搞不懂为啥一个点能属于多个类,其实就像朋友圈,谁没几个圈子?C-Means
算法就用了隶属度来模糊边界,那些重叠数据集还挺香。
还有K-中心点聚类,有点像K-means
的兄弟,不过优化目标不同,它更适合非对称的簇结构,也不太挑初始点,对新手来说省心不少。
对了,里面还有一些比较不错的资源链接,像K 均值聚类算法和Apriori 关联规则算法,要深入研究的可以点进去看看。
如果你最近刚好在做商业、社交网络建模,或者就是想搞清楚聚类怎么回事儿,那这个资源你可以下下来折腾下,真的还不错。