数据挖掘的经典十算法合集,真的挺实用的。像是C4.5、K-Means、SVM这些老牌算法都涵盖了,而且讲得也蛮清楚。每种算法都有简介、原理和应用场景,阅读起来不费劲,适合你拿来快速回顾或者初学者入门参考。
C4.5 的连续属性做得还不错,像客户分类、信用评分这类数据复杂的任务挺常用。要是你平时用Python
或者Matlab
跑分类模型,可以顺便参考一下里面附的源码链接,能节省不少时间。
K-Means 聚类也有提,而且还了C++
和Python
版本实现。用来做市场细分或者用户画像是比较合适的,代码也比较好上手。
支持向量机(SVM)讲得也挺细,从超平面到核函数都有提到,文本分类、人脸识别都能拿来用。嗯,如果你喜欢理论结合实战,这部分可以多看看。
像Apriori和EM也涵盖了,前者挺适合做电商推荐的,后者则在语音图像这块表现不错。如果你最近有聚类或者推荐的项目,这篇资料可以派上用场。
如果你做搜索、爬虫或者推荐系统,PageRank、AdaBoost这些也有提。整体看下来,算法覆盖全,语言通俗,资源也给得蛮贴心。
建议你保存下来,偶尔翻一翻挺有的。如果你正好在啃这些算法,顺手把相关源码也下载下来一起练练,效果更好。