大数据环境下的机器学习算法资源,挺适合拿来做教学和实验的。Hadoop 和 Spark 两个主流平台的并行化实现都覆盖了,适合你深入研究下分布式计算那一块。
Hadoop 环境的并行算法讲得比较基础,适合刚接触大数据的朋友。你可以从小数据集开始练手,慢慢扩展到 TB 级。
Spark 下的机器学习管道还不错,响应快,代码也比较清晰,用MLlib
跑个分类模型轻轻松松。像RandomForest
、KMeans
都有示例哦。
平台工具也蛮全的,从框架到算法库都提到了,还贴心给了一堆扩展阅读。比如这个Spark 2.x + Python 大数据机器学习实战,内容挺实用,适合配合练习。
嗯,如果你正好在做数据挖掘项目,或者要搞一份教学演示,这份资料可以少踩不少坑。别忘了多看看的那些链接,像大数据与机器学习算法这篇,就挺适合做概念铺垫的。