大数据里的机器学习,关键不光是准,还得快、省资源。《Efficient Machine Learning for Big Data.pdf》就专门聊这个事,聚焦在算法效率和内存优化上,适合你这种需要跑海量样本但又不想烧光内存的场景。
文里提到的算法挺实用,比如那种轻量级模型,训练时间短,预测速度快,对硬件要求也不高。用在分布式环境下,比如 Spark、Hadoop,那是刚刚好。尤其适合数据量大的时候,响应也快。
还有一点我挺喜欢的,它会讲怎么在减少计算成本的同时还提升模型稳定性,这个点在业务里重要。你总不能每次上线都调十几次参数吧?
如果你正好在做大数据平台的模型部署或者实时推荐系统,那这份资源挺值得一看。记得搭配下面这些链接一起用,能更系统理解整个框架:
如果你日常用的是PySpark、Spark MLlib,或者写模型时经常在意内存使用率,这篇文章对你肯定有。建议收藏下来,实战时候会用得上。