基于 Hadoop 的大数据能力,刘珊珊的聚类神经网络算法实现,真的挺有意思的。整套方案结合了云计算和神经网络,用起来还蛮顺手的,尤其是在高维大数据场景下,效率还不错。

Hadoop 的分布式特性让你不用担心数据量大,只要你数据上得去,集群撑得住,神经网络跑起来也不卡。而且这套算法用了聚类的思路,挺适合做用户画像、推荐系统这种需求。

如果你本身对SOFM 神经网络感兴趣,可以看看这篇SOFM 基础算法,逻辑比较清晰。还有像多模态特征学习Keras 参数计算这些资源,也能帮你把这个项目做得更实。

嗯,项目里面涉及的数据挖掘算法也不少,比如你可以搭配神经网络的数据挖掘简介来看看。实在想更系统地学习云计算部分,还有像大数据实战详解云计算与大数据结合这些资料,都是实用的。

要注意哦,算法虽然在云平台上运行效果还行,但你本地调试的时候,最好还是做些数据裁剪,不然容易跑崩。如果你打算线上部署,记得优化MapReduce任务的参数配置,像mapreduce.map.memory.mb这种。

如果你正在做分布式神经网络或者搞云平台上的模型训练,可以花点时间研究一下这套思路,说不定就刚好对口了。