基于Flume+Kafka的数据采集方式,算是现在大数据链路里比较稳的一套组合,吞吐大的日志流量也蛮靠谱。前端想了解用户偏好,其实离不开背后的这一整套数据流转逻辑。这套资源从数据进到系统那一刻起,就被Flink预、HBase去重,进Hive做数据仓库,后续用SparkML跑模型,再扔进MySQL存结果,前端你只要调接口拿结果就行,别说,还挺丝滑的。

FineBI 的可视化功能也蛮方便,尤其是那种要快速出报告、做可交互大屏的时候,几乎能直接拿来用,省了不少功夫。整个链路虽然看起来复杂,其实各模块都能单拆调试,定位问题也不难,适合想深入玩数据的你。

要是你对FlumeKafka这块还不熟,可以先看看《大数据组件 flume 入门指南》或者《大数据技术之 Kafka.pdf》,内容还蛮清晰,配合这个项目练练手刚刚好。

另外感兴趣的话,还可以看看社交网络用户兴趣个性化推荐模型》或者用户兴趣建模新方法》,都是跟兴趣相关的项目,逻辑和思路挺值得借鉴。

如果你想搭个用户兴趣的前后端闭环系统,这份资源就比较合适,数据采、算、存、展全都帮你串好了,直接按图施工也能跑。