基于Flume+Kafka
的数据采集方式,算是现在大数据链路里比较稳的一套组合,吞吐大的日志流量也蛮靠谱。前端想了解用户偏好,其实离不开背后的这一整套数据流转逻辑。这套资源从数据进到系统那一刻起,就被Flink
预、HBase
去重,进Hive
做数据仓库,后续用SparkML
跑模型,再扔进MySQL
存结果,前端你只要调接口拿结果就行,别说,还挺丝滑的。
FineBI 的可视化功能也蛮方便,尤其是那种要快速出报告、做可交互大屏的时候,几乎能直接拿来用,省了不少功夫。整个链路虽然看起来复杂,其实各模块都能单拆调试,定位问题也不难,适合想深入玩数据的你。
要是你对Flume
和Kafka
这块还不熟,可以先看看《大数据组件 flume 入门指南》或者《大数据技术之 Kafka.pdf》,内容还蛮清晰,配合这个项目练练手刚刚好。
另外感兴趣的话,还可以看看《社交网络用户兴趣个性化推荐模型》或者《用户兴趣建模新方法》,都是跟兴趣相关的项目,逻辑和思路挺值得借鉴。
如果你想搭个用户兴趣的前后端闭环系统,这份资源就比较合适,数据采、算、存、展全都帮你串好了,直接按图施工也能跑。