基于大数据技术栈的用户兴趣分析

基于Flume+Kafka的数据采集方式，算是现在大数据链路里比较稳的一套组合，吞吐大的日志流量也蛮靠谱。前端想了解用户偏好，其实离不开背后的这一整套数据流转逻辑。这套资源从数据进到系统那一刻起，就被Flink预、HBase去重，进Hive做数据仓库，后续用SparkML跑模型，再扔进MySQL存结果，前端你只要调接口拿结果就行，别说，还挺丝滑的。

FineBI 的可视化功能也蛮方便，尤其是那种要快速出报告、做可交互大屏的时候，几乎能直接拿来用，省了不少功夫。整个链路虽然看起来复杂，其实各模块都能单拆调试，定位问题也不难，适合想深入玩数据的你。

要是你对Flume和Kafka这块还不熟，可以先看看《大数据组件 flume 入门指南》或者《大数据技术之 Kafka.pdf》，内容还蛮清晰，配合这个项目练练手刚刚好。

另外感兴趣的话，还可以看看《社交网络用户兴趣个性化推荐模型》或者《用户兴趣建模新方法》，都是跟兴趣相关的项目，逻辑和思路挺值得借鉴。

如果你想搭个用户兴趣的前后端闭环系统，这份资源就比较合适，数据采、算、存、展全都帮你串好了，直接按图施工也能跑。