大数据的必备技能,Hadoop和Spark的组合算是老搭档了。能搞定几亿条交易记录的购物篮,速度还挺快,适合搞电商或广告推荐的同学用着玩。
像K 均值、KNN和朴素贝叶斯这些经典算法,不光讲得细,应用场景也举得蛮清楚。你要做个聚类或者分类项目,直接抄作业都行。
超大规模的基因组数据也有提到,像 DNA、RNA 测序,内容够硬核。搞科研的、做生信方向的同学,参考价值挺大。
马尔可夫链和朴素贝叶斯一起用来做市场预测,思路还蛮新鲜的。可以拿去优化一下自己的推荐逻辑,或者搞点用户行为预测,效果还不错。
还有成对文档相似性和推荐算法的实战案例,用Spark跑推荐系统,性能蛮稳,代码也不复杂,像ALS
那种协同过滤直接就能上。
统计这块,讲了线性回归、Cox 回归还有皮尔逊相关性,如果你是搞金融或者医疗的,完全能套进自己的模型里。
连社交网络都带了一嘴,像三角形计数和情感,用来用户互动挺好玩的。适合搞社区产品或者做点 NLP 项目。
如果你对这些方向感兴趣,可以顺手看看下面这几个链接,都是相关的实战项目:
如果你打算上手练练,不妨把这些资料都收着,平时翻一翻,思路也就更清晰了。