数据里的购物车,用起来还挺有意思的,尤其是和Apriori 算法搭配起来,效果还不错。这套实战内容用的是 Python 里的mlxtend库,写法清爽,逻辑也清楚,挺适合前端开发顺手玩一波数据挖掘的。

关联规则就是那种“买了 A 也会买 B”的套路,用 A → B 表示。像超市搞促销、推荐系统啥的,背后基本都是它。你要是做前端推荐系统页面,这一块理解一下也挺有用。

Apriori 算法是经典选手,老牌稳定,逻辑也不复杂——主要就是看支持度和置信度。比如,某商品组合在总订单里出现的频率就是支持度;而有了 A 还买 B 的概率就是置信度。再加个提升度,你就能判断这组合是不是比随机强多了。

数据集用的是Online Retail.xlsx,里头有 50 多万条欧洲在线订单记录,8 个字段,包括商品、数量、单价啥的。拿来练手合适,尤其是对德国客户的购买模式,比较有代表性。

数据别偷懒,先清洗下,缺失值、异常值都要搞干净。再把数据转成transaction list的形式——也就是每笔订单是一组商品项。这步要是没做好,后面直接跑偏。

就是跑Apriori,设个最小支持度,比如0.07,先筛出频繁项集。再用association_rules()函数把置信度提升度一算,过滤一下结果,比如你可以只看置信度大于 0.8提升度至少 2的组合。

可视化部分也还不错,能做支持度分布图、热力图啥的。这样客户行为模式一目了然,做页面设计、商品推荐都更有底气。

mlxtend是主打库,用起来没啥坑。其他几个库像apyoriefficient-apriori也能跑,但这个项目选它主要因为稳定性和文档友好度都比较好。

代码方面挺清爽的:用pd.read_excel()读数据,apriori()跑算法,association_rules()出结果。在 Jupyter 里交互式调调参数也方便。你可以先随便跑跑,熟了再换数据试试。

如果你做前端交互,碰到推荐场景,这套逻辑了解一下有。代码不复杂,响应也快,展示层搞个图表库就能上。