foodmart 的数据模拟库,蛮适合练手数据挖掘项目的。它就是个模拟超市的数据仓库,像销售额、商品类别、顾客信息这些都有。你要练习SQL 查询、跑Pandas的、做关联规则挖掘,甚至搞点可视化,都挺方便的。
foodmart 的结构清晰,foodmart.mdb
是个 Access 格式的数据库,拿到之后可以直接用 Excel 导,也能用Python或R连数据库跑。数据量不大,响应也快,练技能的时候不容易被搞烦。
像那种性啊,比如查每天销量、算平均销售额,用个SELECT
语句就能搞定;你要是想预测下个月哪个品类卖得好,就可以玩玩时间序列。
最有意思的是关联规则,像那种“买了啤酒也买尿布”的经典例子,在 foodmart 里也能找到类似数据关系。用 Apriori 算法配合support
、confidence
这些参数玩一圈,还蛮上头的。
再比如聚类,你想看看客户群体能不能拆成几类,也可以用 KMeans 跑一下。分类模型、回归模型也能练,数据结构支持你搞点模型出来。
不过提醒一下:foodmart 的数据是模拟的,虽然结构挺完整,但做实际项目之前,记得验证下模型效果。还有,数据不一次就对,得多试几种思路。
如果你刚学数据挖掘,想找个简单点的数据源练练手,foodmart 还挺合适的。可以顺带看看这些相关文章,理解更深入: