纽约的 Airbnb 公开数据,蛮适合练手做数据挖掘项目的。数据量不小,字段也比较全,像room_typepriceneighbourhood这种都在。拿来做房价预测、热点区域挺方便的。配套的AB_NYC_2019.csv直接就能用,格式清晰,起来省心。

带图片的New_York_City_.png也还不错,用来可视化做个地图展示刚刚好。如果你想让结果更有说服力,可以结合这个图来做热力图啥的,效果还蛮直观的。

之前我用它配合pandasmatplotlib做了个房源分布图,钟搞定,响应也快。数据列里像minimum_nights这种字段,注意一下有些极端值,做前建议先一下。

另外它和其它数据也蛮容易联动,比如和311 投诉数据结合社区安全感;或者你想玩点复杂的,像GeoToolsJTS那种多边形截断,也能配合用。

如果你是学生、做课程设计也不错,有个类似的项目我在山东科技大学的数据挖掘课上看到过,挺接地气的。如果你想深入了解 AB 测试,配套还有一个数据集案例可以参考。

,拿来练模型、做可视化都蛮合适的。你要是刚学完sklearnSeaborn,正好拿它练练手。