Python 的数据挖掘案例里,Boston 房价预测算是个蛮经典的入门项目了,适合练手也方便上手。用到的模型也挺多,从线性回归到随机森林都有,跑一遍就能了解不少主流算法的用法和区别。
第 5 章的例子是重点,涵盖了LinearR、PLR、SVR、KNN、DTR、RFR几种模型,都是预测房价的常见手段。每种模型代码结构都还挺清晰的,想改也方便,训练集和测试集的划分逻辑也直观。
数据用的是housing.csv
,列信息包括了房间数、犯罪率、房龄等等,数据量适中,跑起来快,调试也不难。如果你想练习特征工程或者模型调参,这个数据集也蛮适合的。
有几个参考链接可以一块看看,比如数据挖掘预测技术详解和机器学习房价预测数据集,对理解不同模型的优缺点还挺有的,尤其是你想深入搞搞模型优化的话。
如果你刚学完回归模型,或者想系统练一下常见的预测算法,这份资源可以先过一遍再做进阶的项目。数据干净,代码也不绕,挺适合新老手都试试看。