人口普查数据的收入预测,蛮适合想练手分类模型的朋友。CensusIncomeData数据干净,变量信息丰富,像年龄、教育、工作时间这些全都有,拿来训练个逻辑回归或者随机森林效果都挺不错。适合用来试水二分类任务,看看你的模型能不能识别出谁年入超 5 万。

数据来自 1994 年的人口普查库,Ronny KohaviBarry Becker帮忙筛过,基本不用太多清洗就能上手。哦对了,它也叫“成人收入数据集”,你在 Kaggle、UCI 上也能看到,算是机器学习界的老网红了。

训练目标简单:判断某人年收入是不是高于50K。输入特征包括职业婚姻状态教育背景等等,适合试试逻辑回归随机森林XGBoost之类的模型,训练时间不长,结果反馈也快,挺有成就感的。

属性字段有点多,建议用pandas先做下可视化,看看分布,像hours-per-weekeducation-num这种字段,挺有用。还有一些分类变量,比如workclassoccupation,别忘了做one-hot编码。

如果你正打算练习分类算法,又不想先搭一堆预流程,那这个数据集蛮适合上手的。想看源数据或下载可以去 这里,配套资源也不少,蛮方便的。