人口普查数据的收入预测,蛮适合想练手分类模型的朋友。CensusIncomeData数据干净,变量信息丰富,像年龄、教育、工作时间这些全都有,拿来训练个逻辑回归或者随机森林效果都挺不错。适合用来试水二分类任务,看看你的模型能不能识别出谁年入超 5 万。
数据来自 1994 年的人口普查库,Ronny Kohavi和Barry Becker帮忙筛过,基本不用太多清洗就能上手。哦对了,它也叫“成人收入数据集”,你在 Kaggle、UCI 上也能看到,算是机器学习界的老网红了。
训练目标简单:判断某人年收入是不是高于50K
。输入特征包括职业、婚姻状态、教育背景等等,适合试试逻辑回归、随机森林、XGBoost之类的模型,训练时间不长,结果反馈也快,挺有成就感的。
属性字段有点多,建议用pandas
先做下可视化,看看分布,像hours-per-week
、education-num
这种字段,挺有用。还有一些分类变量,比如workclass
、occupation
,别忘了做one-hot
编码。
如果你正打算练习分类算法,又不想先搭一堆预流程,那这个数据集蛮适合上手的。想看源数据或下载可以去 这里,配套资源也不少,蛮方便的。