CensusIncomeData收入分类数据集

人口普查数据的收入预测，蛮适合想练手分类模型的朋友。CensusIncomeData数据干净，变量信息丰富，像年龄、教育、工作时间这些全都有，拿来训练个逻辑回归或者随机森林效果都挺不错。适合用来试水二分类任务，看看你的模型能不能识别出谁年入超 5 万。

数据来自 1994 年的人口普查库，Ronny Kohavi和Barry Becker帮忙筛过，基本不用太多清洗就能上手。哦对了，它也叫“成人收入数据集”，你在 Kaggle、UCI 上也能看到，算是机器学习界的老网红了。

训练目标简单：判断某人年收入是不是高于50K。输入特征包括职业、婚姻状态、教育背景等等，适合试试逻辑回归、随机森林、XGBoost之类的模型，训练时间不长，结果反馈也快，挺有成就感的。

属性字段有点多，建议用pandas先做下可视化，看看分布，像hours-per-week、education-num这种字段，挺有用。还有一些分类变量，比如workclass、occupation，别忘了做one-hot编码。

如果你正打算练习分类算法，又不想先搭一堆预流程，那这个数据集蛮适合上手的。想看源数据或下载可以去这里，配套资源也不少，蛮方便的。