数据集包含来自1994年人口普查的去识别记录,预测年收入是否超过50,000美元。
人口普查收入数据集
相关推荐
美国2010-2015年人口普查数据集
美国 2010-2015 年人口普查数据集,是个蛮靠谱的练手资源,不仅体量够大,结构也比较清晰,适合用来练大数据、数据可视化,甚至机器学习建模。你可以拿它配合 Hadoop、Pandas 或 Tableau 玩一圈,实操体验还挺丰富。
数据的维度比较全,从年龄、收入到住房状态、移民背景,全都囊括了,细到州、县甚至更小的单位都能看。像你要某地区的收入分布、教育水平,或者城市化趋势,数据直接能上手。
文件格式多是CSV、Excel,有的也会有SQL版,导入MongoDB或者直接跑Python脚本都顺。想用MapReduce也 OK,对初学 Hadoop 的你来说,不会太难。
我之前用Pandas预
Hadoop
0
2025-06-13
第七次人口普查市级人口数据
此数据源提供第七次全国人口普查各市的常住人口数据。
算法与数据结构
22
2024-05-13
CensusIncomeData收入分类数据集
人口普查数据的收入预测,蛮适合想练手分类模型的朋友。CensusIncomeData数据干净,变量信息丰富,像年龄、教育、工作时间这些全都有,拿来训练个逻辑回归或者随机森林效果都挺不错。适合用来试水二分类任务,看看你的模型能不能识别出谁年入超 5 万。
数据来自 1994 年的人口普查库,Ronny Kohavi和Barry Becker帮忙筛过,基本不用太多清洗就能上手。哦对了,它也叫“成人收入数据集”,你在 Kaggle、UCI 上也能看到,算是机器学习界的老网红了。
训练目标简单:判断某人年收入是不是高于50K。输入特征包括职业、婚姻状态、教育背景等等,适合试试逻辑回归、随机森林、XGB
数据挖掘
0
2025-06-14
将2010年美国人口普查数据导入MongoDB人口统计数据处理与查询
将 2010 年美国人口普查数据导入 MongoDB,挺有意思的一个项目。,你得理解一下数据格式,通常这些数据会以 CSV 或者 XML 格式。就是 ETL 过程,简单来说,就是提取(Extract)数据、转换(Transform)格式、加载(Load)到 MongoDB 里。通过 R 语言,你能方便地数据,清洗和转换为 JSON 格式。接下来,通过 MongoDB 的 R 驱动程序将数据插入数据库,挺顺畅的,性能也不差。而且 MongoDB 强大的查询功能可以让你轻松这些人口统计数据,进行深入挖掘。如果想做数据可视化,可以直接用 R 的`ggplot2`库,效果蛮不错的。,这个项目不仅帮你掌
NoSQL
0
2025-06-11
2010年中国人口普查详细资料(完整版)
2010年,中国进行了一次全面的人口普查,这一活动详细记录了中国各地区的人口情况及其变化趋势。
算法与数据结构
16
2024-07-17
世界人口数据集1950-2013可视化与预测
世界各国几十年的人口数据,整理成一份表格,干净利落。1950 到 2013 年,跨度够大,数据够全,适合做可视化、趋势,还有预测模型。字段是标准的国际通用格式,像LOCATION、TIME、Value这些都比较直观,起来不费劲。
字段翻译也贴心,英文+中文,做多语言开发的时候省了不少事。数据源来自,嗯,算是靠谱的公开平台了。格式基本稳定,常见的清洗操作都能顺利过关。
要是你做的是像ECharts或D3.js那类的图表工具,这种按年按国分类的数据,直接扔进去就能跑。还可以用pandas快速聚合做,响应也快,代码也简单。
哦对了,还有一些相关链接也挺实用的,比如美国州人口数据与 Python 示例
统计分析
0
2025-06-15
MovieLens数据集
包含推荐系统算法开发和评估所需的用户评分、电影元数据和标签。
算法与数据结构
18
2024-05-01
PCA 数据集
该数据集包含 PCA 分析的数据。
数据挖掘
18
2024-05-15
Lastfm数据集
标签推荐算法中常用的数据集,源自Lastfm。
spark
16
2024-05-15