这个数据集适用于Python数据挖掘入门实践,特别是运用决策树预测NBA比赛获胜球队的章节。由于书籍中提供的原始下载链接已失效,这份资源提供最新版本的数据,方便学习者使用。
2019-19 NBA Season.csv 数据集
相关推荐
kddcup2005.csv 数据集
这是 kddcup2005 数据集,可用于机器学习研究。
数据挖掘
11
2024-05-20
orange-juice-withmissing.csv数据集
orange_juice_withmissing.csv 是 ISLR 包中橙汁数据的修改版本,用于预测顾客购买的橙汁品牌(柑橘山或美汁源)。
该数据集包含 1070 行和 18 列,涵盖客户和产品特征等预测变量。响应变量 'purche' 的值为 'ch'(柑橘山)或 'mm'(美汁源)。
该数据集常用于博客文章和 Caret 包的练习中。Caret(Classification And REgression Training)包集成了模型开发的所有相关步骤。
数据挖掘
13
2024-05-15
Hive函数实例数据NBA总冠军数据集
Hive 函数的实例数据挺难找的,Hive 函数实例数据 The-NBA-Championship.txt就比较实用,尤其是你想结合真实业务场景来练习的话。嗯,内容是基于 NBA 总冠军相关数据的,用来测试各种 Hive 函数合适,像row_number()、rank()这些开窗函数,用它跑一跑效果直观多了。
从命名上看,文件原本是Hive 函数实例数据 The_NBA_Championship.txt,有人会纠结这两个下划线和中划线的区别,其实没啥大影响,路径里统一就行。
搭配一些参考资料用起来更爽,比如Hive 开窗函数示例与应用这个,挺适合和这个 NBA 数据一起练。还有Hive 函数参
Hive
0
2025-06-13
StormEvents Details 1952-2019风暴数据集
美国风暴事件的详细数据,时间跨度从 1952 年到 2019 年,数据量可不小。文件名叫StormEvents_details_1952-2019.csv.7z,压缩包挺紧凑的,解压完是一份超长 CSV,里面字段还挺丰富,从风暴的类型到伤亡情况全都有。
像EVENT_TYPE这种字段就蛮实用的,飓风、龙卷风、冰雹这些全分类清楚了。如果你要做个风暴影响趋势图,直接拿BEGIN和END字段就能搞定时间轴。
地理位置也标得比较细,STATE和COUNTRY字段组合着用,做个热力图完全没问题。哦对,PROPERTY_DAMAGE和CROP_DAMAGE也有,一下财产损失分布,那画出来的数据图看着就有说
Hadoop
0
2025-06-18
IP地址所属地数据集2016.07CSV版本
IP 地址的地理位置数据集,对数据或者网络安全这块感兴趣的你,会挺喜欢的。2016 年 7 月的版本,虽然有点旧,但当做历史对比、趋势研究,还是蛮有价值的。格式是CSV,用起来比较方便,用pandas一加载就能。
里面的IPmark.csv文件,估计是核心内容。每行应该都有 IP、国家、城市这些字段,结构清晰,起来也不麻烦。如果你用 Python,直接read_csv()拉进来,再做些清洗,基本就能跑起来。
用这个数据干嘛?比如统计不同国家 IP 分布,做广告定向,用户访问地,甚至安全审计都可以。有需求的,你也可以结合folium或matplotlib来做地理分布可视化,直观又炫。
不过注意哈
Oracle
0
2025-06-15
2019年9月IP地址归属地数据集
文件"IP_201909.rar"暗示了这是一个包含2019年9月关于IP地址归属地信息的压缩文件。描述提到数据以CSV(Comma Separated Values)格式存储,这是一种常见的表格数据存储格式,易于读取和处理。这种文件可以用文本编辑器打开,同时也能直接导入数据库管理系统,比如MySQL,这是标签中提到的一个关键词。 CSV文件是一种轻量级的数据交换格式,广泛用于数据导入和导出。每个记录由一系列字段组成,字段之间用逗号分隔。在"IP_201909.csv"这个例子中,我们可以预期数据包含多个IP地址及其对应的归属地信息,可能包括国家、地区、城市、运营商等详细信息。这样的数据对于网
MySQL
13
2024-08-27
StormEvents Locations 1995-2019地理数据集
美国风暴事件数据的地理记录,真的挺适合做数据可视化或者空间的。StormEvents_locations-1995_2019.csv.zip这个包里有三个子文件,时间跨度从 1996 到 2019,数据量 30 万条,能用来做不少有意思的图表,比如风暴频率热力图、极端天气趋势线啥的。
每条记录都带有位置信息,像州名、县名、甚至精确到经纬度,用Leaflet、Mapbox或者D3.js这些库来做互动地图都挺合适。数据的话,推荐先用Pandas做预,清洗完了再扔给前端展示,效果更稳定。
像 2000-2009 和 2010-2019 这两段数据,还蛮适合做对比的。你可以看看是不是风暴越来越频繁,或
Hadoop
0
2025-06-17
2014-2018年全国空气质量CSV数据集下载
这份数据集包含从2014年到2018年期间收集的全国空气质量数据,记录了时间、城市、AQI、PM2.5、PM10、SO2、NO2、CO、O3以及主要污染物等信息,总计55万条记录。数据集适用于研究空气质量变化趋势及相关环境研究。
spark
7
2024-08-12
2017年中国综合社会调查(CGSS)CSV数据集
这份 2017 年中国综合社会调查(CGSS)的数据资源,适合用作数据或编程练习。数据格式是csv,简单易用,适合各种数据和任务。你可以直接从官网(官网)下载,数据不仅包含社会调查的各类信息,还可以轻松导入到Python或R进行。需要注意的是,这份数据只供学习与研究使用,严禁商用哦。对于数据新人来说,真的是一个挺好的练习资源,拿来做数据清洗、可视化等都挺合适。如果你想要用这份数据做一些更深的,可以参考一些工具,比如MySQL、PLSQL等,它们和这份数据也挺配的。别忘了,数据集本身包含了多社会指标,能为你丰富的维度,挺不错的。
算法与数据结构
0
2025-06-16