14万+ 词汇资源:包含注音、释义、例句的 TSV 数据集
该压缩文件包含 5 个 .tsv 文件,内含 144790 个单词的释义、注音和例句,数据源自必应在线词典。
文件列表:
1_with_pronunciations: 去重且包含注音的单词及其释义与例句表(TSV,注音单独成字段),共 91854 条数据。
2_without_pronunciations: 去重且不含注音的单词及其释义与例句表(TSV),共 52936 条数据。
3_combined_version_sorted_by_consecutive_IDs: 去重且按连续 ID 排序的单词、注音、释义、例句表(TSV,注音单独成字段),共 144790 条数据。
4_combin
MySQL
16
2024-05-28
Foursquare数据集分析及应用
Foursquare数据集涵盖用户id、地点id、坐标、签到时间和时间id等多维度信息,用于分析用户活动模式及地点偏好。
算法与数据结构
10
2024-07-14
Kyligence Zen 使用数据集及指标
用户反馈数据集(UserFeedback.csv)通过新建 CSV 数据源创建
用户反馈指标模板(3 个 YAML 文件)通过新建 YAML 指标创建
统计分析
19
2024-05-12
中国少数民族统计数据集
少数民族的人口数据、健康信息、疾病分布啥的,一直是社会研究的热点。而《中国少数民族统计学数据》这个资源就挺全的,尤其聚焦在贵州那边,数据量大,颗粒度也比较细,适合做深度。
贵州省的少数民族分布,啥苗族、侗族、布依族的人口比例、聚居情况这些,都能在这套数据里找到。不光有总数,还有增长趋势、年龄结构什么的,适合做长期跟踪研究。
你如果是做统计或者数据可视化的,这个数据集还挺方便。比如你要画一张按县级区划分布的热力图,配上echarts或者highcharts直接搞,响应也快。
比较的是,它还结合了医学数据仓库的概念,能拿来做少数民族地区的疾病预测。像常见病、遗传病、高发病啥的,通过回归或者聚类算法
数据挖掘
0
2025-06-30
县域统计2000-2023历史数据集
县域统计的历史数据真不太好找,这份2000-2023 年打包的 Excel 资源就挺省事的。一份压缩包里直接给你按年整理好的数据,格式统一,用起来顺手。字段比较规整,省市县一应俱全,不需要你自己再清洗一遍,直接可以扔进 pandas 或 Excel 里。
里面的数据结构也比较友好,适合做可视化、趋势、甚至接入后台跑定时统计。比如你用 ECharts 做地图热力图,这批数据能直接对接县级行政区的数据层,省事。适合那种做政府类平台、数据看板的项目。
顺带一提,资源里还带了个小实验数据案例,讲了单因素方差(ANOVA)的实战应用。比如不同健身方案对减肥效果的影响,数据是 99 个样本,分成 A、B、
统计分析
0
2025-06-30
多元统计分析数据集应用实例
多元统计分析是统计学中的重要分支,专门处理包含多个变量的复杂数据集。《Applied Multivariate Statistical Analysis》提供了丰富的理论知识与实际案例,适合学习和应用多元统计方法。这些方法包括因子分析、主成分分析、多元回归分析、判别分析、聚类分析、相关分析、列联表分析、MANOVA和线性混合模型等。通过R语言、Python或SPSS等软件,可以处理这些数据并进行可视化与分析。
统计分析
12
2024-07-16
车牌及机动车图像数据集
嘿,给推荐一个挺有用的资源——车牌及机动车图片.rar压缩包,里面有一堆和汽车、车牌相关的图片。如果你最近做车牌识别或者车载系统开发,这个包简直是个宝藏。里面的图片可以用于图像、计算机视觉、深度学习训练,甚至光学字符识别(OCR)都有用处。如果你在搞图像分类、物体识别,或者做一些相关的 AI 项目,这些数据集就能为你大的。值得注意的是,图片压缩算法、数据隐私管理这些问题也得关注,尤其是车牌识别中,涉及到一些敏感信息。,想做交通工具识别、车牌识别或者相关图像的项目,这个资源蛮适合的。建议:整理好数据集,配合现代的深度学习技术,效果会更好。
算法与数据结构
0
2025-06-13
MovieLens数据集
包含推荐系统算法开发和评估所需的用户评分、电影元数据和标签。
算法与数据结构
18
2024-05-01