聚类论文里常常就 5、6 个 UCI 数据集打转,评估靠感觉的也不少。clustering_benchmarks_v1的出发点就实在——把市面上散落的聚类数据集集中整理一下,统一格式,统一下载方式,方便你一口气评测多个算法。

数据集的类型挺全的,高维、低维、大规模、小样本的都有,聚类结构也有层次、密度、原型型等。还有一些从老论文里扒下来的经典集,平时不好找的,在这里都能捞着。

使用也简单,下载下来直接上手。数据格式统一成了比较常见的 CSV、MAT 之类,起来省心。路径结构清晰,每个数据集一个独立文件夹,里面包含、标签、特征文件。嗯,文档也写得比较清楚。

一个注意点是:这个版本(v1)已经冻结了,不会再加新数据集。所以好处是评估时在同一套数据上跑,结果好比对。坏处嘛,缺一些最新场景,比如图数据、文本聚类等,这块你得另外找补。

,如果你在写聚类相关的算法,或者打算做一个系统性比较,这套资源还挺省事的。不用东拼西凑找数据,也不用为格式头疼。直接拎起来用就好。

如果你想搭配更多经典数据集试试,还可以看看这些资源:UCI 机器学习数据集机器学习数据集汇总高斯聚类专用集