重叠聚类的数据集真挺香的,尤其你要在 MATLAB 里搞点聚类实验,用起来顺手多了。像20Newsgroup.mat
,那可是文本圈的老熟人,新闻主题分类的经典,TF-IDF 一配,跑个 K-means 或者谱聚类都挺合适。
emotions.mat也蛮有意思的,情感那点事你懂的,搞个多标签聚类试试,容易就能看出哪些情绪经常一起出现,比如“愤怒”和“悲伤”,经常组团出场。
还有scene.mat
,偏图像方向的,你可以提 SIFT、颜色直方图这些经典特征,想轻松点也能扔给深度模型提 embedding,再跑聚类,结果也还不错。
搞生信的可以看看yeast2417.mat
,基因表达的玩法比较多,层次聚类、DBSCAN 都有人试过。常规套路:预 → 降维 → 聚类。
movie_taa.mat跟推荐系统搭边,适合拿来练习用户群体划分或者电影内容聚类,冷启动问题也能顺便练练。
用的时候注意下:距离选择挺关键,像余弦相似度在文本类里比较常用,图像类就换欧氏距离;还有别忘了标准化数据,尤其在做 PCA 前。
要看聚类效果咋样?轮廓系数、Calinski-Harabasz 都可以试试,不求完美,但得有个衡量标准。
如果你想快速搞点高质量聚类实验,又懒得原始数据,这几个 MAT 文件真挺省心的。