聚类的划分算法挺适合入门选手上手的,思路清晰,操作也不复杂。把一堆数据分成几个‘圈子’,圈内的像,圈外的不像,听起来就像是在组织社群,对吧?而且它是无监督学习,不需要你事先告诉它分类标准,比较省心。

划分型的聚类方法,比如K-Means,其实用起来还蛮顺的。数据维度别太高、差异别太模糊,用起来效果还不错。你只要告诉它你想分几类,它就自己帮你动手分好。

做图像?可以参考下这篇图像相似性评估;搞Python?推荐你看看Python 相似性度量的完整实现,代码清晰,图解直观。

还有一个建议哦:如果你是初学者,不妨先在WEKA里拖拖点点试试,像这篇关于无监督聚类的小技巧就挺实用的。熟悉流程后再去写代码,效率高多。

如果你对数据挖掘感兴趣,也可以看看聚类应用与数据挖掘算法,讲得比较系统,适合打基础。

提醒一下:聚类虽然不需要标签,但对相似度的定义蛮敏感的,像欧几里得距离、曼哈顿距离这些都要理解下。否则结果会迷惑,别问我怎么知道的(笑)。