相似性里的几种经典系数用法,平时做数据推荐、用户画像、市场研究这些场景都能派上用场。余弦相似度、皮尔逊相关系数这两个老熟人基本是入门标配,适合用在向量角度比较相似程度那类问题,是推荐算法里蛮常见。
定类数据场景下,就要换思路了,像卡方距离、法方距离这种更适配分类属性。举个例子,比如问卷里“性别、城市、学历”这类,拿欧氏距离就不太合适,得上卡方距离来比较。
你要是刚好在研究推荐算法,可以看看这篇用皮尔逊相关系数打造个性化电影推荐,里面讲得还挺通俗,思路也实用。
还有像马氏距离,适合变量间存在相关性的高维数据,不少做聚类或模式识别的场景都会遇到,用得对能提高不少精度。可以参考马氏距离在相似性度量中的应用,讲得蛮细。
你要是更想看代码实现,广义距离变换 MATLAB 实现这篇也不错,虽然是 MATLAB 代码,但逻辑清晰,改成 Python 也不难。
建议是:如果你做市场调研、推荐系统、聚类这类项目,不妨收藏一下这些工具和算法文档,平时查着用挺方便的。哦对了,这篇讲相似性度量方法的算是比较全的概览,可以先从它入手。