基于定量变量的距离测度,聚类里还挺常用的,尤其是你在混合变量(定量+定性)的时候。定性变量不能直接算距离?用匹配比例法挺顺的,比如性别、学历、职位这种,靠一一比对,按比例给分。嗯,原始数据表稍微麻烦点,但好在方法简单,实用性还挺强。
定量变量的距离计算好理解,比如欧式距离、曼哈顿距离。但你遇上定性变量咋办?最常用的就是匹配比例法。比方说两个用户,一个是女大学中层,一个是女大学高层,那就能给出2/3
的匹配值,逻辑通俗,挺适合实际业务场景。
距离矩阵也别忘了,它是聚类的底层逻辑核心。你要做层次聚类、K-means 都绕不开。可以参考这个距离矩阵的应用文章,讲得还不错,操作步骤也清晰。
要是你有定性变量转定量的需求,Fisher 判别法也能派上用场。MATLAB 下起来也方便,感兴趣可以去看下这篇文章。
顺便说一句,系统聚类法对分类距离的也值得一看,这里有。不想一步步推导,也能直接上手试试代码效果。
如果你经常做多元统计,建议把这些方法都过一遍。尤其是聚类那块,了解不同变量间的距离测度挺关键。实际项目里经常遇到,不学不行哦~
小提醒:匹配比例法适合类别数量不太多的情况。如果你变量太多、分类太细,会稀释距离效果,那就要考虑别的转化方法了。