相关系数矩阵的计算,在因子里算是一个绕不开的步骤。原始变量之间有没有“关系”,就靠它来判断。你要是选了一堆互不搭界的变量,做出来的因子基本没啥意义,嗯,结果也靠不住。
选变量这一步,建议别盲选。你可以先用定性看看哪些变量理论上有关联,再上定量做验证。强相关性的变量,才“共享”某些因子。否则你就相当于在拼图,结果每块都不挨着,能拼出个啥?
相关系数矩阵不仅能看变量之间的“亲密度”,也是后面估计因子结构的底子。像做 PCA、因子载荷提取这些,全都得基于这一步。所以啊,这一步搞不清,后面再炫酷的算法都白搭。
你要是对矩阵计算不太熟,可以参考这篇相关系数矩阵的,讲得比较清楚。还可以看看用Python算Pearson 相关系数的方法,直接撸代码也挺方便:点击这里。
如果你喜欢用MATLAB搞,也有图像相关系数的计算方法可以看看。不同工具、不同角度理解一下,思路更清晰。
小提醒:变量太多时,矩阵会变得大,起来容易卡顿。可以先用主成分或相关性筛选做个初筛,后面会轻松多。
如果你准备上手做因子,不妨从构建靠谱的相关系数矩阵开始,打好地基,后面建楼才稳。