主成分的多元回归建模,用来挖掘 SO₂排放的异常值,思路还挺清晰的。用的是 2014 年《中国统计年鉴》的数据,加上 SPSS 一套搞定建模、、挖特异值。像杠杆值、学生化残差、库克距离这些指标都用上了,得还挺细的。对于做环境类统计的同行,这个资源可以参考下,模型结构简单但够用,思路也蛮实在。
模型部分挺友好的,适合入门或教学使用。SPSS 用起来也没门槛,拖一拖、点一点就出结果了。如果你做过主成分,结合多元回归来找异常点会觉得还挺有意思的。尤其像 SO₂这种政策高度关注的污染物,建模的价值就比较大。
配套资源也挺全,从 PCA 到多元回归的规范,再到 MATLAB 的实现,基本都覆盖到了。像princomp
函数的用法也有单独讲,想用代码撸一遍的也不用担心没素材。课件 PPT 啥的也有,教学用刚刚好。
建议你如果要深入,可以把 SPSS 的模型结果导出来,再用 Python 或 R 复现一遍逻辑,代码复用性更强。还有,主成分数量的选取别全靠系统推荐,最好自己看看解释度。
如果你正在搞环境数据或主成分降维方向的项目,这份研究可以作为建模逻辑的参考模板,尤其是怎么找出那些“奇怪”的省份。