不平衡数据分类的问题,真的是老前端经常碰到的那种“看起来小,做起来难”。林智勇写的《不平衡数据分类的研究现状》就挺值得一读的。里面把各种应对策略——像是SMOTE代价敏感学习集成学习这些,都讲得还挺到位。要是你最近在搞欺诈检测医疗数据啥的,用得上这些思路。