小数定标规范化的操作思路挺清晰,就是把属性值的小数点往左挪,目标是把数值控制在[-1, 1]范围里。挪几位?看绝对值有多大,值越大,挪得越多。嗯,像金融数据那种差距巨大的场景就合适。

小数定标规范化的转化公式其实也不复杂:x = x * 10^k,k 是需要移动的小数位数。你看,这种方式不会改变值之间的相对大小,蛮适合做后续的分类或聚类。

不少经典算法,比如ID3Apriori这些,其实都吃离散属性,不支持连续值。你可以先规范化,再做连续属性离散化,比如用等宽、等频或聚类的方法。

要说参考资料,下面这几篇文章挺值得一读的:像规范化理论综述》和数据库规范化原理简介》,思路还蛮清楚的,看完之后脑子也不打结。

如果你用的工具是WEKA,也有篇教程《离散化属性 petallength 的操作方法》可以看看,步骤还挺详细,操作起来不费劲。

建议你在动手前先理清楚几个点:1)属性值跨度大不大;2)后续是不是要用分类模型;3)工具支不支持这类转化。搞清这些,再选方法,效率高多了。

如果你刚好在折腾数据预,是做分类前的准备工作,小数定标这种方法可以说是又快又省心,不妨试试。