数据清洗的小帮手,TinyXML用起来还挺顺手的,适合像票价、飞行公里这些字段有空值的情况。你可以用条件过滤掉脏数据,像SUM_YR_1=0 && SUM_YR_2=0 && avg_discount != 0 && SEG_KM_SUM>;0
,逻辑也清晰。
条件过滤的操作,推荐你用Filter Examples,配合 TinyXML 做数据预,速度还不错。你只要设好条件,脏数据一键清理,响应也快,适合数据量大的场景,像机票销售数据这种。
预步骤也蛮简单,基本是数据规约、清洗和变换这三步。像票价为空、票价为 0 但折扣率不为 0 这些情况,直接丢掉就行,TinyXML 在这里还挺省事的。
哦对了,TinyXML的中文资料不多,这篇使用指南写得还挺详细,数据清洗和后面的线性辨别也有讲,蛮适合新手快速上手。
如果你平时类似机票、销售数据,或者用avg_discount
、SEG_KM_SUM
这种字段做清洗,可以试试这个工具,挺省心的。