过滤操作里的小技巧,tinyxml 的 Replace 操作符用起来还挺顺手的。你要是做数据清洗,遇到像Twitter
列里那种“99”这种不一致数据,直接一招替换成“N”,既快又干净。
参数设置里选single
,属性选Twitter
,replace what
填“99”,replace by
就是“N”,几步就搞定,没啥弯弯绕绕。
后面还有一步挺实用的:采样。数据太多?用Sample
操作符,按比例搞个一半出来训练模型,跑起来轻巧多了。选relative
就行,别忘了调下比例参数。
这篇指南内容不多但挺扎实的,适合快速上手。你如果平时也折腾数据转换、清洗这些,建议收藏下。