TinyXML 的合并功能挺适合像短信数据这种结构统一、量又大的场景。像你要把多个短信数据文件合成一个,直接用它搞定,省得手动合并那么麻烦。再配合着 UCI 那个短信垃圾分类数据集一块用,训练模型、调参数啥的都顺畅。哦对了,那个数据是tab分隔的,导入时记得关掉Use Quotes,不然内容会乱。导入向导里把att1设成labelatt2设成text,这样 RapidMiner 才知道哪个是标签哪个是短信文本。整体下来还挺顺的,导入快、格式干净,适合练手也适合做项目原型。