知乎“看山杯”夺冠记的经验分享,算是 NLP 圈子里一份挺硬核但又好懂的实战手记。比赛的任务是给知乎提问打标签,典型的多标签文本分类问题。文章一步步讲了数据、模型搭建、调参策略,还穿插了不少实战小技巧。比如怎么上百万条问答数据、怎么用预训练的词向量做 embedding、甚至还提到了shuffledrop这种小众但有用的数据增强方式,蛮有料的。如果你最近在搞文本分类或者想入门 NLP,这篇文章值得好好看一遍。