文本的入门资料里,《文本.pdf》算是我看过比较扎实的一个,尤其适合刚接触 NLP 的前端或者数据同学。里面讲得挺系统,从最基础的语言模型讲起,比如n-gram怎么预测下一个词、什么是困惑度,都用了生活化的例子。嗯,挺容易理解的。

分布式表达那块也蛮有料的,像Word2Vec怎么通过上下文来学词的语义,讲得还算清楚,配合实际例子会更好消化。尤其是CBOWSkip-gram这两个模式,适合做词义相似度的朋友重点关注一下。

LDA 模型,也就是主题模型啦。如果你有一堆文本想看看都在说啥,比如用户评论、论坛帖子啥的,用 LDA 来做无监督主题提取还挺方便的。文档里对模型假设也解释得比较明白,不会太玄乎。

要是你平时搞情感、自动问答、文本分类这些,文档里的思路和方法都能派上用场。如果你想实操,文末还贴了不少相关资料,比如word2vec 代码详解小红书评论这种,拿来直接跑一跑也挺好。

如果你刚入门 NLP,或者想找一份讲原理+实现都不偏的参考,这份文档可以先啃一遍,再去深入别的高级应用。