文本大数据这块一直都挺有意思,是这份《文本大数据-02 文本.pdf》,里面的干货真不少!不光是中文分词、关键词抽取这些基础操作,它还提到了更深入的东西,比如怎么用条件随机场(CRF)正文抽取,甚至BI-LSTM+CRF搞命名实体识别。再比如,直接把网页里的标题、正文、图片都提取出来,你想想用这个来自动抓取新闻多省事?还有中文分词,像TF-IDFTextRank,直接帮你搞定主题,拿来做文本分类合适。情感分类也挺香,做电商评论啥的也实用。,这个文档是你搞文本大数据的一份秘籍,拿下它,能帮你省不少事儿。