中文景区评论的评论_中文景区评论.ipynb
挺适合做文本清洗和情感入门。文件结构清楚,流程也算顺,尤其是分词和去停用词那块,代码还挺干净,直接跑基本没坑。
用的还是jieba
来切词,配合pandas
做表格清洗,效率还可以。对评论字段的也比较细,比如把景区名、评论时间、评论内容都分开,适合后续拿来做模型训练或者主题提取。
如果你是做旅游行业
数据的,这份资源可以直接拿来练手,也能改造出不少场景,比如口碑、游客偏好挖掘之类的。如果再配合像ACRA 的评论挖掘,或者Hadoop 的情感,玩法就更多了。
注意一点,中文评论预的时候,有些特殊符号和表情得自己手动清洗下,原始数据里会混进点乱码。不过整体上不复杂,动手试试就有感觉了。
如果你正想搭一个评论
的原型,不妨从这份ipynb
文件开始,清洗、分词、统计、输出,流程一条龙,蛮适合快速原型。