Python中文景区评论分析

中文景区评论的评论_中文景区评论.ipynb挺适合做文本清洗和情感入门。文件结构清楚，流程也算顺，尤其是分词和去停用词那块，代码还挺干净，直接跑基本没坑。

用的还是jieba来切词，配合pandas做表格清洗，效率还可以。对评论字段的也比较细，比如把景区名、评论时间、评论内容都分开，适合后续拿来做模型训练或者主题提取。

如果你是做旅游行业数据的，这份资源可以直接拿来练手，也能改造出不少场景，比如口碑、游客偏好挖掘之类的。如果再配合像ACRA 的评论挖掘，或者Hadoop 的情感，玩法就更多了。

注意一点，中文评论预的时候，有些特殊符号和表情得自己手动清洗下，原始数据里会混进点乱码。不过整体上不复杂，动手试试就有感觉了。

如果你正想搭一个评论的原型，不妨从这份ipynb文件开始，清洗、分词、统计、输出，流程一条龙，蛮适合快速原型。