Sogou实验室用户查询日志数据分析练习数据集

搜狗实验室的用户查询日志，还挺适合拿来练手大数据的，尤其是刚接触Hadoop、Spark这些工具的时候。数据量不小，格式也比较规整，做文本挖掘、关键词提取都挺方便的。

日志数据用的是SogouQ.reduced，就是经过筛选和脱敏的版本，不用担心隐私问题，拿来就能跑。嗯，文件是纯文本格式，写个Python脚本批量读取也简单。

实际项目里，比如你想用户的搜索习惯，或者训练个推荐模型，这份数据还蛮有用的。你甚至可以统计关键词出现频率，或者做个热词词云，效果还挺直观。

配合Rhadoop或Spark跑起来，效率还不错。如果不想搞太复杂，直接用pandas配jieba也能搞出不少花样。

对了，如果你是搞MATLAB的，也可以看看下面推荐的实验室报告，虽然方向不同，但数据的思路挺值得参考的。

如果你刚开始玩大数据，想找点真实场景的练习素材，这份数据集还挺不错的，别错过了。