搜狗实验室的用户查询日志,还挺适合拿来练手大数据的,尤其是刚接触HadoopSpark这些工具的时候。数据量不小,格式也比较规整,做文本挖掘、关键词提取都挺方便的。

日志数据用的是SogouQ.reduced,就是经过筛选和脱敏的版本,不用担心隐私问题,拿来就能跑。嗯,文件是纯文本格式,写个Python脚本批量读取也简单。

实际项目里,比如你想用户的搜索习惯,或者训练个推荐模型,这份数据还蛮有用的。你甚至可以统计关键词出现频率,或者做个热词词云,效果还挺直观。

配合RhadoopSpark跑起来,效率还不错。如果不想搞太复杂,直接用pandasjieba也能搞出不少花样。

对了,如果你是搞MATLAB的,也可以看看下面推荐的实验室报告,虽然方向不同,但数据的思路挺值得参考的。

相关资料可以从这些链接里挖点灵感:搜狗日志数据及天气统计大数据Rhadoop: 解锁大数据潜能Spark 快速大数据入门

如果你刚开始玩大数据,想找点真实场景的练习素材,这份数据集还挺不错的,别错过了。