搜狗实验室的用户查询日志,还挺适合拿来练手大数据的,尤其是刚接触Hadoop
、Spark
这些工具的时候。数据量不小,格式也比较规整,做文本挖掘、关键词提取都挺方便的。
日志数据用的是SogouQ.reduced
,就是经过筛选和脱敏的版本,不用担心隐私问题,拿来就能跑。嗯,文件是纯文本格式,写个Python
脚本批量读取也简单。
实际项目里,比如你想用户的搜索习惯,或者训练个推荐模型,这份数据还蛮有用的。你甚至可以统计关键词出现频率,或者做个热词词云,效果还挺直观。
配合Rhadoop
或Spark
跑起来,效率还不错。如果不想搞太复杂,直接用pandas
配jieba
也能搞出不少花样。
对了,如果你是搞MATLAB
的,也可以看看下面推荐的实验室报告,虽然方向不同,但数据的思路挺值得参考的。
相关资料可以从这些链接里挖点灵感:搜狗日志数据及天气统计、大数据、Rhadoop: 解锁大数据潜能、Spark 快速大数据入门。
如果你刚开始玩大数据,想找点真实场景的练习素材,这份数据集还挺不错的,别错过了。