Python 的多文件数据项目,内容挺丰富,玩法也比较多样。电影爬虫用到了BeautifulSoup,数据用的是pandasmatplotlib,一套流程跑下来,基本涵盖了爬虫+数据清洗+可视化这套活儿。

IMDB 电影部分挺有意思,能拿到电影的票房、评分、metascore 等数据,再用折线图做时间序列,挺适合练手的。数据来源稳定,爬取效率也还不错。

另外还带了一个 157 家上市公司股票的小项目,用了时间序列的思路,结合numpypandas做了一些。虽说不是什么高阶模型,但跑起来顺畅,逻辑也清晰,拿来练手再合适不过。

顺带一提,还有个统计所有文档里高频词的功能,能找到最常用的 5 个单词,适合做文本挖掘的初步,思路也蛮实用的。

如果你想了解更多时间序列相关的东西,像Cassandra的用法可以看看这篇:Cassandra 时间序列结合 NoSQL、Bokeh 和 Prophet 进行股票预测,还有不少其它方向也值得一试。

如果你是数据初学者,或者想快速整合一个从数据采集到的项目,这个资源蛮适合。代码比较整洁,注释也不少,搭配 Jupyter Notebook 效果更好。