Python综合实验IMDB电影爬虫+高频词统计+上市公司股票分析

Python 的多文件数据项目，内容挺丰富，玩法也比较多样。电影爬虫用到了BeautifulSoup，数据用的是pandas和matplotlib，一套流程跑下来，基本涵盖了爬虫+数据清洗+可视化这套活儿。

IMDB 电影部分挺有意思，能拿到电影的票房、评分、metascore 等数据，再用折线图做时间序列，挺适合练手的。数据来源稳定，爬取效率也还不错。

另外还带了一个 157 家上市公司股票的小项目，用了时间序列的思路，结合numpy和pandas做了一些。虽说不是什么高阶模型，但跑起来顺畅，逻辑也清晰，拿来练手再合适不过。

顺带一提，还有个统计所有文档里高频词的功能，能找到最常用的 5 个单词，适合做文本挖掘的初步，思路也蛮实用的。

如果你想了解更多时间序列相关的东西，像Cassandra的用法可以看看这篇：Cassandra 时间序列结合 NoSQL、Bokeh 和 Prophet 进行股票预测，还有不少其它方向也值得一试。

如果你是数据初学者，或者想快速整合一个从数据采集到的项目，这个资源蛮适合。代码比较整洁，注释也不少，搭配 Jupyter Notebook 效果更好。