Selenium项目协作版Web抓取应用

Web 抓取项目里，Selenium 的动态交互能力真挺香。尤其你要抓那种得登录、得点按钮才能看到的数据，用它就省心不少。像项目里那个http://rgphentableaux.hcp.maDefault1站点，估计就是动态生成的页面，用 Selenium 模拟操作一把抓下，顺。

Selenium配合MySQL和MongoDB的组合还蛮经典：MySQL 规整的数据表，像姓名、住址这种；MongoDB 呢，适合存不规则、结构灵活的内容，是 JSON 格式的数据，用起来灵活。

你如果平时搞数据或爬虫项目，Python绝对是首选语言。用BeautifulSoup解析 HTML，再加上pymysql、pymongo这俩数据库连接库，效率还挺高的。搭配Jupyter Notebook写代码、边跑边看结果，体验也不错。

项目压缩包Web-Scraping-Using-Selenium-master里应该是打包了整个源码和示例，适合参考一下代码结构。比如你不知道怎么让 Selenium 和 MongoDB 打配合，看下这个就有感觉了。

顺手推荐几个相关资料：像2010 年人口普查 MongoDB 导入这个，还有Wgit也是个抓取工具，适合轻量需求。你可以一起看看，灵感说不定就来了。

如果你也在做和政府网站打交道的项目，又是动态页面+结构化数据的那种，真的可以试试这种组合：Selenium + Python + MySQL/MongoDB，效率高，稳定性也不错。