Web 抓取项目里,Selenium 的动态交互能力真挺香。尤其你要抓那种得登录、得点按钮才能看到的数据,用它就省心不少。像项目里那个http://rgphentableaux.hcp.maDefault1站点,估计就是动态生成的页面,用 Selenium 模拟操作一把抓下,顺。

Selenium配合MySQLMongoDB的组合还蛮经典:MySQL 规整的数据表,像姓名、住址这种;MongoDB 呢,适合存不规则、结构灵活的内容,是 JSON 格式的数据,用起来灵活。

你如果平时搞数据或爬虫项目,Python绝对是首选语言。用BeautifulSoup解析 HTML,再加上pymysqlpymongo这俩数据库连接库,效率还挺高的。搭配Jupyter Notebook写代码、边跑边看结果,体验也不错。

项目压缩包Web-Scraping-Using-Selenium-master里应该是打包了整个源码和示例,适合参考一下代码结构。比如你不知道怎么让 Selenium 和 MongoDB 打配合,看下这个就有感觉了。

顺手推荐几个相关资料:像2010 年人口普查 MongoDB 导入这个,还有Wgit也是个抓取工具,适合轻量需求。你可以一起看看,灵感说不定就来了。

如果你也在做和政府网站打交道的项目,又是动态页面+结构化数据的那种,真的可以试试这种组合:Selenium + Python + MySQL/MongoDB,效率高,稳定性也不错。