多线程的 R 语言爬虫,抓豆瓣图书 Top250,挺有意思的思路。作者用 R 把包一装,像RCurlparallel这些都派上了用场。逻辑也清楚:页面解析、数据清洗、再加上并发,速度一下子上来了。尤其是那个parLapply配合makeCluster,并行地跑多个页面,效果还不错。数据抓完还能用ggplot2直接做图,一条龙操作,挺方便。要是你也对 R 感兴趣,或者刚好在搞爬虫,不妨看看这个。