天猫商品的真实数据,用来做、建模或者展示,挺有价值的。这套爬虫脚本用的是Python + Selenium组合,还加了模拟登录微博再跳转淘宝的逻辑,绕过登录限制,思路蛮巧妙。
模拟登录的流程其实比较清晰。先登录微博,再借微博绑定的淘宝身份绕过去。这种方式稳定性比直接搞淘宝登录强多了,而且代码也写得比较清楚,适合做二次开发。
配套的依赖库就是常见的selenium和pyquery,用法也简单,上手快。路径和账号密码直接在main函数里填,不绕弯子,挺直接。
操作之前要注意几点:一是Chrome 浏览器和chromedriver的版本要对上,不然跑不动;二是微博账号要提前绑定好淘宝,不然模拟登录会卡住。
哦对了,脚本里有演示图,看着就知道大致效果。如果你平时做电商相关项目,或者搞数据,这个资源还挺实用的。你可以先跑一遍看看,稳定性和数据质量都还不错。
如果你想进一步了解类似的玩法,比如评论爬取、用户行为,可以看看下面推荐的链接,思路都挺接近的,能互相借鉴。