爬百度地图的小区数据用这个脚本还挺方便的,直接用关键词抓取 POI 信息,经纬度也能拿到。你要是搞数据或者地理可视化,这种资源就实用。脚本用的是 Python,逻辑清晰,接口调用也没绕太多弯子。

Python 写的爬取百度 poi 数据.py,适合搞爬虫或者 GIS 相关的小伙伴。默认是爬小区,你改下关键词,学校、公园、商场都能搞定。经纬度也能顺带抓下来,方便做地图。

代码逻辑其实不复杂,核心就几个求:用requests发求,解析json数据,再存成结构化数据。求参数ak要注意下,建议翻下2018 年百度高德地图 POI 数据获取这篇文章,有示例参数。

坐标拿到手之后可以直接画在地图上,但你会发现对不上——这就得用GPS 纠偏了。推荐看看GPS 纠偏与经纬度偏移方案,挺全的。还可以参考经纬度转换工具一下。

数据搞完别急着,区县编码信息最好也抓一下,位置更精准。可以用城市编码与区县表这个表来对上。后期你要做热力图、商户分布也就方便多了。

如果你对 SQL、Hive 这类数据感兴趣,也可以看看相关内容:像Hive 导入 ElasticsearchSQL 纠偏数据集,配合用效果更好。

建议:记得设置求间隔,避免被封;还有,ak要自己申,不然会限流。想搞自动化爬 POI 的朋友,这脚本蛮不错,自己稍微扩展下就能直接跑项目。