页面信息提取的老问题,MetaSeeker 给了个还挺靠谱的思路。它能把网页上那些给人看的无结构内容,按你的指令整整齐齐地抓下来,输出成结构清晰的 XML 格式,后面要做数据挖掘、结构化,舒服多了。
页面抓取的核心组件是DataScraper,能连续提取页面上的关键信息,指令是从MetaStudio里配置出来的。执行过程靠的是一个自研的工作流引擎,支持流程化的信息。你不需要一行行写爬虫逻辑,配好指令就能跑。
支持GUI 界面操作,装个 Firefox 扩展就能直接上手。界面比较友好,调试方便,适合不想用命令行、又不想从零写代码的你。结果存到DataStore 服务器里,后续也方便。
抓企业黄页、商品详情页、招聘信息这类结构还算稳定的网页,效果比较稳。适合做Mashup或垂直搜索类项目。工作流那块儿也挺灵活,能按需求改。
如果你想了解更多实现思路,推荐看看这几个相关工具:免费网页抓取工具详解、数据挖掘微服务优化工具,跟 MetaSeeker 一起看,理解更清楚。
,如果你经常跟页面结构打交道,又不想重复造轮子,MetaSeeker 的DataScraper还是蛮值一试的,尤其是做信息提取这块儿,效率能提不少。