MetaSeeker DataScraper组件中文版网页数据抓取与结构化提取

页面信息提取的老问题，MetaSeeker 给了个还挺靠谱的思路。它能把网页上那些给人看的无结构内容，按你的指令整整齐齐地抓下来，输出成结构清晰的 XML 格式，后面要做数据挖掘、结构化，舒服多了。

页面抓取的核心组件是DataScraper，能连续提取页面上的关键信息，指令是从MetaStudio里配置出来的。执行过程靠的是一个自研的工作流引擎，支持流程化的信息。你不需要一行行写爬虫逻辑，配好指令就能跑。

支持GUI 界面操作，装个 Firefox 扩展就能直接上手。界面比较友好，调试方便，适合不想用命令行、又不想从零写代码的你。结果存到DataStore 服务器里，后续也方便。

抓企业黄页、商品详情页、招聘信息这类结构还算稳定的网页，效果比较稳。适合做Mashup或垂直搜索类项目。工作流那块儿也挺灵活，能按需求改。

如果你想了解更多实现思路，推荐看看这几个相关工具：免费网页抓取工具详解、数据挖掘微服务优化工具，跟 MetaSeeker 一起看，理解更清楚。

，如果你经常跟页面结构打交道，又不想重复造轮子，MetaSeeker 的DataScraper还是蛮值一试的，尤其是做信息提取这块儿，效率能提不少。