Selenium 的 Web 自动化能力真挺适合搞社交媒体数据挖掘的,是你要抓自然灾害相关的推文那种。这个项目用 Java 配 Selenium 自动去 Topsy 上搜关键词,什么“地震”“台风”之类的,全流程都能跑通。数据拿下来之后,再用 MySQL 存储结构化信息,后面做也方便。里面用到了XPath来定位网页元素,这一步关键,写得好,爬得稳。虽然现在 Topsy 挂了,代码不能直接跑,但这个架构和思路还是蛮值得借鉴的,是你第一次做这类项目,不妨看看。