金毛猎犬的 Ruby 库真挺方便,专门帮你做各种信息检索数据挖掘实验。预也省事,能自动标记化词干提取、去HTML 标签,用起来比较顺手。

安装就一行:gem 'golden_retriever'$ bundle搞定。想单独装也行:$ gem install golden_retriever,都挺快。

定义文档也蛮简单,看下面例子:

Mongoid.load!("mongoid.yml", "test")
class Article < GoldenRetriever>
想加自定义字段或规则也行,灵活得。

碰到要大段文本、搞搜索引擎原型、做机器学习前的数据准备,这玩意儿都还挺合适。用Mongoid存数据,用Sphinx做全文检索,搭配得还不错。

哦对,如果你还要研究LETOR跨媒体检索或者想玩玩PythonMatlab那边的数据集,也可以参考下面这几个资源:微软信息检索排序数据集 LETOR跨媒体信息检索等,思路都差不多。

如果你平时就爱折腾文本搜索引擎,不妨试试golden_retriever,简单好上手,响应也快。