金毛猎犬的 Ruby 库真挺方便,专门帮你做各种信息检索和数据挖掘实验。预也省事,能自动标记化、词干提取、去HTML 标签,用起来比较顺手。
安装就一行:gem 'golden_retriever'
,$ bundle
搞定。想单独装也行:$ gem install golden_retriever
,都挺快。
定义文档也蛮简单,看下面例子:
Mongoid.load!("mongoid.yml", "test")
class Article < GoldenRetriever>
想加自定义字段或规则也行,灵活得。
碰到要大段文本、搞搜索引擎原型、做机器学习前的数据准备,这玩意儿都还挺合适。用Mongoid存数据,用Sphinx做全文检索,搭配得还不错。
哦对,如果你还要研究LETOR、跨媒体检索或者想玩玩Python和Matlab那边的数据集,也可以参考下面这几个资源:微软信息检索排序数据集 LETOR、跨媒体信息检索等,思路都差不多。
如果你平时就爱折腾文本和搜索引擎,不妨试试golden_retriever
,简单好上手,响应也快。