基于发现特征子空间模型的文本分类算法,挺有意思的一个方法。简单说,就是在传统训练+分类的套路上,多加了一步自动反馈。模型自己会“反思”,用自己的判断来修正分类效果。嗯,听起来像是“会学习”的分类器,效果自然也就更稳更准。

自动反馈机制的设计,适合那种样本动态变化的场景,比如新闻推荐或者评论监控。一开始效果不理想?没关系,后面它自己越跑越准。自学习这个特性,蛮适合做持续训练的系统。

还有一个点挺赞:它给了个反馈阈值的算法,不用你瞎猜怎么设。对搞前端数据的来说,预文本、丢进模型,再拿到分类结果,用起来还是蛮流畅的。响应也快,代码也不复杂。

你如果在做文本分类相关的功能,比如做个后台内容管理工具、自动标注系统啥的,可以拿来做实验。顺便推荐几个相关的思路,有空可以翻翻:

如果你手上正好有一批结构不太清楚的文本数据,想搞搞自动分类的玩意儿,那这个算法还挺值得一试的。