朴素贝叶斯分类的计算方法讲得还挺细,尤其是怎么连续属性,讲了两种方式:离散化和用概率分布函数,实战里都挺常见的。
连续属性的方式蛮关键的,像你在用户行为预测、邮件分类这类项目时,数据基本都会包含连续型的,比如“停留时间”“点击次数”这些。这里讲得还不错,代码思路也清晰。
你要是搞过SPSS
或Clementine
,会发现它和这篇内容的结合还挺实用的,尤其适合需要在业务场景中落地的同学。
想拓展点思路?看看相关文章也不错,比如决策树和朴素贝叶斯的对比,对你选择模型策略有。还有贝叶斯在数据挖掘中的应用,讲得也挺接地气。
如果你做建模经常遇到连续属性不好的问题,可以试试文中说的两种方法,各有优劣,实际效果还得看你的数据特性。