预测用户用不用某个移动服务,用决策树算法其实还挺合适的。Pew 研究中心的数据够真实,也够全,140 个变量看起来有点吓人,不过文中只挑了关键字段来做,省事多了。
机器学习这块,用Decision Tree入门还蛮友好,逻辑清晰、结果也直观。你如果做数据或者想做用户行为预测,这篇研究思路可以参考下,尤其是变量筛选的部分。
数据层面,教育程度成了最强预测因子,这点挺有意思;而种族的影响最小,这和多人直觉刚好相反。你做推荐系统、行为建模之类的,也可以留意下这种变量影响的差异。
推荐顺带看看几个资源,比如决策树算法:机器学习经典工具和Java 实现的 ID3 决策树及其预测功能,有代码、有,结合着论文读效果更好。
如果你正打算研究移动服务的用户偏好,或者想用决策树模型搞点预测,这篇论文的整体思路和数据方法还是蛮值得借鉴的,代码实现也不复杂,改改就能用。