C4.5 算法的决策树模型在糖尿病数据里还挺有看头的。2 型糖尿病的数据量一大,用传统方法就挺吃力的。引入C4.5后,可以自动挖出一些蛮有意义的分类规则,准确率高达 97%,这在实际测试里表现也稳定。

用的是实测数据,不是什么假设模型,所以推出来的规律基本能对得上医生的判断。说白了,就是让机器先跑一圈,看能不能挖出哪些人容易得糖尿病。规则提取这块比较关键,适合做预警模型和干预建议。

要是你想跑跑试试,Matlab版本的 C4.5 源码还蛮全,matlab 环境下的决策树 C4.5 算法源码资源可以直接上手。另外也有基于WEKA的数据挖掘案例,界面化操作挺友好的。

想练手?可以下载Diabetes Dataset数据集,里面字段够全,能跑分类也能做回归。再配合下那个MATLAB C4.5算法包,代码结构清晰,响应也快,改起来不麻烦。

如果你是想做跟医学结合的数据挖掘,这篇论文思路还不错,规则提炼+实际数据验证,比较接地气。可以参考它的流程,按图索骥地写自己的代码。