关联规则的挖掘,用在体检数据上其实还挺合适的。尤其是用WEKA跑Apriori的时候,那种从一堆数据中扒出健康线索的感觉,蛮像玩侦探的。你只要把体检中心的数据稍微清洗一下,比如字段统一下格式,再喂进 WEKA,基本就能跑出一些有意思的结果,比如“高血压”经常和“BMI 偏高”一起出现,这种规则还挺有参考价值的。
前的数据要注意点,别急着丢进去挖,先用数据变换搞定清洗和格式转换,尤其是字段命名和缺失值这块,不然容易让挖掘结果失真。跑Apriori的话,默认参数就能出点东西,但建议你多调调支持度和置信度,调对了,结果才有价值。
这篇文章里的案例就比较典型,用体检数据挖出了症状之间的关联,像“经常头晕”和“血糖偏高”有一定联系,对搞健康 cRM 的朋友来说,完全可以拿去做用户标签的模型参考。
要是你想上手试试,下面这些链接蛮实用的:从WEKA 教程到Apriori 优化都有——你可以先看看 WEKA 的操作方法,再试着跑几组规则,挺快能上手。
如果你是第一次用 WEKA,不妨直接用文章里提到的Apriori 算法跑一遍,参数调一调,看看结果是不是符合预期,再慢慢进阶也不迟。