单一粒度的客户基本信息表结构清晰、字段集中,蛮适合做一些基础的客户数据挖掘。像客户识别码
、信用度
、通信费支付方式
这些字段,日常做建模或者用户标签时都比较常用,能省不少预的功夫。
字段重复但排布规律,用起来还挺顺手。字段名没搞太复杂,直接就是客户号码
、客户类别
这类,直白清楚。你做特征工程的时候,按字段组一组,像是“基本身份”、“联系方式”、“账户行为”,分模块更高效。
这类表最大的优点是:单表即可支撑初步建模。比如你想跑个客户流失预测模型,直接用这张表加一点外部行为数据就能上手。字段覆盖还算全,省得你到处找其他表拼。
不过要注意,像开户日期
、数据变更日期
这些字段的时间维度挺重要,别只当普通字段看。时间差一算就是一个有效特征,挺多模型对时间特征敏感。
想深入了解字段定义,可以看看客户基本信息表字段。要是你感兴趣数据挖掘的应用场景,推荐你读下信用卡客户信用评价数据挖掘方法,里面场景还蛮典型的。
如果你正准备做个客户的 demo 或者快速构建数据集,这类结构清晰的表还蛮适合用来做起点。