用户行为的二相编码信号性能这一块,Hive 配合 SQL 来搞还是挺顺手的。尤其某天某商品的购买或者浏览比例,用behavior_type过滤一下,再按visit_date查,思路清晰。嗯,代码也不复杂,像下面这样:

select count(*) 
from bigdata_user 
where visit_date='2014-12-11' 
  and behavior_type='4';

数据搞清楚了,接下来怎么优化性能?下面这篇文章讲得挺细:《Hive 二相编码信号性能与问题总结》。讲了不少坑,比如信号冗余怎么、查询延迟怎么调优这些,适合你边看边试。