流量采集的复杂度,来自于入口太多、终端太杂。像京东这种平台,光入口就能绕地球三圈:PC 网页、H5 页面、App、小程序,甚至还有智能设备。你能想到的终端,它们基本都接入了。所以啊,数据采集这活儿,还真不只是埋点那么简单。
浏览器端的采集主要靠日志上报,说白了就是你打开个页面、点个按钮,前端偷偷记下来发个求。主要分两类:页面日志和点击/自定义日志。前者是你刚进页面就触发的,后者是你手动操作才会发的。页面初始化、用户行为这块,全靠它们。
常用的做法是前端用[removed]
、performance.timing
这类 API 抓数据,封装一下统一上报。比如你可以用fetch
往一个专门的采集服务 POST 数据,或者用图片打点。嗯,后者兼容性强,就是这么老派还好用。
像 VESA 组织的DVI 标准其实也可以类比为一种“数据规范”,但在浏览器采集中,标准更多是你自己团队定的。别小看这一点,埋点结构统一了,后端才不会抓狂。强烈建议搞一个通用埋点 SDK,解耦埋点逻辑和业务代码,更新起来也省事。
,采集归采集,隐私这关别忘了过。建议你配合权限提示、匿名化,别等出事再补锅。如果你对浏览器日志这块还不熟,可以看看日志浏览器指南,里面有不少实践经验,挺实用的。
如果你正好在做 H5 页面、埋点系统,或者想搞一套通用采集框架,可以从上面的浏览器日志采集方案入手,先跑通再说优化。