时间序列数据的玩法还挺多的,是做数据挖掘的时候,能不能先挖出一些高频出现的模式(也叫主题),直接影响后续效果。

这篇论文主要聊的就是怎么在海量时间序列里找出这些反复出现的“时间片段”,不需要你事先知道它们长啥样。像医学监测、地震波、甚至健身追踪这类数据源里,用处可大了。

用过STUMPY的同学知道,搞时间序列模式匹配有时候挺麻烦的,不是慢就是不准。论文里了一些提升效率的方法,有些还是挺好落地的,比如改进距离计算、用滑动窗口提速啥的。AutoPlait 那个自动聚类的方法也提到了,感觉可以配合你现有的数据管道玩得更溜。

如果你平时做可穿戴设备、金融交易模式识别或者物联网设备日志,这类“主题发现”算法还真值得关注一下。嗯,提前做个预,后面建模省不少力。

想了解更多可以看看下面几个相关文章,尤其是那篇 STUMPY 的,工具用得顺手,效率提升可不是一点点:

如果你经常和时间序列打交道,蛮推荐你把这类技术收藏一下,未来做预测或者异常检测都会用得上。