数据模型的选择真的是离群检测的关键点,尤其是当你没法提前知道哪些数据是异常的那种。文中举了不少例子,比如高斯混合模型基于回归的、最近邻的模型,优劣也讲得比较透。

像你平时用GMM做图像,或者想搞点行为模式检测,这篇文章里的思路都能派上用场。对没标签的数据来说,靠模型本身来找异常值,是个常规又棘手的活,选错模型,结果真能南辕北辙。

文章后面提到的“空间局部异常”的例子挺实用,比如做环境传感器数据时,局部温度突然变化,这种场景就吃模型的合理假设。

建议你可以顺带看下这几个工具,像PyODDS这种离群检测库,用起来还挺方便的;还有GMM-Master,聚类类任务也能轻松搞定。

,如果你常和“没标签的数据”打交道,或者在物联网、图像、传感器之类的数据,这篇文章能帮你理清模型该怎么选。