基于距离和的孤立点挖掘算法挺实用的,尤其在数据挖掘中找出那些与众不同的点,能更好地识别异常行为。算法的核心就是计算每个数据点与其他点的距离和,距离和越大,就越有是孤立点。这里面有个小技巧,就是需要用像欧几里得距离这种常见的度量方式,也可以用曼哈顿距离等根据需要调整。步骤也蛮,预数据、计算距离、设置一个阈值,超出这个值的就是孤立点。不过这也有挑战,计算量大时需要一些优化手段,比如 KD 树来加速计算。,这种算法能高维数据,挺适合大数据集应用。你要是需要深入理解,研究一下代码实现和数据集就能更清楚了。