空间数据的空间自相关性,真的是挖掘里头最的一点。和经典数据挖掘不同,空间数据往往是黏在一块的——也就是说,相似的东西喜欢聚在一起。就拿城市热力图来说,某个区域热度高,旁边率也不低,这种“你中有我、我中有你”的特点,是空间数据绕不开的点。

空间数据库的方式也不太一样,不能老拿老一套 SQL 来搞定。你得考虑位置、距离这些地理特性,像空间索引空间连接这种操作就常用。想想看,你要从全国范围找出距离医院 500 米内的超市,可不是WHERE条件能搞定的。

还有一点蛮关键的,空间数据经常自带噪音或者分布不均匀,这就需要用到一些比较专业的算法,比如空间聚类或者克里格插值。这些听起来高大上,其实核心逻辑就是“根据周围的信息,把空白补上”,挺实用的。

推荐你顺手翻翻这些文章,空间数据挖掘空间数据库概论》这篇讲得比较全;如果你想看方法应用的,可以点进《全局空间自相关的空间统计方法》;想实操,那就别错过ArcGIS 环境下的空间插值,干货多。

如果你是做地图应用、地理推荐、或者城市规划相关的,这类空间数据挖掘的知识,早点掌握准没错。