GIS 数据质量检查要看什么?拓扑、重复、空值和坐标范围
wowwwai
GIS研习社 · 工具流程与项目排障
问题场景:分析结果不可信,往往是数据质量先出了问题
GIS 项目中,工具运行成功并不代表结果可信。很多错误来自输入数据:面自相交、边界有缝隙、点重复、字段空值、分类不统一、坐标范围异常。数据质量问题如果不在分析前发现,会在统计、制图和入库阶段持续放大。
建立固定的数据质量检查清单,是 GIS 工作专业化的重要标志。它不需要一开始就复杂,但必须覆盖几何、拓扑、属性和坐标四个层面。
几何有效性检查
面图层要检查自相交、空几何、重复节点和极小碎面;线图层要检查断裂、悬挂、重复线;点图层要检查重复点和异常位置。QGIS 的检查有效性、ArcGIS 的 Repair Geometry 都可用于基础修复。
拓扑关系检查
拓扑规则要根据业务定义。行政区边界通常要求无重叠、无缝隙;宗地数据不能互相压盖;管线应在节点处相接。不同数据不能套同一套规则,否则会误报或漏报。
| 数据类型 | 重点检查 | 风险 |
|---|---|---|
| 面 | 重叠、缝隙、自相交 | 面积统计错误 |
| 线 | 断裂、悬挂、重复 | 网络分析错误 |
| 点 | 重复、越界、空坐标 | 数量统计错误 |
属性完整性检查
关键字段不能随意为空,分类字段应使用统一字典,编码字段应唯一。可以统计空值数量、唯一值列表、字段长度和异常字符。属性不规范会直接影响筛选、分组统计和专题图分类。
坐标范围检查
坐标范围异常很容易被忽略。经纬度数据中出现几百万坐标值,或投影坐标数据落在错误带号,都说明 CRS 或数据录入可能有问题。查看 total bounds 是快速发现异常的好方法。
实操检查流程
- 备份原始数据。
- 检查 CRS 和坐标范围。
- 运行几何有效性检查。
- 按业务规则检查拓扑。
- 统计关键字段空值、重复值和异常分类。
- 生成质量检查记录。
项目避坑:质量检查要留痕
不要只口头说“检查过”。应保存检查时间、检查规则、发现问题和处理方式,形成可追溯记录。
这在数据入库、成果审查和多人协作中非常重要。
FAQ
修复几何会不会改变数据?
可能会改变局部几何。重要数据应先备份,并对修复前后面积和要素数做比较。
所有缝隙都必须修吗?
不一定。要看业务规则。自然斑块之间可以有空隙,行政区边界通常不应有缝隙。
属性空值一定是错误吗?
不一定。关键字段空值通常是问题,备注类字段空值可能正常。
总结
GIS 数据质量检查是分析前的保险。几何、拓扑、属性和坐标范围都过关,后续空间分析和制图才有可信基础。