GeoPandas如何筛选点？空间查询实战（附：源码）

作者： GIS研习社更新时间：2026-04-12 08:30:01 分类：GIS基础理论

引言：为什么你的空间查询总是那么慢？

在地理信息系统（GIS）和数据分析领域，“判断哪些点在某个区域内”（Point in Polygon）是最基础但也最令人头疼的需求之一。想象一下，你手头有数百万条出租车轨迹数据（点），你需要筛选出所有位于“市中心”区域（面）的记录。

很多初学者会尝试使用 Python 的 `for` 循环配合 Shapely 库逐个判断。结果呢？代码运行了几个小时还没结束。这种效率在处理大规模空间数据时是完全不可接受的。

本文将带你深入 GeoPandas 的核心功能，教你如何通过向量化操作和空间索引（R-tree），在几秒钟内完成百万级数据的空间筛选。我们将通过实战代码演示，从基础的布尔索引到高效的空间连接（Spatial Join），彻底解决你的性能瓶颈。

核心实战一：数据准备与基础筛选逻辑

在进行复杂的空间操作之前，理解数据结构至关重要。GeoPandas 的核心数据结构是 GeoDataFrame，它在 pandas DataFrame 的基础上增加了一列几何对象（Geometry）。

我们要解决的场景是：有一组随机分布的 GPS 点数据，和一个表示行政区划的多边形数据。目标是保留多边形内部的点。

1. 加载数据与检查坐标系

首先，必须确保点数据和面数据处于同一个坐标参考系（CRS）。这是新手最容易犯的错误，如果坐标系不一致，所有的空间查询都会失效。

# 伪代码逻辑演示
import geopandas as gpd

# 读取数据
points = gpd.read_file('points.shp')
polygons = gpd.read_file('districts.shp')

# 关键步骤：统一坐标系
if points.crs != polygons.crs:
points = points.to_crs(polygons.crs)

2. 方法 A：使用 .within() 进行布尔索引

这是最符合直觉的方法。GeoPandas 允许我们直接对几何列进行逻辑判断。`within` 方法会返回一个布尔序列（True/False），告诉我们要保留哪些行。

适用场景： 当你只有一个多边形（例如只筛选“朝阳区”的数据），或者数据量较小（几千条）时，这种方法简单直接。

步骤 1：选取目标多边形对象（例如取出第一行数据）。
步骤 2：使用 points.geometry.within(polygon_geometry) 生成掩码。
步骤 3：将掩码应用到 GeoDataFrame 进行切片。

核心实战二：使用 sjoin 进行高效空间连接（推荐）

当面对多个多边形（例如筛选出分别位于北京16个区的所有点，并标记区名）或海量数据时，上述方法效率极低。这时，sjoin (Spatial Join) 是唯一的王者。

GeoPandas 的 `sjoin` 利用了底层 R-tree 空间索引，不需要逐个计算距离，性能通常提升 100 倍以上。

操作步骤详解

准备数据：确保左右两个 GeoDataFrame 都有定义的 CRS。
执行连接：调用 gpd.sjoin(points, polygons, how='inner', predicate='within')。
参数解析：
- how='inner'：只保留匹配成功的点（即在多边形内的点）。
- predicate='within'：指定空间关系判定条件（点在面内）。
结果处理：返回的新表中，不仅保留了点的属性，还自动附带了它所属多边形的属性（如区域名称）。

方法对比：.within() vs sjoin()

特性	.within() / .contains()	sjoin() 空间连接
底层原理	逐行几何计算	R-tree 空间索引
处理速度	慢（O(N*M)复杂度）	极快（对数级复杂度）
适用场景	单一面要素筛选、小数据集	多对面要素、大数据集、需要关联属性
结果形式	原数据子集	合并了双方属性的新表