无人驾驶背后的技术 - PostGIS点云(pointcloud)应用

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云原生数据库 PolarDB 分布式版,标准版 2核8GB
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 标签 PostgreSQL , PostGIS , box , grid , pointcloud , pgpointcloud , point聚合 , KNN , 自动驾驶 , 自动配送 , 无人驾驶 背景 科幻电影的场景随着技术的发展,正在一步步的从荧幕变成现实。

标签

PostgreSQL , PostGIS , box , grid , pointcloud , pgpointcloud , point聚合 , KNN , 自动驾驶 , 自动配送 , 无人驾驶 , 机器人配送 , 物流


背景

科幻电影的场景随着技术的发展,正在一步步的从荧幕变成现实。从军用到民用,比如汽车厂商、科技公司在尝试的无人驾驶,无人飞行器。

无人驾驶应用非常广泛,比如快递行业,时机成熟以后,将来可能快递员这个职业也会逐渐从社会上消失(解放快递员的双手和创造力,让更多的人参与到科技改变生活当中)。

不管是无人驾驶的汽车还是飞行器,少不了导航,导航少不了位置信息,位置信息又是由无数的点组成的。点越多,精细度越高,就像照片一样,以前的手机像素和感光元件很粗糙,拍摄的照片清晰度就不如现在的手机。

pic

pic

要达到无人驾驶的可用性,对于点的密度也是有要求的,比如,每平方米一个点的话,1平方公里就是100万个点。1米显然也是一个比较粗糙的数据,但是还好,如果只是驾驶,不需要覆盖到所有的点,只需要覆盖到道路所占面积即可。

比如双向6车道,宽度25米的道路,100公里需要多少个点来描述呢? 如果每平方米一个点,需要250万个点,如果每平方米再划分10个格子,那么需要2500万个点,如果每平方米划分成100个格子,那么需要2.5亿个点。(使用PostgreSQL PostGIS可以做到更精细,使用point经纬度表示(float8,float8),并非格子表示。有些数据库使用geohash表示,精确度受限。有兴趣的童鞋可以参考 《geohash vs PostGIS》 )

大概的point体量知道了之后,如何与无人驾驶结合起来呢?

为了方便描述,把point点阵称为点云(pointcloud)。当设定了无人驾驶的起始点和路径,需要将涉及道路的点都载入汽车,每个点除了位置,还应该有其他属性,比如窨井盖、坑、水泥路OR沥青路、红绿灯、硬路肩等,这些属性可以使用其他字段存储。

点云作为位置与属性数据与自动驾驶软件结合使用。

一、使用什么存储点云

PostGIS是一个非常流行的GIS数据管理插件,在天文、科研、军工、互联网应用广泛,阿里云RDS for PostgreSQL集成了PostGIS。你可以选择RDS for PostgreSQL或者自己安装PostgreSQL+PostGIS。

我们可以将数据存储在PostgreSQL中,数据类型使用geometry,索引使用GiST,检索性能杠杆的。

二、建模

pic

每条道路由若干个点组成,车辆启动时,定位,并载入附近的点,返回与道路的多边形相交的点。要做到无人驾驶,点云的分辨率(密度)要求很高,前面讲了,双向6车道,宽度25米的道路,每平方米使用100个点表示时,100公里需要2.5亿个点。

如果无人驾驶的车辆运行速度为1公里每分钟(相当于时速60公里),那么点的载入速度至少要达到250万点/分钟。

我们先使用每条记录表示一个点(后面再来谈优化)。

1. 表结构(以RDS for PostgreSQL举例)

create extension postgis;  -- 创建postgis插件  
  
postgres=# create table cloudpoint_test(  
  id serial primary key,  -- 主键  
  loc geometry,        -- 经纬度(或point)  
  other text           -- 其他属性  
);  
CREATE TABLE  

2. GIST索引

postgres=# create index idx on cloudpoint_test using gist(loc) with (buffering=on);  
CREATE INDEX  

三、点云的数据写入速度

1. 灌入测试数据,50个并发,灌入1亿测试数据。(随机点的边界是横竖10000,覆盖1一个点。)

vi ins.sql  
  
insert into cloudpoint_test (loc,other) values (st_makepoint(random()*10000, random()*10000) , 'test');  

2. 灌入数据性能指标,每秒灌入约 16.6 万条记录。

pgbench -M prepared -n -r -P 1 -f ./ins.sql -c 50 -j 50 -t 2000000  
  
transaction type: Custom query  
scaling factor: 1  
query mode: prepared  
number of clients: 50  
number of threads: 50  
number of transactions per client: 2000000  
number of transactions actually processed: 100000000/100000000  
latency average: 0.298 ms  
latency stddev: 0.854 ms  
tps = 166737.438650 (including connections establishing)  
tps = 166739.148413 (excluding connections establishing)  
statement latencies in milliseconds:  
        0.297896        insert into cloudpoint_test (loc,other) values (st_makepoint(random()*10000, random()*10000) , 'test');  

四、点云搜索设计

为了达到最好的性能,建议参考如下文章,原理请感兴趣的童鞋打开了细读

《GIS附近查找性能优化 - PostGIS long lat geometry distance search tuning using gist knn function》

1. 搜索point函数如下

create or replace function ff(geometry, float8, int) returns setof record as $$                                                          
declare  
  v_rec record;  
  v_limit int := $3;  
begin  
  set local enable_seqscan=off;   -- 强制索引, 扫描行数够就退出.  
  for v_rec in   
    select *,  
    ST_Distance ( $1, loc ) as dist   
    from cloudpoint_test   
    order by loc <-> $1           -- 按距离顺序由近到远返回  
  loop  
    if v_limit <=0 then           -- 判断返回的记录数是否达到LIMIT的记录数  
      raise notice '已经取足limit设置的 % 条数据, 但是距离 % 以内的点可能还有.', $3, $2;  
      return;  
    end if;  
    if v_rec.dist > $2 then       -- 判断距离是否大于请求的距离   
      raise notice '距离 % 以内的点已输出完毕', $2;  
      return;  
    else  
      return next v_rec;  
    end if;  
    v_limit := v_limit -1;  
  end loop;  
end;  
$$ language plpgsql strict volatile;  

2. 搜索SQL用法

搜索距离st_makepoint(1500,1500)在100以内,按距离由近到远,返回最多10000条记录(limie 10000)。

postgres=# select * from ff(st_makepoint(1500,1500), 100, 10000) as t (id int, loc geometry, other text, dist float8);  
NOTICE:  已经取足limit设置的 10000 条数据, 但是距离 100 以内的点可能还有.  
    id     |                    loc                     | other |       dist          
-----------+--------------------------------------------+-------+-------------------  
  54528779 | 01010000000000EFF6307297400000010D306E9740 | test  | 0.710901366481036  
  52422694 | 01010000000080EE51B171974000003DE6256D9740 | test  | 0.829108575682196  
  20123322 | 0101000000000074AD5C6F97400000C766CE739740 | test  |   0.9648380442046  
  58784192 | 010100000000803A65F4749740008012FDD8709740 | test  |  1.25666215808279  
......

五、点云的搜索速度

1. 搜索st_makepoint(5000,5000)附近距离1000以内的20万个点,按距离由近到远返回。

1秒。

explain (analyze,verbose,timing,costs,buffers) select * from ff(st_makepoint(5000,5000), 1000, 200000) as t(id int, loc geometry, other text, dist float8);  
  
NOTICE:  已经取足limit设置的 200000 条数据, 但是距离 1000 以内的点可能还有.  
                                                       QUERY PLAN                                                         
------------------------------------------------------------------------------------------------------------------------  
 Function Scan on public.ff t  (cost=0.25..10.25 rows=1000 width=76) (actual time=917.748..945.838 rows=200000 loops=1)  
   Output: id, loc, other, dist  
   Function Call: ff('0101000000000000000088B340000000000088B340'::geometry, 1000::double precision, 200000)  
   Buffers: shared hit=201288, temp read=1418 written=1417  
 Planning time: 0.057 ms  
 Execution time: 959.534 ms  
(6 rows)  

2. 搜索st_makepoint(5000,5000)附近距离2000以内的100万个点,按距离由近到远返回。

10秒。

explain (analyze,verbose,timing,costs,buffers) select * from ff(st_makepoint(5000,5000), 2000, 1000000) as t(id int, loc geometry, other text, dist float8);  
  
NOTICE:  已经取足limit设置的 1000000 条数据, 但是距离 2000 以内的点可能还有.  
                                                        QUERY PLAN                                                           
---------------------------------------------------------------------------------------------------------------------------  
 Function Scan on public.ff t  (cost=0.25..10.25 rows=1000 width=76) (actual time=8867.007..9006.401 rows=1000000 loops=1)  
   Output: id, loc, other, dist  
   Function Call: ff('0101000000000000000088B340000000000088B340'::geometry, 2000::double precision, 1000000)  
   Buffers: shared hit=1006220, temp read=7082 written=7081  
 Planning time: 0.059 ms  
 Execution time: 9074.267 ms  
(6 rows)  

3. 搜索st_makepoint(5000,5000)附近距离3000以内的500万个点,按距离由近到远返回。

43秒。

explain (analyze,verbose,timing,costs,buffers) select * from ff(st_makepoint(5000,5000), 3000, 5000000) as t(id int, loc geometry, other text, dist float8);  
  
NOTICE:  已经取足limit设置的 5000000 条数据, 但是距离 3000 以内的点可能还有.  
                                                         QUERY PLAN                                                            
-----------------------------------------------------------------------------------------------------------------------------  
 Function Scan on public.ff t  (cost=0.25..10.25 rows=1000 width=76) (actual time=42168.038..42861.462 rows=5000000 loops=1)  
   Output: id, loc, other, dist  
   Function Call: ff('0101000000000000000088B340000000000088B340'::geometry, 3000::double precision, 5000000)  
   Buffers: shared hit=5030448, temp read=35402 written=35401  
 Planning time: 0.060 ms  
 Execution time: 43201.879 ms  
(6 rows)  

现在看起来性能还不错对吧?但是优化是没有止境的,所以还有优化空间,有兴趣的话,可以继续请往下看。

六、点云搜索瓶颈分析

瓶颈分为3个方面

1. 函数回调

由于需要返回的记录数非常多,PostgreSQL的返回记录回调也非常多,导致了较大开销。详见:

《分析加速引擎黑科技 - LLVM、列存、多核并行、算子复用 大联姻 - 一起来开启PostgreSQL的百宝箱》

pic

pic

pic

使用perf可以观察

perf record -ag -p $PID  
  
perf report -ag --stdio  

2. 离散扫描IO放大

由于点位数据可能是随机采录的,所以在堆存储层面没有顺序可言,同时搜索某个点附近的点时,也没有顺序可言,离散的IO请求导致了HEAP IO放大。原理详见:

《索引顺序扫描引发的堆扫描IO放大背后的统计学原理与解决办法》

3. GiST索引离散度品质

GiST索引构建时,也有索引条目的离散度的问题,参考:

https://www.postgresql.org/docs/10.0/static/gist-implementation.html

Beginning in version 9.2,   
PostgreSQL supports a more efficient method to build GiST indexes based on buffering,   
which can dramatically reduce the number of random I/Os needed for non-ordered data sets.   
  
For well-ordered data sets the benefit is smaller or non-existent,   
because only a small number of pages receive new tuples at a time,   
and those pages fit in cache even if the index as whole does not.  

以上三个问题如何优化呢?

七、点云搜索优化

1. get next tuple回调优化

回调太多,返回或处理非常多记录时可能有瓶颈,有3种优化方法。

1 聚合

前面我们精细化到了每平米100个点(100条记录),如果我们把每平米(作为一个格子),将这100条记录聚合为1条记录,那么记录的总数将下降100倍。

1亿记录下降到100万,用户请求的记录数也下降100倍。

pic

聚合后的表结构设计如下

postgres=# create table cloudpoint_test_agg(  
  id serial primary key,        -- 主键  
  loc_box geometry,          -- 格子(闭合多边形), 表示一个范围内的点  
  loc_agg geometry[],        -- 经纬度数组(或point数组)  
  other_agg text[]           -- 其他属性数组  
);  
CREATE TABLE  
  
create index idx_cloudpoint_test_agg_1 on cloudpoint_test_agg using gist(loc_box) with (buffering=on);  
如何聚合?

首先将道路多边形网格化处理,转换为相邻的六边形网格,参考如下方法:

《蜂巢的艺术与技术价值 - PostgreSQL PostGIS's hex-grid》

转换后的道路信息如下

create table cloudpoint_test_grid(  
  id serial primary key,    -- 六边形ID  
  loc_box geometry     -- 单个六边形  
);  

将网格与点云数据JOIN,并聚合为聚合后的数据。

insert into cloudpoint_test_agg (loc_box,loc_agg,other_agg)  
  select t1.loc_box, array_agg(t2.loc) as loc_agg, array_agg(t2.other) as other_agg from   
    cloudpoint_test_grid t1 join cloudpoint_test t2  
    on (ST_Contains(t1.loc_box, t2.loc)) group by t1.loc_box;   

例子

本例使用标准正方形进行网格化,((0,0),(10000,10000)) 区域的网格化操作如下

每100*100一个格子。

pic

http://postgis.net/docs/manual-2.3/ST_MakeBox2D.html

do language plpgsql $$  
declare  
  x int;  
  y int;  
begin  
  for x in select generate_series(0,10000,100) loop  
    for y in select generate_series(0,10000,100) loop  
      insert into cloudpoint_test_grid(loc_box) values (ST_MakeBox2D( st_makepoint(x,y), st_makepoint(x+100, y+100) ));  
    end loop;  
  end loop;  
end;  
$$;  
postgres=# select * from cloudpoint_test_grid;  
  id   |                                                                                          loc_box                                                                                             
-------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------  
     1 | 010300000001000000050000000000000000000000000000000000000000000000000000000000000000005940000000000000594000000000000059400000000000005940000000000000000000000000000000000000000000000000  
     2 | 010300000001000000050000000000000000000000000000000000594000000000000000000000000000006940000000000000594000000000000069400000000000005940000000000000594000000000000000000000000000005940  
     3 | 010300000001000000050000000000000000000000000000000000694000000000000000000000000000C0724000000000000059400000000000C072400000000000005940000000000000694000000000000000000000000000006940  
     4 | 0103000000010000000500000000000000000000000000000000C07240000000000000000000000000000079400000000000005940000000000000794000000000000059400000000000C0724000000000000000000000000000C07240  
  
......  

生成聚合数据

insert into cloudpoint_test_agg (loc_box,loc_agg,other_agg)  
  select t1.loc_box, array_agg(t2.loc) as loc_agg, array_agg(t2.other) as other_agg from   
    cloudpoint_test_grid t1 join cloudpoint_test t2  
    on (ST_Contains(t1.loc_box, t2.loc)) group by t1.loc_box;   
  
INSERT 0 10000  
  
select count(*) from cloudpoint_test_agg;  
10000  

从聚合后的点云数据搜索附近点的函数如下

create or replace function ff1(geometry, float8, int) returns setof record as $$                                                          
declare  
  v_rec record;  
  v_limit int := $3;  
begin  
  set local enable_seqscan=off;   -- 强制索引, 扫描行数够就退出.  
  for v_rec in   
    select *,  
    ST_Distance ( $1, loc_box ) as dist   
    from cloudpoint_test_agg   
    order by loc_box <-> $1           -- 按距离顺序由近到远返回  
  loop  
    if v_limit <=0 then           -- 判断返回的记录数是否达到LIMIT的记录数  
      raise notice '已经取足limit设置的 % 条数据, 但是距离 % 以内的点可能还有.', $3, $2;  
      return;  
    end if;  
    if v_rec.dist > $2 then       -- 判断距离是否大于请求的距离   
      raise notice '距离 % 以内的点已输出完毕', $2;  
      return;  
    else  
      return next v_rec;  
    end if;  
    v_limit := v_limit - array_length(v_rec.loc_agg, 1);  -- 扣减grid内的point个数  
  end loop;  
end;  
$$ language plpgsql strict volatile;  
聚合方法2

使用st_geohash(geometry)提取点的geohash值,根据geohash的preifx进行聚合。

感兴趣的童鞋可以去了解一下geohash,相邻的POINT,GEOHASH的VALUE也是相邻的。

聚合后的搜索SQL例子

搜索距离st_makepoint(1500,1500)在100以内,按距离由近到远,返回最多10000条记录(limie 10000)。

postgres=# select * from ff1(st_makepoint(1500,1500), 100, 10000) as t (id int, loc_box geometry, loc_agg geometry[], other_agg text[], dist float8);  
聚合后的速度测试

1. 搜索st_makepoint(5000,5000)附近距离1000以内的20万个点,按距离由近到远返回。

15毫秒。

postgres=# explain (analyze,verbose,timing,costs,buffers) select * from ff1(st_makepoint(5000,5000), 1000, 200000) as t (id int, loc_box geometry, loc_agg geometry[], other_agg text[], dist float8);  
NOTICE:  已经取足limit设置的 200000 条数据, 但是距离 1000 以内的点可能还有.  
                                                     QUERY PLAN                                                       
--------------------------------------------------------------------------------------------------------------------  
 Function Scan on public.ff1 t  (cost=0.25..10.25 rows=1000 width=108) (actual time=15.642..15.643 rows=20 loops=1)  
   Output: id, loc_box, loc_agg, other_agg, dist  
   Function Call: ff1('0101000000000000000088B340000000000088B340'::geometry, 1000::double precision, 200000)  
   Buffers: shared hit=465  
 Planning time: 0.082 ms  
 Execution time: 15.670 ms  
(6 rows)  

2. 搜索st_makepoint(5000,5000)附近距离2000以内的100万个点,按距离由近到远返回。

63毫秒。

postgres=# explain (analyze,verbose,timing,costs,buffers) select * from ff1(st_makepoint(5000,5000), 2000, 1000000) as t (id int, loc_box geometry, loc_agg geometry[], other_agg text[], dist float8);  
NOTICE:  已经取足limit设置的 1000000 条数据, 但是距离 2000 以内的点可能还有.  
                                                     QUERY PLAN                                                        
---------------------------------------------------------------------------------------------------------------------  
 Function Scan on public.ff1 t  (cost=0.25..10.25 rows=1000 width=108) (actual time=63.287..63.296 rows=100 loops=1)  
   Output: id, loc_box, loc_agg, other_agg, dist  
   Function Call: ff1('0101000000000000000088B340000000000088B340'::geometry, 2000::double precision, 1000000)  
   Buffers: shared hit=2143  
 Planning time: 0.057 ms  
 Execution time: 63.322 ms  
(6 rows)  

3. 搜索st_makepoint(5000,5000)附近距离3000以内的500万个点,按距离由近到远返回。

312毫秒。

postgres=# explain (analyze,verbose,timing,costs,buffers) select * from ff1(st_makepoint(5000,5000), 3000, 5000000) as t (id int, loc_box geometry, loc_agg geometry[], other_agg text[], dist float8);  
NOTICE:  已经取足limit设置的 5000000 条数据, 但是距离 3000 以内的点可能还有.  
                                                      QUERY PLAN                                                         
-----------------------------------------------------------------------------------------------------------------------  
 Function Scan on public.ff1 t  (cost=0.25..10.25 rows=1000 width=108) (actual time=312.315..312.394 rows=501 loops=1)  
   Output: id, loc_box, loc_agg, other_agg, dist  
   Function Call: ff1('0101000000000000000088B340000000000088B340'::geometry, 3000::double precision, 5000000)  
   Buffers: shared hit=10729  
 Planning time: 0.077 ms  
 Execution time: 312.463 ms  
(6 rows)  

聚合前后的性能对比图

pic

2 pgpointcloud

pgpointcloud是PostgreSQL中的一个存储点云数据(LIDAR)的插件,具有类似PostGIS raster数据的功能,同时还有更丰富的扩展功能。

https://github.com/pgpointcloud/pointcloud

pic

《LIDAR in PostgreSQL with PointCloud》

LIDAR传感器,在扫描空间时可能快速的产生上百万的点,每个点除了包含XYZ坐标值,还可能包含更多其他维度信息,例如时间、RGB值、其他属性,还有可能返回的是一批点。

因此没有固定的类型来存储LIDAR传感器上报的数据,pgpointcloud使用"schema document"类型来描述LIDAR传感器上报的数据,格式与PDAL库的标准一致。

每一个点包含若干维度的信息,每个维度可能是任意数据类型,类似复合类型。

LIDAR sensors quickly produce millions of points with large numbers of variables measured on each point.   
  
The challenge for a point cloud database extension is efficiently storing this data while allowing high fidelity access to the many variables stored.  
  
Much of the complexity in handling LIDAR comes from the need to deal with multiple variables per point.   
  
The variables captured by LIDAR sensors varies by sensor and capture process.   
  
Some data sets might contain only X/Y/Z values.   
  
Others will contain dozens of variables: X, Y, Z; intensity and return number; red, green, and blue values; return times; and many more.   
  
There is no consistency in how variables are stored:   
intensity might be stored in a 4-byte integer, or in a single byte; X/Y/Z might be doubles, or they might be scaled 4-byte integers.  
  
PostgreSQL Pointcloud deals with all this variability by using a "schema document" to describe the contents of any particular LIDAR point.   
  
Each point contains a number of dimensions, and each dimension can be of any data type,   
with scaling and/or offsets applied to move between the actual value and the value stored in the database.   
  
The schema document format used by PostgreSQL Pointcloud is the same one used by the PDAL library.  

pgpointcloud是专为处理LIDAR数据而设计的插件,推荐使用。

3 LLVM(JIT)

由于被处理的记录多,导致get next tuple的开销可能被放大,解决办法是降低回调的开销,可以使用code gen,也可以使用向量计算的方法。

参考如下:

《PostgreSQL 10.0 preview 性能增强 - 推出JIT开发框架(朝着HTAP迈进)》

《分析加速引擎黑科技 - LLVM、列存、多核并行、算子复用 大联姻 - 一起来开启PostgreSQL的百宝箱》

《PostgreSQL 向量化执行插件(瓦片式实现) 10x提速OLAP》

性能提升参考以上文档,向量计算有10倍提升,LLVM至少有2倍提升。

2. GiST索引优化

gist 索引优化,目的是减少碎片。使用GiST的buffering开关即可,建索引时可以指定。

create index idx_cloudpoint_test_agg_1 on cloudpoint_test_agg using gist(loc_box) with (buffering=on);  
create index idx_cloudpoint_test_1 on cloudpoint_test using gist(loc) with (buffering=on);  

3. 流式返回

由于返回的记录较多,除了批量一次性返回,还有一种方法,流式的返回。

流式返回有两种方法,一种是游标,另一种是异步消息。

1. 游标实现流式返回。

begin;  
  
declare cur1 cursor for select * from (select *, ST_Distance ( st_makepoint(5000,5000), loc ) as dist from cloudpoint_test order by st_makepoint(5000,5000) <-> loc ) t where dist < 1000;  
  
fetch 100 from cur1;  
  
fetch ...;  
  
-- 客户端接收到足够的数据,或者距离超出后,不再接收,关闭游标,退出事务。  
  
close cur1;  
  
end;  

具体用法,参考编程语言对应的PostgreSQL驱动,例如jdbc for postgresql, libpq等。

2. 异步消息实现流式返回。

会话1,监听通道

listen abcd;  

会话2,发起请求,往监听通道发异步消息

create or replace function ff(geometry, float8, int, text) returns void as $$   
declare  
  v_rec record;  
  v_limit int := $3;  
begin  
  set local enable_seqscan=off;   -- 强制索引, 扫描行数够就退出.  
  for v_rec in   
    select *,  
    ST_Distance ( $1, loc ) as dist   
    from cloudpoint_test   
    order by loc <-> $1           -- 按距离顺序由近到远返回  
  loop  
    if v_limit <=0 then           -- 判断返回的记录数是否达到LIMIT的记录数  
      raise notice '已经取足limit设置的 % 条数据, 但是距离 % 以内的点可能还有.', $3, $2;  
      return;  
    end if;  
    if v_rec.dist > $2 then       -- 判断距离是否大于请求的距离   
      raise notice '距离 % 以内的点已输出完毕', $2;  
      return;  
    else  
      -- return next v_rec;  
      perform pg_notify ($4, v_rec::text);  
    end if;  
    v_limit := v_limit -1;  
  end loop;  
end;  
$$ language plpgsql strict volatile;  

会话2发起搜索请求

postgres=# select ff(st_makepoint(5000,5000), 1000, 10, 'abcd');  
NOTICE:  已经取足limit设置的 10 条数据, 但是距离 1000 以内的点可能还有.  
 ff   
----  
   
(1 row)  

会话1将异步收到通道发来的消息

Asynchronous notification "abcd" with payload "(38434407,01010000000060763E6E87B34000C0028CC587B340,test,0.613437682476958)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(41792090,0101000000006008B91F88B3400000D5D13B87B340,test,0.776283650707887)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(90599062,0101000000002057B2A888B34000C093516E88B340,test,0.787366330405518)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(69482516,01010000000000A574AE88B34000601AEBA888B340,test,0.948568992176712)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(12426846,0101000000006075D49188B34000E0E8E70487B340,test,1.13425697837729)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(98299759,0101000000004054059388B340006014ED1089B340,test,1.21096126708341)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(31175773,010100000000C03179EE88B34000A03E0C1B87B340,test,1.29136079279649)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(11651191,01010000000080C6634C87B34000E0A4852689B340,test,1.34753214416354)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(50248773,010100000000C064B3A686B34000809FA0F487B340,test,1.34955653568245)" received from server process with PID 36946.  
Asynchronous notification "abcd" with payload "(28170573,010100000000608F958B86B34000C051C1F587B340,test,1.45529948415963)" received from server process with PID 36946.  

具体用法,参考编程语言对应的PostgreSQL驱动,例如jdbc for postgresql, libpq等。

4. HEAP离散IO放大优化

在生成点云数据时,按地理位置信息的顺序进行数据的录入堆表,那么在搜索范围数据时,可以缩小需要访问的堆表数据块。

就好像玩乐高积木一样,我们可以购买一些小的分隔盒,把不同形状的小零件放入不同的分隔盒,当需要找某个形状的零件时,定位到小的盒子后,一直从这个小盒子里拿就好了。而不需要到其他的小盒子里拿。

这既是数据整理的魅力,将数据按查询需求归类存放,减少索引查询时HEAP IO的开销。

八、PostgreSQL在GIS领域的其他应用

PostGIS是PostgreSQL的空间数据管理插件,可以管理诸如地理位置,多维数据,栅格数据,拓扑等数据。对数据进行空间计算,叠加计算,点面查询等空间数据相关的运算。

pic

pic

pic

pic

《视觉挖掘与PostGIS空间数据库的完美邂逅 - 广告营销\圈人》

《(AR虚拟现实)红包 技术思考 - GIS与图像识别的完美结合》

《多点最优路径规划 - (商旅问题,拼车,餐饮配送,包裹配送,包裹取件,回程单)》

《聊一聊双十一背后的技术 - 物流、动态路径规划》

九、小结

无人驾驶、物流配送机器人等业务的兴起,给传统的GIS数据库带来了不小的挑战:

1. 首先是数据量方面,一条6车道的道路,每平方米打100个点的话,100公里的道路,需要2.5亿个点。

2. 其次是数据属性,不仅仅要存储经纬度,海拔(XYZ),还需要存储点的材质、密度、颜色、时间等属性。不仅仅要存储单点,还要能存储点阵,线段等等。

3. 最后的数据的写入、大批量数据的交互查询需求,要求实时响应。打点时要求快速的写入,定位、自动驾驶时需要快速的获取周边的海量POINTs。

PostgreSQL, PostGIS, pg-grid, pgpointcloud很好的满足了这三个方面的需求。

在优化代码前,获取附近20万个点,需1秒。需要获取更大数据量时,通过pgpointcloud、网格化聚合等优化手段来提速,获取附近20万个点仅需15毫秒; 获取附近500万个点,仅需312毫秒。

pic

性能优化永远是没有止境的话题,加油小伙伴们,加油PostgreSQL,PostGIS, pgpointcloud。

十、阿里云RDS PostgreSQL,HybridDB PostgreSQL的经典用法

RDS PostgreSQL

负责OLTP和T+0的OLAP业务,主要体现在这几个方面

1. 性能

RDS PostgreSQL主要处理在线事务以及少量的准实时分析。

PG OLTP的性能可以参考这篇文档,性能区间属于商业数据库水准。

《数据库界的华山论剑 tpc.org》

PG 的OLAP分析能力,可以参考这篇文档,其多核并行,JIT,算子复用等特性,使得PG的OLAP能力相比其他RDBMS数据库有质的提升。

《分析加速引擎黑科技 - LLVM、列存、多核并行、算子复用 大联姻 - 一起来开启PostgreSQL的百宝箱》

PostgreSQL 10 在HTAP方面还有更多的增强,将于近期推出公测。

2. 功能

功能是PostgreSQL的强项,详见《PostgreSQL前世今生》

3. 扩展能力

计算能力扩展,通过增加CPU,可以扩展复杂计算的性能。

存储能力扩展,通过OSS存储以及oss_fdw插件,可以扩展RDS PG的存储能力,打破存储极限。

4. 成本

存储成本:由于大部分需要分离的数据都存储到OSS了,用户不再需要考虑这部分的容灾、备份问题。相比存储在数据库中,存储成本大幅降低。

开发成本:RDS PG, HybridDB PG都支持丰富的SQL标准接口,访问OSS中的数据(通过TABLE接口),使用的也是SQL标准接口。节省了大量的开发成本,

维护成本:使用云服务,运维成本几乎为0。

5. 覆盖行业

覆盖了银行、保险、证券、物联网、互联网、游戏、天文、出行、电商、传统企业等行业。

HybridDB for PostgreSQL

1. 性能

HybridDB PostgreSQL为MPP架构,OLAP方面的计算能力很强,云端已有大量 100TB 以上的用户在使用。

2. 功能

与PostgreSQL一脉相承,基本和PostgreSQL的功能贴近。

3. 扩展能力

计算能力扩展,通过增加计算节点数,可以扩展复杂计算的性能。

存储能力扩展,通过OSS存储以及oss_fdw插件,可以扩展RDS PG的存储能力,打破存储极限。

4. 成本

存储成本:由于大部分需要分离的数据都存储到OSS了,用户不再需要考虑这部分的容灾、备份问题。相比存储在数据库中,存储成本大幅降低。

开发成本:RDS PG, HybridDB PG都支持丰富的SQL标准接口,访问OSS中的数据(通过TABLE接口),使用的也是SQL标准接口。节省了大量的开发成本,

维护成本:使用云服务,运维成本几乎为0。

5. 覆盖行业

覆盖了银行、保险、证券、物联网、互联网、游戏、天文、出行、电商、传统企业等行业。

典型用户用法

技术栈与云端应用:

pic

pic

云端存储与计算分离用法:

《RDS PostgreSQL : 使用 oss_fdw 读写OSS对象存储》

《HybridDB PostgreSQL : 使用 oss_fdw 读写OSS对象存储》

十一、参考

http://pointclouds.org/

http://s3.cleverelephant.ca/foss4gna2013-pointcloud.pdf

http://postgis.net/documentation/

《GIS附近查找性能优化 - PostGIS long lat geometry distance search tuning using gist knn function》

《分析加速引擎黑科技 - LLVM、列存、多核并行、算子复用 大联姻 - 一起来开启PostgreSQL的百宝箱》

《索引顺序扫描引发的堆扫描IO放大背后的统计学原理与解决办法 - PostgreSQL index scan enlarge heap page scans when index and column correlation small.》

《蜂巢的艺术与技术价值 - PostgreSQL PostGIS's hex-grid》

《PostgreSQL 百亿地理位置数据 近邻查询性能》

https://www.openstreetmap.org/#map=5/51.500/-0.100

https://www.postgresql.org/docs/9.6/static/sql-notify.html

https://www.postgresql.org/docs/9.6/static/libpq.html

https://jdbc.postgresql.org/

http://postgis.net/docs/manual-2.3/ST_MakeBox2D.html

https://www.openstreetmap.org/

http://opensourcegis.org/

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
3月前
|
机器学习/深度学习 文字识别 自然语言处理
【大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变
通过对GPT-4V和文档识别领域的深入分析和思考,为OCR文档识别领域的研究开辟了新的方向。需求不断增长的背景下,提高识别精度和处理效率成为了迫切需要满足的新应用标准。在这一背景下,出现了: 素级OCR统一模型、OCR大一统模型、文档识别分析+LLM(LanguageModel)等应用的新方向。下面来详细看一下。
271 0
|
3月前
|
算法 自动驾驶 人机交互
三维视觉技术的发展
三维视觉技术的发展
60 2
|
4月前
|
机器学习/深度学习 算法 决策智能
微美全息开发RPSSC技术在高光谱图像分类领域取得重要突破
随着高光谱遥感技术的发展,对于高光谱图像的更加精准的处理需求逐渐增加。在农业、环境监测、资源管理等领域,对高光谱图像进行准确分类是实现智能决策和资源优化利用的基础。
|
11月前
|
机器学习/深度学习 数据采集 大数据
三维ImageNet开源!港中深韩晓光团队助力计算机视觉进入三维大数据时代
三维ImageNet开源!港中深韩晓光团队助力计算机视觉进入三维大数据时代
111 0
|
11月前
|
机器学习/深度学习 人工智能 并行计算
清华&天津大学新作 | SurroundOcc: 面向自动驾驶场景的纯视觉 3D 语义占据预测 (已开源)
清华&天津大学新作 | SurroundOcc: 面向自动驾驶场景的纯视觉 3D 语义占据预测 (已开源)
263 0
|
人工智能 算法 计算机视觉
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
|
人工智能 算法 大数据
自建遥感AI模型 寻找海洋中的蓝色粮仓
遥感大数据与人工智能深度融合的时代,利用遥感AI算法,一起寻找地球上有趣的地物。
|
传感器 算法 机器人
各类开源激光slam算法比较
各类开源激光slam算法比较
|
机器学习/深度学习 编解码 算法
高精度,高效率点云三维重建,清华等联合提出PointMVSNet网络框架
本文介绍了一种基于点云的 MVS 神经网络框架 PointMVSNet。通过对场景的点云进行处理,融合三维深度和二维纹理信息,提高了点云重建的精度。论文作者来自清华、港科大、加州大学圣地亚哥分校等,已被 ICCV 2019 大会接收。
424 0
高精度,高效率点云三维重建,清华等联合提出PointMVSNet网络框架