让数据从PostgreSQL流动到Greenplum

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
对象存储 OSS,20GB 3个月
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 在2016云栖大会杭州峰会开源数据库之 Greenplum专场上,阿里云数据库专家曾文旌(义从)做了题为《PostgreSQL Greenplum 数据上云》的演讲。分享了数据上云可能会面对的问题,并且为大家分享了阿里云所提供的解决方案以及使用OSS插件支持Greenplum方案的优势。

以下内容根据演讲PPT以及现场分享整理而成。


本次分享的主要内容
一、数据上云面对的问题
二、解决方案
三、方案优势


一、数据上云面对的问题
现在大家在使用云数据库的时候,可能会遇到的一个很大的问题就是:如何将海量的数据迁移到云端上去。当然在数据迁移的过程中还有可能会遇到网络问题,当网络时好时坏,可能数据上传过程中网络突然断掉,那么几个G或者几十个G的任务就挂掉了,需要重新再导入一遍。还有一个问题就是使用阿里云的各个数据产品时,如何在这些数据产品之间进行数据互通。


二、解决方案
面对这些问题,阿里云也为大家提供了一些解决方案和工具。

f5d8be9a5f6c4b988e7639fd369e019d8c4d0388

  • 第一个工具是oss_ext,它在Greenplum上支持OSS的外表,这个OSS外表将数据通道从OSS打通到Greenplum,其表现形式是在Greenplum中创建一张表,而这张表可以从OSS中导入数据,并且以文本文件的形式存储在OSS上面,并且可以通过文件名进行前缀匹配。简单来说,使用几条SQL语句就可以将OSS上面的数据导入到Greenplum上面去。
  • 第二个工具是oss_fdw,通过它可以将OSS和PG以及PPAS打通,在交易型业务上获取的数据可以很容易地存储到OSS上并且最终导入到Greenplum上,所以通过云做交易业务的用户能够很容易地将数据导入到Greenplum进行数据分析。
  • 第三个工具是pgsql2pgsql,它支持了整个Postgre家族,从PPAS到Greenplum都是兼容的,只需要经过简单的配置就可以将数据从一端保存到另一端。
  • 第四个工具就是mysql2pgsql,它可以使MySQL数据库的数据很容易地导入到Greenplum上面来。

对于整个解决方案而言,每个工具都具有一些特点。

首先,OSS是阿里云上非常廉价的存储服务,它可以和云上所有的数据产品进行打通,并且其收费非常便宜,按照存储量和请求次数进行收费,具体的收费规则在阿里云官网上大家可以看到。

总体而言,使用OSS的成本是相当低的。

  • oss_ext的特点是使用驱动segment对于数据进行装载和导入,并且也支持Greenplum,其数据导入导出性能非常高。
  • 对于oss_fdw来说,它可以支持PG和PPAS,而且数据的格式完全和之前的数据格式兼容,对数据进行读写没有任何障碍。
  • pgsql2pgsql的特点是数据可以在整个PG家族之间进行来回迁移,值得一提的就是在某些场景下还能够支持增量。
  • mysql2pgsql的特点就是,MySQL上面的数据通过它可以很容易迁移到PG家族中去。

整个方案都是以OSS为存储中心,交易型的业务都可以使用OSS作为数据的中间介质进行导入导出。

e0ed4288a7b63c2571243cc3c036d11ff354a4f5

之前在单节点的RDS上面可能会遇到问题就是:购买实例的存储是有限制的。一般而言存储就是几个T,但是一些含有历史数据的表会非常庞大,占据了大量的存储空间,但是对于这些表格查询的次数往往比较少,也就是属于常说的冷数据。面对这样的场景,可以使用OSS对其进行存储,以此将这些冷数据原本占据的大量的存储空间释放掉,当需要的时候再将其导入到数据库中。其实当数据表存储到OSS上面时,也可以非常容易地访问到,只不过性能稍微弱一点,花费的时间稍微长一些。

bebc3ca7669a65d6d9ff79745d87333b0368984c

接下来分享一下Greenplum上的OSS插件的工作原理,我们都知道这样的架构主要由一个主节点和多个计算节点组成。读写的过程中完全让segment进行计算,充分利用segment上面的计算资源、内存和网络。

a73fa7f38ec589058060c2e5567672d3b5b226dd

Greenplum上的OSS插件有很多丰富的特性。

  1. 支持分布式并行数据加载,读写数据的性能随集群segment节点数线性增长,集群越大,性能越强。
  2. 支持自定义格式的文本文件,可以自定义分隔符,自定义数据格式。
  3. 支持多种OSS文件匹配模式,存放非常灵活。
  4. oss_fdw、oss_ext都支持容错模式,对于一个含有上亿条数据的任务而言,当发现几条或者几十条错误的时候,任务会继续执行,并且将错误记录下来,不会由于某些错误而使得整个过程终止。
  5. 支持丰富的性能调优参数。
  6. 支持网络超时自动重试。
  7. 安全特性支持OSS id key 加密存储和隐藏显示。

OSS插件在未来还会支持更多的特性,很多的特性都是根据阿里云客户在实际使用中挖掘出来的,未来阿里云OSS将会对这些特性进行更好地支持。

  1. 未来会支持读写多种压缩文件,进一步降低使用成本。
  2. 扩展多样的读写模式,比如覆盖写模式和追加写模式。
  3. 面对现实场景下的CPU性能导致的数据导入导出瓶颈,未来OSS将会采取一些方案来优化CPU,提高数据的导入和导出速度。
  4. 未来会做同一个外表放在同一个目录,使用OSS文件前缀进行匹配,使文件命名更加方便。

Greenplum已经支持的其他特性

79107be09c43785edc22bcb596fc4d79927f4d94


三、方案优势
使用Greenplum上的OSS插件的方案具有很多优势。
1.使用OSS
OSS的使用成本比较低,并且可以跨各数据库产品进行支持,可以跨可用区进行数据同步。对于冷数据转存到OSS,依然可以当做表访问,只不过性能表现略微降低。
2.并行导入性能高于常规数据导入导出方式
充分利用每个数据节点的CPU、内存、网络等硬件资源,举个例子对于650G的数据,大约20亿行文本数据需要导入到32个segment的Greenplum集群只需要大约35分钟。
3.各数据产品间灵活的交换数据
4.pgsql2pgsql

可以支持不落地数据迁移,pg、ppas大于9.4的版本可以支持基于逻辑复制的增量迁移。
5.mysql2pgsql
可以支持不落地数据迁移,支持多表并发,支持基于条件的增量。
6.工具现在已开源到GitHub
https://github.com/aliyun/rds_dbsync

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
29天前
|
存储 关系型数据库 分布式数据库
PolarDB常见问题之PolarDB冷存数据到OSS之后恢复失败如何解决
PolarDB是阿里云推出的下一代关系型数据库,具有高性能、高可用性和弹性伸缩能力,适用于大规模数据处理场景。本汇总囊括了PolarDB使用中用户可能遭遇的一系列常见问题及解答,旨在为数据库管理员和开发者提供全面的问题指导,确保数据库平稳运行和优化使用体验。
|
1月前
|
SQL 关系型数据库 分布式数据库
在PolarDB中,行数评估是通过对表的统计数据、基数估计以及算子代价模型来进行估算的。
【2月更文挑战第14天】在PolarDB中,行数评估是通过对表的统计数据、基数估计以及算子代价模型来进行估算的。
82 1
|
2天前
|
SQL 关系型数据库 MySQL
关系型数据库插入数据的语句
使用SQL的`INSERT INTO`语句向关系型数据库的`students`表插入数据。例如,插入一个`id`为1,`name`为'张三',`age`为20的记录:`INSERT INTO students (id, name, age) VALUES (1, '张三', 20)。如果`id`自增,则可简化为`INSERT INTO students (name, age) VALUES ('张三', 20)`。
5 2
|
2天前
|
SQL 存储 Oracle
关系型数据库查询数据的语句
本文介绍了关系型数据库中的基本SQL查询语句,包括选择所有或特定列、带条件查询、排序、分组、过滤分组、表连接、限制记录数及子查询。SQL还支持窗口函数、存储过程等高级功能,是高效管理数据库的关键。建议深入学习SQL及相应数据库系统文档。
6 2
|
9天前
|
人工智能 Cloud Native 算法
数据之势丨AI时代,云原生数据库的最新发展趋势与进展
AI与云数据库的深度结合是数据库发展的必然趋势,基于AI能力的加持,云数据库未来可以实现更快速的查询和决策,帮助企业更好地利用海量数据进行业务创新和决策优化。
数据之势丨AI时代,云原生数据库的最新发展趋势与进展
|
26天前
|
关系型数据库 MySQL OLAP
PolarDB +AnalyticDB Zero-ETL :免费同步数据到ADB,享受数据流通新体验
Zero-ETL是阿里云瑶池数据库提供的服务,旨在简化传统ETL流程的复杂性和成本,提高数据实时性。降低数据同步成本,允许用户快速在AnalyticDB中对PolarDB数据进行分析,降低了30%的数据接入成本,提升了60%的建仓效率。 Zero-ETL特性包括免费的PolarDB MySQL联邦分析和PolarDB-X元数据自动同步,提供一体化的事务处理和数据分析,并能整合多个数据源。用户只需简单配置即可实现数据同步和实时分析。
|
2月前
|
关系型数据库 分布式数据库 PolarDB
电子书阅读分享《PolarDB开发者大会:PolarDB在线数据实时分析加速》
电子书阅读分享《PolarDB开发者大会:PolarDB在线数据实时分析加速》
85 3
|
2月前
|
关系型数据库 分布式数据库 PolarDB
电子书阅读分享《PolarDB开发者大会:PolarDB在线数据实时分析加速》
电子书阅读分享《PolarDB开发者大会:PolarDB在线数据实时分析加速》
76 1
|
2月前
|
关系型数据库 分布式数据库 PolarDB
电子书阅读分享《PolarDB开发者大会:PolarDB在线数据实时分析加速》
电子书阅读分享《PolarDB开发者大会:PolarDB在线数据实时分析加速》
87 1
|
3月前
|
人工智能 算法 关系型数据库
PolarDB for AI助力菜鸟实现一站式数据智能
菜鸟通过应用PolarDB for AI,实现云资源成本降低了50%
160 2