开发者社区> 问答> 正文

请教GP自带入库程序gpload问题

我公司最近开始使用greenplum,作为数据仓库,性能确实非常喜人,但我们也遇到了几个问题,一直不知如何解决,不知有没有什么好的办法,或者还有其他我们没有了解到的特性。

    现在我们每天有600G左右的数据,通过gpload入库,现在有三类比较头疼的问题:
    数据值分区没有定义、数值长度大于表定义的字段长度、单行数据过长,
    这三类都会造成同样的后果,一起加载的几百个文件都会报错入不了库,看了gpload的代码,知道是gpfdist报错导致的,想了解下,有没有办法,让这三种情况跟普通的报错一样,只排除掉有问题的行,其他的行正常入库呢。现在采用的是比较傻的办法,预建分区、将所有字段类型改为text,一个个找出哪个文件的哪一行超长了,增大gpfdist -m启动参数等等,有几种方式确实比较影响性能。
    打扰了,还望指导下,多谢。

展开
收起
imxinlai 2016-01-24 09:01:01 5054 0
2 条回答
写回答
取消 提交回答
  • 一枚PGer

    请教下,你们600G的数据入库在不出错的情况下,大概要入多久,多少节点的集群?配置如何

    2019-07-17 18:26:17
    赞同 2 展开评论 打赏
  • 公益是一辈子的事, I am digoal, just do it. 阿里云数据库团队, 擅长PolarDB, PostgreSQL, DuckDB, ADB等, 长期致力于推动开源数据库技术、生态在中国的发展与开源产业人才培养. 曾荣获阿里巴巴麒麟布道师称号、2018届OSCAR开源尖峰人物.

    gpload 支持过滤error row的.你看看它的帮助手册,Control File中配置错误记录位置,错误限制条数等。

    2019-07-17 18:26:16
    赞同 1 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载