HIVE优化浅谈

开源大数据EMR 2019-08-30

阿里云EMR

作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。


引言

随着商务/运营同学执行的HQL越来越多,整体HIVE执行效率变低,本文从HIVE切入,分析HQL面临的问题和待优化部分,结合其他大数据框架来解决实际问题。以下内容没有针对业务代码提供优化建议.


常见的HQL
select型
设置hive.fetch.task.conversion=none会以集群模式运行,无论是否有limit。在数据量小时建议使用hive.fetch.task.conversion=more,此时select配合limit以单机执行获取样本数据,执行更快

常见的select配合order by/group by等基本操作不



登录 后评论
下一篇
云攻略小攻
1384人浏览
2019-10-21
相关推荐
浅谈Hive vs. HBase
1693人浏览
2016-05-05 10:52:02
apache开源项目 -- tez
676人浏览
2017-06-01 21:35:00
Hive 调优总结
10966人浏览
2016-08-28 14:05:00
Hive优化相关设置
565人浏览
2018-11-29 17:16:28
SAS数据挖掘浅谈
2307人浏览
2016-04-25 13:04:00
浅谈大数据分析师
810人浏览
2017-07-06 13:50:00
浅谈Hadoop
437人浏览
2015-03-21 23:15:23
浅谈Hadoop
450人浏览
2015-04-25 20:57:18
HIVE优化浅谈
436人浏览
2019-08-28 16:32:23
0
1
0
1103