备案控制台

开发者社区

开发者社区数据库文章正文

Hive计算时count sum partition by等方法在数据开发时的一些用法

2018-03-20 4239

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： hive计算数据开发

本篇文章用于记录平时在做hive计算写sql时的心得
epr代表字段

1、常用coalesce(epr,0)方法，可以防止当前字段为空，可以在计算时给个默认值，nvl()也可以

2、常用round(epr, 2)方法，数仓有时候数据类型为float、double，计算时会有精度问题，此方法可以用来保留位数

3、(CASE WHEN epr1 in (2,2) THEN epr2 ELSE -1 END),这个可以根据一个字段的值来定义另一个字段的值

4、epr3,SUM(CASE WHEN epr1 in (2,2) THEN epr2 ELSE -epr2 END) OVER (PARTITION BY epr3) 这种用法可以解决根据epr3聚合的字段,可以根据epr1的值来决定聚合函数里的正负号，PARTITION BY是可以解决在查询的时候可以直接聚合数据，而不需要单独group by数据

5、count(DISTINCT epr1) 对该字段去重去null的计数，count(epr1) 对该字段去null的计数

6、row_number() OVER (partition BY epr1, epr2 ORDER BY epr3 DESC) as number 先对epr1、epr2两个字段聚合数据然后在按epr3排序，按自然数顺序往下排，epr3相同比较数据的顺序，递增

7、rank() OVER (partition BY epr1, epr2 ORDER BY epr3 DESC) as number 先对epr1、epr2两个字段聚合数据然后在按epr3排序，按自然数顺序往下排，epr3相同的话rank值一样，有相等

8、hive里面group by的时候查询出的字段只能是group by 后的字段，不知道是不是我司的问题

文章标签：

SQL

HIVE

关键词：

Hive数据

Hive开发

铭铭erom

目录

相关文章

诸葛子房

|

4月前

|

SQL 分布式计算 Hadoop

创建hive表并关联数据

创建hive表并关联数据

诸葛子房

35 0 0

Want595

|

6月前

|

SQL 分布式计算大数据

黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门

黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门

Want595

66 0 0

javaedge

|

6月前

|

SQL Java 大数据

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

javaedge

199 1 1

赵广陆

|

7月前

|

SQL 分布式计算监控

Hive性能优化之计算Job执行优化 2

Hive性能优化之计算Job执行优化

赵广陆

98 1 1

赵广陆

|

7月前

|

SQL 分布式计算算法

大数据Hive数据查询语言DQL

大数据Hive数据查询语言DQL

赵广陆

58 0 0

赵广陆

|

7月前

|

SQL 存储分布式计算

大数据Hive数据操纵语言DML

大数据Hive数据操纵语言DML

赵广陆

103 0 0

赵广陆

|

7月前

|

SQL 存储大数据

大数据Hive数据定义语言DDL

大数据Hive数据定义语言DDL

赵广陆

73 0 0

Want595

|

6月前

|

SQL 存储大数据

黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念

黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念

Want595

73 0 0

我是廖志伟

|

6月前

|

SQL 存储分布式数据库

【通过Hive清洗、处理和计算原始数据，Hive清洗处理后的结果，将存入Hbase，海量数据随机查询场景从HBase查询数据】

【通过Hive清洗、处理和计算原始数据，Hive清洗处理后的结果，将存入Hbase，海量数据随机查询场景从HBase查询数据】

我是廖志伟

90 0 0

三分钟热度的鱼

|

2月前

|

SQL 消息中间件 Kafka

Flink部署问题之hive表没有数据如何解决

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

三分钟热度的鱼

42 1 1

热门文章

最新文章

阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言，助力业务平滑迁移

利用Hive与Hadoop构建大数据仓库：从零到一

bigdata-17-Hive部署与Hive基础

hive学习笔记

bigdata-18-Hive数据结构与存储格式

bigdata-21-Hive基本函数

【Hive】Hive有索引吗？

bigdata-20-Hive内外部表

Hive【Hive学习大纲】【数据仓库+简介+工作原理】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

【Hive】sort by 和 order by 的区别

DataWorks报错问题之集成hive数据源报错如何解决

DataWorks报错问题之从hive到mysql报错如何解决

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

Hive中日期处理函数的使用（date_format、date_add、date_sub、next_day）

Hive窗口函数案例总结

Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理（一篇即可学会在日常工作中使用Sqoop）

Hive Delegation Token 揭秘

Flink依赖问题之connector hive依赖冲突如何解决

Flink报错问题之flink-1.11写hive报错如何解决

Flink报错问题之使用hive udf函数报错如何解决

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

Hive Bucketing in Apache Spark

spark替代HIVE实现ETL作业

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

相关实验场景

更多

使用Count功能批量创建资源

下一篇

阿里云oss简介和使用流程