备案控制台

开发者社区

开发者社区大数据文章正文

hadoop和Hive的数据处理流程

2013-01-18 758

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 需求场景:统计每日用户登陆总数每分钟的原始日志内容如下: http://www.blue.com/uid=xxxxxx&ip=xxxxxx 假设只有两个字段,uid和ip,其中uid是用户的uid，是用户的唯一标识，ip是用户的登陆ip，每日的记录行数是10亿，要统计出一天用户登陆的总数。

需求

场景:统计每日用户登陆总数

每分钟的原始日志内容如下:

http://www.blue.com/uid=xxxxxx&ip=xxxxxx

假设只有两个字段,uid和ip,其中uid是用户的uid，是用户的唯一标识，ip是用户的登陆ip，每日的记录行数是10亿，要统计出一天用户登陆的总数。

处理流程

建表

那么我们首先要在hive里建表，建表语句如下:

复制代码

CREATE TABLE login (
  uid  STRING,
  ip  STRING
)
PARTITIONED BY (dt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

复制代码

其实表名是login,字段之间以,隔开,存储是TEXT,其次还以dt这个字段作为分区。

创建成功之后,会看到hdfs上创建了/user/hive/warehouse/login这个目录。

格式化原始日志

将每天的每分钟的原始日志，转换成以下文件格式

123,17.6.2.6
112,11.3.6.2
………..

根据文件大小，合并文件，例如合并为24个文件。

入库

格式完毕，就可以把数据入库到hive了，假设今天是执行命令

LOAD DATA  INPATH '/data/login/20120713/*' OVERWRITE INTO TABLE login PARTITION (dt='20120713');

执行成功会，转换过的文件会上传到hdfs的/user/hive/warehouse/login/dt=20120713这个目录里。

分析

在hive执行以下语句

select count(distinct uid) from login where dt=’ 20120713’;

使用dt这个分区条件查询，就可以避免hive去查询其他分区的文件，减少IO操作，这个是hive分区很重要的特性，也是以天为单位，作为login表分区的重要意义。

执行完毕后，就可以在命令里出现结果，一般通过管道执行hive shell命令，读取管道的内容，把结果入库到mysql里就完成了分析了。

来源：http://www.cnblogs.com/ggjucheng/archive/2012/07/25/2608757.html#2601110

微信公众号：猿人谷
如果您认为阅读这篇博客让您有些收获，不妨点击一下右下角的【推荐】
如果您希望与我交流互动，欢迎关注微信公众号
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

文章标签：

监控

SQL

HIVE

分布式计算

Hadoop

关键词：

hadoop数据处理

hadoop hive

hadoop流程

hadoop hive数据处理流程

yuanrengu

目录

相关文章

大数据启示录

|

4月前

|

XML 分布式计算安全

hadoop升级流程

hadoop升级流程

大数据启示录

54 0 0

叫个什么名字

|

4月前

|

存储分布式计算 Hadoop

Hadoop：开启大规模数据处理的新时代

在当今数字化时代，大规模数据处理成为企业和组织不可或缺的一环。Hadoop作为一个强大的分布式计算框架，为我们提供了处理海量数据的能力，它的概念与实践不仅改变了数据处理的方式，更为未来数据驱动型决策提供了无限可能。本文将深入探讨Hadoop的核心概念、架构以及实践应用，带您进入大数据时代的新篇章。

叫个什么名字

42 1 1

岁岁种桃花儿

|

5月前

|

SQL 分布式计算 Hadoop

干翻Hadoop系列文章【02】：Hadoop、Hive、Spark的区别和联系

干翻Hadoop系列文章【02】：Hadoop、Hive、Spark的区别和联系

岁岁种桃花儿

64 0 0

拓端数据部落

|

12天前

|

新零售分布式计算数据可视化

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

拓端数据部落

28 0 0

李振良_阿良

|

14天前

|

SQL 存储分布式计算

基于Hadoop数据仓库Hive1.2部署及使用

基于Hadoop数据仓库Hive1.2部署及使用

李振良_阿良

19 0 0

长梦

|

28天前

|

SQL 分布式计算 Hadoop

利用Hive与Hadoop构建大数据仓库：从零到一

【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理，而Hive作为基于Hadoop的数据仓库系统，通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建，为企业决策和创新提供支持。

长梦

76 1 1

爱吃糖的范同学

|

28天前

|

存储分布式计算 Hadoop

【Hadoop】HDFS 读写流程

【4月更文挑战第9天】【Hadoop】HDFS 读写流程

爱吃糖的范同学

31 0 0

极客李华

|

4月前

|

SQL 数据采集分布式计算

Hadoop和Hive中的数据倾斜问题及其解决方案

Hadoop和Hive中的数据倾斜问题及其解决方案

极客李华

48 0 0

孙玉洁-47170

|

4月前

|

SQL 分布式计算安全

HIVE启动错误：org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeExcept

HIVE启动错误：org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeExcept

孙玉洁-47170

149 0 0

极客李华

|

4月前

|

SQL 存储分布式计算

Hadoop中的Hive是什么？请解释其作用和用途。

Hadoop中的Hive是什么？请解释其作用和用途。

极客李华

45 0 0

热门文章

最新文章

利用Hive与Hadoop构建大数据仓库：从零到一

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

大数据处理架构Hadoop

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【Hadoop】HDFS 读写流程

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

Apache Hadoop YARN基本架构

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)

百度搜索：蓝易云【Ubuntu搭建全分布式Hadoop】

hadoop升级流程

使用Sqoop将数据从Hadoop导出到关系型数据库

使用Sqoop将数据导入Hadoop的详细教程

Hadoop和Hive中的数据倾斜问题及其解决方案

Hadoop生态各个组件的关系

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

基于Flink+Tair搭建实时监控大屏

5分钟上手Flink MySQL连接器

使用PolarDB-X与Flink搭建实时数据大屏

搭建Hadoop环境

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）