Alluxio使用——Hive篇

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 1.服务启停Zookeeper./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg./zookeeper/bin.zkServer.

1.服务启停

Zookeeper

./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg

./zookeeper/bin.zkServer.sh stop

Hadoop

./hadoop/sbin/start-dfs.sh

./hadoop/sbin/stop-dfs.sh

Hive

./hive/bin/hive

./hive/bin/hive --service metastore -p 9083

Alluxio

./alluxio/bin/alluxio local SudoMount

2.Alluxio操作

下载测试数据

稳定的基准数据集。1700部电影的1000名用户获得100,000评级。发布于4/1998。

MovieLens 100K电影收视率

稳定的基准数据集。238,000个用户将27,000个评级和465,000个标签应用程序应用于27,000部电影。包括标签基因组数据,在1,100个标签上有1200万个相关性分数。2015年4月发布; 更新10月2016以更新links.csv并添加标签基因组数据。

MovieLens 20M电影收视率

创建目录

./bin/alluxio fs mkdir /ml-100k


./bin/alluxio fs chmod -R 777 /ml-100k

导入测试数据

## 解压测试数据包
unzip ml-100k.zip

## 导入数据
./bin/alluxio fs copyFromLocal ml-100k/u.user alluxio://alluxio_master_hostname:19998/ml-100k

验证数据

3.Hive操作

Jar依赖

将alluxio的客户端jar复制到hive的lib中

cp ./alluxio/client/alluxio-2.0.0.client.jar ./hive/lib

创建hive内部表

CREATE TABLE u_user (
  userid INT,
  age INT,
  gender CHAR(1),
  occupation STRING,
  zipcode STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LOCATION 'alluxio://alluxio_master_hostname:19998/ml-100k';

查询数据

相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
目录
相关文章
|
28天前
|
SQL 分布式计算 Java
bigdata-17-Hive部署与Hive基础
bigdata-17-Hive部署与Hive基础
39 0
|
5月前
|
SQL 分布式计算 Hadoop
Hive部署
Hive部署
72 0
|
5月前
|
SQL 存储 Java
45 Hive架构
45 Hive架构
22 0
|
10月前
|
SQL 存储 分布式计算
|
SQL Java 分布式数据库
Hive与HBase的集成
Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。
|
SQL 存储 分布式计算
Hive整合Hbase
HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Hive,Hive方便地提供了Hive QL的接口来简化MapReduce的使用, 而HBase提供了低延迟的数据库访问。如果两者结合,可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析。
243 0
Hive整合Hbase
|
SQL 存储 数据库
Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储(来自学习资料)
1.1 Hive简介 1.1.1   什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2   为什么使用Hive Ø  直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大   Ø  为什么要使用Hive 操作接口采用类SQ
26070 0
|
SQL 存储 分布式计算
Hive架构
[toc] 概念 按照官网翻译,Hive是一个使用SQL管理和使用基于分布式存储的数据集的数据仓库工具软件。注意形容词知道了几个特点: 使用SQL 数据仓库、管理数据集(表) 基于Hadoop Hive的组件包括HCatalog和WebHCat。
2361 0
|
SQL HIVE 数据格式