备案控制台

开发者社区

开发者社区大数据文章正文

Alluxio使用——Hive篇

2019-08-27 1870

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

简介： 1.服务启停Zookeeper./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg./zookeeper/bin.zkServer.

1.服务启停

Zookeeper

./zookeeper/bin.zkServer.sh start ./zookeeper/conf/zoo.cfg

./zookeeper/bin.zkServer.sh stop

Hadoop

./hadoop/sbin/start-dfs.sh

./hadoop/sbin/stop-dfs.sh

Hive

./hive/bin/hive

./hive/bin/hive --service metastore -p 9083

Alluxio

./alluxio/bin/alluxio local SudoMount

2.Alluxio操作

下载测试数据

稳定的基准数据集。1700部电影的1000名用户获得100,000评级。发布于4/1998。

MovieLens 100K电影收视率

稳定的基准数据集。238,000个用户将27,000个评级和465,000个标签应用程序应用于27,000部电影。包括标签基因组数据，在1,100个标签上有1200万个相关性分数。2015年4月发布; 更新10月2016以更新links.csv并添加标签基因组数据。

MovieLens 20M电影收视率

创建目录

./bin/alluxio fs mkdir /ml-100k


./bin/alluxio fs chmod -R 777 /ml-100k

导入测试数据

## 解压测试数据包
unzip ml-100k.zip

## 导入数据
./bin/alluxio fs copyFromLocal ml-100k/u.user alluxio://alluxio_master_hostname:19998/ml-100k

验证数据

3.Hive操作

Jar依赖

将alluxio的客户端jar复制到hive的lib中

cp ./alluxio/client/alluxio-2.0.0.client.jar ./hive/lib

创建hive内部表

CREATE TABLE u_user (
  userid INT,
  age INT,
  gender CHAR(1),
  occupation STRING,
  zipcode STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LOCATION 'alluxio://alluxio_master_hostname:19998/ml-100k';

查询数据

文章标签：

微服务引擎

SQL

HIVE

分布式计算

Hadoop

Java

相关实践学习

基于MSE实现微服务的全链路灰度

通过本场景的实验操作，您将了解并实现在线业务的微服务全链路灰度能力。

北斗云

目录

相关文章

Cool架构

|

28天前

|

SQL 分布式计算 Java

bigdata-17-Hive部署与Hive基础

bigdata-17-Hive部署与Hive基础

Cool架构

39 0 0

syst1_m

|

5月前

|

SQL 分布式计算 Hadoop

Hive部署

syst1_m

72 0 0

阿甘兄

|

5月前

|

SQL 存储 Java

45 Hive架构

阿甘兄

22 0 0

笑看风云路

|

10月前

|

SQL 存储分布式计算

Hive 浅谈架构

Hive架构

笑看风云路

87 0 0

游客wkxim4agoo6le

|

SQL Java 分布式数据库

Hive与HBase的集成

Hive提供了与HBase的集成，使得能够在HBase表上使用HQL语句进行查询插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。

游客wkxim4agoo6le

245 0 0

柯广

|

SQL 存储分布式计算

Hive整合Hbase

HBase 虽然可以存储数亿或数十亿行数据，但是对于数据分析来说，不太友好，只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询。现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要说Hive，Hive方便地提供了Hive QL的接口来简化MapReduce的使用，而HBase提供了低延迟的数据库访问。如果两者结合，可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析。

柯广

243 0 0

科技小先锋

|

资源调度 Java Shell

hive on tez踩坑记2-hive0.14 on tez

科技小先锋

2643 0 0

涂作权

|

SQL 存储数据库

Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储（来自学习资料）

1.1 Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 1.1.2 为什么使用Hive Ø 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 Ø 为什么要使用Hive 操作接口采用类SQ

涂作权

26070 0 0

尊渊

|

SQL 存储分布式计算

[toc] 概念按照官网翻译，Hive是一个使用SQL管理和使用基于分布式存储的数据集的数据仓库工具软件。注意形容词知道了几个特点：使用SQL 数据仓库、管理数据集（表）基于Hadoop Hive的组件包括HCatalog和WebHCat。

尊渊

2361 0 0

嗯哼9925

|

SQL HIVE 数据格式

用nifi把hdfs数据导到hive

嗯哼9925

1672 0 0

热门文章

最新文章

理解事务的4种隔离级别

疑犯追踪第一季/全集Person Of Interest迅雷下载

简单实用的数据建模工具PDManer

详细讲解！Canal+Kafka实现MySQL与Redis数据同步！

71.7. Script for automatic startup on boot

关于Oracle客户端显示乱码问题

PHPWAMP站点管理的“域名模式”和“端口模式”详解、均支持自定义

学校里学不到的东西(一)

Python 3 教程一:入门

Python的装饰器

R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据

数据分享|R语言用logistic逻辑回归和AFRIMA、ARIMA时间序列模型预测世界人口

【视频】马尔可夫链蒙特卡罗方法MCMC原理与R语言实现|数据分享（下）

【视频】马尔可夫链蒙特卡罗方法MCMC原理与R语言实现|数据分享（上）

数据分享|数据探索电商平台用户行为流失可视化分析

电商平台数据可视化分析网红零食销量

R语言线性回归模型拟合诊断异常值分析家庭燃气消耗量和卡路里实例带自测题

数据分享|R语言GLM广义线性模型：逻辑回归、泊松回归拟合小鼠临床试验数据（剂量和反应）示例和自测题

数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC（下）

相关课程

更多

Hadoop 分布式文件系统 HDFS

Hadoop 分布式计算框架 MapReduce

快速掌握阿里云 E-MapReduce

HBase入门教程

分布式数据库 HBase 快速入门

HBase入门与实战

相关电子书

更多

Experiences Migrating Hive Wor

HDFS optimization for Hbase At XiaoMi

HDFS optimization for HBase at XiaoMi

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）