备案控制台

开发者社区大数据文章正文

在EMR中使用snappy压缩的时候快速查看压缩前文本的内容

2017-12-19 1861

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

在EMR的项目中，按理阿里云目前提供的解决方案，大多数的同学可能都是使用的logtail做的日志收集，然后通过logshipper投递到oss中存储。这么配置以后，存储在oss里面的文件都是snappy格式了，但是怎么使用估计大部分同学是一脸懵逼的。

有两个小的配置，可以方便的和使用gzip一样使用snappy文件。

1 hadoop fs -text的命令直接查看。如果是直接使用的话，你看到的都是二进制，直接把shell搞死。需要用下面的格式查看

hadoop fs -Dio.compression.codec.snappy.native=true -text oss://xxx/xx.snappy

2使用MR脚本的时候，需要配置下，这个可能大部分同学都会，因为之前使用gzip的时候，也需要添加类似的配置项才能跑起来

hadoop ....... -jobconf io.compression.codec.snappy.native=true

文章标签：

Shell

存储

分布式计算

Hadoop

对象存储

很赞

目录

相关文章

daniel.meng

|

存储缓存算法

HBase优化之路-合理的使用编码压缩

为什么要讨论HBase编码压缩编码+压缩能够成倍的减少数据的磁盘占用空间，节省可观的存储费用编码+压缩通常情况下可以提高系统吞吐率，让系统可以做更多的功默认建表不启用编码或者压缩，对初学者不友好了解HBase编码举个栗子，我们有一张物流表叫"express"，记录物流订单的流转详情。

daniel.meng

4328 0 0

星光下的赶路人

|

9月前

|

SQL 存储分布式计算

Hive学习---6、文件格式和压缩

Hive学习---6、文件格式和压缩

星光下的赶路人

115 0 0

Hive学习---6、文件格式和压缩

Maynor

|

3天前

|

存储分布式计算 Hadoop

hadoop中压缩及存储常见格式图解

hadoop中压缩及存储常见格式图解

Maynor

36 0 0

yuxialuozi

|

9月前

|

存储算法 Java

解压缩流和压缩流

解压缩流和压缩流

yuxialuozi

53 0 0

大数据启示录

|

存储 SQL JSON

hive文件与压缩

hive文件与压缩

大数据启示录

151 0 0

lizhengting

|

API Android开发

关于安卓图片压缩处理

安卓图片处理

lizhengting

121 0 0

知与谁同

|

SQL 算法 HIVE

Hive支持的文件格式与压缩算法

知与谁同

4152 0 0

学堂小助手

|

分布式计算算法 Hadoop

MR 支持的压缩编码 | 学习笔记

快速学习 MR 支持的压缩编码

学堂小助手

178 0 0

MR 支持的压缩编码 | 学习笔记

峰七（林学维）

|

SQL 分布式计算 HIVE

记一个压缩格式的问题

问题描述 Hive ORC table常规小文件过多问题，于是用Spark写了一个Application来自动的Merge分区数据，思路很简单大概就是 insert overwrite table partition (分区 XXX) select * from table where (分区 XXX)当然已经把该dataframe repartition到想要的目标并发度，来控制最终分区下的文件个数但是发现生成的文件个数虽然是对的，但是最后整个分区的Size竟然几乎翻倍。

峰七（林学维）

816 0 0

阿里云云原生

|

监控算法 Cloud Native

开发函数计算的正确姿势——使用 brotli 压缩大文件

函数计算对上传的 zip 代码包尺寸限制为 50M。某些场景中代码包中会超过这一限制，比如未经裁剪的 serverless-chrome，类似的还有 libreoffice ，此外常见的还有机器学习训练的模型文件。本文会比较几种常见的解决大文件的方案，并重点介绍借助 brotli 提高压缩比的方法。

阿里云云原生

1414 0 0

开发函数计算的正确姿势——使用 brotli 压缩大文件

热门文章

最新文章

流言终结者- Flutter和RN谁才是更好的跨端开发方案？

PostgreSQL 聚合函数讲解 - 3 总体|样本方差, 标准方差

袋鼠云数据中台专栏（五）：数栈，企业级一站式数据中台PaaS

CentOS7(6.5)升级docker到较新版

利用Serverless Kubernetes和Kaniko快速自动化构建容器镜像

javascript 正则表达式

前 Kubuntu 领袖发起了新的 KDE 项目

关于PLC高速计数器使用

redhat openstack 一些说明

jbpm4.4遇到的问题

《MySQL 入门教程》第 05 篇账户和权限，Java高并发编程详解深入理解pdf

C++|运算符重载（1）|为什么要进行运算符重载

实时计算 Flink版产品使用合集之支持 MySQL 的并行复制吗

Java的前景如何，好不好自学？，万字Java技术类校招面试题汇总

Android中的多线程及AsyncTask的引入，最终入职阿里

实时计算 Flink版产品使用合集之作业原本只配置了采集一张表，现在想增加一张表，这张新增的表将会增量采集还是重新全量采集

es集群安装，邮储银行java面试

实时计算 Flink版产品使用合集之处理数据同步时出现异常，想要在遇到异常时发送邮件通知，如何捕获并处理这些异常

Android 11 中的存储机制更新，面试心得体会

数据结构~缓存淘汰算法--LRU算法（Java的俩种实现方式，万字解析

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考