文件管理系统开源-文件管理系统开源文档介绍内容-移动阿里云

文件元数据离线分析

文件中包含了整个文件系统的命名空间、文件、Block和文件系统配额等元数据信息。HDFS支持通过命令行下载整个fsimage文件（xml形式）到本地，以便离线分析元数据信息，而JindoFS无需下载元数据信息至本地。上传文件系统元数据至OSS 使用...

SmartData 2.6.0-2.7.2版本简介

SmartData的2.6.0-2.7.2版本，包含多个重大...支持权限 Block模式支持Unix权限和Ranger权限两种文件系统权限功能：Unix权限：可以使用文件的777权限。Ranger权限：可以使用Ranger路径通配符等高级配置。权限功能详细请参见 JindoFS权限功能。

SmartData 3.7.x版本简介

特性描述支持访问Amazon S3文件系统 JindoFS客户端支持了Amazon S3文件系统，可以用来访问Amazon S3上的数据。支持OSS PrefixLink特性 JindoFS客户端支持了OSS PrefixLink特性，通过提升Rename性能，能够有效加速Hive作业，特别对于Hive ...

2024-11-25版本

其他 文件管理支持创建文件夹。Spark配置输入框支持添加注释。spark_submit命令支持在提交后展示Spark Driver。引擎侧版本号说明 esr-3.0.0(Spark 3.4.3,Scala 2.12)Fusion加速支持Parquet读取复杂数据类型。支持Parquet写表（esr-3.0.0...

参数说明

fs.oss.impl EMR-3.24.0及后续版本：com.aliyun.emr.fs.oss.JindoOssFileSystem EMR-3.24.0之前版本：com.aliyun.fs.oss.nat.NativeOssFileSystem OSS文件系统实现类。io.compression.codec.snappy.native false 标识Snappy文件是否为标准...

动态加载UDF

操作流程步骤一：环境准备步骤二：添加UDF 步骤三：删除UDF 步骤一：环境准备将UDF对应的JAR包文件放在对应的文件系统中。目前UDF文件支持以下两种方式：方式一：将UDF的全部内容打成一个JAR包（例如，udfjar.jar），上传到文件系统中。...

JindoFS块存储模式

概念块存储模式提供了最为高效的数据读写能力和元数据访问能力，并且能够支持更加全面的Hadoop文件系统语义。同时，JindoFS也提供了外部客户端，能够从集群外部访问建立在E-MapReduce集群内的JindoFS文件系统。数据以Block形式存储在后端...

Hudi

Apache Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。Hudi表类型 Hudi支持如下两种表类型：Copy On Write 使用Parquet格式存储数据。Copy On Write表的更新操作需要通过重写...

常见命令

您可以在已经创建好的E-MapReduce（简称EMR）集群中，直接使用Alluxio Shell命令来对Alluxio中的文件进行操作，也可以使用Hadoop Shell命令操作Alluxio中的文件。本文为您介绍Alluxio的常见命令。前提条件已创建集群，并选择了Alluxio服务...

迁移Hadoop文件系统数据至JindoFS

本文以OSS为例，介绍如何将Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell 对于文件较少或者数据量较小的场景，可以直接使用Hadoop的FsShell进行同步：hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能，可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息回收站是Hadoop Shell或部分应用（Hive等）对Hadoop FileSystem API在客户端的封装，当客户端配置或者服务端配置打开...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能，可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息回收站是Hadoop Shell或部分应用（Hive等）对Hadoop FileSystem API在客户端的封装，当客户端配置或者服务端配置打开...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能，可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息回收站是Hadoop Shell或部分应用（Hive等）对Hadoop FileSystem API在客户端的封装，当客户端配置或者服务端配置打开...

SQOOP

警告该模式会直接影响EMR集群的文件系统或运行环境，请谨慎操作。使用该模式，您还可以选择配置以下参数：调度队列：指定任务提交的YARN队列。任务执行容器内存（MB）：指定任务执行容器的内存。默认值为1024。虚拟核数：指定任务执行容器...