元数据管理开源工具-元数据管理开源工具文档介绍内容-移动阿里云

元数据中心权限列表

权限点超级管理员系统管理员普通成员查看元数据清单列表 Y Y N 查看元数据清单详情 Y Y N 数据探查配置权限列表具有数据探查-数据探查配置权限的自定义全局角色支持配置数据探查配置。权限点超级管理员运营管理员普通成员数据...

管理Hive Catalog

Hive Catalog支持Hive MetaStore和阿里云DLF作为元数据管理中心，相关配置说明详情如下：Hive MetaStore 需要检查配置文件hive-site.xml中 hive.metastore.uris 参数配置是否符合下列要求。property name hive.metastore.uris/name value ...

Hive统一元数据

介绍统一的元数据管理，可以实现：持久化的元数据存储。支持统一元数据之前，元数据都是在集群内部的MySQL数据库，元数据会随着集群的释放而丢失，特别是EMR提供了灵活按量模式，集群可以按需创建用完就释放。如果您需要保留现有的元数据...

Kudu

Kudu是一个分布式的，具有可扩展性的列式存储管理器，可以对快速变化的数据进行快速分析。使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在...

DeltaLake

Delta数据湖方案如下：在大数据存储层之上提供了数据管理层，该数据管理层等同于数据库中的元数据管理，其元数据随着数据一起存放并对用户可见（例如数据仓库与数据湖所示）。Delta基于元数据管理引入了ACID，解决了因数据导入失败而产生...

常用工具参考

工具简介命令行工具ossutil 2.0（预览版）ossutil是OSS的新版命令行管理工具，方便您高效使用OSS。更多信息，请参见命令行工具ossutil 2.0（预览版）。阿里云CLI 阿里云CLI（Command Line Interface）是一种命令行工具，允许用户在终端...

创建及管理元数据采集任务

采集任务通过采集适配器连接到指定的数据源，将源数据库中的对象元数据信息采集至Dataphin，通过内置解析器进行解析后存储并进行统一呈现。本文为您介绍如何创建及管理元数据采集任务。前提条件需先在管理中心数据源管理应用系统创建...

创建及管理元数据采集任务

V5.3版本之前，部分数据源需要先在元仓租户中完成 元数据中心初始化配置才可采集，包括AnalyticDB for MySQL 3.0、PolarDB-X（原DRDS）、SAP HANA、Hologres；V5.3及之后版本，无需进行元数据中心初始化配置，可直接开始配置采集任务。...

元数据缓存

ossfs 2.0支持通过元数据缓存减少访问文件时产生的OSS元数据请求并提升元数据性能。元数据缓存包括文件属性缓存和负缓存。本文介绍元数据缓存的工作原理。背景信息当通过 ossfs 2.0 查询文件元数据时，系统会将其转换为多个 OSS 请求，以...

管理开放数据

基于DataWorks平台提供的开放数据，您可进行以下应用：数据盘点：清晰统计工作空间、负责人管理的数据对象（如表、任务），了解数据结构、来源、更新频率及依赖关系，消除“数据黑盒”问题。全链路追溯：基于表和数据血缘等元数据，支持...

OSS/OSS-HDFS

基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好地满足大数据和AI等领域的数据湖计算场景。更多信息，请参见什么是OSS-HDFS服务。JindoData是阿里云开源大数据团队自研的数据湖存储加速...

表详情

当您需要全面了解并高效地使用表数据，您可在 数据管理DMS 的SQL窗口查看表的详细信息，包含表所属库、字段、索引、行数等技术元数据，类目、表描述等业务元数据，以及表权限、表Owner等管理元数据。背景信息 DMS在表详情中引入表的元数据...

功能更新动态（2025年）

创建TDSQL for MySQL数据源创建MySQL数据源创建Microsoft SQL Server数据源创建PostgreSQL数据源创建Oracle数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for MySQL 3.0数据源创建AnalyticDB for PostgreSQL数据源创建...

管理工作空间

工作空间管理员可以加入成员至工作空间，并赋予工作空间管理员、数据分析、数据开发或访客角色，以实现多角色协同工作。本文为您介绍工作空间的基本操作。前提条件已注册阿里云账号并完成实名认证。具体操作请参见账号注册（PC端）。已...

元数据实体相关概念说明

元数据实体对象数据地图通过元数据采集器采集并纳管了不同类型和不同层级（子类型）的元数据实体对象。完整的采集器类型支持列表请参见采集器类型（CrawlerType）支持列表。按照元数据层级结构，数据地图支持的完整元数据实体层级分为：...

什么是EMR on ECS

集成了数据湖构建（Data Lake Formation），实现数据湖场景下多引擎的统一元数据管理。产品计费 EMR费用由E-MapReduce服务费用和ECS产品费用组成。如果您在使用EMR过程中还用到了其他云产品，如OSS、数据湖构建、Workflow等，相关费用请...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群（Hadoop），高效地迁移至数据湖集群（DataLake），以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式，并针对这些因素，提供适应新集群的迁移策略...

建立元数据索引

自动为OSS Bucket中所有文件建立元数据索引如果您需要自动为OSS Bucket中所有文件建立元数据索引，请调用接口创建数据集和OSS Bucket的绑定关系或者通过智能媒体管理控制台在对应的数据集下新增数据源进行绑定。绑定关系创建后，智能...

迁移元数据上云

迁移元数据上云是指将开源RabbitMQ集群的元数据导出，并将其导入到阿里云云消息队列 RabbitMQ 版实例。云消息队列 RabbitMQ 版会根据成功导入的元数据在目标云消息队列 RabbitMQ 版实例中创建对应的Vhost、Queue、Exchange、Binding，...

功能特性

管理用户及数据授权 元数据管理 元数据管理功能主要为您展示当前实例的所有数据库，数据表，分区及各种任务等信息。查看元数据查询管理通过EMR StarRocks Manager提供的全部查询功能，您可以获取系统的整体查询情况，以便于进行深入分析...

自建 RabbitMQ 迁移到阿里云消息队列 RabbitMQ 版

2、数据迁移方案 2.1、使用阿里云 RabbitMQ 控制台迁移工具进行元数据迁移迁移原理：迁移元数据是指将开源 RabbitMQ 集群的元数据导出，并将其导入到阿里云云消息队列 RabbitMQ 版实例。云消息队列 RabbitMQ 版会根据成功导入的元数据在...

方案背景

本文主要为您介绍搭建海量智能元数据管理系统的技术点以及使用表格存储搭建智能元数据管理系统的方案。背景信息用户在存储海量文档、媒体文件等数据时，元数据管理至关重要。元数据包含多维度字段信息，例如文件大小、创建时间、用户等...

组件操作

Hudi概述 Hudi与Spark SQL集成常见问题 Iceberg Iceberg是一种开放的数据湖表格式，提供高性能的读写和元数据管理功能。Iceberg 基础使用 Spark批式读写Iceberg DeltaLake DeltaLake是一个开源的数据存储层，提供ACID事务、可扩展的元数据...

使用OpenAPI

Terraform 支持 Terraform是一种开源工具，用于安全高效地预览，配置和管理云基础架构和资源。EMR支持的资源类型为 alicloud_emrv2_cluster。若以上方案均无法满足您的业务需要，可自行封装请求调用OpenAPI（不推荐），更多信息请参见请求...

什么是数据湖构建

阿里云数据湖构建（Data Lake Formation，简称DLF）是一款全托管的统一元数据和数据存储及管理平台，为客户提供元数据管理、权限管理和存储优化等功能。DLF与多个阿里云大数据计算引擎无缝对接，打破数据孤岛，帮助用户快速实现云原生数据...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

初始化工具介绍

cloud-init工具介绍 Linux实例通过开源工具cloud-init来完成自动初始化实例。更多信息，请参见 cloud-init官方文档。在cloud-init中，定义了一系列的模块（Modules）来完成需要执行的任务和配置。每个模块都有名称、运行频率、配置参数这三...

DLF2.0发布HiveCatalog，兼容开源HMS

DLF2.0发布HiveCatalog，支持纳管用户存储，支持元数据管理和权限管理功能。适用客户全网客户新增功能/规格 1.DLF2.0发布Hive Catalog，对齐DLF1.0核心的元数据管理和权限管理功能。2.DLF2.0支持纳管OSS和OSS-HDFS存储。3.DLF2.0 Hive ...

什么是EMR Serverless Spark

通过DLF实现湖仓元数据全面打通，确保数据访问一致性与权限管理完整性，助力企业轻松构建现代化数据湖仓架构。生态无缝兼容全面兼容开源Spark：无需修改代码即可直接运行，提供用法兼容的 spark-submit 和 spark-sql 工具，降低迁移门槛。...

在EMR集群运行TPC-DS Benchmark

背景信息 TPC-DS是全球最知名的数据管理系统评测基准标准化组织TPC（事务性管理委员会）制定的标准规范，并由TPC管理测试结果的发布。TPC-DS官方工具只包含SQL生成器以及单机版数据生成工具，并不适合大数据场景，所以本文教程中使用的工具...

产品形态选型

一站式数据管理平台：集成 SQL 编辑、权限管控、物化视图、导入任务与 SQL 诊断等能力，提升开发与管理效率。极速查询性能：MPP 分布式架构+全面向量化执行引擎，查询性能提升 3-10 倍。智能查询优化：基于成本的优化器（CBO），自动选择最...

湖仓一体2.0

该方案可以打破数据湖与数据仓库割裂的体系，并融合数据湖的灵活性、丰富的多引擎生态与数据仓库的企业级能力，助力构建数据湖和数据仓库相融合的数据管理平台（本功能处于公测阶段）。概念说明数据仓库与数据湖对比类别能力数据仓库 ...

CloseMetaQuery

调用 CloseMetaQuery 接口关闭存储空间（Bucket）的元数据管理功能。关闭元数据管理功能后，OSS会自动删除Bucket的元数据索引库，您将无法进行元数据索引。注意事项要关闭Bucket的元数据管理功能，您必须有 oss:CloseMetaQuery 权限。具体...

迁移上云操作

和开源Apache RocketMQ相比，阿里云云消息队列 RocketMQ 版具有更高的稳定性、安全性及更完善的运维体系。您可以将开源RocketMQ集群迁移到云消息队列 RocketMQ 版上以获得更好的业务体验。本文为您介绍如何使用云消息队列 RocketMQ 版...

元数据导入

元数据导入功能仅会将自建Kafka集群的Topic和Group导入到云消息队列Kafka实例，适用于开源自建Kafka集群迁移上云且无需进行消息数据导入的场景。如果需要导入消息数据和元数据，请直接使用迁移上云功能进行迁移。本文以自建Kafka集群在不...

SmartData使用说明（EMR-3.20.0~3.22.0版本）

Bigboot 服务提供了E-MapReduce平台上的基础的分布式数据管理交互服务以及一些组件管理监控和支持性服务，SmartData服务基于Bigboot之上对应用层提供了JindoFS文件系统。配置集群 SmartData提供的JindoFS文件系统使用OSS作为存储后端，因此...

使用Webshell诊断应用

安装openssh：OpenSSH是SSH（Secure Shell）协议的免费开源实现，OpenSSH提供了服务端后台程序和客户端工具，用来加密远程控件和文件传输过程中的数据。您可以通过安装OpenSSH，借助远程调试的能力实现SSH远程登录以及SFTP、SCP上传下载...

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

DLF商业化公告

支持表接口和文件接口对全模态数据读写处理，提供完善的元数据管理、权限管理、存储分析、存储优化等能力，助力企业专注于业务创新和 Data+AI 应用构建。产品优势如下：高性价比的湖仓存储智能且按量付费的湖表优化、智能存储分层、存储...