元数据管理系统开源-元数据管理系统开源文档介绍内容-移动阿里云

什么是EMR on ECS

集成了数据湖构建（Data Lake Formation），实现数据湖场景下多引擎的统一元数据管理。产品计费 EMR费用由E-MapReduce服务费用和ECS产品费用组成。如果您在使用EMR过程中还用到了其他云产品，如OSS、数据湖构建、Workflow等，相关费用请...

查看资产清单

特殊地，如果您搜索的是数据表且数据表非Dataphin平台创建，或由于系统元数据获取延迟导致查询新建表无结果时，您可以使用点击手动同步获取最新的元数据信息，将指定的数据表元数据刷新至Dataphin系统中。刷新元数据详情请参见刷新...

查看资产清单

特殊地，如果您搜索的是数据表且数据表非Dataphin平台创建，或由于系统元数据获取延迟导致查询新建表无结果时，您可以使用点击手动同步获取最新的元数据信息，将指定的数据表元数据刷新至Dataphin系统中。刷新元数据详情请参见刷新...

Hive元数据基本操作

因为EMR表管理功能仅支持基于OSS文件系统创建数据库和表，所以数据来源设置为 OSS。数据库和表的文件路径不能选择整个OSS bucket，需要选择到OSS bucket的下级目录。单击确定。您可以单击任务列表，查看执行结果。当状态为成功时，...

建立元数据索引

自动为OSS Bucket中所有文件建立元数据索引如果您需要自动为OSS Bucket中所有文件建立元数据索引，请调用接口创建数据集和OSS Bucket的绑定关系或者通过智能媒体管理控制台在对应的数据集下新增数据源进行绑定。绑定关系创建后，智能...

自建 RabbitMQ 迁移到阿里云消息队列 RabbitMQ 版

2、数据迁移方案 2.1、使用阿里云 RabbitMQ 控制台迁移工具进行元数据迁移迁移原理：迁移元数据是指将开源 RabbitMQ 集群的元数据导出，并将其导入到阿里云云消息队列 RabbitMQ 版实例。云消息队列 RabbitMQ 版会根据成功导入的元数据在...

仓库成员权限

默认情况下，仓库公开性、成员角色之间的关系如下：仓库角色仓库公开性私有仓库组织内可见拥有者访问、下载、上传、删除、仓库管理、成员管理、元数据管理 访问、下载、上传、删除、仓库管理、成员管理、元数据管理 管理员访问、下载...

功能特性

管理用户及数据授权 元数据管理 元数据管理功能主要为您展示当前实例的所有数据库，数据表，分区及各种任务等信息。查看元数据查询管理通过EMR StarRocks Manager提供的全部查询功能，您可以获取系统的整体查询情况，以便于进行深入分析...

数据湖加速

Hologres从3.0版本新增External Database功能，支持DLF、MaxCompute等数据源的Catalog级别元数据映射，提升数据湖的元数据和数据管理能力，详情请参见 CREATE EXTERNAL DATABASE。新增External Schema 和 External Table能力，支持往指定...

升级配置-半托管

元数据中心（元数据管理+元数据采集）支持从各业务系统中抽取、加工、集中存储和管理元数据，以支持数据治理，并加强组织内部数据的组织、检索和分析能力。操作步骤使用阿里云账号登录阿里云官网。在阿里云官网，鼠标悬停至产品后，再...

开源RabbitMQ迁移上云

在使用开源RabbitMQ集群时，当您希望能够解决各种稳定性痛点（例如消息堆积、脑裂等问题）、实现高并发、分布式、灵活扩缩容时，您可以将开源RabbitMQ集群迁移至云消息队列 RabbitMQ 版，本文介绍迁移上云的前提条件、操作步骤、注意事项...

产品优势

为了支撑网盘的数据管理，通常需要提供各类元数据管理，特别是在AI智能处理场景下，需要定义相关的存储格式，处理数据库的异常，带来了较大的开发难度。采用此方案存在如下问题：元数据表设计难度大针对不同的元数据，需要分类设计各类表...

DataWorks on EMR Serverless StarRocks最佳实践

DataWorks支持StarRocks数据源，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、开发、分析、数据服务等功能。本文为您介绍EMR Serverless StarRocks在DataWorks上的操作流程。背景信息了解EMR ...

近实时数仓

由后台数据管理服务自动优化编排数据存储结构，使用统一的计算引擎支持近实时增量处理链路和大规模离线批量处理链路，而且由统一的元数据服务支持事务和文件元数据管理。该架构带来的优势非常显著，比如，可有效解决纯离线系统处理增量数据...

产品优势

冷热数据管理 FileSystem Catalog 冷热策略作用于文件级别，依赖文件修改时间，无法对齐业务逻辑，易误降冷或遗漏关键数据。DLF REST Catalog 支持表级、分区级冷热策略，按业务语义精准控制数据生命周期，确保热数据高性能、冷数据低成本...

功能更新动态（2025年）

本文将为您及时同步2025年Dataphin共享模式（全托管版）的发布信息。2025年12月对应发布的产品版本：V5.3.4 北京、成都：2025...管理准资产全局角色管理系统内置角色（除了超级管理员外）支持编辑权限点。全局角色管理资源设置支持设置每...

创建及管理来源系统

您可以为从指定数据源采集的元数据配置其归属的来源系统，方便后续对元数据进行分类管理、资产对象筛选、血缘关系展示等。本文为您介绍如何创建及管理来源系统。权限说明超级管理员、系统管理员和具有来源系统-管理权限的自定义全局角色...

创建及管理来源系统

您可以为从指定数据源采集的元数据配置其归属的来源系统，方便后续对元数据进行分类管理、资产对象筛选、血缘关系展示等。本文为您介绍如何创建及管理来源系统。权限说明超级管理员、系统管理员和具有来源系统-管理权限的自定义全局角色...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

DLF2.0发布HiveCatalog，兼容开源HMS

DLF2.0发布HiveCatalog，支持纳管用户存储，支持元数据管理和权限管理功能。适用客户全网客户新增功能/规格 1.DLF2.0发布Hive Catalog，对齐DLF1.0核心的元数据管理和权限管理功能。2.DLF2.0支持纳管OSS和OSS-HDFS存储。3.DLF2.0 Hive ...

功能更新动态（2025年）-独享模式（半托管）

创建DolphinDB数据源创建Microsoft SQL Server数据源创建Redis数据源创建Hive数据源权限管理集成任务、计算任务运行或提交发布时，系统会对当前账号无行级权限的对应对象进行提示，可联系安全管理员进行授权。集成任务提交说明离线...

文件网关缓存盘工作原理

通常情况下：100GB缓存盘可支持约1000万个文件的元数据管理。当数据缓存或元数据缓存空间不足时，系统会分别触发限流和元数据空间不足的告警。为避免影响业务，建议您在收到告警后及时进行缓存盘扩容处理，确保网关稳定高效运行。

SmartData使用说明（EMR-3.20.0~3.22.0版本）

Bigboot 服务提供了E-MapReduce平台上的基础的分布式数据管理交互服务以及一些组件管理监控和支持性服务，SmartData服务基于Bigboot之上对应用层提供了JindoFS文件系统。配置集群 SmartData提供的JindoFS文件系统使用OSS作为存储后端，因此...

湖仓一体2.0

该方案可以打破数据湖与数据仓库割裂的体系，并融合数据湖的灵活性、丰富的多引擎生态与数据仓库的企业级能力，助力构建数据湖和数据仓库相融合的数据管理平台（本功能处于公测阶段）。概念说明数据仓库与数据湖对比类别能力数据仓库 ...

治理项管理流程

治理项的管理流程如下：元数据管理：配置和管理数据治理所需要的元数据指标。治理项管理：基于元数据指标，配置和管理数据治理所需的规则及判定策略（即治理项）。推送管理：对于单一或多个被治理项规则触发的待治理数据对象（表或任务节点...

治理项管理流程

治理项的管理流程如下：元数据管理：配置和管理数据治理所需要的元数据指标。治理项管理：基于元数据指标，配置和管理数据治理所需的规则及判定策略（即治理项）。推送管理：对于单一或多个被治理项规则触发的待治理数据对象（表或任务节点...

同步字典

实例录入数据管理DMS后，DMS会自动采集实例中数据库的字典信息。当您在DMS发现实例信息不一致时，您可以手动同步字典。如果您在DMS进行数据库结构变更，DMS会自动同步字典，否则需要手动同步字典。背景信息字典信息用于实现数据库、表、...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

产品简介

数据管理：提供数据库、表、分区、分片、任务的查询能力，方便运维管理。EMR Serverless Spark 云原生极速计算引擎内置Fusion Engine(Spark Native Engine)：相对开源版本性能提升300%，显著加速大数据计算任务。通过向量化引擎和批量数据...

什么是EMR Serverless Spark

通过DLF实现湖仓元数据全面打通，确保数据访问一致性与权限管理完整性，助力企业轻松构建现代化数据湖仓架构。生态无缝兼容全面兼容开源Spark：无需修改代码即可直接运行，提供用法兼容的 spark-submit 和 spark-sql 工具，降低迁移门槛。...

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息，同时支持创建数据库和数据表，并定义其列及相关属性。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、缓存数据...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

实例元数据

SSRF（Server-Side Request Forgery，服务端请求伪造）是一种安全漏洞，攻击者通过诱导服务器发起任意网络请求，从而访问受保护的内部系统（如元数据服务、数据库等）。例如，攻击者提交包含 http://100.100.100.200/latest/meta-data/ 的...

创建集群

通过阿里云E-MapReduce（简称EMR），您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置，帮助您快速搭建和管理大数据集群。...

StarRocks

高可用易扩展 StarRocks的元数据和数据都是多副本存储，并且集群中服务有热备，多实例部署，避免了单点故障。集群具有自愈能力，可弹性恢复，节点的宕机、下线和异常都不会影响StarRocks集群服务的整体稳定性。StarRocks采用分布式架构，...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

功能特性

立即修复定时修复配置清单管理创建配置清单使用阿里云系统运维管理（OOS）的配置清单功能来收集和管理阿里云计算环境中ECS实例的元数据。这包括一系列数据类型，如应用程序信息、网络配置、服务、文件系统数据、Windows特定数据和实例...

Napatech案例

业务挑战随着网络数据流量的爆增以及业务可用性要求的不断提升，Napatech公司的用户可以将数据包采集和分析的能力提升至200G，然而上层软件产生的流量数据包元数据也爆增，给后台数据库（比如开源的HBase/ElasticSearch）的存储和索引能力...

创建工作空间

emr-oss-hdfs DLF作为元数据服务用于存储和管理您的元数据。开通DLF后，系统会为您选择默认的DLF数据目录，默认为UID。如果针对不同集群您期望使用不同的数据目录，则可以按照以下方式新建目录。单击创建数据目录，在弹出的对话框中输入 ...