元数据管理系统开源-元数据管理系统开源文档介绍内容-移动阿里云

DLF统一元数据

背景信息阿里云数据湖构建是一款全托管的快速帮助用户构建云上数据湖的服务，产品为云原生数据湖提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力，详细信息请参见数据湖构建产品简介。...

后续指引

下表汇总了IMM的常用高阶功能：功能列表说明创建数据集数据集是由元数据所组成的集合，是元数据管理存放元数据的容器。您可以将有关联的媒体文件和存放到同一个数据集中，便于查询。人脸聚类使用人脸聚类功能，您可以将数据集中存在...

创建元数据

在基于HBase、Elasticsearch或MongoDB数据源创建服务单元之前，需要先创建对应数据源中数据表的元数据，以实现通过元数据确定数据源中数据表的结构。后续您可以通过该元数据读取到对应数据源的数据。本文为您介绍如何创建HBase、...

创建元数据

在基于HBase、Elasticsearch或MongoDB数据源创建服务单元之前，需要先创建对应数据源中数据表的元数据，以实现通过元数据确定数据源中数据表的结构。后续您可以通过该元数据读取到对应数据源的数据。本文为您介绍如何创建HBase、...

实验介绍

字段名称字段说明 uid 用户名 region 地域 device 终端类型 pv 浏览量 gender 性别 age_range 年龄分段 Zodiac 星座更多操作操作描述文档 元数据管理 通过数据地图概述模块，对源端表数据进行元数据管理与查看。管理数据消费数据 ...

MaxCompute湖仓一体

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现，将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力于构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过Dataphin管理MaxCompute和...

MaxCompute湖仓一体

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现，将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力于构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过Dataphin管理MaxCompute和...

元数据管理常见问题

本文汇总了使用E-MapReduce的元数据管理时的常见问题。报错提示“oss:/yourbucket/*/*/*”或“hdfs:/yourhost:9000/*/*/*”路径不存在，该如何处理？删除Hive Database时提示“java.lang.IllegalArgumentException:java....

标量检索（Python SDK V2）

示例代码开启元数据管理功能以下代码用于为指定Bucket开启元数据管理功能。开启后，OSS会为Bucket创建元数据索引库并为Bucket中的所有Object建立元数据索引。元数据索引库创建完成后，OSS会继续对Bucket中新增文件进行准实时的增量追踪...

创建及管理元数据采集任务

前提条件需先在管理中心数据源管理应用系统创建应用系统，才能使用应用系统类型的采集源。使用限制若采集的元数据存在同名但名称大小写不一致的情况时，系统仅识别计算引擎默认支持的写法（如Oracle默认识别大写名称对象、DM（达梦）...

元数据迁移

验证元数据同步结果在左侧菜单栏，单击元数据 元数据管理。单击数据库页签，选择数据目录，输入同步的数据库名称，可以查询到相应的数据库信息。单击数据表页签，选择数据目录和库名，输入同步的表名，可以查询到相应的数据表...

DLF商业化公告

支持表接口和文件接口对全模态数据读写处理，提供完善的元数据管理、权限管理、存储分析、存储优化等能力，助力企业专注于业务创新和 Data+AI 应用构建。产品优势如下：高性价比的湖仓存储智能且按量付费的湖表优化、智能存储分层、存储...

创建及管理元数据采集任务

前提条件需先在管理中心数据源管理应用系统创建应用系统，才能使用应用系统类型的采集源。使用限制若采集的元数据存在同名但名称大小写不一致的情况时，系统仅识别计算引擎默认支持的写法（如Oracle默认识别大写名称对象、DM（达梦）...

设备元数据接入

本文以车联网场景中车辆元数据为例介绍基于设备接入平台与表格存储Tablestore搭建车辆元数据管理平台的场景需求以及方案架构。场景需求车辆在行驶的过程中会定时上报大量的状态数据，例如车辆识别代码、行驶速度、发动机转速、车内温度等...

向量检索（Java SDK V1）

如果您希望通过RAM用户或者STS的方式执行数据索引相关操作，例如：开启元数据管理功能，您必须拥有 oss:OpenMetaQuery 权限。获取元数据索引库信息，您必须拥有 oss:GetMetaQueryStatus 权限。查询满足指定条件的Object，您必须拥有 oss:...

配置Hive数据源

MaxCompute提供数据迁移服务MMS（MaxCompute Migration Service），允许将其他数据源的数据通过MMS迁移至MaxCompute。本文介绍如何新增Hive数据源。适用范围迁移限制：不支持_HIVE_DEFAULT_PARTITION_分区迁移。Hive端准备好取数据时，...

生命周期管理

功能说明通过生命周期管理对数据湖中的数据库、数据表配置数据管理规则，基于数据最后访问时间、分区值（按时间）、分区/表创建时间、分区/表最近修改时间四种规则类型，对数据定期进行存储类型转换，从而节省数据存储成本。数据湖中...

什么是OSS-HDFS服务

基于统一的元数据管理能力，完全兼容HDFS文件系统接口，满足大数据和AI等领域的数据湖计算场景。注意事项警告当您为某个Bucket开通OSS-HDFS服务后，OSS-HDFS服务数据将保留在Bucket的.dlsdata/目录下。禁止以非OSS-HDFS提供的方式对该...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

单击 元数据管理 数据库页签的目标数据库，在目标数据库的表列表页签查看数据表是否生成。整库实时同步在DataWorks 数据集成模块中创建整库实时同步任务，进行Hudi格式的数据入湖操作，详情请参见 MySQL整库实时同步至OSS数据湖。关键...

基本概念

本文介绍EMR Serverless StarRocks产品中涉及的一些基本名词...EMR StarRocks Manager EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，提供对实例内数据的管理、诊断与分析、安全权限配置等能力。

Notebook（旧版）

自主维护业务元数据，人工为辅，元数据管理效率提升50%。用数人员（产品/运营/管理者）找数难、等待周期长、无法自服务自闭环。通过Web/钉钉等多个渠道，利用开发人员构建的查数Agent，以自然语言交互方式获取数据，实现0代码操作，只需...

元数据中心权限列表

权限点超级管理员 系统管理员普通成员查看元数据清单列表 Y Y N 查看元数据清单详情 Y Y N 数据探查配置权限列表具有数据探查-数据探查配置权限的自定义全局角色支持配置数据探查配置。权限点超级管理员运营管理员普通成员数据...

多元索引入门与实践

基于Tablestore多元索引打造亿量级店铺搜索系统基于TableStore的海量电商订单元数据管理 基于Tablestore的海量保险单查询平台 TableStore：用户画像数据的存储和查询利器 TableStore：交通数据的存储、查询和分析利器空间数据多维的网格...

元数据中心权限列表

权限点超级管理员 系统管理员普通成员查看元数据清单列表 Y Y N 查看元数据清单详情 Y Y N 数据探查配置权限列表具有数据探查-数据探查配置权限的自定义全局角色支持配置数据探查配置。权限点超级管理员运营管理员普通成员数据...

0024-00000502

问题描述 管理元数据转换任务请求（修改或删除）时，设置了RoleID。问题原因您发起了管理元数据转换任务请求（修改或删除），并设置了RoleID。问题示例该功能为邀测功能，未对全部用户开放，暂不提供示例。解决方案 管理元数据转换任务...

Lindorm表数据

在Lindorm实例绑定至DataWorks后，您可以在数据地图中进行元数据管理和查看操作。本文为您介绍如何查看和管理Lindorm表数据。前提条件已在计算资源绑定页面设置了SPARK参数信息，用于采集Lindorm的元数据，详情请参见 Lindorm计算资源设置...

DLF-Auth

背景信息数据湖构建DLF是一款全托管的快速帮助用户构建云上数据湖的服务，提供了云上数据湖统一的权限管理和元数据管理，详细信息请参见数据湖构建产品简介。数据权限功能，请参见数据权限。前提条件已创建E-MapReduce集群，并选择了...

EMR+DLF数据湖解决方案

通过EMR+DLF数据湖方案，可以为企业提供数据湖内的统一的元数据管理，统一的权限管理，支持数据湖的多种管理如数据生命周期、湖格式自动优化、存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案...

OSS/OSS-HDFS

基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好地满足大数据和AI等领域的数据湖计算场景。更多信息，请参见什么是OSS-HDFS服务。JindoData是阿里云开源大数据团队自研的数据湖存储加速...

YARN

YARN是一个分布式的资源管理系统。YARN是Hadoop系统的核心组件，主要功能包括负责在集群中的资源管理，负责对作业进行调度运行以及监控。基本概念名称描述 ResourceManager 负责集群的资源管理与调度，为运行在YARN上的各种类型作业分配...

Kudu

Kudu是一个分布式的，具有可扩展性的列式存储管理器，可以对快速变化的数据进行快速分析。使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在...

API概览

元数据管理 API 标题 API概述数据集管理数据集管理 CreateDataset 创建数据集创建一个数据集（Dataset）。UpdateDataset 更新数据集更新一个数据集（Dataset）的信息。GetDataset 查询数据集信息查询一个数据集的信息。ListDatasets ...

Hive

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。Hive结构名称说明 HiveServer2 HiveQL查询服务器，可以配置为Thrift或者HTTP协议，接收来自JDBC客户端提交的SQL请求...

迁移元数据上云

迁移元数据上云是指将开源RabbitMQ集群的元数据导出，并将其导入到阿里云云消息队列 RabbitMQ 版实例。云消息队列 RabbitMQ 版会根据成功导入的元数据在目标云消息队列 RabbitMQ 版实例中创建对应的Vhost、Queue、Exchange、Binding，...

组件操作

HDFS概述 HDFS常用命令 JVM内存调优 HBase HBase是一种分布式、面向列的开源数据库，其基于Hadoop文件系统构建，旨在为大型数据集提供低延迟的随机读写访问和高可靠性存储。使用HBase快照使用HBase Shell 常见问题和故障诊断 Celeborn ...

功能与优势

提供元数据管理：您可以通过Catalog连接常见的上下游组件（例如MySQL、Hive、Hologres、DLF和Kafka等），进行统一元数据管理与使用，详情请参见 数据管理。自定义函数：您可以方便地管理和使用自定义函数，详情请参见管理自定义函数（UDF...

数据加密

该服务基于统一的元数据管理能力，完全兼容HDFS文件系统接口。此外，由于数据存储在OSS中，OSS-HDFS服务完美地继承了OSS的数据保护功能。在EMR集群中内置了JindoSDK，各相关组件已完全支持OSS-HDFS，详情请参见数据湖生态接入。客户仅需...

Hadoop集群迁移至DataLake集群

元数据类型：确认旧集群采用的元数据类型（DLF、自建RDS），以规划新架构中元数据管理系统的对接和迁移策略。数据存储架构：分析旧集群的数据存储架构（本地HDFS、OSS、JindoFS block模式），为后续数据迁移路径设计提供依据。用户认证&...

数据监控

通过查看CPFS智算版文件系统的容量监控和性能信息，您可以了解CPFS智算版文件系统的存储容量使用情况和读写吞吐、读写IOPS等情况。通过为CPFS智算版文件系统的重要监控指标设置报警规则，您可以及时获知指标异常并快速处理异常。本文介绍...

元数据实体相关概念说明

元数据实体对象数据地图通过元数据采集器采集并纳管了不同类型和不同层级（子类型）的元数据实体对象。完整的采集器类型支持列表请参见采集器类型（CrawlerType）支持列表。按照元数据层级结构，数据地图支持的完整元数据实体层级分为：...