元数据管理系统开发-元数据管理系统开发文档介绍内容-移动阿里云

基本概念

本文介绍EMR Serverless StarRocks产品中涉及的一些基本名词...EMR StarRocks Manager EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，提供对实例内数据的管理、诊断与分析、安全权限配置等能力。

升级配置-半托管

元数据中心（元数据管理+元数据采集）支持从各业务系统中抽取、加工、集中存储和管理元数据，以支持数据治理，并加强组织内部数据的组织、检索和分析能力。操作步骤使用阿里云账号登录阿里云官网。在阿里云官网，鼠标悬停至产品后，再...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

在左侧导航栏，选择元数据 元数据管理，单击数据表。在数据表页面，通过库名过滤，可以查看已创建的表信息。步骤二：DataFlow集群连接DLF读取Hive全量数据通过SSH方式登录DataFlow集群，详情请参见登录集群。执行以下命令启动Yarn ...

数据湖加速

Hologres从3.0版本新增External Database功能，支持DLF、MaxCompute等数据源的Catalog级别元数据映射，提升数据湖的元数据和数据管理能力，详情请参见 CREATE EXTERNAL DATABASE。新增External Schema 和 External Table能力，支持往指定...

MaxCompute表数据

前提条件创建MaxCompute数据源并绑定至DataWorks数据开发，绑定后DataWorks会面向引擎自动采集元数据，系统将一次性全量采集存量的元数据，同时每天采集增量的元数据，并汇集至数据地图。由系统自动运维元数据采集器，您无需额外管理...

DataWorks On Hologres使用说明

Hologres可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发Hologres任务的基本流程、费用说明、环境准备、权限控制等内容。前提条件已开通...

2024-08-20版本

元数据管理：支持外部Hive Metastore作为元数据服务。接口调用：提供Spark Thrift Server服务以支持JDBC接口调用。提供Livy服务以支持REST API调用。提供spark_submit执行命令。Notebook 支持PySpark、Python以及Markdown开发。支持数据...

API概览

元数据管理 API 标题 API概述数据集管理数据集管理 CreateDataset 创建数据集创建一个数据集（Dataset）。UpdateDataset 更新数据集更新一个数据集（Dataset）的信息。GetDataset 查询数据集信息查询一个数据集的信息。ListDatasets ...

DataWorks On MaxCompute使用说明

MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发MaxCompute任务的基本流程、费用说明、环境准备、权限控制等内容。前提条件已...

快速玩转Tablestore入门与实战

数据流计算篇基于Tablestore打造亿量级订单管理解决方案基于Tablestore多元索引打造亿量级店铺搜索系统海量智能元数据管理系统实现解析基于Tablestore的海量保险单查询平台消息数据表格存储自研的Timeline模型主要用于消息数据，...

管理数据目录

如果您想创建新的DLF数据目录，可以单击创建数据目录，跳转至数据湖构建控制台创建，详情请参见 元数据管理。说明使用DLF数据目录时，仅支持使用以下引擎版本：esr-4.3.0及以上版本、esr-3.3.0及以上版本、esr-2.7.0及以上版本。外部 ...

CrawlerType

名称类型描述示例值 object 元数据采集器类型 Type string 类型标识，当前支持的元数据采集器类型，取值有 maxcompute dlf hms（使用 HMS 管理元数据的 EMR 集群或 CDH_HIVE 集群）holo mysql oracle postgresql sqlserver analyticdb_...

DLF+OSS外部Schema

通过MaxCompute与DLF和OSS的组合，可以实现数据仓库和数据湖的一体化，提供更加灵活和高效的数据管理和处理能力。访问DLF Legacy的元数据和OSS数据需要指定MaxCompute 外部Schema使用的，能够访问DLF Legacy和OSS的RAM权限。外部Schema映射...

数据地图

网络连通将数据源中的元数据导入数据地图进行统一的元数据管理，需要先确保数据地图元数据采集器能正常访问您的数据库。如果您需要进行元数据采集的数据库已开启白名单访问控制，请在数据库白名单列表中，添加您使用的DataWorks所在地域...

Dataphin支持的数据源

创建数据库SQL任务 元数据采集 元数据中心负责从各业务系统中抽取、加工、集中存储和管理元数据，以支持数据治理，并加强组织内部数据的组织、检索和分析能力。元数据中心实时研发接入的数据源支持用于创建实时元表创建与实时任务的开发...

什么是制品仓库

元数据管理 标签和分类：通过元数据对制品进行组织和管理，实现对制品的分类和查询。访问控制和安全权限管理：可以为不同的用户和团队设置不同的访问权限，确保制品的安全性。分发和集成缓存和代理：提供缓存和代理功能，减少外部依赖...

数据湖加速查询

实时数据湖涉及的阿里云服务介绍如下：服务介绍相关链接阿里云数据湖构建（Data Lake Formation，DLF）是一款全托管的快速帮助用户构建云上数据湖及Lakehouse的服务，产品提供了云上数据湖统一的元数据管理、统一的权限与安全管理、便捷...

Dataphin支持的数据源

新建数据库SQL任务 元数据采集 元数据中心负责从各业务系统中抽取、加工、集中存储和管理元数据，以支持数据治理，并加强组织内部数据的组织、检索和分析能力。元数据中心实时研发接入的数据源支持用于创建实时元表创建与实时任务的开发...

Hadoop集群迁移至DataLake集群

元数据类型：确认旧集群采用的元数据类型（DLF、自建RDS），以规划新架构中元数据管理系统的对接和迁移策略。数据存储架构：分析旧集群的数据存储架构（本地HDFS、OSS、JindoFS block模式），为后续数据迁移路径设计提供依据。用户认证&...

元数据实体相关概念说明

元数据实体对象数据地图通过元数据采集器采集并纳管了不同类型和不同层级（子类型）的元数据实体对象。完整的采集器类型支持列表请参见采集器类型（CrawlerType）支持列表。按照元数据层级结构，数据地图支持的完整元数据实体层级分为：...

Kudu

Kudu是一个分布式的，具有可扩展性的列式存储管理器，可以对快速变化的数据进行快速分析。使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在...

ossfs 1.0

通过高效的元数据管理能力，提供了高效的小文件并发加载能力。ossfs介绍 ossfs是一个用户空间文件系统（userspace filesystem），它允许您在Linux系统上将OSS存储空间挂载为本地文件系统，且支持以下功能：支持POSIX文件协议标准的大部分...

元数据采集概览

元数据支持丰富的采集源类型，如传统数据库MySQL、Oracle，大数据存储Hologres、应用系统等，可一览不同数据源类型或应用系统已创建的采集任务数、采集对象类型等信息。前提条件需先在管理中心数据源管理应用系统创建应用系统，才能...

创建元数据

在基于HBase、Elasticsearch或MongoDB数据源创建服务单元之前，需要先创建对应数据源中数据表的元数据，以实现通过元数据确定数据源中数据表的结构。后续您可以通过该元数据读取到对应数据源的数据。本文为您介绍如何创建HBase、...

创建元数据

在基于HBase、Elasticsearch或MongoDB数据源创建服务单元之前，需要先创建对应数据源中数据表的元数据，以实现通过元数据确定数据源中数据表的结构。后续您可以通过该元数据读取到对应数据源的数据。本文为您介绍如何创建HBase、...

数据监控

通过查看CPFS智算版文件系统的容量监控和性能信息，您可以了解CPFS智算版文件系统的存储容量使用情况和读写吞吐、读写IOPS等情况。通过为CPFS智算版文件系统的重要监控指标设置报警规则，您可以及时获知指标异常并快速处理异常。本文介绍...

元数据采集概览

元数据支持丰富的采集源类型，如传统数据库MySQL、Oracle，大数据存储 Hive、Hologres、应用系统等，可一览不同数据源类型或应用系统已创建的采集任务数、采集对象类型等信息。前提条件需先在管理中心数据源管理应用系统创建应用系统...

DataWorks On CDP/CDH使用说明

DataWorks支持基于CDH（Cloudera's Distribution Including Apache Hadoop，以下简称CDH）和CDP（Cloudera Data Platform，以下简称CDP）集群创建Hive、MR、Presto和Impala等节点，实现CDP/CDH任务工作流的配置、定时调度和元数据管理等...

SQL查询

使用宽表模型可以实现元数据、大数据等多种场景的解决方案，例如搭建海量智能元数据管理系统、亿量级订单管理方案、基于多元索引搭建亿量级店铺搜索系统、表格存储结合Spark流批处理实现一体化存储和计算、表格存储结合实时计算Flink进行...

元数据采集

数据开发数据开发-创建节点并编辑代码自动采集数据开发（旧版）数据开发（旧版）-创建节点并编辑代码数据分析数据分析-新建SQL查询并编辑代码数据服务数据服务-新建API数据推送服务 API资产数据地图支持查看数据服务API的元数据，...

创建及管理元数据采集任务

前提条件需先在管理中心数据源管理应用系统创建应用系统，才能使用应用系统类型的采集源。使用限制若采集的元数据存在同名但名称大小写不一致的情况时，系统仅识别计算引擎默认支持的写法（如Oracle默认识别大写名称对象、DM（达梦）...

开发及提交SQL脚本

本文为您介绍如何在MaxCompute Studio上开发SQL脚本。包括编写和运行SQL脚本。前提条件已连接MaxCompute项目，详情请参见管理项目连接。已创建MaxCompute Script Module，详情请参见创建MaxCompute Script Module。创建SQL脚本文件在 ...

JindoFS块存储模式

概念块存储模式提供了最为高效的数据读写能力和元数据访问能力，并且能够支持更加全面的Hadoop文件系统语义。同时，JindoFS也提供了外部客户端，能够从集群外部访问建立在E-MapReduce集群内的JindoFS文件系统。数据以Block形式存储在后端...

建立元数据索引

自动为OSS Bucket中所有文件建立元数据索引如果您需要自动为OSS Bucket中所有文件建立元数据索引，请调用接口创建数据集和OSS Bucket的绑定关系或者通过智能媒体管理控制台在对应的数据集下新增数据源进行绑定。绑定关系创建后，智能...

功能特性

数据格式 元数据管理 内置catalog 配置内置Catalog后，您可以在Flink开发控制台直接读取元数据，无需再手动注册表，提高作业开发的效率且保证数据的正确性。管理元数据数据库实时入仓快速入门日志实时入仓快速入门基于Paimon的数据库...

集成概览

OpenAPI集成智能媒体管理提供项目管理、元数据管理等的OpenAPI，常用于图片处理、智能信息识别以及数据处理等领域，您可以在业务系统中进行集成。关于如何使用阿里云OpenAPI，请参见使用阿里云OpenAPI。API版本版本号说明 2020-09-30 ...

创建及管理元数据采集任务

前提条件需先在管理中心数据源管理应用系统创建应用系统，才能使用应用系统类型的采集源。使用限制若采集的元数据存在同名但名称大小写不一致的情况时，系统仅识别计算引擎默认支持的写法（如Oracle默认识别大写名称对象、DM（达梦）...

DataWorks On EMR使用说明

DataWorks支持基于EMR（E-MapReduce）计算引擎创建Hive、MR、Presto和Spark SQL等节点，实现EMR任务工作流的配置、定时调度和元数据管理等功能，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上使用EMR的基本开发流程，以及相关 ...

通过元数据发现导入数据

但是这些数据缺少元数据管理，导致数据难以分析和计算。云原生数据仓库 AnalyticDB MySQL 版元数据发现任务支持自动映射OSS路径、智能分组文件、动态探索字段及变化感知，实现数据湖元数据的自动创建与更新。您可通过创建OSS元数据发现...

附录：全局和项目角色权限说明

重试更新采集任务查看采集实例列表元数据变更概览查看运行日志查看采集任务重跑采集实例终止采集实例 元数据管理-元数据清单查看查看业务系统元数据列表查看业务系统元数据详情通用配置-数据探查探查及分析数据探查配置通用...