开源元数据管理-开源元数据管理文档介绍内容-移动阿里云

创建元数据

在左上角选择服务项目，单击左侧导航栏的 元数据管理，再单击+新建元数据按钮，为HBase、Elasticsearch或MongoDB数据源创建元数据。创建HBase数据源中数据表的元数据在新建元数据页面，配置参数。参数描述数据表配置物理数据表选择...

创建元数据

在左上角选择服务项目，单击左侧导航栏的 元数据管理，再单击+新建元数据按钮，为HBase、Elasticsearch或MongoDB数据源创建元数据。创建HBase数据源中数据表的元数据在新建元数据页面，配置参数。参数描述数据表配置物理数据表选择...

元数据中心概述

元数据管理 业务系统元数据以列表形式为您展示采集到的元数据信息，您可以从不同视角出发查询数据。通用配置业务系统配置从指定来源采集的元数据归属的业务系统，后续可用于资产清单及目录的对象筛选、业务系统血缘关系展示等场景。数据...

元数据中心

元数据管理 业务系统元数据以列表形式为您展示采集到的元数据信息，您可以从不同视角出发查询数据。通用配置业务系统配置从指定来源采集的元数据归属的业务系统，后续可用于资产清单及目录的对象筛选、业务系统血缘关系展示等场景。数据...

实验介绍

字段名称字段说明 uid 用户名 region 地域 device 终端类型 pv 浏览量 gender 性别 age_range 年龄分段 Zodiac 星座更多操作操作描述文档 元数据管理 通过数据地图概述模块，对源端表数据进行元数据管理与查看。管理数据 消费数据 ...

后续指引

下表汇总了IMM的常用高阶功能：功能列表说明创建数据集数据集是由元数据所组成的集合，是元数据管理存放元数据的容器。您可以将有关联的媒体文件和存放到同一个数据集中，便于查询。人脸聚类使用人脸聚类功能，您可以将数据集中存在...

元数据管理常见问题

本文汇总了使用E-MapReduce的元数据管理时的常见问题。报错提示“oss:/yourbucket/*/*/*”或“hdfs:/yourhost:9000/*/*/*”路径不存在，该如何处理？删除Hive Database时提示“java.lang.IllegalArgumentException:java....

MaxCompute湖仓一体

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现，将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力于构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过Dataphin管理MaxCompute和...

MaxCompute湖仓一体

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现，将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力于构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过Dataphin管理MaxCompute和...

元数据中心

元数据管理 业务系统元数据以列表形式为您展示采集到的元数据信息，您可以从不同视角出发查询数据。通用配置业务系统配置从指定来源采集的元数据归属的业务系统，后续可用于资产清单及目录的对象筛选、业务系统血缘关系展示等场景。数据...

2024-08-20版本

元数据管理：支持外部Hive Metastore作为元数据服务。接口调用：提供Spark Thrift Server服务以支持JDBC接口调用。提供Livy服务以支持REST API调用。提供spark_submit执行命令。Notebook 支持PySpark、Python以及Markdown开发。支持数据...

元数据迁移

验证元数据同步结果在左侧菜单栏，单击元数据 元数据管理。单击数据库页签，选择数据目录，输入同步的数据库名称，可以查询到相应的数据库信息。单击数据表页签，选择数据目录和库名，输入同步的表名，可以查询到相应的数据表...

基于DLF1.0+OSS读取湖上CSV数据

配置如下参数：在当前元数据管理页面，单击数据库页签，在 default 数据目录下单击新建数据库。配置如下参数：参数是否必填说明所属数据目录必填示例中是 default 数据目录。数据库名称：必填自定义数据库名称，以字母开头，长度...

标量检索（Python SDK V2）

示例代码开启元数据管理功能以下代码用于为指定Bucket开启元数据管理功能。开启后，OSS会为Bucket创建元数据索引库并为Bucket中的所有Object建立元数据索引。元数据索引库创建完成后，OSS会继续对Bucket中新增文件进行准实时的增量追踪...

数据加密

该服务基于统一的元数据管理能力，完全兼容HDFS文件系统接口。此外，由于数据存储在OSS中，OSS-HDFS服务完美地继承了OSS的数据保护功能。在EMR集群中内置了JindoSDK，各相关组件已完全支持OSS-HDFS，详情请参见数据湖生态接入。客户仅需...

文件网关缓存盘工作原理

通常情况下：100GB缓存盘可支持约1000万个文件的元数据管理。当数据缓存或元数据缓存空间不足时，系统会分别触发限流和元数据空间不足的告警。为避免影响业务，建议您在收到告警后及时进行缓存盘扩容处理，确保网关稳定高效运行。

升级配置-半托管

数据标准提供标准的统一创建与管理、参考数据管理以及标准与资产元数据关联的功能，同时可结合质量监控能力，帮助企业进一步提升贯穿事前-事中-事后的全链路资产治理能力。资产质量支持从物理视角和逻辑视角对数据资产进行质量监控，帮助...

设备元数据接入

本文以车联网场景中车辆元数据为例介绍基于设备接入平台与表格存储Tablestore搭建车辆元数据管理平台的场景需求以及方案架构。场景需求车辆在行驶的过程中会定时上报大量的状态数据，例如车辆识别代码、行驶速度、发动机转速、车内温度等...

向量检索（Java SDK V1）

如果您希望通过RAM用户或者STS的方式执行数据索引相关操作，例如：开启元数据管理功能，您必须拥有 oss:OpenMetaQuery 权限。获取元数据索引库信息，您必须拥有 oss:GetMetaQueryStatus 权限。查询满足指定条件的Object，您必须拥有 oss:...

配置Hive数据源

MaxCompute提供数据迁移服务MMS（MaxCompute Migration Service），允许将其他数据源的数据通过MMS迁移至MaxCompute。本文介绍如何新增Hive数据源。适用范围迁移限制：不支持_HIVE_DEFAULT_PARTITION_分区迁移。Hive端准备好取数据时，...

生命周期管理

生命周期管理支持多种类型的生命周期管理规则，通过建立不同的规则，您可以方便地管理数据湖内的数据生命周期，以便节约存储成本。本文为您介绍生命周期管理规则的基础操作。功能说明通过生命周期管理对数据湖中的数据库、数据表配置数据...

基本概念

本文介绍EMR Serverless StarRocks产品中涉及的一些基本名词...EMR StarRocks Manager EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，提供对实例内数据的管理、诊断与分析、安全权限配置等能力。

元数据与数据发现概述

元数据与数据发现模块为OSS中的海量文件提供智能管理和高效检索能力，通过文件元数据管理、多维度数据索引、存储清单导出和文件查询等功能，解决传统文件管理中检索效率低、元数据配置复杂、文件统计困难的问题。应用场景静态网站性能...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

背景信息通常，企业构建和应用数据湖需要经历数据入湖、数据湖存储与管理、数据探索与分析过程。MaxCompute基于阿里云DLF（Data Lake Formation）、RDS（Relational Database Service）或Flink、OSS（Object Storage Service）产品提供了...

应用场景

使用StarRocks统一管理数据湖和数据仓库，将高并发和实时性要求很高的业务放在StarRocks中进行分析，也可以使用External Catalog和外部表进行数据湖上的分析。典型场景的解决方案 OLAP通用场景解决方案业务背景：该方案适用于多种业务场景...

Notebook（旧版）

自主维护业务元数据，人工为辅，元数据管理效率提升50%。用数人员（产品/运营/管理者）找数难、等待周期长、无法自服务自闭环。通过Web/钉钉等多个渠道，利用开发人员构建的查数Agent，以自然语言交互方式获取数据，实现0代码操作，只需...

标量检索（Java SDK V1）

如果您希望通过RAM用户或者STS的方式执行数据索引相关操作，例如：开启元数据管理功能，您必须拥有 oss:OpenMetaQuery 权限。获取元数据索引库信息，您必须拥有 oss:GetMetaQueryStatus 权限。查询满足指定条件的Object，您必须拥有 oss:...

管理元数据清单

在左侧导航栏选择 元数据管理 元数据清单，进入元数据清单页面。在元数据清单页面，您可以单击数据表页签或仪表板页签，查看不同对象的元数据信息，特殊的，仪表板为您展示指定应用系统下的仪表板元数据，您可以通过页面右上角的...

管理元数据清单

在左侧导航栏选择 元数据管理 元数据清单，进入元数据清单页面。在元数据清单页面，您可以单击数据表页签或仪表板页签，查看不同对象的元数据信息，特殊的，仪表板为您展示指定应用系统下的仪表板元数据，您可以通过页面右上角的...

数据地图

网络连通将数据源中的元数据导入数据地图进行统一的元数据管理，需要先确保数据地图元数据采集器能正常访问您的数据库。如果您需要进行元数据采集的数据库已开启白名单访问控制，请在数据库白名单列表中，添加您使用的DataWorks所在地域...

产品架构

数据运维：提供即开即用的数据管理能力，例如可视化SQL编辑器、导入任务、慢查询、数据审计、元数据管理以及权限配置等能力。基于以上产品能力，您可以更加高效地聚焦于自己的业务应用，例如运营分析、用户画像、自助报表、订单分析以及...

为Spark集群设置元数据

EMR on ACK支持使用数据湖元数据DLF（Data Lake Formation）和自建Hive Metastore元数据两种方式，为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。背景信息因为数据湖元数据DLF具有高可用和易维护的特点，...

表Meta诊断

当Hologres数据库中的元数据管理器（Storage Master）和FE节点保存的表元数据不一致时，会导致DDL操作报错或影响费用等。Hologres提供了表Meta诊断功能，以检测当前实例中表元数据的一致性，并每周更新一次诊断结果，您可以根据对应元数据...

0024-00000502

问题描述 管理元数据转换任务请求（修改或删除）时，设置了RoleID。问题原因您发起了管理元数据转换任务请求（修改或删除），并设置了RoleID。问题示例该功能为邀测功能，未对全部用户开放，暂不提供示例。解决方案 管理元数据转换任务...

元数据缓存

ossfs元数据缓存适用于单机高I/O读写OSS数据的场景。开启ossfs元数据缓存后，能够提升整体的文件操作效率，使文件操作响应更加迅速。本文将为您介绍如何更好地使用和配置ossfs元数据缓存。重要在使用元数据缓存时，需要留意数据一致性和...

Lindorm表数据

在Lindorm实例绑定至DataWorks后，您可以在数据地图中进行元数据管理和查看操作。本文为您介绍如何查看和管理Lindorm表数据。前提条件已在计算资源绑定页面设置了SPARK参数信息，用于采集Lindorm的元数据，详情请参见 Lindorm计算资源设置...

通过元数据发现导入数据

但是这些数据缺少元数据管理，导致数据难以分析和计算。云原生数据仓库 AnalyticDB MySQL 版元数据发现任务支持自动映射OSS路径、智能分组文件、动态探索字段及变化感知，实现数据湖元数据的自动创建与更新。您可通过创建OSS元数据发现...

版本说明（EMR-4.x系列）

Delta Lake 元数据管理 使用Spark内置Catalog替代Hive CLI API同步元数据及分区信息。自动上报表的统计信息（dataProfiling）到MetaStore。SQL 支持Time Travel语法。支持DropPartition SQL语法。支持指定位置（FIRST和AFTER）的ADD COLUMN...

元数据采集概览

元数据支持丰富的采集源类型，如传统数据库MySQL、Oracle，大数据存储Hologres、应用系统等，可一览不同数据源类型或应用系统已创建的采集任务数、采集对象类型等信息。前提条件需先在管理中心数据源管理应用系统创建应用系统，才能...

管理Hive Catalog

Hive Catalog支持Hive MetaStore和阿里云DLF作为元数据管理中心，相关配置说明详情如下：Hive MetaStore 需要检查配置文件hive-site.xml中 hive.metastore.uris 参数配置是否符合下列要求。property name hive.metastore.uris/name value ...