开源数据中台-开源数据中台文档介绍内容-移动阿里云

综合：网站用户画像分析

开源全托管服务EMR Serverless StarRocks 开源大数据平台 E-MapReduce 开源全托管服务EMR Serverless Spark 数据中台 一站式大数据开发治理DataWorks 在本案例中，DataWorks作为数据中台，用于对原始数据进行同步、加工、质量监控、数据...

添加开源Elastic Search数据源

本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 DataV控制台。在我的数据页签中选择数据源管理，单击添加数据。从类型列表中...

添加开源Elastic Search数据源

本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。添加开源Elastic Search数据源登录 DataV控制台。在工作台页面，单击数据准备 ...

克隆至Redis开源版5.0

支付成功后等待1~5分钟，即可在控制台看到基于原低版本 Redis开源版实例中的数据所创建的新实例。后续步骤克隆升级成功后，您可以将业务迁移到新实例上进行兼容性验证：您仅需将相关客户端的IP地址添加到新实例的白名单中，并更换代码中...

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

Redis数据源

是 redis.save.mode 数据已经存在时的处理方式，包含append、overwrite、errorifexists或ignore，依次表示append到当前数据中、覆盖、抛出异常或丢弃数据，默认值为append。否 model 数据存储格式，包含hash和binaray，默认值为hash。否 ...

数据目录

外部数据：指保存在外部数据源中的数据，例如Apache Hive、Apache Iceberg、Apache Hudi、Delta Lake及JDBC等。Catalog介绍当前，StarRocks提供两种类型的Catalog：Internal Catalog（内部数据目录）和External Catalog（外部数据目录）。...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

概述

本文介绍Spark SQL流式处理支持的窗口函数及其...Event Time：事件时间，通常是您提供在Schema中数据最原始的创建时间。说明查询已存在的时间窗口时，窗口函数自动生成 window 列，包含窗口的起止时间信息，即 window.start 和 window.end。

表设计

理解StarRocks中的表结构，以及如何设计合理的表结构，有利于优化数据组织，提高查询效率。相比于传统的数据库，StarRocks会以列的方式存储JSON、ARRAY等复杂的半结构化数据，保证高效查询。本文详细介绍StarRocks表结构，帮助您深入了解表...

选择元数据服务

元数据是用于描述集群中数据存储位置、结构定义和访问权限等的关键信息。EMR支持将元数据存储在DLF、云数据库RDS MySQL和内置MySQL中。本文将为您介绍这三类元数据服务的区别，帮助您快速选型。元数据服务选型对比维度 DLF统一元数据自建...

常见问题

ACK管控控制台中，“有状态”界面下的shuffleservice-worker容器组数量"3/1000"是什么含义？3/1000"表示当前ShuffleService-Worker的实例数量为3个，而集群的最大可扩展容量上限为1000个。如果还有类似的告警信息，可以直接忽略。0/18 ...

管理事件

您可以在EMR控制台查看集群的事件，并在云监控控制台中设置事件告警。使用限制当前仅展示EMR on ECS中DataLake、DataFlow、OLAP、DataServing和Custom类型集群的事件，Hadoop类型集群的事件请参见管理事件中心（Hadoop集群）。事件类型 ...

开源大数据平台 E-MapReduce系统权限策略参考

在产品迭代过程中，开源大数据平台 E-MapReduce会向系统策略中添加新的权限，用来支持新的功能和能力。系统策略的更新将会影响所有授予了该策略的 RAM 身份，包括 RAM 用户、RAM 用户组和 RAM 角色。有关 RAM 权限策略的更多信息，请参阅 ...

产品简介

EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统（例如，阿里云OSS和RDS等）进行数据传输。产品介绍阿里云EMR...

开源大数据平台 E-MapReduce系统权限策略参考

在产品迭代过程中，开源大数据平台 E-MapReduce会向系统策略中添加新的权限，用来支持新的功能和能力。系统策略的更新将会影响所有授予了该策略的 RAM 身份，包括 RAM 用户、RAM 用户组和 RAM 角色。有关 RAM 权限策略的更多信息，请参阅 ...

管理元数据

A：请确认关联的 RAM 用户已在 DLF 控制台中被授予对应 DLF 数据目录的读写权限。Q2：DLF 数据目录下拉列表为空，或新增的数据目录不显示？A：说明当前账号下尚无可用的 DLF 数据目录，或已有目录未对当前 RAM 用户授权。请前往 DLF 控制...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

开源大数据平台 E-MapReduce系统权限策略参考

在产品迭代过程中，开源大数据平台 E-MapReduce会向系统策略中添加新的权限，用来支持新的功能和能力。系统策略的更新将会影响所有授予了该策略的 RAM 身份，包括 RAM 用户、RAM 用户组和 RAM 角色。有关 RAM 权限策略的更多信息，请参阅 ...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

开源大数据平台E-MapReduce系统权限策略参考

在产品迭代过程中，开源大数据平台 E-MapReduce会向系统策略中添加新的权限，用来支持新的功能和能力。系统策略的更新将会影响所有授予了该策略的RAM身份，包括RAM用户、RAM用户组和RAM角色。有关RAM权限策略的更多信息，请参阅权限策略...

产品形态选型

适用场景 OLAP 多维分析：支持灵活的多维分析与即席查询（Ad Hoc），广泛应用于运营报表、用户画像、指标中台、BI 分析等场景，助力数据驱动决策。实时数据仓库：秒级数据摄入与更新，适用于实时库存监控、订单追踪、用户行为分析、实时风...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容HBase、Cassandra、S3、TSDB、HDFS、Solr等多种标准接口，支持宽表、时序、对象、文本、队列、空间等多种数据模型，适用于日志、账单、...

管理日志

E-Mapreduce（简称EMR）开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合，允许您在EMR控制台直接查询开源组件的日志。前提条件已在EMR控制台上创建集群，具体操作请参见创建集群。已开通日志服务。使用限制 ...

EMR旧版数据开发迁移公告

如果您还在使用旧版控制台的数据开发功能，请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

Knox

cd/opt/apps/KNOX/knox-current/templates sh ldap-sample-users.sh 访问Web UI 访问Web UI的详情，请参见通过控制台访问开源组件Web界面。常见问题 Q：Knox组件异常停止，启动Knox的时候报错 Failed to start gateway:org.apache.hadoop....

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

DLF商业化公告

DLF介绍数据湖构建（Data Lake Formation，DLF）是一款全托管的统一元数据和数据存储及管理平台，提供企业级安全能力的同时保持开放和开源社区兼容，面向全模态数据存储及管理，集成湖存储格式 Apache Paimon、Apache Iceberg、Lance ...

概述

开源应用的调试过程中需要使用开源UI，Spark on MaxCompute提供原生的开源实时UI和查询历史日志的功能。其中，对于部分开源应用还支持交互式体验，在后台引擎运行后即可进行实时交互。系统结构 Spark on MaxCompute是阿里云通过Spark on ...

创建EMR Studio集群

本文为您介绍如何在E-MapReduce（简称EMR）控制台上创建EMR Studio集群。前提条件已完成RAM授权，详细信息请参见角色授权。说明首次创建EMR Studio集群时会弹出授权该角色的窗口，请使用阿里云账号对系统角色...

Trino

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

免费体验Lindorm宽表性能&价格力

背景云原生多模数据库Lindorm面向海量泛时序数据、半结构化数据和非结构化数据提供低成本存储、在线查询和检索、离线分析、AI 推理等一站式数据服务，支持MySQL协议，兼容HBase、Elasticsearch、Hive、Spark、HDFS 等开源标准。...

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

JindoFS实战演示

AI训练加速文档链接视频链接视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的...

扩容集群

后续操作当您扩容的节点组为Core节点组，且使用本地HDFS作为存储时，如果在扩容流程结束后发现HDFS出现数据不平衡的情况，请使用HDFS Balancer重新分配DataNode中的数据，详情请参见 HDFS Balancer。相关文档当节点组内ECS实例的规格...

EMR旧版数据湖集群Knox代理地址域名调整公告

如您通过手动保存的 Knox 代理地址（例如存储于浏览器书签、客户端配置文件、自动化脚本、调度任务及开发代码中的链接）访问 EMR 开源组件的 Web 界面。请按照以下步骤手动更新已保存的 Knox 代理地址。登录 E-MapReduce控制台。在顶部菜单...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。前置概念 ...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...