数据开源集成软件-数据开源集成软件文档介绍内容-移动阿里云

产品优势

类别云数据库HBase增强版（Lindorm）HBase开源版核心功能 HBase API 支持支持数据模型支持宽列（HBase API）、表格（SQL-Like API）、队列等多种，对其他模型感兴趣的话，请联系我们。仅支持宽列全局二级索引内置，查询透明、高性能...

准备环境

本教程以用户画像分析为例，演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR集群、DataWorks工作空间，并做好相关的环境配置。业务背景为了更好地制定企业...

功能特性

DataWorks 提供一站式大数据开发与治理平台，涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力，支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。数据集成：全领域数据汇聚 DataWorks的数据...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka数据（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS数据（推荐）大数据 Hive 数据迁移 Hive数据导入存储 OSS 元数据发现通过...

Data+AI概览

数据集成 离线集成离线集成是一种低代码的数据开发工具，您可以组合各类任务节点，形成数据流，通过周期调度运行达到数据加工、数据同步的目的，进而对在线数据库、数据仓库的数据进行加工处理并同步至目的端。更多信息，请参见离线集成...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

实时集成

Dataphin支持实时集成功能，可将来源端数据源中整库或全部表的数据变化实时集成至目标端数据源中，实现来源端数据源与目标端数据源实时的保持数据同步。5分钟快速了解功能概述多数据源实时集成同步：实时集成支持多种来源端数据源汇聚...

Iceberg

类别项目子项目开源Iceberg Iceberg商业版（阿里云）基础功能 ACID 无√历史版本回溯无√Source和Sink集成 Batch√Streaming√高效数据过滤无√数据变更 Schema Evolution 无√Partition Evolution 无√CopyOnWrite更新无√...

Flink

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink，相关内容请参见...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

综合：网站用户画像分析

开源全托管服务EMR Serverless StarRocks 开源大数据平台 E-MapReduce 开源全托管服务EMR Serverless Spark 数据中台一站式大数据开发治理DataWorks 在本案例中，DataWorks作为数据中台，用于对原始数据进行同步、加工、质量监控、数据...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

Doris

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

Trino

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

Tair（企业版）

2019年11月发布Tair 3.0，即 Tair（企业版）：内存型（兼容Redis 5.0）：采用多线程模型，集成多个自研Tair数据结构，提供高性能、高兼容性及带有诸多企业级特性的数据库服务。2019年04月 Tair 团队在Redis开源社区贡献排名前三，并在...

应用场景

阿里云EMR凭借弹性扩展的计算集群、多源异构数据融合治理以及实时流批一体处理等卓越能力，已经广泛应用于金融风控、电商精准营销、物联网时序数据处理等多个领域。本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型...

Presto

支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理...

EMR Serverless StarRocks企业级安全能力

KMS提供的默认密钥、软件密钥、硬件密钥，均支持被阿里云产品集成用于服务端加密，更多信息请参见密钥服务概述。信封加密机制的特点分层密钥管理主密钥（Master Key）：由KMS管理，仅用于加密数据密钥，不直接接触业务数据。数据密钥...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。前置概念阅读本文前，您可能需要了解如下概念：什么...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。前置概念 ...

Superset（仅对存量用户开放）

背景信息 Superset对E-MapReduce Druid做了深度集成，同时也支持多种关系型数据库。因为E-MapReduce Druid也支持SQL，所以您可以通过Superset以两种方式访问E-MapReduce Druid，即Apache Druid原生查询语言和SQL方式。前提条件已创建E-...

新功能发布记录

2023-06-01 Paimon概述 Paimon与Flink集成 Paimon与Spark集成 Paimon与Hive集成 Paimon与Trino集成新增Presto组件 Presto（即PrestoDB）是一款灵活、可扩展的分布式SQL查询引擎。2023-06-07 Presto 通过命令行方式访问Presto 通过JDBC方式...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

功能特性

部分支持部分支持支持Istio资源的历史版本管理支持托管模式下使用数据面KubeConfig访问Istio资源数据面组件管理功能 Sidecar模式 Ambient模式开源社区标准版企业版旗舰版开源社区标准版企业版旗舰版多维度（全局、命名空间、...

Kafka Manager

说明当选择了Kafka服务，系统将默认安装Kafka Manager软件服务，并开启Kafka Manager的认证功能。注意事项使用Kafka Manager进行partition reassign功能时，当前版本的Kafka Manager是没有提供限流功能的。如果需要限流，您可以通过 ...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非...涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写MySQL 读写PostgreSQL 读写Kafka

Kerberos

在这种高安全级别的集群中，所有开源组件均采用Kerberos安全模式启动，确保只有经过Kerberos认证的客户端能够访问集群提供的服务（例如HDFS）。背景信息集群开启Kerberos之后：客户端：可以对可信任的客户端提供认证，使得可信任客户端...

JindoFS实战演示

AI训练加速文档链接视频链接视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的...

在Notebook中使用DuckDB

阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库，除了支持 DuckDB 开源版本所具备的所有功能外，还额外提供了免密访问 OSS/OSS-HDFS 的能力，从而能够直接读取 OSS 路径下的文件进行操作。背景信息 DuckDB 是...

Hive

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。Hive结构名称说明 HiveServer2 HiveQL查询服务器，可以配置为Thrift或者HTTP协议，接收来自JDBC客户端提交的SQL请求...

StarRocks

StarRocks兼容MySQL协议语法，可以使用现有的各种客户端工具、BI软件访问StarRocks，对StarRocks中的数据进行拖拽式分析。流批一体 StarRocks支持实时和批量两种数据导入方式。StarRocks支持的数据源有Kafka、HDFS和本地文件。StarRocks...

Kafka常见问题

是否可以停止Kafka-Manager服务 Kafka-Manager只是Kafka集群的管理软件，Kafka对外提供读写服务不依赖Kafka-Manager服务。如果您没有集成其他Kafka管理平台，建议您保留Kafka-Manager服务。如果您确认不需要Kafka-Manager服务，您可以直接...

什么是云原生多模数据库Lindorm

支持宽表、时序、文本、对象、流、空间等多种数据的统一访问和融合处理，并兼容SQL、HBase/Cassandra/S3、TSDB、HDFS、Solr、Kafka等多种标准接口和无缝集成三方生态工具，适用于日志、监控、账单、广告、社交、出行、风控等场景，Lindorm...

EMR Workbench

数据处理能力：集成了Apache Spark、Hive、StarRocks等强大的数据处理框架。EMR Workflow 工作流设计：通过可视化界面设计和管理数据处理流程。任务调度：支持定时执行任务，自动化复杂的工作流程。依赖管理：自动处理工作流中任务间的依赖...