大数据开源框架

_相关内容

StarRocks

说明 本文部分内容来源于开源StarRocks的 什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库,以及分布式系统的设计思想,其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。前置概念 ...

分布式框架Ray

什么是AnalyticDB Ray 开源 Ray 是一款专为 AI 与高性能计算设计的分布式计算框架,通过简洁的 API 抽象实现高效的分布式调度,用户仅需几行代码,即可将单机任务扩展至千节点集群,能够像调用本地函数一样调度远程资源。其内置模块(如Ray...

Lindorm for Cassandra应用实践

Lindorm For Cassandra特性 更强性能:相比开源Cassandra,Lindorm For Cassandra在规模数据下吞吐量更高,延迟更低。同等规格,20亿行数据下Lindorm与开源Cassandra的性能对比如下:说明 以下数值仅供参考,具体以实际场景为准。单行读...

Tez

Tez是Apache构建在Hadoop之上的支持分布式DAG(Directed Acyclic Graph)的计算框架,支持通过复杂的DAG描述并处理大数据任务。背景信息 Tez主要使用在Apache Hive中,作为Hive的一种运行时引擎,可以优化Hive SQL的查询引擎。与Hive On MR...

什么是EMR Serverless Spark

产品优势 云原生极速计算引擎 内置Fusion Engine(Spark Native Engine):相对开源版本性能提升300%,显著加速大数据计算任务。通过向量化引擎和批量数据处理技术优化计算效率,同时减少内存占用,大幅提升整体性能。内置Celeborn(Remote ...

Kyuubi

使用场景 交互式分析:利用Kyuubi可以构建企业级分析平台,用于对大数据进行交互式可视化分析,支持常见的计算框架。Kyuubi支持JDBC和ODBC接口,您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

添加开源Elastic Search数据

通过开源Elastic Search和DataV结合使用,可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 ...

添加开源Elastic Search数据

通过开源Elastic Search和DataV结合使用,可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件 已准备好待添加的开源Elastic Search数据源。使用限制 仅支持企业版及以上版本。...

创建Data Science集群

集群类型 Data Science:主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本 默认最新的软件版本。组件版本 展示集群...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户 全网用户 新增功能/规格 EMR Serverless Spark是一款云原生,专为规模数据处理和分析而设计的全托管Serverless产品,于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

Serverless Spark 免费公测

EMR Serverless Spark 开启公测,公测期间可免费使用 适用客户 全网用户 新增功能/规格 EMR Serverless Spark是一款云原生,专为规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务,包括任务开发、...

Hadoop DistCp介绍

Hadoop DistCp(分布式复制)是一个用于大型集群间或集群内数据复制的工具,通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

HDFS

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于规模数据的分布式读写,特别是读多写少的场景...

Druid(仅对存量用户开放)

Apache Druid是一个分布式内存实时分析系统,用于解决如何在规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点:支持亚秒级的交互式查询。例如,多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

数据安全基线

对于数据泄露风险,补救的成本会更比例体现在赔偿和罚款,较小比例体现在对IT系统的升级加固上。企业需充分结合自身实际情况从上述角度评估数据泄露的风险。最终,对风险大小的评估、对风险治理程度的决策和预案将决定IT架构上数据防护...

什么是EMR Workflow

无缝对接EMR资源集群和各种大数据计算存储引擎,例如Hive、Spark和Flink等。提供与Apache DolphinScheduler兼容的接口和使用体验,支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能:支持多种...

实时诊断

COMPACTION输入数据量:P50:输入数据量的50%分位数。P70:输入数据量的70%分位数。P99:输入数据量的99%分位数。MAX:最大输入数据量。MIN:最小输入数据量。任务详情 COMPACTION任务列表展示了每个COMPACTION任务的详细信息,涵盖以下...

查询管理与分析

此类查询通常涉及到规模数据处理、复杂的计算操作,或是跨多个数据库的交互。之所以关注运行中大查询,是因为这些查询可能会大量占用CPU、内存及IO等计算资源,从而影响系统中其他查询的性能。因此,对这类查询进行实时监控是维护系统...

Flink

Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink,相关内容请参见...

集群资源规格评估建议

数据总存储容量:数据平均流入*数据保留时长*分区副本因子。节点规格推荐 通常情况下,Core节点组规格配置推荐如下:节点数:根据业务需求评估,具体请参见 评估Broker的节点数。CPU:16 Core。内存:64 GiB。重要 建议选择CPU和内存配比为...

快速使用EMR StarRocks Manager

EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台,为您提供对实例内数据的管理、诊断与分析,以及安全权限配置等功能。前提条件 已创建StarRocks实例,详情请参见 创建实例。步骤一:进入StarRocks...

WATERMARK语句

WATERMARK语句在流式查询中用来处理数据乱序问题。本文介绍WATERMARK语法及相关的示例。语法 SELECT watermark(projectItem,durationSpec)as watermarkItem,projectItem[,projectItem]*FROM tableExpression WATERMARK主要是为了解决数据流...

EMR Serverless Spark免费公测说明

单个Spark任务所能处理的Shuffle数据量最大限制为5 TB。工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。同一工作空间内允许并发执行的任务数量上限为100个。不保障服务等级协议(SLA),但服务不降级。商业化开启后SLA...

常见问题

查看当前Reduce Task中Reduce Input bytes和Reduce shuffle bytes的信息,如果比其他的Task处理的数据很多,则说明出现了倾斜问题。如何预估Hive作业并发量的上限值?Hive作业并发量与HiveServer2的内存以及master实例个数有关系。您...

测试说明

数据盘:建议使用ESSD数据盘,具体数据容量根据需要测试的数据量大小决定。地域和VPC:建议确保ECS和StarRocks实例在相同地域,并使用相同的VPC网络进行连接。公网IP:需要分配公网IP地址。更多关于创建ECS的操作,请参见 实例创建方式介绍...

性能测试

Lindorm Ganos 引擎在部分查询中的耗时都比较低,耗时约为开源GeoMesa(HBase)的1/3,约为云数据库MongoDB分片集群的1/2,测试结果如下:时间和空间范围的查询耗时 在时间范围和空间范围查询场景中,Lindorm Ganos 引擎的查询耗时都比较...

Delta连接器

EMR Trino提供了独立的Delta连接器,在E-MapReduce集群上支持了较为完整的数据湖特性并进行了特性扩展。背景信息 Delta Lake是DataBricks公司推出的一种数据湖方案,以数据为中心,围绕数据流走向推出了一系列功能特性,详情请参见 Delta ...

概述

它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行Spark作业,满足更丰富的数据处理分析需求。使用限制 Spark on MaxCompute支持如下场景:离线计算场景,例如GraphX、Mllib、RDD、Spark-...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

SparkSQL自适应执行

而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量大小可能相差很,例如reduce阶段要处理的数据可能是10 MB,也有可能是100 GB,如果使用同一个值对实际运行效率会产生很影响,例如10 MB的数据一个task就可以解决,...

DeltaLake

Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...

Superset(仅对存量用户开放)

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库,包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库,以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台,DataWorks沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。迁移流程 阿里云DataWorks on EMR团队提供了完善...

EMR Serverless Spark商业化公告

EMR Serverless Spark介绍 EMR Serverless Spark是一款云原生,专为规模数据处理和分析而设计的全托管Serverless产品。产品优势如下:云原生极速计算引擎 内置Fusion Engine(Spark Native Engine),相对开源版本性能提升300%。内置...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

免费体验Lindorm宽表性能&价格力

背景 云原生多模数据库Lindorm面向海量泛时序数据、半结构化数据和非结构化数据提供低成本存储、在线查询和检索、离线分析、AI 推理等一站式数据服务,支持MySQL协议,兼容HBase、Elasticsearch、Hive、Spark、HDFS 等开源标准。...

Celeborn

Celeborn是一个处理中间数据的服务,能够提升大数据引擎的稳定性、灵活性和性能。本文为您介绍如何使用Celeborn服务。背景信息 目前Shuffle方案的缺点如下:Shuffle Write在大数据量场景下会溢出,导致写放大。Shuffle Read过程中存在大量...

应用场景

全栈分析引擎 Spark、Hive、Presto/Trino 集成离线ETL(Spark/Hive)、交互式查询(Presto/Trino)等框架,覆盖数据入湖、处理、分析到出湖全场景,支持与 DataWorks、Quick BI 无缝协作,加速数据价值转化。在数据湖场景下,阿里云EMR通过...

在Notebook中使用DuckDB

阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库,除了支持 DuckDB 开源版本所具备的所有功能外,还额外提供了免密访问 OSS/OSS-HDFS 的能力,从而能够直接读取 OSS 路径下的文件进行操作。背景信息 DuckDB 是...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用