Spark_Spark相关产品_解决方案-阿里云移动端

阿里云云数据库MongoDB版是完全兼容MongoDB协议、高度兼容DynamoDB协议的在线文档型数据库服务。支持单节点、双节点、副本集和分片集群四种部署架构，能够满足不同的业务场景需要。

例如与阿里云原生数据湖分析服务DLA的Serverless Spark对接，满足在线交互式查询、批处理、机器学习等诉求.Serverless Spark对接MongoDB快速入门.云上云下数据互通，大数据Spark系统对接应用.数据生态：数据自由流转，应用更灵活.提供CPU利用率、IOPS、连接数、磁盘空间等实例信息实时监控及报警，随时随地了解实例动态....

来自：云产品

云数据库ClickHouse

云数据库ClickHouse 是阿里云提供的分布式实时分析型列式数据库服务。具有高性能、开箱即用、企业特性支持。广泛应用于流量分析、广告营销分析、行为分析、人群划分、客户画像、敏捷BI、数据集市、网络监控、分布式服务和链路监控等业务场景。

使用限制，引擎选择，资源队列.MaxComputer，MySQL，OSS，SLS，Spark,Flink 数据导入.SQL Server是发行最早的商用数据库产品之一，支持复杂的SQL查询，性能优秀，对基于Windows平台.NET架构的应用程序具有完美的支持.云数据库RDS SQL Server 版.高可靠双机热备架构及可无缝扩展的集群架构，满足高读写性能场景及容量需弹性...

来自：云产品

湖仓一体架构EMR元数据迁移DLF

通过EMR+DLF数据湖方案，可以为企业提供数据湖内的统一的元数据管理，统一的权限管理，支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF，通过统一的元数据管理，多种数据源入湖，搭建高效的数据湖解决方案。

命令参考：spark-submit \-master yarn \-deploy-mode client \-driver-memory 2G \-executor-memory 2G \-executor-cores 4 \-num-executors 3 \-conf spark.sql.shuffle.partitions=200 \-conf spark.kryoserializer.buffer.max=128m \-conf spark.sql.autoBroadcastJoinThreshold=-1 \-conf spark.sql.adaptive.enabled=...

来自：最佳实践 | 相关产品：E-MapReduce,数据湖构建

云服务器 ECS

阿里云服务器ECS是一种处理能力可弹性伸缩的云主机虚拟服务器，它使服务器托管更安全稳定，可降低开发运维成本，支持包年包月、按量付费等模式，方便财务更好管理

相关产品云服务器ECS本产品专有网络 VPC一键部署Spark集群大数据场景，推荐使用倚天实例，主从节点皆有性能优异表现快速处理大规模数据Spark能够在大规模数据集上进行快速的数据处理和分析，具备高速的数据处理能力。相比传统的MapReduce模型，Spark能够在内存中进行计算，减少了磁盘I/O的开销和数据传输的延迟，从而提高了...

| 立即购买 | 控制台

来自：云产品

日志服务sls

日志服务（Log Service，简称Log）是针对实时数据一站式服务，在阿里集团经历大量大数据场景锤炼而成。无需开发就能快捷完成数据采集、消费、投递以及查询分析等功能，帮助提升运维、运营效率，建立DT时代海量日志处理能力。

全面兼容Flink，Spark等流批数据分析平台.具备PB/Day规模弹性伸缩能力；支持按量付费，仅需为实际用量付费，TCO降低50%以上.支持Log/Metric/Trace统一采集，支持服务器/应用/移动设备/网页/IoT等数据源接入，支持阿里云产品/开源系统/云间/云下日志数据接入.40+成熟接入方案，多客户端统一采集，支持内网、公网、全球加速...

来自：云产品

云数据库HBase

阿里云云数据库 HBase 版（ApsaraDB for HBase）是基于 Hadoop 且100%兼容HBase协议的高性能、可弹性伸缩、面向列的分布式数据库，轻松支持PB级大数据存储，满足千万级QPS高吞吐随机读写场景。

综合存储成本下降80%.HBase支持Spark Streaming流式处理，满足实时业务场景.高效流式处理.可以通过 BulkLoad 将海量全量数据快速导入HBase，轻松应对百TB级海量数据快速写入HBase.海量全量数据快速导入.云服务器 ECS.推荐搭配使用.海量数据存储与分析场景.支持海量全量数据存储和分析.存储用户行为数据，构建用户画像，...

来自：云产品

CDH迁移升级CDP最佳实践

当前 CDH 免费版停止下载，终止服务，针对需要企业版服务能力并且CDH 升级过程对业务影响较小的客户，通过安装新的 CDP 集群，将现有数据拷贝至新集群，然后将新集群切换为生产集群，升级过程没有数据丢失风险，停机时间较短，适合大部分互联网客户升级使用。

安装 Spark2 说明：由于 Kudu迁移工具需 Spark2支持，CDH5可以支持 Spark和 Spark2两个环境同时运行，如果集群上没有 Spark2请先进行安装。已经安装的略过此步骤。另外，kudu迁移也可以使用 kudu table copy来实现，也不需要安装 Spark2。把 Sparks2的安装包移动到/opt/cloudera/csd/目录下。mv cdh/spark2/*/opt/cloudera...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,云速搭

中小企业CDH集群上云升级CDP解决方案

中小企业 CDH 集群上云升级 CDP 解决方案，助力原 CDH/HDP 的用户快捷升级到企业级 CDP 环境，并链接阿里云相关产品服务。同时，基于阿里云便捷的基础网络设施和云网络服务，能够快速构建云上云下互联的混合云架构。

基于 Apache Kafka，构建高性能、高可用的流式消息平台，并集合流式场景的其他工具如 NiFi、Flink、Spark Streaming 等，统一通过 CDP 开展相关工作.流式消息处理.流式消息处理.准实时分析需要对变化中的数据提供快速分析能力，包括结合历史数据和实时流数据进行汇总分析、预测和明细查询。在 CDP 平台上通过使用 Kudu+...

| 方案架构 | 方案优势 | 应用场景 | 使用流程

来自：解决方案

云原生企业级数据湖解决方案

云原生企业级数据湖解决方案，数据湖解决方案，无缝对接多种计算分析平台，数据湖中的数据可以直接进行数据分析、处理。

OSS能支撑 EB 规模的数据湖，支持多种数据通道，全面覆盖日志、消息、数据库、HDFS 各种数据源•OSS 无缝对接EMR Hive、Spark、Presto、Impala 等大数据处理引擎，消除数据孤岛•阿里云 EMR 大数据专家级服务支持•阿里云 Data Lake Formation 提供数据湖元数据管理、数据湖加速等服务；EMR大数据专家级服务支持.WHY 阿里...

来自：解决方案

中小企业自建Hadoop集群上云解决方案

中小企业自建 Hadoop 集群上云解决方案，助力自建 Hadoop 用户快速构建云上半托管开源大数据平台，在保持原组件使用习惯延续的同时，充分利用云上服务特点，更加便捷地迭代企业大数据平台架构，聚焦业务价值开发。

提供高性能、稳定版本 Hadoop、Spark、Hive、Flink、Kafka、Hbase、Presto、Impala、Hudi、ClickHouse 等开源大数据组件，可根据场景灵活搭配使用。采用 JindoFS+OSS，在保证数据可靠性的基础上，性能大幅提升.开源生态，性能优化.分钟级创建集群，支持对集群、节点和服务进行监控和运维操作，大幅提升运维工作效率，让数据...

| 方案架构 | 方案优势 | 应用场景 | 使用流程

来自：解决方案

容器服务Serverless版

容器服务Serverless版是一款基于阿里云弹性计算基础架构，完全兼容Kuberentes生态，安全、可靠的容器产品。通过该产品，无需管理和维护节点即可快速创建Kuberentes容器应用，并且根据应用配置的CPU和内存资源量按需付费，使您更专注应用本身，而非运行应用的基础设施。

根据业务数据处理需求，能够在短时间内快速创建大量计算任务，满足业务的大数据及 AI 在线处理诉求，广泛应用在 Spark、Presto 等数据计算场景.使用 ACK Serverless 集群无需进行容量规划，按需创建应用，降低计算成本.资源池闲置率高，成本居高不下.容器镜像服务 ACR.基于 Serverless 弹性低成本进行数据计算.使用 ACK ...

来自：云产品

云数据库产品总览（瑶池）

阿里云提供完善的数据库解决方案，多款数据库产品，满足99%的业务场景，荣获Gartner、信通院等国内外多项认证。轻松满足高可靠、高可用性、高性能等数据库需求；运维工作量大幅减少，让企业一站式享受数据上云及分布式架构的技术红利！

基于HBase SQL服务(Phoenix)+Spark构建实时计算和数据仓库解决方案，HBase SQL提供在线查询能力、Spark提供流式处理、复杂分析等能力，满足业务需求.借助PolarDB快速的弹性能力，在业务的高峰期临时增加数据库配置和集群规模，日常业务再进行降配操作，灵活应对业务变化，与之前的方案相比整体成本大大降低.阿里云Redis支持...

来自：云产品

一键训练大模型及部署GPU共享推理服务

通过创建ACK集群Pro版，使用云原生AI套件提交模型微调训练任务与部署GPU共享推理服务。支持快速创建Kubernetes集群，白屏配置任务数据共享存储和下载，并通过命令行工具Arena快速提交模型训练任务、部署推理服务。使用云原生AI套件可以让模型训练和推理提效，提高GPU资源利用率。

高效运行AI等异构工作负载云原生AI套件兼容Tensorflow、Pytorch、Horovod、Spark、Flink等主流开源或者用户自有的各种计算引擎和运行时，统一运行各类异构工作负载，统一管理作业生命周期，统一调度任务工作流，保证任务规模和性能。云原生AI套件一方面不断优化运行任务的性能、效率和成本，另一方面持续改善开发运维体验和...

来自：解决方案

数据湖构建 Data Lake Formation

数据湖构建服务是阿里云上数据湖架构中的核心部分，助力用户构建数据湖系统。支持多数据源实时入湖，实现湖上元数据统一管理，提供企业级权限控制，无缝对接多种计算引擎，打破孤岛，洞察业务价值

构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品.提供快速、完全托管的PB级数据仓库解决方案，经济并高效的分析处理海量数据.大数据计算服务·MaxCompute.兼容PostgreSQL协议的实时交互式分析产品.海量、安全、低成本、高可靠的云存储服务，提供99.9999999999%的数据可靠性....

来自：云产品

数据管理DMS

数据管理DMS是基于阿里巴巴集团十余年的数据库服务平台的云版本，提供免安装、免运维、即开即用、多种数据库类型与多种环境统一的web数据库管理终端；可以为企业用户快速复制搭建与阿里集团同等安全、高效、规范的数据库DevOps研发流程解决方案。

低代码开发：只要懂SQL就能通过画布快速实现流/批数据处理任务，自带Flink/Spark计算能力实现高效数据处理；支持分布式集成架构，突破单机瓶颈，提供限流手段，按需限流保护数据源；一个平台管理所有开发任务，提供智能监控告警和任务的自动处理机制，实现极低运维门槛.助力解决企业数据孤岛痛点.数据传输与加工.

来自：云产品

中间件

阿里云中间件产品支撑了淘宝、天猫、盒马、菜鸟、高德等阿里巴巴集团核心业务，整合了阿里云计算、存储、网络等基础产品，服务百万企业与开发者，助力系统稳定高效运行。

近年来KV存储（HBase）、搜索（ElasticSearch）、流式处理（Storm/Spark Streaming/Samza）、时序数据库（OpenTSDB）等专用系统应运而生，产生了同一份数据集需要被注入到多个专用系统内的需求。利用大数据消息中间件 Kafka 作为数据中转枢纽，同份数据可以被导入到不同专用系统中。.发布/订阅模型，支持同份数据集能...

来自：云产品

EMR HBase on OSS存算分离集群快速恢复

OSS-HDFS服务（JindoFS服务）是一款云原生数据湖存储产品。基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好地满足大数据和AI等领域的数据湖计算场景。

服务特性 OSS-HDFS服务支持的特性如下：HDFS兼容访问 OSS-HDFS 服务完全兼容 HDFS 接口，同时支持目录层级的操作，您只需集成 JindoSDK，即可为 Apache Hadoop的计算分析应用（例如 MapReduce、Hive、Spark、Flink等）提供了访问 HDFS服务的能力，像使用 Hadoop分布式文件系统（HDFS）一样管理和访问数据。POSIX能力支持 ...

来自：最佳实践 | 相关产品：专有网络 VPC,对象存储 OSS,E-MapReduce,云速搭CADT

EMR本地盘实例大规模数据集测试

场景描述阿里云为了满足大数据场景下的存储需求，在云上推出了本地盘D1机型，这个系列提供了本地盘而非云盘作为存储，提高了磁盘的吞吐能力，发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型，推出了一整套的自动化运维方案，帮助用户方便可靠地使用本地盘机型，不需要关注整个运维过程同时数据的高可靠和服务的高可用。解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题产品列表 EMR(E-MapReduce) 本地盘 VPC

EMR:E-MapReduce(EMR)是构建在阿里云云服务器 ECS上的开源 Hadoop、Spark、Hive、Flink 生态大数据产品，提供用户在云上使用开源技术建设数据仓库、离线批处理、在线学习、即时查询、机器学习等场景下的大数据解决方案。PT测试：Power Test(PT)功耗测试，TPC-DS用于大数据性能测试的方法。大数据实例本地盘：阿里云为了...

来自：最佳实践 | 相关产品：块存储,云服务器ECS,E-MapReduce

大数据系统基准性能测试最佳实践

本方案适用于在阿里云上进行大数据基准性能测试的场景，包括 Teragen和Terasort测试，TestDFSIO测试。本文采用CADT工具结合阿里云的E-MapReduce服务快速构建测试集群，并提供了Teragen和Terasort测试，TestDFSIO测试的测试脚本，便于迅速开展测试。

EMR构建于云服务器 ECS上，基于开源的 Apache Hadoop和 Apache Spark，让您可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统（例如，阿里云 OSS和 RDS等）进行数据传输。EMR的 SmartData组件是 EMR Jindo引擎的主要存储部分，为 EMR各个计算...

来自：最佳实践 | 相关产品：专有网络 VPC,E-MapReduce,云速搭CADT

Spark_相关内容

新品推荐