自建Hadoop迁移到阿里云EMR
自建Hadoop迁移到阿里云EMR
场景描述 场景1:自建Hadoop集群数据(HDFS)迁移到 阿里云EMR集群的HDFS文件系统; 场景2:自建Hadoop集群数据(HDFS)迁移到 计算存储分离架构的阿里云EMR集群,以OSS 和JindoFS作为EMR集群的后端存储。 解决的问题 客户自建Hadoop迁移到阿里云EMR集群的 技术方案; 基于IPSecVPN隧道构建安全和低成本数据 传输链路 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
在 Kafka队列的 ECS上启动一个 Consumer(消费者)进程,用于查看队列中收 到的日志消息。首先通过 SSH登录到后台,然后执行如下命令(下面两行为同一 条命令,在第一行末尾有换行符“\”):/opt/kafka/bin/kafka-console-consumer.sh-bootstrap-server \ Kafka所在 ECS的 VPC IP地址:9092-topic log-generator-topic 文档...
来自: 最佳实践 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
Spark on ECI大数据分析
Spark on ECI大数据分析
场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR
它会监控集群内资源的变化,并把相关的对象,包括它的动作与 key,例如 Pod的一个 Create动作,作为一个事件存储于该队列 。controller:它会循环处理上述工作队列,按照各自的逻辑把集群状态向预期状态 推动,不同的 controller处理的类型不同,比如 replicaset controller关注的是副本 数,会处理一些 Pod相关的事件。...
来自: 最佳实践 | 相关产品:专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS
EMR集群安全认证和授权管理 
EMR集群安全认证和授权管理 
场景描述 阿里云EMR服务Kafka和Hadoop安全集群使 用Kerberos进行用户安全认证,通过Apache Ranger服务进行访问授权管理。本最佳实践中以 Apache Web服务器日志为例,演示基于Kafka 和Hadoop的生态组件构建日志大数据仓库,并 介绍在整个数据流程中,如何通过Kerberos和 Ranger进行认证和授权的相关配置。 解决问题 1.创建基于Kerberos的EMR Kafka和 Hadoop集群。 2.EMR服务的Kafka和Hadoop集群中 Kerberos相关配置和使用方法。 3.Ranger中添加Kafka、HDFS、Hive和 Hbase服务和访问策略。 4.Flume中和Kafka、HDFS相关的安全配 置。 产品列表:E-MapReduce、专有网络VPC、云服务器ECS、云数据库RDS版
步骤2 查看 Flume后台日志,发现有报错信息:cd/mnt/disk1/log/flume/default-agent tail-f flume.log 说明该 Flume没有权限消费 Kafka队列的消息,需要通过 Kafka集群的 Ranger配置 消费消息队列的权限。文档版本:20200330 82 EMR集群安全认证和授权管理 EMR Hadoop安全集群和网关集群 步骤3 参考章节 2.6.3,编辑 Kafka...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,E-MapReduce
实时计算Flink版
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,具备实时应用的作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。内核引擎100%兼容Apache Flink,2倍性能提升,拥有FlinkCDC、动态CEP等企业级增值功能,内置丰富上下游连接器,助力企业构建高效、稳定和强大的实时数据应用。
内置集成数十种连接器,覆盖数据库、消息队列、OLAP引擎等系统。自助编写SQL使用全托管服务对数据进行实时流转集成,帮助企业构建数据台.从海量数据实时识别刷单作弊、恶意爬虫等业务风险,避免企业出现巨大的经济损失,还可借助CEP(复杂事件处理)直接在流式处理作业执行异常情况检测.实时计算Flink版高效的状态...
来自: 云产品
Spring Cloud Netflix应用迁移EDAS
Spring Cloud Netflix应用迁移EDAS
场景描述 Spring Cloud Netflix微服务应用迁移到EDAS 服务(SpringCloud Alibaba云版本)的方法, 迁移后充分利用阿里云监控、调用链、限流降级 等能力,优化应用生命周期管理。 解决问题 1.帮助自建SpringCloudNetflix微服务应用 通过简单修改迁移到阿里云企业级分布式 应用服务(EDAS)平台。 2.迁移到EDAS后,简化应用的运维,提升监 控、调用链探测、限流降级等管理能力,提 高对应用的全生命周期管理。 产品列表 企业级分布式应用服务(EDAS) 负载均衡(SLB) 专有网络(VPC) 云服务器(ECS)
2.4节介绍部署微服务应用依赖的 RabbitMQ消息队列。2.5节介绍部署微服务应用依赖的 MongoDB数据库。2.6节介绍修改应用启动成功线下微服务应用。2.2.构建 PiggyMetrics本地开发环境 步骤1 下载项目源码。git clone https://github.com/sqshq/piggymetrics.git 步骤2 自行安装 JAVA环境和 MAVEN编译环境。1.请自行完成下载 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,负载均衡 SLB,企业级分布式应用服务 EDAS
基于函数计算FC实现阿里云Kafka消息轻量级ETL处理
基于函数计算FC实现阿里云Kafka<em>消息</em>轻量级ETL处理
在大数据ETL场景,Kafka是数据的流转中心,Kafka中的数据一般是原始数据,可能存在多种数据混杂的情况,需要进一步做数据清洗后才能进行下一步的处理或者保存。利用函数计算FC,可以快速高效的搭建数据处理链路,用户只需要关注数据处理的逻辑,数据的触发,弹性伸缩,运维监控等阿里云函数计算都已经做了集成,函数计算FC也支持多种下游,OSS/数据库/消息队列/ES等都可以自定义的对接
基于函数计算 FC实现阿里云 Kafka消息轻量级ETL处理 最佳实践 业务架构 场景描述 基于函数计算 FC处理消息队列 Kafka的数据,进行 ETL处理后,将清洗归档后的数据上传到 OSS存储。应用场景 在大数据 ETL场景,Kafka是数据的流转中心,Kafka 的数据一般是原始数据,可能存在多种 数据混杂的情况,需要进一步做数据清洗后...
来自: 最佳实践 | 相关产品:对象存储 OSS,函数计算,消息队列 Kafka 版
SLS数据入湖Kafka最佳实践
SLS数据入湖Kafka最佳实践
应用和数据分散在多云或混合云,在面对多云/混合云这样大的趋势下,数据无法进行统一的聚合、分析处理和导出等,本方案给出了在多云/混合云场景下,构建通过标准的Kafka协议和托管服务,SLS可以连接Kafka数据入湖导入,然后进行统一的海量数据的集中存储、智能转储、聚合分析查询等。
 云消息队列Kafka版:是阿里云基于ApacheKafka构建的高吞吐量、高可扩 展性的分布式消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处 理、在线和离线分析等场景,是大数据生态不可或缺的产品之一,阿里云提 供全托管服务,用户无需部署运维,更专业、更可靠、更安全. Serverless应用引擎SAE...
来自: 最佳实践 | 相关产品:云服务器ECS,日志服务(SLS),Serverless 应用引擎,消息队列 Kafka 版
基于函数计算FC实现企业级权限精准控制Kafka跨实例消息同步
基于函数计算FC实现企业级权限精准控制Kafka跨实例<em>消息</em>同步
应用场景 在大数据场景,企业的Kafka实例可能存在多种情况,比如使用阿里云Kafka服务,可能是自建开源Kafka,或者是其他云上的云Kafka。不同的业务使用不同类型的Kafka实例,在这个前提下Kafka实例之间可能会需要消息同步的情况: 同帐号容灾场景:比如Kafka实例都是阿里云Kafka,但是Kafka实例会有主备之分,需要将主Kafka实例的消息实时同步到备Kafka。 跨帐号或异地容灾:这类场景比如主Kafka是阿里云Kafka,备Kafka是IDC开源自建Kafka,或者是其他云上的Kafka。 不同业务之间消息同步:因为现在的业务通常不会是信息孤岛,都需要消息互通,所以可能是A业务的Kafka实例消息需要同步到B业务的Kafka实例,并且这两个Kafka实例归属不同的RAM角色,有自己独自的权限控制。 解决问题 解决使用开源组件做消息同步的高成本问题。 解决使用开源组件做消息同步的并发性能、稳定性问题。 解决使用开源组件做消息同步的可靠性问题(重试机制,容错机制,死信队列等)。 大幅提升构建消息同步架构的效率,降低构建复杂度问题。
(这里有异步调用和同步调用两种方式,为了能快速消费 ,这里选择异步调用,并且两种调用方式的正文负载大小不同,同步调用为32MB,异步调用为128KB) 触发器启用状态:勾选  批量推送:默认关闭。(可以选择开启,然后可以设置批量推送的条数,批量推送 间隔,根据需求选择是否批量推送) 推送格式:RawData(也...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,函数计算,消息队列 Kafka 版
基于函数计算FC实现阿里云Kafka消息内容控制MongoDB DML操作
基于函数计算FC实现阿里云Kafka<em>消息</em>内容控制MongoDB DML操作
在大数据ETL场景,将Kafka中的消息流转到其他下游服务是很常见的场景,除了常规的消息流转外,很多场景还需要基于消息体内容做判断,然后决定下游服务做何种操作。 该方案实现了通过Kafka中消息Key的内容来判断应该对MongoDB做增、删、改的哪种DML操作。 当Kafka收到消息后,会自动触发函数计算中的函数,接收到消息,对消息内容做判断,然后再操作MongoDB。用户可以对提供的默认函数代码做修改,来满足更复杂的逻辑。 整体方案通过CADT可以一键拉起依赖的产品,并完成了大多数的配置,用户只需要到函数计算和MongoDB控制台做少量配置即可。
l 云消息队列 Kafka 版:云消息队列 Kafka 版是阿里云提供的分布式、高吞吐、可扩展的 队列服务。云消息队列 Kafka 版广泛用于日志收集、监控数据聚合、流式数据处理、在 线和离线分析等大数据领域,已成为大数据生态不可或缺的部分。l 云数据库 MongoDB 版(ApsaraDB for MongoDB):完全兼容 MongoDB 协议,基于...
来自: 最佳实践 | 相关产品:函数计算,消息队列 Kafka 版,云数据库 MongoDB版
消息队列 ApsaraMQ
云消息队列 ApsaraMQ 是阿里云自主研发的消息队列服务系列产品的总称,旨在为开发者和企业的不同业务场景提供强大、可靠、低成本、高弹性且易于管理的消息服务。云消息队列 ApsaraMQ 全系列产品提供 Serverless 化的消息服务,按实际使用量付费,自适应弹性,跨可用区容灾,帮助客户降低使用和维护成本,专注业务创新。
消息队列 RocketMQ 版.Apache Kafka 全托管消息服务,大数据生态不可或缺的消息产品,具备开箱即用、无缝迁移、安全可靠、免运维等特点.云消息队列 Kafka 版.云消息队列 RabbitMQ 版是一款兼容 AMQP 0-9-1 协议,解决开源稳定性痛点的消息队列产品,同时具备按量后付费的售卖模式开箱即用、无需评估容量等优势.云消息...
来自: 云产品
消息队列 RabbitMQ 版
云消息队列 RabbitMQ 版是阿里云打造的云消息服务,广泛用于海量队列分发、分布式定时任务等场景。支持 AMQP 协议,开箱即用,轻松实现快速上云,更专业、更可靠、更安全。
并且云消息队列 RabbitmQ 版的百万队列能力让您无需担心因为业务规模上升而引起Queue数量过多导致的稳定性问题.相较于开源 RabbitMQ,云消息队列 RabbitMQ 版能支持的队列的数量具有明显的数量级的优势,不再成为业务发展的瓶颈,不用担心队列过多引起的稳定性问题,保证核心链路的稳定运转.灵活适应业务的快速增长.云消息...
来自: 云产品
消息队列 Kafka 版
云消息队列 Kafka 版是阿里云基于Apache Kafka构建的大数据消息中间件,广泛用于日志收集和分析、数据处理等场景。可提供全托管服务,用户无需部署运维,更专业、更可靠、更安全。
消息队列 Kafka 版是阿里云基于 Apache Kafka 构建的高吞吐量、高可扩展性的分布式消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等场景,是大数据生态不可或缺的产品之一,阿里云提供全托管服务,用户无需部署运维,更专业、更可靠、更安全.查看产品文档.购买云消息队列 Confluent 版....
来自: 云产品
消息队列 RocketMQ 版
云消息队列 RocketMQ 版是基于 Apache RocketMQ 构建的分布式消息中间件,广泛用于异步解耦、削峰填谷等场景。可支撑千万级并发、万亿级数据洪峰,更稳定,更安全。
消息队列 RocketMQ 版 Serverless 系列资源包重磅上线!存储空间无法自由弹性伸缩,空间不足会导致清理数据;多副本存储成本高.基于集群水位规划机器:·需要预留水位,且缩容复杂;受扩容速度限制,无法支持突发流量弹性.手工命令行操作运维,成本高,风险大;缺少配套可观测监控体系.自行运维保障,需要资深技术人员...
来自: 云产品
Function Compute构建高弹性大数据采集系统
Function Compute构建高弹性大数据采集系统
当前互联网很多场景都存在需要将大量的数据信息采集起来然后传输到后端的各类系统服务中,对数据进行处理、分析,形成业务闭环。比如游戏行业中的游戏发行、游戏运营,产互行业中的数字营销,物联网、车联网行业中的硬件、车辆信息上报等等。这些场景普遍存在数据采集量大、数据传输需要稳定且吞吐量大的特点,给整个数据采集传输系统带来很大的挑战。在这个场景中,有三个关键的环节,数据采集、数据传输、数据处理。该最佳实践主要涉
Kafka版:消息队列 Kafka 版是阿里云基于 Apache Kafka 构建的高 吞吐量、高可扩展性的分布式消息队列服务,广泛用于日志收集、监控数据聚合、文档版本:20210806(发布日期)III Function Compute构建高弹性大数据采集系统 产品介绍 流式数据处理、在线和离线分析等场景,是大数据生态不可或缺的产品之一,阿 里云提供全...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),函数计算,消息队列 Kafka 版,云速搭CADT
< 1 2 3 >
共有3页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用