emapreduce kafka-emapreduce kafka文档介绍内容-移动阿里云

使用E-MapReduce采集Kafka客户端Metrics数据

本文介绍如何通过E-MapReduce，从Kafka客户端采集Metrics数据，从而有效地进行性能监控。前提条件已创建Kafka集群，详情请参见创建集群。说明本文以EMR-3.21.3版本为例介绍。背景信息 Kafka提供了一套非常完善的Metrics数据，覆盖Broker...

KAFKA指标

KAFKA指标包含以下部分：Kafka-Topics Request TIme Status Request Rate MessageConversion Performance Storage ZK session JVM Throughput Kafka-Home Kafka-Topics 参数指标描述 UnderReplicated Kafka_Broker_kafka_cluster_...

Kafka Manager

Kafka Manager是专为Kafka设计的集群管理工具，提供了WebUI界面，允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI，并将集群添加至Kafka Manager的WebUI界面。前提条件已创建选择了Kafka服务的...

Kafka元数据管理

登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的元数据管理页签。在左侧导航栏，单击 Kafka数据管理。在 Kafka数据管理页面，单击右上角的添加Topic。在基本配置区域，配置各项参数。可选...

Kafka Indexing Service

本文介绍如何在E-MapReduce中使用Apache Druid Kafka Indexing Service实时消费Kafka数据。前提条件已创建E-MapReduce的Druid集群和Kafka集群，详情请参见创建集群。背景信息 Kafka Indexing Service是Apache Druid推出的使用Apache ...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

Kafka常见问题

如何清理Kafka组件输出日志当组件服务输出日志过大，占用存储空间过多时，您可以进入Kafka服务输出日志的存储目录$LOG_DIR_ROOT（默认存储实际目录为/mnt/disk1/log），进入后根据需要删除kafka、cruise-control、kafka-schema-registry、...

通过公网访问Kafka

本文为您介绍如何配置阿里云E-MapReduce集群中的Kafka服务，包括修改相关配置以监听公网接口以及设置对应的安全组规则，从而使得客户端能够在公网环境下顺利访问该集群上的Kafka服务。新建集群时，开通公网服务新建Dataflow集群时，打开...

EMR Kafka配置说明

本文为您介绍E-MapReduce（简称EMR）中Kafka集群操作系统环境变量和配置项。操作系统环境变量 EMR Kafka集群的ECS实例操作系统用户为kafka，用户组为group，您可以登录ECS实例执行各类操作。EMR Kafka预置了以下Shell终端环境变量。变量名 ...

使用SSL加密Kafka链接

配置SSL功能 E-MapReduce Kafka集群提供以下两种配置SSL的方式：使用默认证书配置SSL：使用E-MapReduce默认创建的证书和默认配置方式快速启用SSL功能。自定义配置SSL：使用自定义证书和配置值启用SSL功能。E-MapReduce通过 server....

Kafka数据源

本文介绍如何使用Kafka数据源进行数据分析或者交互式开发。建表语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]USING kafka OPTIONS(propertyName=propertyValue[,propertyName=propertyValue]*);配置参数说明 ...

快速开始使用EMR Kafka

本文为您介绍如何创建E-MapReduce（简称EMR）Kafka集群、Kafka访问的设置，使用Kafka Topic和Kafka Connect服务，帮您快速了解和上手使用EMR Kafka。创建EMR Kafka集群该部分内容为您简单介绍如何创建Kafka集群，更详细的创建操作，请参见...

Kafka Rebalancer工具介绍

本文为您介绍使用Kafka Rebalancer工具的注意事项、常用参数以及使用示例。本文以EMR Kafka 2.4.1版本为例。背景信息在使用Kafka集群过程中，常常会碰到以下问题：leader分区不均衡：导致各个Broker负载不均衡，读写吞吐下降。Borker分区...

Kafka

使用SASL登录认证Kafka服务

前提条件已在E-MapReduce控制台创建选择了Kafka服务的DataFlow集群（即Kafka集群），详情请参见创建DataFlow Kafka集群。配置SASL功能 E-MapReduce通过 server.properties 配置文件的 kafka.sasl.config.type 配置项来管理配置SASL的策略...

配置Kafka开启Ranger权限控制

登录 E-MapReduce控制台。单击目标集群操作列的集群服务。Ranger启用Kafka。在集群服务页面，单击 Ranger-plugin 服务区域的状态。在服务概述区域，打开 enableKafka 开关。在弹出的对话框中，单击确定。重启Kafka。在集群服务 ...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式通过Flume导入推荐使用Flume方式导入到JindoFS，利用Flume对HDFS的支持，...

如何排查EMR Kafka服务异常

EMR Kafka集群管控页面显示Kafka相关组件异常，无法通过重启等方式恢复时，需要排查异常原因。本文介绍如何排查EMR Kafka服务异常和常见的异常处理方法。排查异常说明本文以Kafka Broker服务为例说明。登录EMR on ECS控制台，确认服务...

通过Spark Streaming作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含kafka服务的DataFlow集群中，如何使用Spark Streaming作业从Kafka中实时消费数据。前提条件已注册阿里云账号。已开通E-MapReduce服务。已完成云账号的授权，详情请参见角色授权。步骤一：创建...

通过PyFlink作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含Flink和kafka服务的DataFlow集群中，如何通过PyFlink来处理Kafka中的实时流数据。前提条件已注册阿里云账号。已完成云账号的授权，详情请参见角色授权。已创建包含Flink和kafka服务的DataFlow集群...

手动集成Ranger Kafka插件

当E-MapReduce（简称EMR）的DataFlow集群没有安装Ranger Kafka插件，或当前集群中的Ranger Kafka插件版本与实际使用的Ranger服务不兼容时，您需要进行手动集成。本文介绍如何手动安装Ranger Kafka插件以及配置生效Ranger Kafka插件。前提...

限制Kafka服务端运维流量

本文为您介绍如何在Kafka集群运维中对Kafka运维流量进行限制，以避免由于运维流量影响到正常的业务流量。本文以EMR Kafka 2.4.1版本为例。背景信息由于运维操作而出现的IO流量称为运维流量。在以下运维场景中需要对运维流量进行限制：...

同步EMR Kafka数据至OSS

本文为您介绍如何使用Flume同步EMR Kafka集群的数据至阿里云OSS。前提条件已开通OSS服务并创建OSS存储空间，详情请参见开通OSS服务和创建存储空间。已创建DataLake集群，并且选择了Flume服务，详情请参见创建集群。已创建DataFlow集群...

同步EMR Kafka数据至HDFS

本文为您介绍如何同步EMR DataFlow集群的数据至EMR DataLake集群的HDFS。前提条件已创建DataLake集群，并且选择了Flume服务，详情请参见创建集群。已创建DataFlow集群，并且选择了Kafka服务，详情请参见创建集群。操作步骤配置Flume。...

漏洞公告|Apache Kafka Connect远程代码执行漏洞

EMR-5.16.0（EMR 5.x系列）之前的版本 sudo rm-f kafka-current sudo ln-s/opt/apps/KAFKA/kafka-2.13-3.6.1-1.0.0 kafka-current EMR-3.50.0（EMR 3.x系列）之前的版本 sudo rm-f kafka-current sudo ln-s/opt/apps/KAFKA/kafka-2.12-2.4....

同步EMR Kafka数据至Hive

本文为您介绍如何使用Flume同步EMR DataFlow集群的数据至EMR DataLake集群的Hive。前提条件已创建DataLake集群，并且选择了Flume服务，详情请参见创建集群。已创建DataFlow集群，并且选择了Kafka服务，详情请参见创建集群。操作步骤 ...

创建DataFlow Kafka集群

在确认订单页面，选中 E-MapReduce服务条款复选框。单击创建。创建集群后可以通过刷新页面来查看进度，当集群状态显示为运行中时，表示集群创建成功。后续步骤集群创建成功后，您可以根据实际的业务场景，修改集群的默认参数，使...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中，当磁盘出现故障时，会导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降，单块盘故障甚至有可能...

EMR Kafka磁盘写满运维

本文以EMR Kafka 2.4.1版本为例，介绍Kafka磁盘写满时的运维操作。业务场景 Kafka将日志数据存储到磁盘中，当磁盘写满时，相应磁盘上的Kafka日志目录会出现offline问题。此时，该磁盘上的分区副本不可读写，降低了分区的可用性与容错能力，...

从Kafka导入数据至ClickHouse

您可以通过Kafka表引擎导入数据至ClickHouse集群。本文为您介绍如何将Kafka中的数据导入至ClickHouse集群。前提条件已创建DataFlow集群，且选择了Kafka服务，详情请参见创建集群。已创建ClickHouse集群，详情请参见创建集群。使用限制 ...

同步EMR Kafka数据至HBase

本文为您介绍如何使用Flume同步EMR Kafka集群的数据至EMR DataServing集群的HBase。前提条件已创建DataLake集群，并且选择了Flume，详情请参见创建集群。已创建DataServing集群，详情请参见创建集群。已创建DataFlow集群，并且选择了...

使用Flink将Kafka数据流式写入阿里云OSS

前提条件已开通E-MapReduce服务和OSS服务。已完成云账号的授权，详情请参见角色授权。操作流程步骤一：准备环境步骤二：准备JAR包步骤三：创建Kafka Topic并生成数据步骤四：运行Flink作业步骤五：查看输出的结果步骤一：准备环境 ...

同步EMR Kafka数据至OSS-HDFS

背景信息 OSS-HDFS服务是一款云原生数据湖存储产品，基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好的满足大数据和AI领域丰富多样的数据湖计算场景，详细信息请参见 OSS-HDFS服务概述。...

EMR Kafka ECS磁盘事件处理

本文为您介绍如何修复EMR Kafka集群Broker节点的ECS实例存在的磁盘事件。背景信息当您收到提示本地磁盘硬件异常风险的邮件时，需要进行Kafka服务磁盘修复操作。此时，您可以在ECS的控制台，查看修复磁盘事件流程。事件处理概述 EMR Kafka ...

Kafka运维

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

E-MapReduce Serverless服务等级协议（SLA）

2023年6月1日起，E-MapReduce Serverless服务等级协议（SLA）生效。详情请参见 开源大数据平台E-MapReduce Serverless服务等级协议。

授权信息

本文为您介绍 开源大数据平台 E-MapReduce（EMR）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce（EMR）的RAM代码（RamCode）为 emr，支持的授权粒度为 OPERATION。权限策略通用...

授权信息

本文为您介绍 开源大数据平台 E-MapReduce（EMR）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce（EMR）的RAM代码（RamCode）为 emr，支持的授权粒度为 OPERATION。权限策略通用...