数据总线 DataHub研发-数据总线 DataHub研发文档介绍内容-移动阿里云

产品概述

阿里云流数据处理平台数据总线 DataHub 是流式数据（Streaming Data）的处理平台，提供流式数据的发布(Publish)、订阅（Subscribe）和分发功能，支持构建基于流式数据的分析和应用。产品概述 数据总线（DataHub）是阿里云提供的一款流式...

云监控报警

在数据总线DataHub页面，单击目标资源对应操作列的监控图表可以查看图表数据信息。说明最多可连续查看最近30天的监控数据。设置报警规则在DataHub的监控页面，可以为该云产品中的资源设置报警规则。当资源符合报警规则时，云监控自动...

功能特性

Datahub数据总线 功能集功能功能描述参考文档数据接入 API接入使用REST API方式，将数据写入Datahub API参考 SDK接入使用SDK将数据传入Datahub Java SDK C++ SDK Go SDK Python SDK 插件接入使用插件将数据传入Datahub LogStash插件...

应用场景

实时数据通道接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。收益系统解耦...

数据总线 DataHub

阿里云流式数据服务DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布(Publish)，订阅(Subscribe)和分发功能，让您可以轻松构建基于流式数据的分析和应用。

服务等级说明

服务等级说明 数据总线服务等级协议本服务等级协议（Service Level Agreement，以下简称“SLA”）规定了阿里云向客户提供的数据总线（简称“数据总线”）的服务可用性等级指标及赔偿方案。1.定义 1.1 服务周期一个服务周期为一个自然月。...

名词解释

名词解释名词解释 Project 项目（Project）是DataHub数据的基本组织单元，下面包含多个Topic。DataHub的项目空间与MaxCompute的项目空间相互独立。Topic Topic是DataHub订阅和发布的最小单位，可以用Topic来表示一类或者一种流数据。...

功能概览

产品功能数据接入：提供多种SDK、API和Flume、Logstash等第三方插件，高效便捷地把数据接入到数据总线。数据投递：提供DataConnector模块，稍作配置即可把接入的数据实时同步到下游MaxCompute、OSS、TableStore等存储分析系统，减轻了数据...

创建Project和Topic

项目（Project）是DataHub数据的基本组织单元,下面包含多个Topic，而Topic是 DataHub 订阅(读取)和发布(写入)的最小单位。操作步骤创建Project 进入 DataHub控制台，点击左侧项目管理列表在项目管理列表页面，单击右侧新建项目。填写 ...

产品定价

产品定价 数据总线产品已于2020年4月20号正式开始商业化收费，目前仅支持按量付费的计费模式，根据用户实际使用量来梯度计费，每月也为用户准备了一定的免费额度。按量付费按量付费的单价，详情可参考以下描述：扣费周期为天：每天为您...

新功能发布记录

2021年 03月新功能/特性简要概述类别文档详细说明同步MaxCompute支持页面TimestampUnit 同步MaxCompute任务支持页面设置TimestampUnit单位用户指南概述 DataHub 3月份新增功能介绍 DataHub完全兼容Kafka DataHub全面支持kafka读写 ...

Flume插件

Flume-DataHub插件是基于Flume开发的DataHub数据订阅/发布插件，可以将采集到的数据写入DataHub，也可以从DataHub读取数据写入其他系统。该插件遵守Flume插件开发规范，安装方便，可以很方便的向DataHub发布/订阅数据。安装Flume插件安装...

OGG for Oracle介绍

INTEGER BIGINT BINARY_FLOAT/BINARY_DOUBLE DOUBLE/DECIMAL FLOAT DOUBLE/DECIMAL date/timestamp TIMESTAMP/STRING 如果DataHub数据类型为TIMESTAMP，会自动转换为微秒时间戳 raw STRING raw字段会自动进行BASE64编码写入到DataHub 以上...

快速入门(同步示例)

参数描述 Project 项目（Project）是DataHub数据的基本组织单元,下面包含多个Topic。值得注意的是，DataHub的项目空间与MaxCompute的项目空间是相互独立的。用户在MaxCompute中创建的项目不能复用于DataHub，需要独立创建。描述 Project的...

Fluentd插件

sudo gem install-local fluent-plugin-datahub-0.12.25.gem 使用案例案例一：CSV文件上传下面以增量的CSV文件为例，说明下如何使用Fluentd将增量的CSV文件准实时上传到DataHub数据。CSV文件的格式如下所示：0,qe614c760fuk8judu01tn5x...

常见问题

如何删除Topic中的数据 datahub目前不支持删除Topic中的数据，建议采用重置点位来让数据失效。在配置所定义的OSS路径下以随机文件名创建文件，每个Shard对应一个文件，当文件大小达到5GB时，将创建新文件，可以修改吗？不能修改 ADS无法...

概述

DataHub数据同步功能 DataHub提供数据Sink/Source功能，即数据同步功能，DataHub支持将对应Topic中的数据实时/准实时的同步到第三方阿里云产品中，打通阿里云产品间的数据流通。目前支持MaxCompute（原ODPS）、分析型数据库MySQL(ADS)、...

查看同步任务

DataHub DataConnector是把DataHub服务中的流式数据同步到其他云产品中的功能，目前支持将Topic中的数据实时/准实时同步到MaxCompute(ODPS)、OSS、ElasticSearch、RDS Mysql、ADS、TableStore中。用户只需要向DataHub中写入一次数据，并在...

SDK实践指南

} } } 创建订阅消费DataHub数据/点位消费示例，并在消费过程中进行点位的提交 public static void example(){ String shardId="0;List String shardIds=Arrays.asList("0","1");OpenSubscriptionSessionResult ...

DataHub Kafka兼容模式

DataHub Kafka兼容模式 DataHub 已经兼容 Kafka 的协议，用户可以直接使用Kafka的sdk来连接 DataHub 服务,进行数据的订阅和发布。DataHub&Kafka概念映射 Kafka Datahub Topic Project.Topic partition shard offset sequence Kafka Topic ...

创建同步OSS

准备OSS Bucket DataHub支持将数据同步到对象存储OSS中，在创建同步任务前，用户首先需要在OSS管控台创建OSS Bucket，作为DataHub数据同步的目标Bucket。2.服务关联角色授权用户配置同步任务时，账号可以选择使用 AccessId/AccessKey 静态...

ok { fmt.Println("Subscription used by other one")break } else { fmt.Println("Commit offset failed",err)break } } recordCount=0 } } cursor=gr.NextCursor } } 接口示例 project 操作项目（Project）是DataHub数据的基本组织单元,...

创建同步ADS

准备ADS实例和表结构使用ADS管控台新建ADS集群DataHub同步时，会根据DataHub Field的数据类型同步到对应的ADS数据类型中，对应的类型映射关系如下所示：DataHub MySQL TINYINT TINYINT SMALLINT SMALLINT INTEGER INT BIGINT BIGINT ...

数据库实时导入DataHub

为了更加方便让数据库数据实时导入到DataHub，联合数据集成一起开发了“数据库实时导入到DataHub”，尽量简化数据流入DataHub的流程。整体流程如下：使用图解主账号使用方式：打开公有云DataHub Console，选择对应的Project，点击右上角的...

console命令工具

f filepath-p test_topic-t test_topic-m","-n 1000 示例：CSV文件上传下面以CSV文件为例，说明下如何使用console工具将CSV文件上传到DataHub数据。CSV文件的格式如下所示：1.0,qe614c760fuk8judu01tn5x055rpt1,true,100.1,14321111111 2....

创建同步Fc

2.服务关联角色授权当选择STS临时账号方式时，将会自动创建 DataHub服务关联角色，DataHub服务会使用此角色访问Fc以完成数据同步 3.创建DataHub Topic 参见 Web控制台操作指南 4.创建DataHub FunctionCompute Connector 4.1 进入Topic详情...

DataHub读流量价格下调公告

尊敬的阿里云用户：为满足用户不断增长的流式数据处理规模，并持续优化用户使用成本，DataHub将于北京时间 2025年3月31日起实施读流量价格调整：单价由 0.15元/GB 降至 0.015元/GB，降幅达90%。本次调整将覆盖全部已开通服务的区域...

offset 操作

} } 关联订阅消费DataHub数据 同读取DataHub数据类似，使用订阅进行消费的不同之处在于订阅存储了消费的点位，用户可自由选择消费点位。说明首先调用openSubscriptionSession初始化offset，获取version+session信息，全局只初始化一次，多...

DataHub服务关联角色

本文为您介绍DataHub服务关联角色（AliyunServiceRoleForDataHub）的应用场景以及如何删除服务关联角色。DataHub服务关联角色本文为您介绍DataHub服务关联角色（AliyunServiceRoleForDataHub）的应用场景以及如何删除服务关联角色。背景...

DataHub-Dataworks Connection服务关联角色

DataHub-Dataworks Connection服务关联角色（AliyunServiceRoleForDataHubDWConnection）是在选择数据库实时导入时，为了完成DataWorks工作空间查询及创建，需要获取DataWorks的访问权限而提供的RAM角色。更多关于服务关联角色的信息请参见...

创建同步MaxCompute

针对TUPLE类型topic，MaxCompute目标表数据类型需要和DataHub数据类型相匹配，具体的数据类型映射关系如下：MaxCompute DataHub BIGINT BIGINT STRING STRING BOOLEAN BOOLEAN DOUBLE DOUBLE DATETIME TIMESTAMP DECIMAL DECIMAL TINYINT ...

创建同步Hologres

default：将DataHub数据逐条写入Hologres。dts_old：不启用新的附加列规则。dts：启动新的附件列规则。导入字段需要导入Hologres的字段。可以根据实际业务需求选择导入部分或全部字段。鉴权模式默认为AK。无 AccessId 访问Hologres实例的...

Kafka数据迁移Datahub方案

前提已经创建好Project和Topic，创建方式详情见创建Topic示例说明目前仅支持Kafka迁移数据至DataHub，不支持DataHub迁移数据至Kafka DataHub目前不支持事务、幂等，需在DataHub目标端配置中禁用幂等配置操作步骤上传 kafka_mirror_...

创建同步RDS/MySQL/ADS3.0

DataHub同步时，会根据DataHub Field的数据类型同步到对应的RDS数据类型中，对应的类型映射关系如下所示：DataHub RDS TINYINT TINYINT SMALLINT SMALLINT INTEGER INT BIGINT BIGINT STRING VARCHAR BOOLEAN BOOLEAN/TINYINT FLOAT FLOAT ...

Canal插件

canal[kə’næl]，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费。早期阿里巴巴因为杭州和美国双机房部署，存在跨机房同步的业务需求，实现方式主要是基于业务 trigger 获取增量变更。从 2010 ...

DataHub成本节省攻略

例如：一次发送100条数据，将100条数据序列化后得到一个buffer，给这个buffer选择一个压缩算法得到压缩后的buffer，这个时候给这个压缩后的buffer添加一个header记录这个buffer大小、数据条数、压缩算法、crc等信息，从而获得一条完整batch...

创建同步ElasticSearch

脏数据 ES6 f1 v2 {f1:v1,f4:v4,f5:v5,f6:v6} ES7-v2 {f1:v1,f4:v4,f5:v5,f6:v6} 数据=v1,null,v3,v4,v5,v6 ES版本 type id data ES5-id属性列为null，脏数据 ES6-id属性列为null，脏数据 ES7-id属性列为null，脏数据数据=v1,v2,null,v4,v...

权限控制

权限控制 DataHub采用阿里云 RAM 进行访问控制。用户对DataHub资源的访问，通过RAM进行鉴权。阿里云主账号拥有所属资源的所有权限，子用户在创建时并没有任何权限，不能访问任何资源，用户需要在RAM中对该子用户进行授权操作。关于如何创建...

Datahub安全合规说明

名称指标描述 readMetric 数据消费每秒请求数(单位：count)数据消费压缩后吞吐量(单位：KB)数据消费原始吞吐量(单位：KB)数据消费失败数(单位：count)数据消费每秒数据量(单位：count)数据消费请求延迟(单位：us)writeMetric 数据写入每秒...

OGG for Bigdata(Kafka)

对于Oracle19c及以下的版本均可以支持，目前OGG for Bigdata可以将数据写入Kafka，而DataHub已经兼容Kafka Producer/Consumer协议，所以用户除了使用DataHub插件将Oracle数据写入DataHub之外，还可以使用OGG for Bigdata利用DataHub的Kafka...