实时计算Flink > 独享模式 > Batch（试用） > 创建源表 —— 创建DataHub源表请输入关键词

2018-11-14 2641

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 本页目录创建DataHub源表数据总线（DATAHUB）属性字段 WITH参数类型映射创建DataHub源表数据总线（DATAHUB） DataHub作为一个流式数据总线，为阿里云数加平台提供了大数据的入口服务。

创建DataHub源表

数据总线（DATAHUB）

DataHub作为一个流式数据总线，为阿里云数加平台提供了大数据的入口服务。结合阿里云众多云产品，可以构建一站式的数据处理平台。流计算通常使用DataHub作为流式数据存储头和输出目的端。同时，上游众多流式数据，包括DTS、IOT等均选择DataHub作为大数据平台的数据入口。

DataHub本身是流数据存储，Flink可将其作为批处理的输入。示例如下:

注意：作为批处理的输入时，必须指定起始及结束时间。

目前默认支持的属性字段如下，也支持其他自定义写入的字段:

字段名	注释说明
`timestamp`	每条记录入datahub的systemtime

属性字段的定义和获取详见获取源表属性字段。

目前只支持tuple模式的topic。

参数	注释说明	备注
endPoint	消费端点信息	无
accessId	读取的accessId	无
accessKey	读取的密钥	无
project	读取的项目	无
topic	project下的具体的topic	无
startTime	日志开始时间	格式为`yyyy-MM-dd hh:mm:ss`
maxRetryTimes	读取最大尝试次数	可选，默认为20。
retryIntervalMs	重试间隔	可选，默认为1000。
batchReadSize	单次读取条数	可选，默认为10。
lengthCheck	单行字段条数检查策略	可选，默认为`SKIP`。其它可选值为`EXCEPTION`、`PAD`。`SKIP`表示字段数目不符合时跳过。 `EXCEPTION`表示字段数目不符合时抛出异常。 `PAD`表示按顺序填充，不存在的置为null。
columnErrorDebug	是否打开调试开关，如果打开，会把解析异常的log打印出来。	可选，默认为`false`。
isBlob	datahub是否为blob类型	可选，默认为`false`。2.0.x版本开始支持
endTime	datahub日志数据结束时间	批处理方式读取datahub数据时，必须声明该参数。

注意：使用blob类型时，字段需要声明成varbinary类型，与metaq类似。

DataHub和流计算字段类型对应关系，建议您使用该对应关系进行DDL声明。

本文转自实时计算—— 创建DataHub源表