通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

2019-04-01 3977

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过DataWorks归档日志服务数据至MaxCompute

通过DataWorks归档日志服务数据至MaxCompute

官方指导文档：https://help.aliyun.com/document_detail/68322.html
但是会遇到大家在分区上或者DataWorks调度参数配置问题，具体拿到真实的case模拟如下：

创建数据源：

步骤1 进入数据集成，点击作业数据源，进入Tab页面。

步骤2 点击右上角
新增数据源，选择消息队列 loghub。

步骤3 编辑LogHub数据源中的必填项，包括数据源名称、LogHub
Endpoint、Project、AK信息等，并点击测试连通性。

创建目标表：

步骤1 在左侧tab也中找到临时查询，并右键>新建ODPS SQL节点。

步骤2 编写建表DDL。
步骤3 点击
执行按钮进行创建目标表，分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4 直到日志打印成本，表示三条DDL语句执行完毕。

步骤5 可以通过desc 查看创建的表。

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好，接下来就可以通过数据同步任务进行采集数据到MaxCompute上。
操作步骤
步骤1 点击
新建业务流程并确认提交，名称为直播日志采集。

步骤2 在业务流程开发面板中依次创建如下依赖并命名。

依次配置数据同步任务节点配置：web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3 双击
web_tracking_log_syn 进入节点配置，配置项包括数据源（数据来源和数据去向）、字段映射（源头表和目标表）、通道控制。

根据采集的时间窗口自定义参数为：

当然其消费点位也可以按照自定义设置5分钟调度一次，从00：00到23:59，startTime=$[yyyymmddhh24miss-10/24/60]系统前10分钟到
endTime=$[yyyymmddhh24miss-5/24/60]系统前5分钟时间（注意与上图消费数据定位不同），那么应该配置为ds=[yyyymmdd-5/24/60]，hr=[hh24-5/24/60]，min=[mi-5/24/60]。

步骤4 可以点击高级运行进行测试。