Docker时代——如何实现日志数据一键上云-阿里云开发者社区

Docker时代——如何实现日志数据一键上云

2017-02-10 4186

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1 准备工作 1.1 开通MaxCompute服务参考使用MaxCompute的准备工作 1.2 开通Datahub服务进入Datahub Web控制台，创建project（注意：首次使用的用户需要申请开通） 1.3 安装Docker环境 Docker官方说明了在不同操作系统下安装Docker的方法，您可以点击此处查看。

一、准备工作

1.1 开通MaxCompute服务

参考使用MaxCompute的准备工作

1.2 开通Datahub服务

进入Datahub Web控制台，创建project（注意：首次使用的用户需要申请开通）

1.3 安装Docker环境

Docker官方说明了在不同操作系统下安装Docker的方法，您可以点击此处查看。
在阿里云ECS上，以CentOS 7.2为例，安装方式如下：

sudo yum install docker
sudo systemctl enable docker
sudo systemctl start docker

二、运行数据采集的Docker镜像

以Web服务器Nginx的日志采集为例，假设Nginx的日志在服务器的路径为/var/www/all.log，日志样例如下所示：

192.168.1.6 - - [10/Feb/2017:10:51:09 +0800] "GET /ubuntu.iso HTTP/1.0" 0.000 129 404 168 "-" "Wget/1.11.4 Red Hat modified"

运行如下的命令，配置其中ACCESS_ID，ACCESS_KEY， DATAHUB_PROJECT，MAXCOMPUTE_PROJECT和MAXCOMPUTE_TABLE等必要的参数，即可启动日志采集插件的docker镜像，实现将指定的日志按行导入Datahub，并自动归档到MaxCompute的表中。

docker run  -v /var/www:/var/www:ro -e DATA_COLLECTOR_TYPE=classic -e ACCESS_ID={YOUR_ACCESS_ID} -e ACCESS_KEY={YOUR_ACCESS_KEY} -e DATAHUB_PROJECT={YOUR_DATAHUB_PROJECT} -e MAXCOMPUTE_PROJECT={YOUR_MAXCOMPUTE_PROJECT}  -e MAXCOMPUTE_TABLE={YOUR_MAXCOMPUTE_TABLENAME} -e DATA_FILE_PATH=/var/www/.*.log  registry.cn-hangzhou.aliyuncs.com/aliyun_maxcompute/data_collectors:1.0

该日志采集插件会监控所指定的日志文件，不断地将新增的日志上传，在正常情况下，Datahub的project里会自动创建一个名为maxcompute_data_collect_topic的topic，MaxCompute的project中会自动创建指定名字的表，表的schema如下所示：

+------------------------------------------------------------------------------------+
| Native Columns:                                                                    |
+------------------------------------------------------------------------------------+
| Field           | Type       | Label | Comment                                     |
+------------------------------------------------------------------------------------+
| line            | string     |       |                                             |
+------------------------------------------------------------------------------------+
| Partition Columns:                                                                 |
+------------------------------------------------------------------------------------+
| pt              | string     |                                                     |
+------------------------------------------------------------------------------------+

三、数据分析

在docker镜像跑起来后，日志数据就源源不断地导入MaxCompute的表中了，数据默认会按照采集的时间按天进行分区。例如我们想知道20170210这天192.168.1.6这个ip的访问次数可以简单的用下面的SQL完成。

select count(*) from YOUR_MAXCOMPUTE_TABLENAME where pt = '20170210' and instr(line, '192.168.1.6') > 0;

更多复杂的分析，可以通过编写UDF或者MR作业来完成，可以参考MaxCompute的官方文档了解更多。

Docker时代——如何实现日志数据一键上云

一、准备工作

1.1 开通MaxCompute服务

1.2 开通Datahub服务

1.3 安装Docker环境

二、运行数据采集的Docker镜像

三、数据分析

四、相关阅读

大数据计算 MaxCompute

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

Docker时代——如何实现日志数据一键上云

一、 准备工作

1.1 开通MaxCompute服务

1.2 开通Datahub服务

1.3 安装Docker环境

二、 运行数据采集的Docker镜像

三、 数据分析

四、相关阅读

大数据计算 MaxCompute

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

一、准备工作

二、运行数据采集的Docker镜像

三、数据分析