【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析-阿里云开发者社区

【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析

2017-01-09 8025

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 如何利用阿里云数加快速搭建属于自己的日志分析实时指挥大屏和报表。

【场景】

用户搭建网站会不断的产生访问日志(Nginx,Apache访问日志)。为了从访问日志中挖掘出更多价值，本文主要阐述如果利用阿里云数加从沉睡中的访问日志中获取更有价值的数据，包括用于实时统计和展示网站访问的一系列指标，例如PV，UV，设备，地理，状态码，爬虫，网络流量等指标。

【具体分析需求】

用户想根据访问日志来实时统计和展示网站访问重要指标，需要设计到流式计算和离线计算，那么阿里云数加·StreamCompute更好的可以解决日志的实时计算场景，而阿里云数加·MaxCompute则更好的来处理批量数据，适合于离线数据计算。

那么如何来使用阿里云数加来构建一个高可用的数加架构两者计算场景都可以满足？

【日志字段】

日志格式：

$remote_addr - $remote_user [$time_local] “$request” $status $body_bytes_sent”$http_referer” “$http_user_agent” [unknown_content];

日志字段说明：

字段名称	字段说明
$remote_addr	发送请求的客户端IP地址
$remote_user	客户端登录名
$time_local	服务器本地时间
$request	请求，包括HTTP请求类型+请求URL+HTTP协议版本号
$status	服务端返回状态码
$body_bytes_sent	返回给客户端的字节数（不含header）
$http_referer	该请求的来源URL
$http_user_agent	发送请求的客户端信息，如使用的浏览器等

真实的访问日志数据示例如下：

192.168.1.101 - - [17/Mar/2016:10:28:30 +0800] "GET /fonts/fontawesome-webfont.woff?v=4.2.0 HTTP/1.1" 0.021 1207 304 0 "https://sls.console.aliyun.com/css/lib.css" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36"

【数据架构】

根据实时计算场景和批量计算的场景要求，笔者尝试从如下数据架构来满足：

70cc05e5dc752d96db0b87710bb1c6559e1bbb70

如上数据架构图，用户可根据红色箭线来完成实时数据处理场景，根据蓝色箭线来完成离线数据处理需求。

实时处理逻辑：Logstash-->DataHub-->StreamCompute-->AnalyticDB-->DataV,笔者做出来的最终效果图如下：

离线计算逻辑：Logstash-->DataHub（DataConnector）-->MaxCompute-->大数据开发套件Data IDE -->Quick BI.效果图如下：

用心的用户会发现笔者总体的架构是按照如下数据流逻辑来构建的：

eb07eac006aff1f3a660e975d3c85b20e0cbab33

数据采集：笔者采用了自己熟悉的开源工具Logstash，当然用户也可以选择自己熟悉的比如Fluentd，都是开源中比较常用来做日志的并发采集。其中DataHub顾名思义为数据中枢，其实pub/sub系统，负责将实时采集的数据进行采集和消费。阿里云数加DataHub提供了Logstash和Fluentd Output插件，无缝支持讲日志数据写入到DataHub并由下游消费。具体文件详见：https://datahub.console.aliyun.com/intro/introduction.html
数据存储：在实时计算中StreamCompute是没有存储的，因为流式数据场景就是无界的数据持续不断的写入，持续不断的计算并将结果输出给下游存储供消费。而在离线计算场景中，数据被DataHub 的归档功能给存储在MaxCompute，用来做批量计算。
数据展现：两者都是讲最终处理好的数据写入到阿里云数加AnalyticDB中，其中AnalyticDB支持海量数据的毫秒级查询和分析，最终实时场景展示采用数据可视化DataV制作的实时指挥大屏，而离线采用了Quick BI制作的报表。

笔者也会根据架构图将详细的操作文档及代码共享给大家，敬请期待！也祝愿大家能够快速的针对自己网站的访问日志构建出分析结果。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景