2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇

简介: 2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇

实验背景介绍

了解更多2017云栖大会·杭州峰会 TechInsight & Workshop.

本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《流数据采集:海量流式视频日志收集》篇所需。主要帮助现场学员熟悉并掌握阿里云日志服务Log的操作和使用。

实验涉及大数据产品

前提准备

必备条件:

  • 确保已经从云中沙箱中获取了实验所需的阿里云账号和密码。
  • 购买开通日志服务产品。

开通日志服务Log

登录

下次再说

您获得账号需要按照引导进行自助开通日志服务。开通后即可体验如下课程。

  • step2:进入阿里云日志服务管理控制台。

sls

创建日志服务Project

阿里云日志服务project名称是全局唯一的,建议大家本次实验按照workshop-abc的规则来命名,abc为您获取的云账号后三位数字。如获取云账号为train00620@aliyun-inc.com,那么project名称命名为workshop-620。

  • step1:点击右上角创建Project进入创建Project页面。
    sls
  • step2:在弹出框中填写需要配置的Project参数。
  • Project名称:按照workshop-abc的规则来命名,如workshop-620,620为您获取到云账号后三位数字。
  • 所属区域:华东2,即上海。
  • step3:点击确认之后,弹出如下对话框,并点击创建按钮,进入创建LogStore页面。

创建日志服务Logstore

本案例场景需要您一共创建三个Logstore,分别说明如下:

  • vedio-server-log:用于收集服务端流媒体的编码解码等日志。
  • client-operation-log:用于收集用户在浏览器、客户端的操作日志。
  • web-tracking-log:用于演示WebTracking采集播放器操作日志。

开始分别创建以上三个Logstore:

创建Logstore:vedio-server-log

  • step1:在创建Logstore弹出框中配置如下信息。

Logstore名称:vedio-server-log,其他均采用默认。

  • step2:创建成功之后提示创建Logtail配置,点击创建Logtail.

  • step3:进入创建Logtail页面。
  • step3.1:选择数据源配置中,选择文本文件并点击下一步。
  • step3.2:指定采集模式配置中,配置采集模式如下:

配置项说明如下:

  • 配置名称:vedio-server-log
  • 日志路径:/root,具体日志文件名为:vedio-server.log
  • 模式:选择JSON模式。
  • step3.3:配置完采集模式后,点击下一步进入应用到机器组配置页面,点击+创建机器组

创建机器组弹出框:

获取ECS内网IP

  • step4:登陆ECS控制台,获取自己账号下的ECS虚拟机的内网IP:

注意:ECS区域也是在华东2,上图为示例图.

  • step5:将获取到的内网IP填到IP地址框中,并填写其他机器组名称,具体如下:

配置项说明如下:

  • 机器组名称:myvm
  • 机器组标识:选择IP地址
  • IP地址:从ECS管控台获取到的内网IP地址。
  • step6:将配置应用到机器组:

上述步骤做完之后便完成了vedio-server-log日志的采集配置。

创建Logstore:client-operation-log

大体操作步骤同上,创建Logstore:vedio-server-log,差异点在指定采集模式上。

  • step1:首先点击左侧菜单中的日志库,继而点击右上角创建,进入创建Logstore页面。

  • step2:在创建Logstore页面中配置信息如下。

Logstore名称:client-operation-log,其他选项均为默认。

  • step3:继而在弹出中选择创建Logtail配置

  • step4:选择数据源依然选择配置为文本文件,在指定采集模式配置中,如下:

配置项说明如下:

  • 配置名称:client-operation-log
  • 日志路径:/root,具体日志文件名为:client-operation.log
  • 模式:选择JSON模式。
  • step5:将采集配置应用到之前创建好的机器组myvm:

创建Logstore:web-tracking-log

  • step1:首先点击左侧菜单中的日志库,继而点击右上角创建,进入创建Logstore页面。

  • step2:在创建Logstore页面中配置信息如下。

配置项说明:

  • Logstore名称:web-tracking-log
  • 选择开启webTracking功能。
  • step3:点击确定按钮后,弹出创建Logtail框,直接点击取消即可。

注意创建该Logstore时,需要打开WebTracking,另外,这个Logstore不需要创建采集配置,到这里web-tracking-log就创建好了。

所有已经配置的Logstore就已经完成,如下图所示:

启动ECS VM进行mock视频流数据

为了更真实的模拟直播视频的日志产生、采集再到处理的整个链路,我们为每个学员都提供了一台专属ECS,便于体验全链路workshop流程。

  • step1:登陆ECS控制台,找到在Logtail配置过程中的机器组实例,点击远程连接,登陆到ECS VM上。

  • step2:初次使用会弹框显示6位数的远程连接密码,切记一定要复制下来

  • step3:输入远程连接密码,如果忘记密码,点击右上角修改,然后重新登陆。
  • step4:从云中沙箱获取登录账号和密码,并登陆成功之后,进入到ECS VM的命令窗口:

  • step5:点击右上角复制命令输入,复制如下命令并修改自己的project名称:
sh start.sh workshop-hz [your log project name]

其中第二个参数(your log project name)填写之前创建好的日志服务的Project名称。

举个例子,如果之前创建的日志服务的Project名称是workshop-620,执行的命令如下:

sh start.sh workshop-hz workshop-620

执行成功后,在该台ECS上,一个播放网站以及模拟产生播放日志的程序就启动好了。这里请务必保证输入的日志服务的Project名称正确无误。

  • step5:在当前目录下执行ls -la命令,确认环境是否被正确搭建。

在当前目录(/root/),执行ls -la命令,如果看到上图红框中两个日志文件已经产生,那就表示环境已经搭建好了,如果没有搭建好,请在WorkShop现场举手示意。

验证日志采集

经过创建Logstore、配置Logtail以及启动ECS上相关程序后,整个视频日志流采集的流程就全部完成了。接下来就是验证日志数据是否成功收集到日志服务中了。

  • step2:点击预览按钮,查看采集上来的日志。

通过上述步骤可以验证,vedio-server-log和client-operation-log日志库中是否已经有采集到日志进来。

  • step3:验证web-tracking-log播放器操作日志。回到ECS控制台,找到ECS实例的公网IP,比如我的ECS的公网IP是:101.132.26.92
  • step4:浏览器中访问该公网网址:http://101.132.26.92,打开播放页面如下。

可以反复多次点击播放、暂定按钮。

  • step5:点击预览进入日志预览页面。

上图可以看到刚才在播放器的操作行为都被记录到web-tracking-log这个Logstore里面了。至此,一个完整的日志采集流程便完成了。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
5月前
|
安全 物联网 云栖大会
2023云栖大会 | 云网络技术Session主题资料和视频回放归档(已完结)
2023年10月31日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,共包括1个Keynote,22个Session,包括产品发布、Deep Dive、最佳实践、客户分享、开放生态等多维度全面解读云网络进展。
1562 7
|
消息中间件 城市大脑 达摩院
【活动已结束】这届云栖大会不一样:打卡这四地儿,玩转云原生应用
两场重磅主论坛,60+峰会和论坛,三大展馆全景式科技展,上千位院士、科学家、学者、行业领军者,尽在2022杭州·云栖大会“计算·进化·未来”。
182 1
【活动已结束】这届云栖大会不一样:打卡这四地儿,玩转云原生应用
|
存储 分布式计算 NoSQL
2022云栖精选—云栖大会-图计算及其应用论坛
摘要:本文整理自达摩院的资深技术专家与图计算团队的负责人于文渊老师,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为六个部分: 1. 实时离线一体图计算引擎 2. 全新的图交互查询/模式匹配IR与引擎 3. 图分析引擎的全新升级 4. 图学习引擎的全新升级 5. 图可视化解决方案 6. 用户友好型与易用性提升
293 76
2022云栖精选—云栖大会-图计算及其应用论坛
|
边缘计算 监控 Kubernetes
|
存储 容灾 Cloud Native
云栖大会演讲干货|PolarDB & PolarDB-X在海底捞APP的深度应用
本篇内容将从4个部分为读者介绍关于PolarDB & PolarDB-X在海底捞APP的深度应用,进一步介绍海底捞APP项目及海底捞APP云上架构的经验,分享海底捞利用PolarDB和PolarDB-X带来的业务收益。
542 0
云栖大会演讲干货|PolarDB & PolarDB-X在海底捞APP的深度应用
|
新零售 运维 监控
云效云栖大会首发应用交付和项目管理协作新品,助力企业从DevOps到BizDevOps
2021年杭州云栖大会云效BizDevOps论坛,首发应用交付和项目管理协作新品,助力企业DevOps到BizDevOps,云效从DevOps理念、工具和实践案例层面进行全面升级。通过理念、工具和实践帮助企业从不仅拥有一朵云,还可以结合自己的业务用好云。
760 0
云效云栖大会首发应用交付和项目管理协作新品,助力企业从DevOps到BizDevOps
|
存储 边缘计算 运维
聚焦2021云栖大会,边缘云专场畅谈技术应用创新
本届大会以“前沿 探索 想象力”为主题,与业界同仁、合作伙伴共同打造一场数字时代的云上相聚。其中,边缘计算技术领域因5G快速发展而备受关注,阿里云边缘云专场吸引了数百位参会嘉宾驻足。
565 0
聚焦2021云栖大会,边缘云专场畅谈技术应用创新
|
达摩院 云栖大会
云栖大会宣导视频
阿里巴巴达摩院XR LAB负责人谭平老师对云栖大会的宣导视频
267 0
云栖大会宣导视频
|
机器学习/深度学习 人工智能 Cloud Native
|
存储 缓存 运维
Elasticsearch, 你值得拥有!—— 云栖大会 Elasticsearch 场景化应用全景回顾
云栖大会大咖云集,作为Elastic爱好者,参加大会就是想看平时看不到、学不到的内容。
7306 0
Elasticsearch, 你值得拥有!—— 云栖大会 Elasticsearch 场景化应用全景回顾