大数据在媒体行业的应用——《企业大数据实践路线》之二

简介: 阿里云MVP戚俊带你以媒体行业为例,深入分析大数据在媒体行业的应用

作者:阿里云MVP戚俊

本文系《MVP时间》视频课程《4节课看懂企业大数据实践路线》的文字版,视频请看MVP时间课程主页

本期视频可见课程直通

上期内容回顾:
《企业大数据实践路线》之企业大数据的现状与痛点
下期内容链接:
解析业务数据的特征——《企业大数据实践路线》之三

上期我们讲了企业大数据的现状与痛点,本期我们以媒体行业为例,深入分析大数据在媒体行业的应用。
先来看一下媒体行业工作流:
image

新闻工作者先产生一个内容,形式可以是文字的、视频的等,无论你是编辑还是记者或者说是美编,或电视台的采编人员等等所生产的内容都会存入到业务数据库里面,业务数据库通常存在我们内部单位的机房里面,媒体行业也同样,再小都会存放到自己的机房里面,都有自己的业务数据库,把业务数据存入数据库之后呢,通过渠道把数据传输出去,比如说通过网站、直媒的渠道、移动端渠道、电视台视频的渠道等其它渠道出去,这些渠道出去的东西被观众、读者、听众所获取后产生反馈,或无反馈,但最终数据都会被特点的人员即统计人员进行统计。如果说是直媒,它不像电子媒体有收视率,阅读量的概念,但直媒会有甄别能力的数据量,可以在系统里面或者是企业内部的甄别系统里面查到。数据又分散在不同的系统里面,甄定有甄定的系统,网站有网站的CMS,视频有专门的视频点播系统,APP有APP的客户端,新媒体有新媒体的客户端,如头条等其它媒体渠道,这些大部分信息都是由我们的统计人员把它们重新合并、归类放到我们自己的企业如报社、杂志社内部去进去分布的。这个过程需要绘制一张统计报表。

1、 看了一个报道在报纸上看到的
2、 看了一篇新闻在电视上看到的
3、 网站上看了一个视频,这个视频多少分钟,讲述了一个什么样的事情

看到的这三样东西,可能表现形态是不一样的,但在整个的新闻单位内部,是有一个起始点出发的,从某一个新闻线索出发延伸出来的三条数据,把这些扩散传播出去的信息反向回收回来,再跟这三条线索关联和绑定:
一是通过这样的关联和绑定去解析营收,可以具体去看到是什么样的新闻,什么样的文章更容易得到读者的喜欢,或什么样的内容下它的广告效果会更好。
这些营收的解析都是通过我们的统计人员反向解析后绘制出来的报表来解析我们的营收这样一个过程。
二是绩效考核。绩效考核主要是针对我们的记者、编辑、新闻工作人员、美编、电视台的采编人员这样一个绩效考核,这个就会关联到年终奖,月度季度奖金都会有一定的关联。
这就是我们传统媒体整个的一个工作流程,从开始介入工作到最终出绩效考核,得出的一个全流程的概览。

流程版的工作流:
image

人肉方式跟进传播路径:这里的路径比如说传播到了微信,或者是传播到了某某网站,传播到了电子刊物、电视台等各种各样的新媒体。
通过粗浅的分析大致了解传播效果:这里为什么会是粗浅?人肉的跟踪方式一定是不会有很好的效果,因为它有时效性,统计的时间节点,各平台的传播路径产生的反馈结果是不一样的,比如说有一篇文章,放到了今日头条里,今天下午3点去统计,它的阅读量可能只有1500,但你把这个数字记录下来后就没了,但你明天再来看,可能晚上特定标签的用户在晚上9点钟批量的阅读,这类人就爱看你这种类型的文章,这样可能就会有一个爆发式的增长,就会有2万次甚至是5万次的阅读量,这样前面统计出来的1500次由于时效性的问题变得极其不准确,这是第一个时效性带来的问题。
第二个就是传播渠道太多,人力有限,通过人力基本上是无法100%覆盖的,大部分的人力统计都是肉眼去识别、去记录再汇总的EXCLE里面,或者有更高级的方法,半自动化的方式抓取,通过爬虫去抓取一些电子版的一些阅读量、评论数据等等。不可避免的是渠道的限制,以及转载转发的限制,无法很全面的收集回来,这是传播效果遇到的最大阻碍。

总结:
1)时效性
2)渠道覆盖面

通过内容付费或增值业务产生营收:比如本身就是通过付费来看的,或者是通过一本出杂,这本杂质是要买了才能看。或者说你的内容是免费的,但里面有一些像广告业务,或者是帮助其它公司做了一些PR的品牌宣传,通过增值的方式产生营收。
粗放的进行绩效考核:由于前置流程比较粗,所以这个考核一定是不全面的,对员工不公平,或者过度发放绩效,明明没有那么好的价值,通过直观感受来评定绩效考核的标准,这就会产生一个粗放的绩效考核。
从上面的图形版到流程版,除了不精细的问题外,好像没有什么很致使的错误在里面,以前我们做媒体行业,也是这么认为的,凑合用,没有出现什么恶劣的后果,但目前在我们这样一个时代里,竞争对手都在往前跑,我们也不得不往前跑,对此我们就分析了一下,拿到了一个点告诉媒体行业客户问题出在哪里。
下面这张图可以看出一个正常的媒体工作流应该有的样子。

image

图的前半部分是和我们上面讲到的一样的,但是从传播渠道开始,你的数据就开始脱缰而出,不受控制。

image

这个过程就有了人,做了机械的事情以及不准确的事情,接下来的操作,统计,营收,绩效都会由于依赖于不准备的统计数据,就像导致后续所有环节都出现问题,这个过程最大的问题在于人为进行数据收集的关卡没有做好,导致数据脱缰,不受控制。人为会存在很多客观,主观等各方面影响,就会容易出一系列的错误,但往往又最难控制,最难管理。
在整个工作流最重要的三个环节之前加入了一个不靠谱的人来完成这样的工作,所以让自己的整个数据环境应得很不安全,这也是在和客户进行问题处理中总结出来的一个概念,传统媒体是这样一个情况和现状。
改造完之后的状况又是怎样的呢?
看一下下面这张图,一个前沿媒体的工作流程:

image

还是通过采编人员去创作内容,之后通过近期的热点、读者偏好进行定向化或者有权重的创作,创作完成后进行智能核对及智能排版,这样一个过程,像媒体行业都有三审三校的过程,防止出现大的疏漏,像错别字、书写错误、拼写错误等,可以通过比较智能的校对工具或者是校对过程,以及一个比较智能的排版过程解决这些问题,当这个问题解决之后,才会把一个比较标准的内容入到内容库中,进一步进行内容传播,内容传播后分到不同的渠道。

现在变为千人千面的推荐内容,推送给相应的读者,这个模式很像头条,或者是新闻版的淘宝,每个人会看到不一样的内容,伴随着每个人阅读的信息越多而差异性越大。每个人的阅读习惯以及行为都不同,不同程度的阅读时间积累之后把握到你感兴趣的信息点,给你推荐你喜欢的信息。

当你把信息推送给读者之后,就会产生各样各样的数据,比如像我们的传播数据,如一段视频、 一段声音,传道到不同的渠道媒体(头条、网易新闻、网站以及APP)上等,这个传播的数据是需要记录下来的,以及阅读的数据,比如某某某什么时间阅读了什么文章也需要记录下来,还有行为数据比如在阅读或者是观看信息的过程中产生的一些行为,最长见的像评论点赞、视频发弹幕,这些是比较基础的,还有更深层次的,像在这个过程中产生的分享,或者是看了几分钟,或者是跳行等都是行为数据。
这三类数据我们把它汇总到我们的大数据池中,之后就进入到下一个流程:通过内容付费或增值业务产生营收。这一步是没有变化的,你用不用大数据,它都是这样没有任何的改变,比如说方式都是固定的,但是可以通过创作人、作品口碑、题材口碑等要素形成决策报告。

在上一个环节中,我们说到的最主要的问题,用来做决策的东西的前置数据比较粗糙、杂乱,以致于没有办法提供一个强有力的数据支撑。这个环节来解决这个问题,通过创作人、作品口碑、题材口碑等要素做一个决策报告出来,这个决策报告就比较直白的告诉管理层或者是决策层。某某创作人最近30天创作了多少篇内容,每一篇内容又是怎样的阅读情况,甚至可以再细分,什么样地域的人或者是什么样标签的人更喜欢某某创作人产生的什么类型的内容。

作品口碑就是针对特定的内容,比如说一部影视作品,一个数据报告,把所有和这个作品相关的各个纬度相关的信息汇总起来,进行清晰,介绍,介绍完之后进行总结报告,每一类的题材都可以通过数据分析他各个纬度形成数据报告。

拿到决策报告之后,就可以通过决策报告驱动内容创作。比如说某个创作人杭州人比较喜欢看他的内容,就可以通过数据报告把这些信息展现出来。除此之外,还可以拿来做更精细化的绩效考核。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
21天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
1月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
1月前
|
数据采集 分布式计算 大数据
Java语言在大数据处理中的应用
传统的大数据处理往往依赖于庞大的数据中心和高性能的服务器,然而随着大数据时代的到来,Java作为一种强大的编程语言正在被广泛应用于大数据处理领域。本文将探讨Java语言在大数据处理中的优势和应用,以及其在分布式计算、数据处理和系统集成等方面的重要作用。
|
1月前
|
存储 大数据 数据挖掘
云计算与大数据:从基础设施到实际应用
云计算与大数据:从基础设施到实际应用
134 0
|
23天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
28天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
1月前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。
|
1月前
|
SQL 分布式计算 监控
大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点:
【2月更文挑战第24天】大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点:
20 2
|
2月前
|
分布式计算 并行计算 大数据
Python多进程在数据处理和大数据分析中的应用
Python多进程在数据处理和大数据分析中的应用

热门文章

最新文章