淘宝直播:多媒体终端智能互动实践

简介:

2052dbe6ab97ad7a625ded298a5ed75874a6bec6

随着直播市场,特别是移动直播的繁荣,直播里冒出非常多的形态,形成了千团直播。直播以超强互动的形式也深入各行各业,例如教育行业中,实时通话的技术在小班授课的应用,极大地改变了教育行业时空形态;比如说直播在企业培训、早会等场景,也给企业带来很大的办公效能的提升,形成了淘宝和钉钉打造的群直播;当然,还有“直播+电商”这个行业,淘宝直播一定程度上定义了电商直播的玩法和形态。本文根据2018年杭州云栖大会现场,淘宝高级技术专家长孙泰的演讲《多媒体终端智能互动实践》整理成文,围绕直播里的互动玩法的实践展开。

淘宝直播在过去三年取得快速的发展,呈现了一个非常好的行业生态。从规模来看,过去两年增长的都在100%以上,成交的规模每年300%的增速在发展。直播互动给电商带来一种新的形式,这里面一些新的机构、达人和卖家,很好的把握了媒体直播风口,成长很快,直播也就演变成为淘宝电商里一个非常重要的互动内容形式。

d9d563bf38324ded4d7f268452cea11508084f1d

我们看一下直播这两年的发展。我们在2016年初启动直播这个项目,将直播引入到淘宝生态里,目标是打造一个边卖边买的购物体验,主播直接向粉丝和观众推送商品,这种所见所得的互动和之前在电商领域图文领域有很大的改变,转化率提升也很明显;2017年,我们重点围绕电商的互动营销玩法,毕竟购物转化是最关键的要素,所以我们在直播里加入常见的例如红包、优惠券等等,还有每年的“双11”、“双12“,也都会有非常多围绕电商的好玩的玩法;2018年,人工智能的兴起也给直播互动带来新的元素,我们在流媒体互动增强方面也做了很多尝试。

19df292a8af5be0c346c4e27db8e3368434e52f4

我们看一下淘宝直播的整个直播架构。对于直播系统来讲,核心就是3块,一是需要有围绕直播的生产平台,包括手机的、PC的、云导播等等,以及围绕整个直播管理的配套工具;另外就是直播间,提供灵活支持业务变化的直播间的承载功能;最后是围绕主播和观众的一套实时的互动直播能力,也就是消息通道。直播的本质,要首先确保整个直播是不卡、不掉、不延时,核心是一个完整的直播的实时的互动体验。

最近两三年,人工智能的发展比较快,所以我们在直播这个场景上也就可以做更多的尝试和实验,包括算法在人脸的识别、美颜效果以及对肢体的识别能力的完善,端上推理引擎的优化以及硬件芯片的升级,也都给予直播不管是在PC端和移动推流端,带来了很大的可能性。AI不仅改变了搜索和推荐,也改变了在端上的一些效果的展现能力,尤其在直播流里,都可以玩起来了。

今天我会围绕直播来讲一下淘宝直播在互动的场景下做的尝试。重点是互动核心玩法:第一、营销互动,第二、人机互动,第三、智能运营

d8daa1b430c231d728e4648154ffff9ae9954806

常见的淘宝直播的玩法有红包、优惠券、答题等等,这里面简单展示了一些在典型的营销中的玩法。我们在开发的过程中也需要注意就是动态能力,因为直播里互动的变化是比较快的,特别是要应对每年的大促,需要针对每个活动特点上线实时的互动玩法,所以在直播间里构建出来一套能够完整支撑动态化能力的方案,根据直播互动的状况行为能力,形成一个标准的API,然后服务于WEEX和H5的开放体系,支撑业务的快速迭代是很重要的

4c38d46211ad7ebac73b98439f9d71af3b7d8122

对于直播来讲,发一个红包并不是目的,目的是希望能够运营好粉丝,实现更多的转化。在互动营销玩法里,让直播能够区分粉丝就显得很重要了。所以我们增加了直播和每个用户的亲密度的玩法,定义了用户在直播间里所有的行为,譬如停留时长、是否发了评论、点赞,是否点击商品,是否加购、下单。这些行为最后都会映射成一个亲密度分数,这样子就可以根据营销特点来合理确定运营分层策略,对直播的效率有非常大的提升,成交率转化率也大大增加。

以上是围绕营销层的互动和两个比较典型的关键性的技术,下面要讲的是,在直播流里面,随着机器性能提升以及端侧算法能力的加强,我们能在直播流做什么?以及用户看直播里不仅能够在层里做互动,还希望能够在流里做互动的技术尝试。

b4fba0ec7552d8579e1e6f7999c28330ee599f37

首先是能够支撑起这个基础能力的框架的设计,关键点是在端上让运行AI智能的框架,阿里在这方面的尝试很多,性能也都非常好,同时也结合了芯片能力做了非常好的优化,算法性能和模型也都要重点考虑,这里需要平衡算法的性能和效果。另外是素材,围绕媒体的算法构建素材中心,包括素材的编辑工具,提供在线的下载,实时的效果渲染。另外,我们希望能够在流里做展示的话,能够展示出可以交互的效果,那么我们在渲染能力结合直播推流的也需要在性能上特别关注。毕竟直播编码推流也很耗性能。

f34f6a9e445676d6dba6b9c0a0d2220b0702ac95

我们希望流里的内容不仅能够被增强,也能够参与互动,譬如说,主播往直播间里洒红包雨,用户可以点击正在飘的红包领取优惠券。在这里面关键点就是直播关键帧技术。我们看整个直播从前到后的流程,第一是图像采集,然后编码成一帧一帧的数据,然后封包推流出去。所以我们需要在画面里产生的一些动作,实时地写到当前帧的meta信息里,这样在播放解码的时候,就可以解析到流的信息,并往上发通知,业务层就可以做进一步的互动行为,就可以产生进一步的特效和玩法。但是也有一些问题,比如说直播帧如意丢了怎么办?这里面往往会通过消息通道里做一些补偿。

基于端侧智能平台和直播关键帧技术,我们在过去一年里面,在直播也在做一些尝试,譬如在造物节的时候我们做了一个简单的玩法,就是识别用户的手势,让讲解商品的时候会变得更加有趣,在这里面需要我们对手势进行识别,对手势不同的位置做分类,然后识别出来,知道当前指挥的手到底在哪里。

be9673095f5cc5f9d49832511c3235394849569f

这个玩法是今年在世界杯演播厅尝试的互动玩法,在用户里引起了很大的关注。这个玩法是在演播厅里上层虚拟一个星空,舞台中央让嘉宾在直播中做一些游戏,这个游戏是在顶部空间里球会往下掉,嘉宾顶球,得分以后会引发一个红包雨。这个玩法我们是在演播厅里面基于服务器直接部署,玩法关键点在于第一我们对嘉宾的肢体识别,另外需要用两个固定的机位来计算嘉宾的深度信息,并计算嘉宾在游戏里面的得分。

13d8b15a25cd9e35e6e350778bcf0c8ba37e01ba

绿幕扣图,绿幕扣图是比较常见的,主播也在用,但是毕竟来说有一块绿布也是有些成本的,所以我们希望能够做到自然场景特别是简单自然场景的扣图,譬如主播在讲解商品的时候,可以把商品视频投放在旁边;再比如直播说讲到海边的场景,能够让背景实时切换成大海的背景,同时可以随意回复到真实的现场场景,真实感也比较强。这是直播商品的识别,在直播间可以围绕商品做一些效果和特效,这些都能够带来更好的氛围和更好的转化。

以上是在人机互动以及效果增强方面我们做的一些尝试,对于直播来说,核心还是如何更好地运营粉丝,如何让的工作人员效率更高。因为现在一个主播后面往往有一个团队在支撑,包括问题的回复、画面的切换,推送营销等等。围绕这些场景我们也做了一些的尝试

dce567da27b8315e3a8fa0043485f9ad46684ecd

(图示)这是电商直播里比较特别的场景,很多用户在直播里往往都会问一类问题:主播多重,胖不胖,因为女生会关注体型是不是和主播一样的,这个衣服我们能不能穿下,所以很多直播在直播间都会放一块黑板,而我们现在也在推流端给主播提供了一些小卡,可以让他放自己的信息,同时我们也在尝试通过人脸识别,自动识别主播是谁,并切换到相应的模特小卡,这里也应该比较好玩。

03eb4629748c2c0624e375cb4404c6e655a10270

这个是直播小蜜,在直播里面,评论是用户和主播的主要互动方式,但是主播没有办法回复所有的观众,导致很多很好的问题都没有办法得到很好回答,我们分析过很多用户的问题,往往都集中在商品信息,所以我们在端上部署一个直播小蜜的产品,可以做到自动回复,这个功能点上线以后,整个自动回复率都得到了非常大的提升,同时直播间服务能力也得到提升,文本回复只是一部分,我们也有切片的回复的功能,这也正在尝试。

18c67853d45f031522c29f2ad0de3ece1dc7e75d

总的来看,从技术的视角来看,我们把整个直播分为三个切面,一是在互动层的营销互动,关键点是一套能够动态化、能够支撑不同复杂营销场景的一个动态化的技术;第二个切面,围绕直播流,借助于端上的AI处理能力,提升直播内容渲染和交互能力,第三个切面是围绕直播语音和文本,通过语意理解来提升主播的营销效率,这些是机器智能在端上的发展,带来在直播场景下的技术红利。


原文发布时间为:2018-10-8
本文作者:长孙泰
本文来自云栖社区合作伙伴“ 淘宝技术”,了解相关信息可以关注“ 淘宝技术”。
相关文章
|
4月前
|
存储 编解码 监控
在淘宝,音视频技术团队解决了内容电商什么问题?
在淘宝,音视频技术团队解决了内容电商什么问题?
|
10月前
|
移动开发
利用体育直播系统源码,进行足球赛事直播步骤详解
在互联网直播技术的推动下,体育赛事直播平台观赛变得越来越受欢迎。本文将介绍如何利用“东莞梦幻网络科技”提供的源码搭建一个类似虎牙和斗鱼的体育直播系统,让您能够进行足球赛事的直播。
|
前端开发
语音直播系统源码,加速平台流量变现的重要功能
语音直播系统源码,加速平台流量变现的重要功能
|
机器学习/深度学习 人工智能 文字识别
预约直播 | 主流视觉算法介绍及在PAI上的应用
阿里云AI技术分享会第一期《主流视觉算法介绍及在PAI上的应用》将在2022年06月30日开启直播,精彩不容错过!
预约直播 | 主流视觉算法介绍及在PAI上的应用
|
编解码 人工智能 监控
|
移动开发 算法 JavaScript
淘宝直播里的智能互动是怎么做的?
跨端方案成为唯一选择,为了提高运营、设计和玩法开发人员的制作效率,我们也必须有配套的素材生产工具和玩法编辑工具,解决素材制作-效果调试和预览-素材上传-素材投放全链路的问题,同时我们也希望玩法能结合权益产生更大价值。
淘宝直播里的智能互动是怎么做的?
|
算法 前端开发 JavaScript
|
供应链
带货直播系统,主播与平台之间的心有灵犀有多重要
2020年马上就要过去,回顾今年的带货直播系统,可以说有苦有甜
173 0
|
人工智能 达摩院 自然语言处理
淘宝直播“一猜到底”——移动端实时语音识别技术方案及应用
过去一年淘宝直播快速发展,截止2020年9月底,80个淘宝直播产业基地在全国落地开花,从农村走出10万农民主播,直播真正意义上成为帮助商家和消费者完成交易的利器,同时通过各种互动玩法让直播购物变得有趣好玩。在2020年双11开始阶段,淘宝直播App升级了18年直播答题「点题成金」的玩法,推出「一猜到底」新玩法。如果说传统的直播答题是「选择题」,一猜到底的玩法更像是几万人同时在线的「抢答题」,将答题方式从文字选择升级成语音抢答,给出猜中价格高低提示,让用户增加了更多的参与的乐趣。
26879 0
淘宝直播“一猜到底”——移动端实时语音识别技术方案及应用
|
人工智能 达摩院 机器人
语音机器人现身双11淘宝直播间,千万观众与主播实时语音互动
10月30日消息,刚刚结束的李佳琦直播间里,剁手党通过阿里语音机器人首次实现与主播的实时互动。直播过程中,数十万用户同时用语音回答李佳琦的提问,最终机器人在50毫秒内就完成了语音识别和语音反馈全过程,反应速度是传统语音的20倍。
19734 0
语音机器人现身双11淘宝直播间,千万观众与主播实时语音互动