端计算Walle:2235亿次运算,为了无法计算的端智能价值

简介: 本文知识点提炼:1、端计算在移动设备上的应用探索 2、技术方案与核心模块设计3、总结与展望

image.png

作者|李杰(兵长)
出品|阿里巴巴新零售淘系技术部

本文知识点提炼:
1、端计算在移动设备上的应用探索
2、技术方案与核心模块设计
3、总结与展望

背景

传统的云计算,使用的是端侧采集数据,云端处理消费,再反馈给端侧的模式。而伴随着数字化转型的浪潮、万物互联时代的到来,5G、大数据、人工智能等信息技术的快速发展,云计算已经无法特定场景对低延迟的高要求。此时基于路由器、交换机、基站等计算节点的边缘计算因运而生,其具有低延时、低成本、数据安全、数据丰富等特点。

而借鉴边缘计算的思想,并融合手淘电商的业务场景,我们在18年初提出并搭建了基于移动设备的第一代 端计算工程系统 DAI 。其基于 TensorFlow 的模型推理能力,将计算、决策前置到移动终端,获取最原始的数据,实时在端侧进行数据分析与决策,端到端的响应耗时可以做到百毫秒级别。同时将过滤后的数据传输上云,与云端形成协同效应,并减少服务端的带宽、运算成本。

18 年双十一期间,端计算在部分场景小范围尝试和落地,并在主会场的猜你喜欢,详情页的看了又看等业务上取得了不错的效果。

image.png

端计算DAI架构图

面临的挑战

今年我们加大投入,并联合了算法团队、搜索推荐工程团队、手淘基础链路团队,共建端计算的工程体系。随着端计算体系承载的业务数量与复杂度的快速增加,也对 DAI 等基础设施提出来了更多更严峻的挑战。

▐ 研发效率

初期的设计是算法同学通过控制台下发 TensorFlow 的 pb(protobuffer) 模型文件,所有的逻辑均在 pb 的网络结构中实现。这种模式下,存在如下一些不足的地方。

由于端侧集成的为精简版 TF Mobile ,算法同学编写的TF代码在端侧可能存在缺少算子而跑失败的情况。

新增或修改 Op 需要 Native 发版实现,周期长。

if、for 等流程控制在TF中难以处理。

TF 的端侧推理耗时较长,业务决策响应不及时。

▐ 稳定性

Android 出于包大小和动态性的考虑,采用了动态下发并加载动态库的模式。但是由于 Android 设备的碎片化,动态加载存在着诸多兼容性的问题,测试也不好验证。同时 JavaScriptCore 本身在 iOS 上是个黑盒,曾在 iOS9 上就出现过大量的 JavaScriptCore 的 Crash 问题。而端计算作为算法处理的基础设施,每日被调用的次数非常庞大。所以任何一个极小的不稳定因素,都有可能被放大。

并且端侧的故障,大部分是由于线上配置发布引起的。手淘对于线上变更有着严格的安全生产流程,涉及发布窗口、验证、灰度、观察等各个环节。而算法同学往往对端侧的指标不熟悉,一些潜在风险未必能及时发现。我们需要在各个环节加强完善设施能力,在风险发生前及时暴露,在发生中将影响减至最低。

▐ 任务治理

在年初的时候,我们进行了一次线上业务梳理。发现手淘环境中有5+的特征提取任务、4+的曝光任务。很多基础的数据特征,在不同的业务场景下都需要使用到,且对于同一特征的加工方式往往相识。若所有的特征均由各业务方自行进行加工,难免会造成开发成本及端上计算成本的浪费。而且无法高效地将已有能力复用到更多业务和App上。

▐ 场景覆盖

在端计算模式快速发展中,我们关注到部分业务域虽然不具备算法资源,但是希望借鉴端计算的思路,在一些输入因素相对比较固定的场景下,对用户特定的行为进行快速的响应与干预。同时初期 DAI 的触达能力比较单一,仅将执行结果以广播的方式通知到业务方,由业务方自行实现通知后的触达响应逻辑。而一些常规的触达途径,在大部分业务域都是相识的。比如Push、Poplayer(浮窗)、触发其他模型任务联动等。在这个环节需要有一套统一的多样的触达机制,满足不同场景不同定制。

端计算2.0 Walle

基于上述问题,我们对 DAI 进行了全面的升级,并改名为 Walle 。希望如电影 Walle 一样,将被遗忘在端上的数据汇集起来,成为挖掘金矿的工厂。

▐ 架构设计

image.png

Walle架构图

整体设计上,Walle 由端、云两部分组成。

端侧包括采集层、计算层、触达层三个模块。采集层对接了端侧不同的数据源,进行数据存储与特征加工。计算层内置了 MNN、AliML 等。所有模型任务经过调度系统后会在计算容器中进行实时的决策。决策结果经由触达层的多种途径触达用户。

云侧分为运维平台、数据服务、触达服务三部分。运维平台负责日常的运维监控、数据服务为云端协同提供通道支撑、触达服务配合端上的触达层,进行人群圈定和事件分发。

▐ 解决思路

更高效易用的计算容器

为了解决算法模型的迭代部署效率,我们需要一套脚本语言环境来承载复杂控制与业务定制化逻辑。基于新版的计算容器,大幅降低算法同学的认知与学习成本,无缝衔接服务端算法应用流程,极大提升部署与迭代效率。

同时我们使用自研的轻量级深度学习引擎 MNN 替代 TF ,扩展了机器学习计算集 AliML ,集成了高性能时序数据库 ProtoDB ,为用户提供了一套低成本、高效、快速迭代的端侧模型预测与训练的执行环境。

image.png

计算容器

更夯实的稳定性保障措施

作为逐步大规模应用的端计算基础设施,稳定性可谓重中之重。我们对端计算的开发、发布、运行时、监控、降级等全链路进行了详细梳理,针对一些有风险的环节进行重点保障。

  • 开发测试阶段

代码覆盖率。在SDK中内置了代码覆盖率与性能热点的采集与上报功能。配合Jarvis平台的真机验证系统,可以在发布阶段更全面地度量真机验证的效果,将风险暴露在上线前。

Mock系统。为了实现自动化测试能力,我们开发了Mock系统。支持基于基线数据,对端计算任务的入参、出参、异常逻辑进行Mock验证。

  • 运行时

单机熔断。由于算法模型的迭代频率较高,为了避免在日常的迭代过程中引入新问题,我们在端侧引入了单机熔断的机制。既某个模型任务的执行耗时超过阈值或者执行线程卡死时,我们会重启执行线程,并对当前的模型任务进行一定时间段的熔断处理,以免影响其他模型任务的正常执行。

高危模块移除。移除了So动态加载、JS等存在潜在风险的模块,使用更优雅的方案替代。

疑难问题解决。端计算演进期间,我们攻克了诸多内存 Abort 、 Crash 、 多线程锁等疑难问题,整体Crash率有大幅降低。

  • 监控

调试工具。支持验证版本的生效配置,扫码拉取端侧日志,对任务异常进行实时调试排查。

监控大盘。面向App运维同学,可全局地观察整个端计算整体关键指标,以及每个任务的资源消耗排名,异常情况排名等。

任务报表。面向算法同学,包含全链路多维度监控,长尾报表等,可直观地实时反馈任务上线后的运行情况。

Crash定向监控。为了更准确实时地定位线上Crash问题,我们与Emas团队合作开发了模型Crash定向监控能力。在Emas平台上,现在可以直观地看到所有模型任务的Crash分布情况,以及Crash调用栈明细。

更体系化的数据能力

从共享端侧特征、降低重复计算与使用成本、提升特征查询效率等方面考虑,我们建立了端侧基础特征服务DBFS。基于基础特征分层抽象出了统计特征、用户画像、情景计算等高维业务特征,同时支持算法同学进行特征op的自定义扩展。DBFS目前提供100+个基础特征op,10+中间层业务特征op,涵盖电商场景最常用的点击、收藏、加购、下单等行为。

image.png

DBFS架构图

更丰富的场景覆盖能力

为了满足不同场景对端计算能力的诉求,我们建设了端计算的触达中心,其包含两部分能力:

  • 在端侧实现了一套简化的CEP(复杂事件处理)引擎,支持根据预置的规则序列,使用滑动窗口的模式匹配用户的操作行为,进行实时的用户干预。对于一些轻量化场景,可以直接使用CEP来定义行为,而无需引入机器学习模型。
  • 同时在触达层面,对接了奥格的人群系统,支持针对特定人群进行CEP规则或者模型任务的投放。在行为命中后的业务响应环节,我们统一扩展了Push、Poplayer、Broadcast、WalleTask、UT、NativeCallback等多种途径触达用户。

image.png

触达中心

总结

今年双十一期间,端计算首次在手淘大规模落地,覆盖主搜、信息流推荐、云主题、会场、智能Push、红包雨、促升、直播等场景。双十一当日共执行了2235亿次运算,在大幅提升GMV的同时,也为用户带来了更好的交互体验。同时除了手淘外,目前端计算也已在猫客、闲鱼、AE、CBU、零售通、优酷等App有成熟方案落地。

端计算的出现,填补了云计算在网络延时、数据丰富、隐私安全、算力成本方面的不足。而端计算与云计算也会以共存与互补的姿态,拥抱智能化浪潮。随着端计算体系的成熟以及基础设施的完善,相信未来算法同学们会有越来越多的创新项目孵化与应用,我们共同期待。

We are hiring

淘系技术部依托淘系丰富的业务形态和海量的用户,我们持续以技术驱动产品和商业创新,不断探索和衍生颠覆型互联网新技术,以更加智能、友好、普惠的科技深度重塑产业和用户体验,打造新商业。我们不断吸引用户增长、机器学习、视觉算法、音视频通信、数字媒体、移动技术、端侧智能等领域全球顶尖专业人才加入,让科技引领面向未来的商业创新和进步。
请投递简历至邮箱:ruoqi.zlj@taobao.com
了解更多职位详情:2684亿成交!每秒订单峰值54.4W!这样的团队你想加入吗?
更多技术干货,关注「淘系技术」微信公众号
image.png

相关文章
|
1月前
|
人工智能 测试技术
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力
【2月更文挑战第24天】LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力
18 1
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力
|
1月前
|
人工智能 搜索推荐 安全
有道推出小采样数字人平台
【2月更文挑战第21天】有道推出小采样数字人平台
31 1
有道推出小采样数字人平台
|
编解码 算法 数据中心
遥感生态指数(RSEI)——四个指数的计算
遥感生态指数(RSEI)——四个指数的计算
遥感生态指数(RSEI)——四个指数的计算
|
9月前
|
人工智能 数据可视化 JavaScript
基于新浪微博海量用户行为数据、博文数据数据分析:包括综合指数、移动指数、PC指数三个指数
基于新浪微博海量用户行为数据、博文数据数据分析:包括综合指数、移动指数、PC指数三个指数
基于新浪微博海量用户行为数据、博文数据数据分析:包括综合指数、移动指数、PC指数三个指数
|
10月前
|
存储 算法 数据可视化
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
158 0
|
人工智能
7-118 估值一亿的AI核心代码 (20 分)
7-118 估值一亿的AI核心代码 (20 分)
118 0
7-118 估值一亿的AI核心代码 (20 分)
|
11月前
|
存储 机器学习/深度学习 人工智能
每秒1000000000000000000次运算!Cerebras新超级计算机打造世界最大1350万核心AI集群
每秒1000000000000000000次运算!Cerebras新超级计算机打造世界最大1350万核心AI集群
111 0
|
数据采集 数据可视化 数据挖掘
使用Sentieon BWA-Meth进行WGBS甲基化分析,速度和精度双提升
在甲基化分析中,Sentieon软件可以与其他工具结合使用以提高分析速度和准确性。在这种情况下,Sentieon BWA被用来替换原始的BWA-mem,与MethyDackel结合,建立起Sentieon BWA-Meth流程。 在这个流程中,Sentieon BWA首先负责处理亚硫酸盐转化后的测序数据进行高效的序列比对。由于Sentieon BWA的优化,比对速度和准确性得到了提高,同时减少了计算资源的消耗。
355 0
使用Sentieon BWA-Meth进行WGBS甲基化分析,速度和精度双提升
|
编解码 算法 数据中心
遥感生态指数(RSEI)计算教程——四个指数的计算
遥感生态指数(RSEI)计算教程——四个指数的计算
遥感生态指数(RSEI)计算教程——四个指数的计算
|
人工智能
L1-064 估值一亿的AI核心代码 (20 分)
L1-064 估值一亿的AI核心代码 (20 分)
337 0
L1-064 估值一亿的AI核心代码 (20 分)