120万人同时在线考试,10分钟内即出分,这么大的流量如何支撑?

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 二月中下旬原本是全国各地春季学期开学的日子,但这场突如其来的疫情使得1.8亿中小学生只能纷纷在家开启“停课不停学”的学习生活,而线上教育也顺势成为了这一特殊时期首选的学习方式。

但突如其来的流量洪峰,却让许多线上教育平台力不从心。开学第一天,包括学习通、慕课网等在内的多家在线教育平台都出现了“卡顿”和“死机”的情况,“学习通崩了”这一词条一度登上了微博热搜。

01.png

与此同时,阿里云教育领域客户的扩容需求也在飞速增长,其中数据库扩容需求更是十分强烈,阿里云数据库通过分钟级扩容,保障了沪江教育、猿辅导、VIPKID、洋葱学院等多家教育平台的平稳,为学生们构建起了线上战“疫”的防火墙。

猿辅导是国内知名在线教育机构,旗下有猿辅导、猿题库、小猿搜题、小猿口算、斑马英语五款核心在线教育APP,为学生和家长提供在线辅导、拍照答疑、智能题库、自动批改等相关的智能教育服务。

作为K-12在线教育领域的首个独角兽公司,猿辅导在疫情期间非但没有出现卡顿、延迟等问题,反而发起了一场120万学生同时在线的英语模拟考试,系统10分钟内直接出分,并生成智能诊断分析报告。

“为了提升百万人的答题体验,猿辅导对使用的阿里云Polar DB云数据库进行了临时弹性扩容。”猿辅导运维负责人张文治说,他们评估过很多数据库产品,Polar DB性能好,能够通过快速扩容为用户体验提供支持与保障。

01、延时、卡顿、高成本,自建方案打不赢这场仗

在线教育行业面临着海量的题库、音视频答题资料、用户数据以及日志等巨大的数据存储需求,这些都对猿辅导后台数据存储和处理能力都提出了严峻的要求。

猿辅导之前采用的是自建数据库的解决方案,在周末或者在线模考的时候,同时在线人数会瞬间激增,原本的自建数据库方案难以应对这样的访问峰值,导致大约三分之一的学生无法正常进入在线考试。而答题的延时也从正常情况下的1秒之内增长到平均5秒,使得学生用户的答题体验急剧下降。

与此同时,猿辅导的用户量每年飞速增长,自建MySQL数据库的CPU利用率已经达到了70%以上。此外,猿辅导的DBA原本由运维人员兼职,但是面对这样纷繁复杂的数据库管理任务,兼职DBA力不从心,而招聘专职DBA却预计会需要每年至少100万的成本。总之,自建数据库方案难以应对访问峰值,难以满足业务高速发展的需求,并且难以管理,且会增大人力成本等问题,这些都是摆在高速发展的猿辅导面前的巨大挑战。

02、技术战“疫”,PolarDB助力猿辅导应对业务高峰

面对上述的诸多挑战,猿辅导基于阿里云PolarDB实现了新的数据库解决方案。猿辅导之所以选用阿里云PolarDB数据库,除了PolarDB数据库具有较高的性能,并且能够与MySQL实现100%兼容之外,更加看重PolarDB的弹性伸缩能力和容量最高可达100T的能力。

PolarDB分钟级弹性能力轻松应对各种业务场景

因为猿辅导的业务特点,用户访问量在平时可以轻松应对,但是在周末以及考试期间达到业务访问的高峰,因此应对数据库问题的主要难点在于用户的高并发访问所造成的读写争用,进而使得I/O较高,而如果一直购买高配置的MySQL数据库,成本难以接受。而猿辅导通过使用阿里云PolarDB,借助其快速弹性的能力,在业务的高峰期临时增加数据库配置和集群规模,与之前的方案相比整体成本大大降低。

03.png

对于猿辅导这样具有明显业务峰值特征的产品而言,最为看重的就是PolarDB的分钟级弹性能力。而在其强大的弹性能力的背后其实是PolarDB存储与计算分离设计。所谓分离就是计算节点(DB Engine)和存储节点(DB Store)在不同的物理服务器上,任何落地到存储设备的I/O操作均为网络I/O。而且,借助PolarFS经过网络访问PolarStore的测试性能效果基本能够与本地单副本SSD持平。而PolarDB的存储与计算分离的架构,除了可以降低存储成本,保证主备数据强一致、不丢数据之外,还带来了一个巨大的优势,就是让数据库的弹性伸缩变得极为简单、便捷。

04.png
阿里云PolarDB分层架构图

正如上图所示,PolarDB采用了分层架构,从上层的代理PolarProxy提供了读写分离、SQL加速等功能,到中间的数据库引擎节点PolarDB构造了一写多读的数据库集群,再到底层的分布式存储PolarStore为上层提供多节点挂载的数据共享,每一层各司其职,共同构建了PolarDB云数据库集群。

从PolarDB产品定义上看,用户购买的节点数和规格大小(比如4核16G)指的是中间这一层PolarDB的配置,上层PolarProxy可以根据PolarDB的配置自适应调整,用户不需购买也不用关心性能和容量。底层PolarStore的容量是自动扩容,只须按照实际使用容量付费。

通常意义的扩展性,一般有纵向(Scale up)和横向(Scale out)和两种方式,纵向是指提升配置,横向是指配置不变,但增加节点。对于数据库来说,都是先纵向,比如4核不够升到8核。但终归会遇到瓶颈,一方面性能提升非线性,跟数据库引擎自身的设计和应用访问模型有关(比如MySQL的多线程设计,如果只有一个session,那么很难体现出多核的优势),另一方面,计算物理服务器配置有上限,存在天花板。因此终极手段还是横向扩展,增加节点数。

05.png

阿里云控制台PolarDB升降配操作示意图

PolarDB的底层技术实现

对于PolarDB而言,其弹性能力可以概括为“横向最多可以到16个节点,纵向最高可到88核,并且存储容量动态扩展,毋须配置”。那么,在这样强大的弹性能力的背后,PolarDB的底层技术究竟是怎样实现的呢?接下来就从纵向、横向两个方面介绍。

纵向扩展(升级/降级配置):得益于存储与计算分离,PolarDB数据库节点的配置可以单独升级或降级,如果当前服务器资源不足,还可以快速地迁移到其他服务器,整个过程目前只需要5-10分钟,中间不需要任何的数据搬迁,只是如果涉及到跨机迁移,未来还可以通过PolarProxy消除升级对业务应用的影响。

因为目前同一集群内的所有节点必须绑定升级,因此PolarDB采用了Rolling Upgrade滚动升级的方式,通过控制升级的节奏、搭配主备切换来进一步减少不可用时间。 同时目前PolarDB新版本将会支持warm buffer pool 功能, 也就是说升级以后, 不需要重新加载buffer pool 的数据, 避免升级重启导致的性能抖动, 是整个升配流程更加的顺滑.

横向扩展(增/减节点):由于存储是共享的,因此可以快速增加节点,而不需要任何的数据COPY。整个过程也只需要5-10分钟,如果是增加节点,对业务应用没有任何影响,如果是减少节点,那么仅对落到该节点执行的连接有影响,重新连接即可。目前在Polar DB 新版本支持warm buffer pool 功能后, 新加入的节点能够迅速提供跟老节点一样的性能, 无需从存储中读取数据就可以有用户最常用的page 的内容, 可以提供更顺滑的体验. 当增加节点之后,PolarProxy可以动态感知并自动加入到读写分离后端的读节点中,对于使用集群访问地址(读写分离地址)连接PolarDB的应用程序可以立马享受到更好的性能和吞吐。

在猿辅导的应用场景中, 答题场景类似于双十一的抢购场景, 老师发布题目, 这个时候, 所有的学生需要同时对一个数据库进行修改. 通过PolarDB 的秒杀场景plugin, 能够增强PolarDB 在大压力情况下的并发能力, 有效解决了突增场景带来写入压力.

03、小结

猿辅导将数据库迁移到阿里云PolarDB之后,在业务平峰的时候,能够同时支撑大体量学生在线进行课程学习,并且业务根本不会感觉到压力。而当应对业务高峰的时候,只需要提前一小时进行准备,就能够将业务能力临时提升至足以应对100万学生并发访问的等级。

而且,由于PolarDB数据库资源可以按需弹性伸缩,因此在猿辅导从MySQL迁移到PolarDB之后节省了5个只读库的容量,节省了近70%的数据库费用支出。此外,在线数据库维护工作量能够降低95%,无需资深的专业DBA坐镇,因此大大降低了数据库维护的人力成本。最后,如果从业务维度来看,猿辅导在迁移到PolarDB之后,大大提升了用户体验。

疫情以来,阿里云通过支撑钉钉、优酷、国家中小学网络云平台以及各类社会化教学机构,服务全国近1.8亿中小学生在家上课,成为最大的在线教育类技术服务平台。

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
机器学习/深度学习 人工智能 城市大脑
大咖说|支撑10万人同时在线互动,是实现元宇宙的基本前提?
关于元宇宙,有人说它是噱头炒作,甚至是一场骗局,但也有人认为它是下一代互联网。到底什么是元宇宙?实现逻辑是什么?可能会产生什么影响?
183 0
大咖说|支撑10万人同时在线互动,是实现元宇宙的基本前提?
|
机器学习/深度学习 人工智能 城市大脑
【计算讲谈社】第一讲:支撑10万人同时在线互动,是实现元宇宙的基本前提?
关于元宇宙,有人说它是噱头炒作,甚至是一场骗局,但也有人认为它是下一代互联网。到底什么是元宇宙?实现逻辑是什么?可能会产生什么影响?
199 2
【计算讲谈社】第一讲:支撑10万人同时在线互动,是实现元宇宙的基本前提?
|
人工智能 自然语言处理 供应链
618的亿级流量大考,京东云靠什么交上满分答卷?
要走近并深入认识京东云,刚刚过去的「618 大考」可能是最好的观察机会。
137 0
618的亿级流量大考,京东云靠什么交上满分答卷?
|
双11 iOS开发 智能硬件
2021双十一邀请大狂欢最强攻略,5重权益月入十万不是梦!
11.1-11.30,邀新佣金加码2%,最高可获36%返佣。
2021双十一邀请大狂欢最强攻略,5重权益月入十万不是梦!
|
弹性计算 运维 NoSQL
战疫期,钉钉如何扛起暴增百倍的流量?
阿里云ECS帮助钉钉在短短2小时内新增部署了超过1万台云服务器,这个数字也创下了阿里云上快速扩容的新纪录。
4870 0
战疫期,钉钉如何扛起暴增百倍的流量?
|
SQL 弹性计算 小程序
阿里云新品发布会周刊第43期 丨 战疫期间,钉钉如何抗住暴增的百倍流量?
点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会! 热门阅读 1、 战疫期间,钉钉如何抗住暴增的百倍流量? 疫情期间,在线教育、在线办公需求持续井喷,钉钉作为很多企业首选的在线办公软件,用户量激增,特别是钉钉视频会议、直播的需求随之飙升。
3010 0
阿里云新品发布会周刊第43期 丨 战疫期间,钉钉如何抗住暴增的百倍流量?
|
弹性计算 运维 NoSQL
战疫期间,钉钉如何抗住暴增的百倍流量?
疫情期间,在线教育、在线办公需求持续井喷,钉钉作为很多企业首选的在线办公软件,用户量激增,特别是钉钉视频会议、直播的需求随之飙升。同时,钉钉为了响应教育部门“停课不停学”的号召,宣布老师们可以免费试用钉钉在线课堂。
1766 0
|
机器学习/深度学习 存储 边缘计算
月活用户达7.55亿,阿里淘系如何在后流量时代引爆用户增长?
「淘系技术嘉年华」用户增长突围之夜~阿里巴巴是如何用最少的成本获取流量,真正将用户留存下来?如何用精益化方式提升转化,把现有流量快速变现?如何打破流量瓶颈,实现持续增长?又是如何发掘不同用户群的核心需求,围绕核心需求打造用户持续增长方法论的呢?
3157 0
月活用户达7.55亿,阿里淘系如何在后流量时代引爆用户增长?
|
达摩院 搜索推荐 API
月活用户达7.55亿,阿里淘系如何在后流量时代引爆用户增长? | 9月17号栖夜读
今天的首篇文章,讲述了:当下,流量为王的时代慢慢走远,获取用户的难度越来越大,成本越来越高。阿里巴巴是如何用最少的成本获取流量,真正将用户留存下来?如何用精益化方式提升转化,把现有流量快速变现?如何打破流量瓶颈,实现持续增长?又是如何发掘不同用户群的核心需求,围绕核心需求打造用户持续增长方法论的呢?
6649 0