电商平台迎战大促季峰值的运维技巧

简介:

高可用设计是互联网系统架构的基础之一,以天猫双十二交易数据为例,支付宝峰值支付次数超过 8 万笔。大家设想一下,如果这个时候系统出现不可用的情况,那后果将不可想象。而解决这个问题的根本,就是服务层的高可用。

什么是服务层

众所周知,服务层主要用来处理网站业务逻辑,是大型业务网站的核心。比如下面三个业务系统就是典型的服务层,提供基础服务功能的聚合。

d47e62d2b349aca45e42305ed6714efbe5ed61d9 用户中心:主要负责用户注册、登录、获取用户信息功能;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 交易中心:主要包括正向订单生成、逆向订单、查询、金额计算等功能;

d47e62d2b349aca45e42305ed6714efbe5ed61d9支付中心:主要包括订单支付、收银台、对账等功能。

ac05205e40995bcc824ea9d3a709d45e6fbeab6a

整体架构

业务发展初期主要以业务为导向,一般采用 「ALL IN ONE」的架构方式来开发产品,这个阶段用一句话概括就是 「糙猛快」。当发展起来之后就会遇到下面这些问题

d47e62d2b349aca45e42305ed6714efbe5ed61d9 文件大:一个代码文件出现超过 2000 行以上;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 耦合性严重:不相关业务都直接堆积在 Serivce 层中;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 维护代价高:人员离职后,根本没有人了解里面的业务逻辑;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 牵一发动全身:改动少量业务逻辑,需要重新把所有依赖包打包并发布。

遇到这些问题,主要还是通过「拆」来解决。

具体拆的方式,主要根据业务领域划分单元,进行垂直拆分。拆分开来的好处很明显,主要有以下这些:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 每个业务一个独立的业务模块;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 业务间完全解耦;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 业务间互不影响;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 业务模块独立;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 单独开发、上线、运维;

d47e62d2b349aca45e42305ed6714efbe5ed61d9效率高。

无状态设计

对于业务逻辑服务层,一般会设计成无状态化的服务,无状态化也就是服务模块只处理业务逻辑,而无需关心业务请求的上下文信息,所以无状态化的服务器之间是相互平等且独立的。

只有服务变为无状态的时候,故障转移才会变得很轻松。通常故障转移就是在某一个应用服务器不能服务用户请求的时候,通过负责均衡的方式,转移用户请求到其他应用服务器上来进行业务逻辑处理。

4a50254f85631da9f43590a7d59ffb869323967b

超时设置

一般网站服务都会有主调服务和被调服务之分。超时设置就是主调服务在调用被调服务的时候,设置一个超时等待时间 Timeout。主调服务发现超时后,就进入超时处理流程。

bbd82ea860433fa19a218f0be9d2b6a5ce70dd85

d47e62d2b349aca45e42305ed6714efbe5ed61d9 主调服务 A 调用被调服务 B 时,设置超时等待时间为 3 秒,可能由于 B 服务宕机、网络情况不好或程序 BUG 之类,导致 B 服务不能及时响应 A 服务的调用;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 此时 A 服务在等待 3 秒后,将触发超时逻辑而不再关心 B 服务的回复情况;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 A 服务的超时逻辑可以依据情况而定,比如可以采取重试,对另一个对等的 B 服务去请求,或直接放弃结束这个请求调用。

超时设置的好处在于当某个服务不可用时,不至于整个系统发生雪崩反应。

异步调用

一般请求调用分为同步与异步两种。同步请求就像打电话,需要实时响应,而异步请求就像发送邮件一样,不需要马上回复。

这两种调用各有优劣,主要看面对哪种业务场景。比如在面对并发性能要求比较高的场景,异步调用就比同步调用有比较大的优势,这就好比一个人不能同时打多个电话,但是可以发送很多邮件。

3613a26b7458d73fa349ae2c8bceb48ecd4bc6d8

那我们什么时候该采用异步调用?

其实主要看业务场景,如果业务允许延迟处理,那就采用异步的方式处理。

那我们该怎么实现异步调用?

通常采用队列的方式来实现业务上的延迟处理,比如像订单中心调用配送中心,这种场景下面,业务是能接受延迟处理的。

消息队列主要有哪些功能?

d47e62d2b349aca45e42305ed6714efbe5ed61d9 异步处理 - 增加吞吐量;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 削峰填谷 - 提高系统稳定性;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 系统解耦 - 业务边界隔离;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 数据同步 - 最终一致性保证。

到底有多少种队列?其实主要看处理业务的范围大小:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 应用内部 - 采用线程池,比如 Java ThreadPool 中 BlockingQueue 来做任务级别的缓冲与处理;

d47e62d2b349aca45e42305ed6714efbe5ed61d9应用外部 - 比如 RabbitMQ、ActiveMQ 就是做应用级别的队列,方便进行业务边界隔离与提高吞吐量。

54ab144b59b2d80d69444588911908ca51b85023

同时,技术上来讲,消息队列一般分为两种模型:Pull VS Push

  • Pull 模型:消费者主动请求消息队列,获取队列中的消息;

  • Push 模型:消息队列主动推送消息到消费者。

其中 Pull 模式可以控制消费速度,不必担心自己处理不了消息,只需要维护队列中偏移量 Offset。所以对于消费量有限并且推送到队列的生产者不均匀的情况下,采用 Pull 模式比较合适。

Push 比较适合实时性要求比较高的情况,只要生产者消息发送到消息队列中,队列就会主动 Push 消息到消费者。不过这种模式对消费者的能力要求就提高很多,如果出现队列给消费者推送一些不能处理的消息,消费者出现 Exception 情况下,就会再次入队列,造成消费堵塞的情况。

不过互联网业界比较成熟的队列主要以采用 Pull 模式为主,像 Kafka、RabbitMQ(两种方式都支持)、RocketMQ 等。

幂等

什么是幂等设计?

其实很简单,就是一次请求和多个请求的作用是一样的。用数学上的术语,即是 f(x) = f(f(x))。

那我们为什么要做幂等性的设计呢?主要是因为现在的系统多是采用分布式的方式来设计,在分布式系统中调用一般分为 3 个状态:成功、失败、超时。

如果调用是成功或者失败都不要紧,因为状态是明确和清晰的,但如果出现超时的情况,就不知道请求是成功还是失败了。

951fe79a90a365c21a16362a8814f5801d3b7520

如果出现这种情况,我们该怎么办?一般采取重试的操作,重新请求对应接口。如果请求接口是 Get 操作的话,那倒还好,因为请求多次的效果是一样的。但如果是 Post、Put 操作的话,就会造成数据不一致,甚至数据覆盖等问题。

举个例子:在支付收银台页面进行支付的时候,因为网络超时的问题导致支付失败,这时我们都会再进行一次支付操作,但是当支付成功后,如果发现你的账户余额被减了 2 次,心里肯定会很不爽。

造成这个问题的关键是:网络超时后,不知道支付是什么状态,是成功还是失败呢?所以说幂等性设计是必须的,尤其在电商、金融、银行等对数据要求比较高的行业中。

一般在这种场景下,我们该怎么解决?

请求方一般会生产一个唯一性 ID 标识,这个标识可以具有业务一样,比如订单号或者支付流水号,在发起请求时候带上唯一性 ID;

接收者在收到请求后,第一步通过获取唯一性 ID 来查询接收端是否有对应的记录。如果有的话,就直接将上次请求的结果返回;如果没有的话,就进行操作,并在操作完成后记录到对应的表里。

96d89f1bf0f6dba052ad1194d6daefcb3aa97d1a

服务降级

服务降级主要解决资源不足和访问量过大的问题,比如电商平台在 618、双十一等高峰时期采用部分服务不提供访问,减少对系统的影响。

降级的方式有哪些?

d47e62d2b349aca45e42305ed6714efbe5ed61d9 延迟服务:比如春晚,微信发红包就出现抢到红包,但是账号余额并没有增加,要过几天才能加上去。其实这是微信内部采用延迟服务的方式来保证服务的稳定,通过队列实现记录流水账单;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 功能降级:停止不重要的功能是非常有用的方式,把相对不重要的功能暂停掉,让系统释放更多的资源。比如关闭相关文章的推荐、用户的评论功能等等,等高峰过去之后,在把服务恢复回来;

d47e62d2b349aca45e42305ed6714efbe5ed61d9降低数据一致性:在大促的时候,我们发现页面上不显示真实库存的数据,只显示到底有还是没有库存这两种状态。

231b3e79f2e380428422a79fa38e867a9298f0ea

刚刚说了降级的方式,那操作降级时有哪些注意要点呢?

d47e62d2b349aca45e42305ed6714efbe5ed61d9 清晰定义降级级别: 比如出现吞吐量超过 X,单位时间内响应时间超过 Y 秒、失败次数超过 Z 次等,这些阈值需要在准备的时候,通过压测的方式来确定;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 梳理业务级别:降级之前,首先需要确定哪些业务是必须有,哪些业务是可以有的,哪些业务是可有可无的;

d47e62d2b349aca45e42305ed6714efbe5ed61d9降级开关:可以通过接入配置中心(比如携程 Apollo、百度 Disconf )的方式直接后台降级。但是如果公司没有配置中心的话,可以封装一个 API 接口来切分,不过该 API 接口要做成幂等的方式,同时需要做一些简单的签名,来保证其一定的安全性。

总结

总结一下本文分享的主要内容:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 整体架构:根据业务属性进行垂直拆分,减少项目依赖,单独开发、上线、运维;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 无状态设计:应用服务中不能保存用户状态数据,如果有状态就会出现难以扩容、单点等问题;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 超时设置:当某个服务不可用时,不至于整个系统发生连锁反应;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 异步调用:同步调用改成异步调用,解决远程调用故障或调用超时对系统的影响;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 服务降级:牺牲非核心业务,保证核心业务的高可用。

所有好的架构设计首要的原则并不是追求先进,而是合理性,要与公司的业务规模和发展趋势相匹配。任何一个公司,哪怕是现在看来规模非常大的公司,比如 BAT 之类,在一开始,其系统架构也应简单和清晰。


原文发布时间为:2018-06-6

本文来自云栖社区合作伙伴“DBAplus社群”,了解相关信息可以关注“DBAplus社群”。

相关文章
|
7月前
|
消息中间件 负载均衡 Java
5分钟轻松打造应对流量洪峰的稳定商城交易系统
本实验通过SAE极速部署一个微服务电商商城,同时结合RocketMQ异步解耦、削峰填谷的能力,带大家体验面对流量洪峰仍旧稳定可靠的商城交易系统!
228 1
|
7月前
|
消息中间件 Cloud Native 中间件
云原生重磅产品组合!5分钟打造应对流量洪峰的商城交易系统
云原生重磅产品组合!5分钟部署一个微服务电商商城,领社区好礼!
952 7
|
11月前
|
双11
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.2 大促保障最佳实践——4.2.2 双十一快递业务峰值晴雨表
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.2 大促保障最佳实践——4.2.2 双十一快递业务峰值晴雨表
|
11月前
|
Prometheus 监控 数据可视化
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.2 大促保障最佳实践——4.2.5 大促保障全链路监控
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.2 大促保障最佳实践——4.2.5 大促保障全链路监控
|
11月前
|
弹性计算 NoSQL 关系型数据库
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.2 大促保障最佳实践——4.2.4 大促保障故障&预案演练
《快递行业云上技术服务白皮书》——4. 快递行业技术服务最佳实践——4.2 大促保障最佳实践——4.2.4 大促保障故障&预案演练
|
运维 监控 物联网
河南金雀:轻松运维数十万智能电表 节约20%成本
河南金雀:轻松运维数十万智能电表 节约20%成本
632 1
河南金雀:轻松运维数十万智能电表 节约20%成本
|
数据采集 监控 搜索推荐
重庆华美:用宜搭实现全流程管理上云,节约超百万研发成本
重庆华美用宜搭搭建了信息化管理平台,开发效率提升300%、节省沟通成本60%、并节约了百万研发成本。
337 0
重庆华美:用宜搭实现全流程管理上云,节约超百万研发成本
|
人工智能 算法 Ubuntu
双十一咋省钱?KeenTune助你业务资源省省省
KeenTune(轻豚)是一款智能化的调优产品。这个双十一,轻豚助你业务省时、省力、省钱。
双十一咋省钱?KeenTune助你业务资源省省省
|
弹性计算 调度 双11
备战“双11”,阿里云为企业提供一站式资源保障服务
阿里云弹性计算将上线资源保障服务,通过智能化资源诊断、推荐、资源预定及授权候补为用户提供一站式自助化资源保障服务,兼顾灵活,经济的同时还能获得时刻的确定性保障,为业务顺畅前行保驾护航。
298 0
备战“双11”,阿里云为企业提供一站式资源保障服务
全面迁上阿里云 沪江教育支撑起以往10倍流量
国内领先的教育科技公司沪江教育通过快速扩容支撑起了以往10倍流量,得益于全面迁上阿里云,为2亿用户持续提供稳定的教学平台及线上课程服务。
231 0
全面迁上阿里云 沪江教育支撑起以往10倍流量