传统负载均衡助力AIOps优化智能运维

简介: 如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析。
摘要:如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对 传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析

本场视频精彩回顾,戳这里!

本场视频PPT下载,戳这里!

演讲嘉宾简介:

邱亮,深信服科技股份有限公司研发部总经理

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、数据中心背景
二、负载均衡的应用
三、深信服与阿里合作

一、 数据中心背景
11a079f0098f23d8e1d80dfd58a32030792de3dc
数据中心进行了三代的过程演化,第一代的数据中心以计算为中心,主要把客户原来传统的业务变为电子化业务,提高了办公效率和业务运营效率。第二代的数据中心以网络和应用为中心,随着客户越来越多的核心业务电子化进入数据中心,数据中心的业务成为客户生意的核心,当业务发生中断时,很多客户会出现无法办公、无法做生意的情况,直接给客户带来财产损失。客户对数据中心的需求表现为高可用、高可靠和高性能。第三代的数据中心以用户为中心,客户的很多业务从线下转换到线上。在这种情况下,客户对快速开发、业务弹性、未知业务产生诉求,云计算与大数据应运而生。
  4b3e0f8ecc6a31c52a6d938639bfa81cff1457fb
如图左下方为传统的数据中心,从网络层面看,分为核心层、汇聚层和接入层;从应用层面看,分为web层、app层和DB层。随着云计算的发展,很多资源已经池化,包括存储池化、网络池化和服务池化等,使得数据中心发生了很大的改变。

二、 负载均衡的应用
090f86a3694b39974ff442ea3317214040727b1f 
数据中心的改变不同于技术,过去的投资对客户来说属于历史资产,第一代的数据中心业务电子化后采用单态服务器即可承载,但是这样的架构存在一定缺陷,当单态服务器出现故障时,客户可能采用主备服务器的概念。正常情况下备服务器将处于被浪费状态。同时出现故障时主备服务器的切换也会花费大量时间,接入的连接将会全部中断。备服务器在平时没有业务接入,是否真正实际可用无法确定。在此情况下产生应用交付,负载均衡被架在前方,同时对几台服务器进行负载,既保证这几台服务器平时的可用性,也提升了整个业务系统的健壮性和性能。

随着越来越多的客户核心业务进入数据中心,当单个业务系统的出口出现问题时,例如移动、电信线路断开,链路不稳定使得整个业务系统无法访问,链路负载由此诞生。链路的负载均衡可帮助进行故障时的链路切换,并且保障联通的用户访问资源尽可能从联通的链路返回,避免跨运营商访问,减少时延提高性能。

由于越来越多的业务需要系统可靠性的保障,需要从底层到上层对系统实施很多高可用措施,从而避免任何一个点出现单点故障,例如在核心业务的存储方面,购买两对存储,存储相互之间作为镜像,从而保证一个存储故障时另一个存储可用,在网上接入的存储相关的交换机必须为两个,并相互之间进行堆叠。上层采用多台服务器,应用交付类的产品认为单点是不可靠的,需要支持双机或者集群。随着业务系统越来越多,数据中心管理变得复杂烦乱。
  d1faf53617a4726c945b2e394baaa1f86410db4b
当大量的重要业务交给数据中心时,如果数据中心出现问题会变得非常危险,进而诞生全局负载,建设主备数据中心或者互为主备的数据中心,接着发展为两地三中心或者多户数据中心。面对流量如何在多个数据中心进行合理的调度,如何保证每个数据中心不会过载,当进入双户数据中心时,很多情况下并不是对等的双户,只对部分业务进行双户,使得一个数据中心的规模小于另一个数据中心,不能均匀地进行流量调度,此时会将应用交付应用到全局负载中。
  29198b16eb089d67e8e9c9330959ffbaaae77ae8
如图为典型的抽象数据中心,从接入层中可以看到链路负载,以web区为例,web接受https并进行卸载,卸载需要SSR的安全网关,SSR安全网关需要负载保证自身的稳定,SSR安全网关本身就是负载产品的一项功能,接下来对网站进行WAF清洗,防止产生漏洞,同时WAF设备本身需要保证一定的健壮性,需要进行WAF负载。真实业务中的物理或虚拟服务器同样需要进行负载提高健壮性。图中红色框中都是应用交付产品即负载均衡产品,数据中心中的应用交付产品是天然的所有流量的入口,不管web访问流量还是内部业务系统之间的交互流量,都需要经过负载均衡,作为流量的探针应用交付产品可以抓取流量中的信息,同时作为控制器可以对流量进行个性化的编程,将流量编排的结果进行输出。深信服和阿里巴巴的合作就是基于以上基本原理。

三、 深信服与阿里合作
  aac0f6c9d49719ba5c4cc5c54b6407aa95b65298
深信服从三个方面与阿里巴巴进行合作,第一层面为故障的发现与处理,即为常规的运维阶段。第二层为用户价值的挖掘。第三层为识别风险与阻断攻击。
  8fc03eac6a42638ead9f477292d4257c3fa6d9d3
在故障的发现与处理基本原理中,所有的流量首先经过负载均衡设备,接着发送到服务器,服务器可以把抓取的流量根据已编排的模型全部输出给阿里巴巴的云脑,常规下AI的云脑会将现有的模型输出数据发送给阿里,分担流量的压力,例如每秒新建的连接数、每秒新建的请求数、并发的连接数和吞吐量等,同时通过与阿里云平台的联动,可以获取服务器的CPU、内存、IO时延,从而分担服务器的压力。阿里巴巴的云脑可以获取整个业务的压力情况和业务的服务能力情况,并对数据进行智能分析产生业务指标基线,根据异常点发现问题。云脑的分析周期保证至少40天,其中包含一个月完整的周期数据和四个星期的横向对比,从而了解业务高峰等信息。当出现故障时,告警信息通知到阿里巴巴的云脑,云脑根据数据进行分析,得出故障严重性、服务器预测承担压力等信息供维护人员参考,从而采取合适应对措施。AIOps的应用提供预见未来风险的告警,而不是仅仅罗列大量的告警指标数据。
  8fd46c53078bc539b246a038c8a5ca8bc7ce39de
当建设双户或者多户的数据中心时,应用交付面对故障会尽可能将流量调用给其它数据中心。当建设云计算数据中心时,对于一家公司,所有业务同一时刻不可能都处于高峰期,有些业务处于波谷,出现故障的业务可能处于高峰期,此时数据中心会弹性地扩展更多的虚拟机,将业务流量分发给出现故障的业务,自动地进行恢复处理。
  85216e83437147cb68319ba1873a871d95455458
当服务器出现完全过载时,应用交付产品可以遏制流量的入口,限制并发的连接数,保证已接入的用户能够正常访问。
  047a2b0a7720d0b6d6b3fb881dfcd4b7f154d468
对用户价值的挖掘层面,如图以电商网站为例,通过可编程的方式建立模型、分析协议,通过接口将流量信息全部提取出来,包括用户的IP、账号、接入方式、页面的停留时间、整个url的访问列等。
  5cbae5e706bb3a25b678062f9b3d5f48fdc40f92
提取的用户信息可用于提高客户的访问体验,例如根据客户端的时延、访问量提供系统的优化建议,根据客户端和运营商进行调度,对弱网的用户开启单边加速的功能,保证弱网的用户也能拥有较好的访问体验,降低用户的流失率,提高交易转换率。提取的用户信息也可以用于分析挖掘客户的行为,例如根据用户的喜好推荐商品、分析客户群体的行为习惯等,提高交易转换率。
  f3d7a5781695c191c7bf7f923a16bee0450d5820
当公司整个业务系统的承受压力很强时,认证服务器并不一定很强,此时会遭受黑客的攻击而瞬间瘫痪。应用交付通过访问、认证基线分析出不正常的行为,AI针对每个API访问做出相应的访问限制,进而有效地阻断攻击。
  080a87ec001ee8dc27f8f3ace856d10e6f0dcbd9
深信服与阿里云合作带来的价值表现为三个方面:故障的发现和处理、用户价值的挖掘和智能地识别风险、阻断攻击。

本文由云栖志愿小组丁匀泰整理,编辑百见

相关实践学习
部署高可用架构
本场景主要介绍如何使用云服务器ECS、负载均衡SLB、云数据库RDS和数据传输服务产品来部署多可用区高可用架构。
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
目录
相关文章
|
2天前
|
负载均衡 关系型数据库 分布式数据库
【PolarDB开源】PolarDB读写分离实践:优化读取性能与负载均衡策略
【5月更文挑战第26天】PolarDB是云原生关系型数据库,通过读写分离优化性能和扩展性。它设置主节点处理写操作,从节点处理读操作,异步复制保证数据一致性。优化读取性能的策略包括增加从节点数量、使用只读实例和智能分配读请求。负载均衡策略涉及基于权重、连接数和地理位置的分配。实践示例中,电商网站通过主从架构、只读实例和负载均衡策略提升商品查询效率。PolarDB的读写分离与负载均衡为企业应对大数据和高并发提供了有效解决方案。
33 0
|
3天前
|
机器学习/深度学习 人工智能 运维
智能化运维:未来IT管理的革命
随着人工智能和机器学习技术的不断进步,智能化运维已经成为了IT管理领域的一个热门话题。本文将探讨智能化运维的概念、优势以及在实际应用中的挑战,并展望未来的发展趋势。
|
3天前
|
机器学习/深度学习 运维 监控
如何构建应用智能运维系统的核心能力
【5月更文挑战第25天】面对日益复杂的信息系统,企业需建立具备全景监控和智能运维能力的 Application Performance Management (APM) 系统,以保障数字化体验和应用可用性。
|
4天前
|
消息中间件 SQL 运维
AIOps 智能运维:比专家经验更优雅的错/慢调用分析工具
本文主要介绍ARMS 错/慢 Trace 分析功能基本原理; 该功能能够覆盖哪些异常 Trace 根因; 最后会介绍一些最佳实践案例。
|
4天前
|
数据采集 人工智能 运维
智能运维:AI在IT基础设施管理中的应用与挑战
随着人工智能技术的飞速发展,其在IT基础设施管理领域的应用日益广泛。本文将探讨AI技术在智能运维中的作用,分析其带来的优势与面临的挑战,并展望未来的发展趋势。
|
7天前
|
运维 关系型数据库 MySQL
day03-Linux运维-Xshell优化和Linux系统命令入门(2)
day03-Linux运维-Xshell优化和Linux系统命令入门(2)
day03-Linux运维-Xshell优化和Linux系统命令入门(2)
|
7天前
|
运维 Linux Shell
day03-Linux运维-Xshell优化和Linux系统命令入门(1)
day03-Linux运维-Xshell优化和Linux系统命令入门(1)
day03-Linux运维-Xshell优化和Linux系统命令入门(1)
|
13天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AIOps在未来网络管理中的应用与挑战
【5月更文挑战第4天】随着人工智能和大数据技术的飞速发展,智能化运维(AIOps)正逐渐成为IT运维领域的革新力量。本文探讨了AIOps在现代网络管理中的关键作用,分析了其在故障预测、自动化处理、以及提升决策效率方面的潜力。同时,文章还针对AIOps实施过程中面临的技术挑战、数据隐私及安全性问题进行了深入讨论,并提出了相应的解决策略。通过实际案例分析,本文旨在为读者提供一个关于AIOps在网络管理领域应用的全面视角。
|
13天前
|
运维 算法 物联网
五大智能运维场景
【5月更文挑战第3天】智能运维场景分5类:异常检测、根因诊断、故障自愈、事件预警、效能优化。
|
7天前
|
运维 程序员 Linux
运维最全Linux 基本防火墙设置和开放端口命令,2024年最新程序员如何自我学习和成长
运维最全Linux 基本防火墙设置和开放端口命令,2024年最新程序员如何自我学习和成长