GTS-SRE周刊 || 5月集强势发布

简介: 阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,也是阿里集团高可用基础技术核心缔造团队。

test

前言

阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,也是阿里集团高可用基础技术核心缔造团队,为集团设计和建设了异地多活、大促容量规划、限流降级、开关预案、流量调度、故障演练、资损防控等高可用架构基础设施,深度参与支持了集团历年双11大促的技术保障工作,我们期望通过SRE周刊:

- 将阿里云智能最先进的产品、运维技术传递给不同行业的客户和伙伴,帮助大家更全面深入地了解阿里云产品。
- 促进技术上互相交流,取长补短,打造阿里云产品运维人社区论坛,共同促进阿里云产品的不断完善。

点击加入社区技术论坛,随时交流技术难题

阿里云SRE技术期刊重点内容概览- 2020年5月第1周

本周封神榜:智能运维服务助手

封神榜是SRE团队提供的从业务、产品、安全、故障四个维度对项目进行全方位监控的运维服务工具,可实现为不同关注点的客户提供问题、故障、性能、容量、优化建议等运维服务内容推送。
功能定位:稳定性是基础、增强运维服务、补全监控短板。
服务目标:业务优化、云平台监控、客户服务、故障响应。
应用实践:MQ实例监控、安全事件告警。

服务案例:SRE团队全力保障多地健康码顺利上线(上)

2020年初,新冠肺炎疫情爆发,阿里巴巴配合多地政府开发健康码,实现数字化防疫。SRE团队协助完成各类资源准备、业务压测、业务优化以及持续性数据监控等工作,保证了健康码顺利上线和运作。

阿里云SRE技术期刊重点内容概览- 2020年5月第2周

本周技术:RocketMQ消息存储技术

RocketMQ是阿里开源的分布式消息中间件,跟其它中间件相比, Rocketmo的特点是纯JAVA实現、集群和HA实现相对简单、在发生宕机和其它故障时消息丢失率更低,具有良好的高可用架构及稳定性。其发展的代历史如下图所示,从2007年至今已发展超过10年。
消息存储架构:相关文件有三种,CommitLog、ConsumeQueue、IndexFile
90CF0A82_48D3_4d32_BB20_8BEA873F6EE4

消息刷盘:分为同步刷盘和异步刷盘,同步刷盘使用于金融业务应用,异步刷盘读写延迟降低,可提高MQ的性能和吞吐量

阿里云SRE技术期刊重点内容概览- 2020年5月第3周

本周产品:铜雀:阿里云智能巡检管家

作为云平台告警信息与监控的统一门户,铜雀专注于智能化巡检及问题诊断,是TAM和驻场服务团队日常工作中的首要工具。铜雀主要为客户、业务应用开发商、TAM、驻场提供以下服务:
客户:了解云平台的健康状况和资源使用情况,通过对历史发展趋势的分析,发现可能的资源缺口和扩容需求。
业务应用开发商:通过铜雀分析可能导致线上应用问题的原因或提供排查方向TAM:通过铜雀发现云平台或业务应用所存在的风脸和问题,并跟进处理。
驻场:使用铜雀简化日常的运维类工作,井提升工作效率。比如:一键巡检、驻场日报自动生成、白屏化分析工具等。
C5F8A079_9C25_4408_A660_844483525FEB

本周实践:阿里高可用架构建设实践经验

随着业务在线化互联网化的高速发展,企业对核心业务系统的稳定性、可靠性、有效性、业务连续性等有了更高的要求。采用高可用系统架构支持重要系统、为关键业务提供7x24的不间斷服务,已经成为众多企业保障业务稳定、持续运转的主要选择。阿里巴巴在多年双11高井发、高可用和高客户体验要求背景下积累了相应的技术体系,本文将依据高井发用户、突发高流量场景下的真实案例。
原有业务痛点:
非常复杂的服务端:通常从客户端到达服务端会涉及到的关键节点有CDN、动态加速高防、应用防火墙、4/7层负载均衡、前后端服务集、缓存、数据库存储、中间件、基础设施层等等,整个链路都面临着不确定性,这其中任何一个节点出现问题都会导致服务不可用。
缺乏提前规划的服务能力:如果企业没有对自己的服务能力进行提前规划,没有提前做好关键节点的规划,对线上的应急措施如弹性扩容、线上防护、熔断降级等都不具备,那么在面对突发问题时,就很难保证核心接口能够稳定对外服务。

阿里云SRE技术期刊重点内容概览- 2020年5月第4周

本周技术:浅谈异地多活及阿里云容灾经验分享

异地多活,英文Mut- Site High Availability,顾名思义就是分布在异地多个站点同时对外提供服务。与传统灾备最主要的区别是“多活”里所有站点都是同时在对外提供服务的,具体有以下几点不同:
应急状态有风险:传统的灾备中心平时不提供服务,关键时刻无法确定切换到灾备中心是否可以切换成功。
成本高:传统的灾备中心平时不提供服务,整个灾备资源会处于浪费状态,成本比较高。
地域资源瓶颈:传统的灾备中心平时不提供服务,所以平时提供服务的数据中心还停留在单地域,当业务体量大到一定程度时,这种模式无法解决单地域资源瓶颈的问题。
因为通过传统的灾备手段无法解决上述问题,阿里巴巴经过多年研究,成功在2013年的双十一实现了“丝般柔顺”的用户体验后,“异地多活”这项基础技术首次在业界亮相。
4F65FB0D_A436_4d0f_9A6F_043400C6B09B

结语

阿里云的5RE团队自从诞生之日起,就被予了"服务"于客户的基因,帮助广大阿里云企业客户上云、用好云,让客户云上业务运行更加稳定可靠。从服务的视角,团队重新定义了SRE的内涵( Service Reliability Engineering):致力成为一个以技术为基础、面向服务、保业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。
全新的定义承接了全新的使命,我们也深刻践行着阿里巴巴集团toB的企业服务初心,同时陪伴着伙伴和客户一起成长。

test

扫码进钉群 下载周刊集,并获取一手阿里云SRE资料

关注“阿里云文档”云栖号,第一时间了解阿里云最全最新资料内容吧!
相关文章
|
11月前
|
边缘计算 大数据 云栖大会
云上新势力 CLOUD IMAGINE——PART 3 重磅发布——附:《边缘云技术演进与发展白皮书》重磅发布
云上新势力 CLOUD IMAGINE——PART 3 重磅发布——附:《边缘云技术演进与发展白皮书》重磅发布
191 0
|
Java Apache Android开发
重磅!阿里巴巴三入Java 全球管理组织执行委员会 龙蜥拥抱上游开源生态
阿里巴巴三入JCP执行委员会,龙蜥打通迈往 Java 国际技术生态的道路!
重磅!阿里巴巴三入Java 全球管理组织执行委员会 龙蜥拥抱上游开源生态
|
边缘计算 Kubernetes Cloud Native
OpenInfra Days China 2022 云原生技术与应用实践论坛议程全览
OpenInfra Days China 2022 云原生技术与应用实践论坛议程全览
161 0
OpenInfra Days China 2022 云原生技术与应用实践论坛议程全览
|
消息中间件 中间件 Java
始于架构,精于治理|阿里云中间件开发者大会火热报名中
6 月 16 日,主题为“始于架构、精于治理”的阿里云首届中间件开发者大会将在线上进行直播。
始于架构,精于治理|阿里云中间件开发者大会火热报名中
|
消息中间件 中间件 Java
报名阿里云首届中间件开发者大会,获取中间件开源选型现状调研简报
分布式应用领域的开源诉求,正在发生变化,从解决开发者从分布式应用架构演进到分布式应用治理的难题,因此在分布式应用规模化过程中,业内需要完整的、可落地的治理能力和解决方案,解决用好、管好分布式应用的问题。
报名阿里云首届中间件开发者大会,获取中间件开源选型现状调研简报
|
Cloud Native Java Go
社区会议|MOSN 社区将会发布 1.0 版本,同时推动下一代架构演进
2 月 24 日,MOSN 举办了 2022 年首次的社区会议。 MOSN 社区在会议上提出了新一年的 Roadmap,社区成员分享了 MOSN 在不同场景下落地实践的经验,以及大家一起大开脑洞,探讨了更多我们可以创造的可能性。
社区会议|MOSN 社区将会发布 1.0 版本,同时推动下一代架构演进
|
安全 Cloud Native 应用服务中间件
Apache APISIX 温铭:运营开源社区、基础软件创业-拒绝自嗨、聚焦和快速发布
Apache APISIX 温铭:运营开源社区、基础软件创业-拒绝自嗨、聚焦和快速发布
405 0
Apache APISIX 温铭:运营开源社区、基础软件创业-拒绝自嗨、聚焦和快速发布
|
Rust 前端开发 JavaScript
淘系技术飞冰团队正式发布 icejs 2.0 版本
icejs 是一个基于 React 的渐进式研发框架,由淘系前端飞冰(ICE)团队于 2020.02 发布 1.0 版本
760 0
淘系技术飞冰团队正式发布 icejs 2.0 版本
|
消息中间件 中间件
十年中间件最佳实践集锦,八月福利大放送
轻松应对业务增长,阿里云为在线教育“定制”丰富的中间件,助力提升系统稳定性、灵活性和反脆弱性,通过消息队列,让你的业务沟通无畅,信息不丢失,还有全年优惠大放送!
1729 0
十年中间件最佳实践集锦,八月福利大放送
|
Kubernetes Cloud Native Serverless

热门文章

最新文章

相关实验场景

更多