FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级!

简介: 企业IT运维自动化的转型之路。

FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级!

项目背景

随着信息化的逐步深入,企业业务运营活动对IT的依赖程度越来越高,传统的局部、粗放、碎片化的IT运维管理模式已经无法满足安全生产的实际需要,IT运维必须向自动化、全面化、流程化模式转变,构建一站式监控平台,则成为企业 IT 架构升级、自动化转型的战略刚需。

0a76b59aaa97042db21d1d31c38e4524e570831c

相对其他行业来说,银行行业因为网络环境、系统软件复杂,资源整合程度高,系统数据安全级别高,权限管理复杂等原因,对技术的可靠性、稳定性和成熟性有着更高的要求。

 

客户简介

某银行是一家以国有股本为主、股权多元化的地方性股份制商业银行,引入马来西亚某银行作为境外战略投资合作伙伴。在上海证券交易所挂牌上市,成为某省首家上市银行、全国第8家A股上市城市商业银行。该银行致力于为广大小微企业客户提供优质高效的金融服务,利用自身优势,加强产品创新和“本土化”改造,开发了一批“特色化、标准化、本土化”产品。目前,旗下“财富金翼”小微企业融资品牌包括“壮大贷”、“成长贷”、“科创贷”、“科票通”、“创业贷”、“惠农贷”、“易采贷”等10余种产品,为不同发展阶段的小微企业融资提供多种金融方案以及一站式金融服务,不遗余力支持企业成长发展。

 

项目背景

该银行信息化建设蓬勃开展,IT规模逐年扩大,相应的故障次数也逐年增加。而在采用有效的管理方式之前,管理相关部门仍然采用传统的、分散、不统一的手工管理方式,且无专业团队对现有IT系统软硬件进行统一管理维护,建设、运行、支撑职责不分,缺乏有效的管理和运行监视手段,缺乏有效的针对设备/设施的资产管理。系统配套的管理手段的创建已经落后于相关建设的步伐,这样就造成了管理模式跟不上系统建设的工作矛盾。

该银行现有的生产监控系统于2011年开发完成,主要是基于IBM商业产品Tivoli,已使用7年时间。需在其基础上衍生基础设施纳控、集中告警、巡检报表等。为解决此问题,需对基础监控平台系统进行升级改造。一方面可以解决目前该银行监控系统存在的问题,另一方面也可以提高运维工作效率,降低运行风险。

 

解决方案

乐维监控结合该银行发展的现状及发展需求,在进行需求的前期调研和现场调研后,针对性的制定设计了一套完整的实施方案,帮助其构建一个安全、实用、可持续发展的智能监控管理平台

通过改造,对银行所有软硬件设备进行管理,综合展现运维管理数据和相关统计信息,以一个综合展现平台的方式展现所有关键管理数据,通过灵活的告警设备,精确的告警检测,多样的告警推送方式,简单的告警经验积累方式,实现用户有效及时得到故障信息。提供快速故障定位,故障分析,最终实现IT运维管理要求:

1.基础监控平台需完成生产系统服务器、操作系统、数据库、中间件、存储、网络设备等的实时监控,确保能够在故障发生时提供及时的告警和操作;

2.需有比较美观的展示界面和人性化的UI,能清晰方便的反映出企业纳控的IT资产运行状态及相关信息;

3.在完成对各项基础监控项的同时,需定制开发针对银行的特殊要求,监控项之间能配置关联关系,并能够生成性能分析和故障报告;

4.基础监控平台需将告警信息接入统一展示界面(与现有系统接入方式保持一致)。

5.需具备智能巡检功能,设置巡检周期,自动生成巡检报表,对重点关注指标进行检查并汇总发至指定人员邮箱,以供分析决策。

 

实施过程

针对该银行所面临的问题,乐维监控基于开源Zabbix(最新版本4.0)深度二次开发,利用开源技术及自身产品的高可用、可伸缩、易维护等特性,对银行的IT资产进行了梳理纳控,建设优化的处理。

c89cf6d56bbc94c703bdd5c004fc5ee4b1584a59

产品逻辑图谱

 

 

对象统一纳控,集中管理

1.     主机监控:RedHat、Windows、AIX、HMC

l  针对监控AIX小机LPAR信息、JFS文件系统、errpt日志信息、LVM信息和Linux不一样

l  AIX的HMC数据资源的管理

l  防火墙状态和应用服务监控

 

2.     网络设备监控:Cisco、H3C、华为、F5、迈普、山石、深信服

l  F5的层级划分、主备状态、配置同步、活跃连接数、pool

l  SDN-spine、SDN-leaf监控

l  网络设备的syslog日志对接

l  网络设备日常巡检相关报表展示

l  链路探测的不同方式(NQA、SQA),登录交互探测

 

3.     虚拟化监控:VMWARE

l  监控Clusters、Datacenters、Datastores、Hypervisors、VM

l  vCenter平台告警对接

l  Clusters、Datacenters、Datastores、Hypervisors、VM资源相互关联状态

l  模块与监控平台集成

l  消息与队列处理,对接

 

4.     数据库监控:Oracle、DB2、Mysql、Redis

l  SQL排名-时间

l  redo log

l  数据库dataguard状态、日志同步情况

 

5.     中间件监控:Weblogic、Tomcat、Nginx、RabbitMQ、ZooKeeper、WebSphere

l  接口对接

l  控制台数据采集

l  最大连接数、当前连接数

l  健康状态

l  线程池状态

l  server状态

 

6.     存储监控:EMC VNX、EMC VMAX、Netapp

l  需采用专门的存储工具,连接查询数据

 

7.     安全设备监控

l  电子银行WEB应用防火墙

l  电子银行IPS

 

标签化管理,对象分组,权限配置,为数据安全保驾护航

1.     支持标签化管理,方便对海量用户信息进行搜索、分类、整理记录。

2.     对象分组,可进行分类、排序、检索、批量删除。

3.     用户管理,支持登录名、手机、微信、密码、角色、有效期及是否能登录Zabbix等管理功能,支持对用户的角色授权的功能。

4.     权限配置,统计报表、首页、告警、监控对象等各个功能权限设置,可按照管理员级别进行分类设置。

 f458c169da3c997e463afdd551544f00ec12ee32

 

秒级智能告警平台,内置知识库,使运维有迹可循

l  自定义告警策略(告警分级、收敛),故障快照,动态基线,快速对接微信客户端、邮件、短信等多种工具,结合专家智库对故障高效处理,保障业务系统长期平稳运行。

l  告警关联专家智库,运维人员将故障处理方式记录到专家智库,这些信息将通过算法自动匹配到告警列表,为运维人员下次处理类似告警提供参考依据,支持对专家智库信息进行点赞和点踩,专家智库的匹配算法会根据用户点赞和点踩的行为进行智能匹配告警。

 7a6bde55318ef3803e5f293637980bd0f1a762db

 

 

智能运维巡检报表,定时邮件发送

l  支持自定义设置巡检周期、时间点对重点关注指标(包括但不限于CPU使用率、内存使用率、接口接收流量、借口发送流量、风扇转速、机房温度、机房备电灯等)展开日常巡检工作, 生成报表汇总发至指定人员邮箱,节约运维工程师人工巡检时间,提升运维效率。

 

 

 

终端UI界面全新升级,灵活切换主题皮肤

l  结合客户VI,对界面整体改良升级,并制定出标准版和暗黑版两款个性化皮肤,供自行选择切换,适用大多数应用场景,满足客户需求定制。


 484ee8393ddbd579a03bbca2d58aa873b2ff2137

标准版&暗黑版

 

客户收益

1.   通过IT资产全面梳理、全栈监控、实时告警等新型智能运维手段,建设出一套完善且灵活的成熟运维体系,告别传统“救火”式运维,运维效率提升10倍,企业运维成本降低超过50%。

2.   从项目、用户、角色等多个维度实施权限配置管理,为系统安全性和保密性提供保障。

3.   高可用的技术架构和灵活的调度能力,可覆盖并应用于绝大多数业务场景,持续赋能。

4.   智能高效的运维管理体系,帮助客户从IT管理的层面加快自动化进程。

相关文章
|
18天前
|
运维 Kubernetes 监控
构建高效自动化运维系统:基于容器技术的策略与实践
【4月更文挑战第19天】随着云计算和微服务架构的兴起,传统的运维模式正逐渐向自动化、智能化转型。本文将探讨如何利用容器技术构建一个高效、可靠的自动化运维系统,涵盖系统设计原则、关键技术选型以及实践经验分享。通过引入容器技术,我们可以实现应用的快速部署、弹性伸缩和故障自愈,从而提高运维效率,降低系统维护成本。
|
8天前
|
运维 监控 安全
构建高效自动化运维系统:策略与实践
【4月更文挑战第29天】 在信息技术日新月异的今天,高效的运维管理已成为企业保持竞争力的关键因素。本文将探讨如何构建一个能够适应快速变化需求的自动化运维系统。通过深入分析自动化工具的选择、配置管理的最佳实践以及持续集成和部署的策略,我们旨在为读者提供一个清晰的框架来优化他们的运维流程。文章的核心在于提出一种结合了最新技术和思维模式的综合解决方案,以实现运维工作的最优化。
|
8天前
|
运维 监控 jenkins
构建高效自动化运维体系:策略与实践
【4月更文挑战第29天】随着信息技术的飞速发展,企业对IT运维提出了更高的要求。传统的手动运维方式已无法满足当前复杂多变的业务需求,因此,构建一个高效的自动化运维体系显得尤为迫切。本文将探讨自动化运维的核心策略及其在企业中的实际应用,旨在为读者提供一个清晰的自动化运维转型路径。通过分析自动化工具选择、流程设计、监控告警以及持续集成和部署等方面,文章力求为运维团队提供一套系统的自动化解决方案,以实现效率提升和故障率降低的双重目标。
|
1天前
|
存储 机器学习/深度学习 运维
提升数据中心能效:现代运维策略与实践
【5月更文挑战第6天】 在数字化时代,数据中心作为信息处理的核心设施,其能源消耗和环境影响成为业界关注的焦点。本文将探讨如何通过现代运维策略和技术手段提升数据中心的能效,同时保证系统的可靠性和服务的连续性。文章将详细分析数据中心能耗的主要来源,介绍先进的能效优化措施,并通过案例分析展示这些措施的实际效果,为数据中心管理者提供实用的能效改进建议。
|
6天前
|
敏捷开发 运维 测试技术
构建高效自动化运维体系:基于容器技术的持续集成与持续部署实践
【4月更文挑战第30天】在数字化转型的浪潮中,企业对软件交付速度和质量的要求日益提高。自动化运维作为提升效率、确保稳定性的关键手段,其重要性不言而喻。本文将探讨如何利用容器技术构建一个高效的自动化运维体系,实现从代码提交到产品上线的持续集成(CI)与持续部署(CD)。通过分析现代容器技术与传统虚拟化的差异,阐述容器化带来的轻量化、快速部署及易于管理的优势,并结合实例讲解如何在实际环境中搭建起一套完善的CI/CD流程。
|
7天前
|
运维 Kubernetes 持续交付
构建高效自动化运维系统:基于容器技术的持续集成与持续部署实践
【4月更文挑战第30天】 在快速发展的云计算时代,传统的运维模式已无法满足敏捷开发和快速迭代的需求。本文将介绍如何利用容器技术搭建一套高效自动化运维系统,实现软件的持续集成(CI)与持续部署(CD)。文章首先探讨了现代运维面临的挑战,接着详细阐述了容器技术的核心组件和工作原理,最后通过实际案例展示了如何整合这些组件来构建一个可靠、可扩展的自动化运维平台。
|
7天前
|
机器学习/深度学习 运维 监控
构建高效自动化运维体系:从理论到实践
【4月更文挑战第30天】 在信息技术日益发展的今天,自动化运维已经成为提高系统稳定性、优化资源配置和降低人力成本的关键。本文旨在探讨如何构建一个高效的自动化运维体系,涵盖从初步规划到具体实施的全过程。文章首先分析了自动化运维的必要性,接着提出一套完整的构建方案,并详细阐述了关键技术与工具的选择和应用。通过案例分析,验证了所提方案的有效性,并对自动化运维的未来趋势进行了展望。
|
7天前
|
运维 Prometheus 监控
矢量数据库系统监控与运维:确保稳定运行的关键要素
【4月更文挑战第30天】本文探讨了确保矢量数据库系统稳定运行的监控与运维关键要素。监控方面,关注响应时间、吞吐量、资源利用率和错误率等指标,使用Prometheus等工具实时收集分析,并有效管理日志。运维上,强调备份恢复、性能调优、安全管理和自动化运维。关键成功因素包括建立全面监控体系、科学的运维策略、提升运维人员技能和团队协作。通过这些措施,可保障矢量数据库系统的稳定运行,支持业务发展。
|
7天前
|
运维 监控 安全
构建高效自动化运维系统:策略与实践
【4月更文挑战第30天】 在现代IT基础设施管理中,自动化运维不再是可选项而是必需品。随着复杂性的增加和变更的频繁性,自动化可以提高效率、减少错误并释放人员专注于更有价值的任务。本文将探讨构建一个高效的自动化运维系统的关键环节,包括工具选择、流程设计以及监控和优化策略。通过案例分析和最佳实践分享,读者可以获得实施自动化运维的实用指导和启发。
|
7天前
|
人工智能 运维 监控
构建高效自动化运维体系:DevOps与AI的融合实践
【4月更文挑战第30天】 在当今快速迭代的软件开发环境中,高效的自动化运维体系成为确保交付速度和服务质量的关键。本文探讨了如何通过整合DevOps理念和人工智能(AI)技术来构建一个更加智能、高效的运维体系。文章将详细阐述自动化运维的核心组件,以及如何利用AI技术优化这些组件的性能和决策过程。通过实际案例分析,本文展示了这种融合实践在提高运维效率、降低错误率以及提升系统稳定性方面的显著成效。