千奇百怪的数据库故障

简介:

昨天阿里云在运维上出现了严重的事故,引发文件删除,让我想起这篇文章,补充再发出来。总有很多情形,你无法想象,数据库的故障遭遇也是如此。


如果没有完善的流程、规范,并且进行规范化的审核,那么什么故障都可能发生,人、流程和工具,必须要互相匹配,完美结合才能发挥最佳效应,而运维就是要疯狂躲避各种坑。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

分享几则我们遇到过的客户恢复故障,与大家共为警醒,注意这些都是真实的案例:

  1. 服务器找不到了

    某次客户找我们恢复数据库,说某个数据库出现故障,原本以为不再需要了,现在还需要其中的数据,可能是时间太久远了,工程师到现场后,客户说服务器找不到了,就算了。

    三个月后,客户来电说,服务器找到了,我们又去帮用户恢复了数据。

  2. 服务器搬走了

    某次客户数据库故障,检查发现,是RAC的某个节点服务器被搬走了,以为不用了,郁闷的是,断电还导致了ASM磁盘头损坏,还好11g修复ASM磁盘头很简单,迅速帮助用户恢复了数据库运行,再搬回服务器,加入节点。

  3. 磁盘搬走了

    也是今年的某个客户,新上线服务器,客户找了一块以为不用的磁盘,强制拉过来格式化,发现另外一个业务库应声倒下了。

  4. DBA走了

    最近提到过的一个客户,因为把DBA解雇掉了,结果,DBA偷偷上来把整个库给删除掉了,业务挂了很久很久。

  5. 网线拔了

    这是2015的案例,在业务高峰,新上一个交换机,网络运维把生产数据库的网线拔了,影响业务10分钟。这是金融业务,据说客户的人都跑到机房,机房满员。

  6. 磁盘故障

    这也是2015年的新案例,客户的存储工程师划分给数据库ASM的磁盘小于请求容量,数据库文件扩展时越界产生了故障。这是队友埋的坑。


同志们,Oracle是坚强的,但是数据安全是脆弱的,警惕随时可能发生的故障,不断强化数据安全,加强运维规范化,如何都不为过。


本文出自数据和云公众号,原文链接


相关文章
|
3天前
|
SQL 数据库
数据库数据恢复—sqlserver数据库分区空间不足导致故障的数据恢复案例
数据库数据恢复环境: 某品牌r520服务器,服务器中有7块SAS硬盘,这7块硬盘组建了一组2盘raid1阵列和一组5盘raid5阵列,raid1阵列存储空间安装操作系统,raid5阵列存储空间存放数据。服务器上部署sql server数据库,数据库存放在C盘。 数据库故障: 工作人员发现服务器的C盘容量即将耗尽,于是将sql server数据库路径指向D盘,在D盘生成了一个.ndf文件。一个多星期后,sql server数据库出现故障,连接失效,无法正常附加查询。
数据库数据恢复—sqlserver数据库分区空间不足导致故障的数据恢复案例
|
10天前
|
存储 运维 负载均衡
关系型数据库引入故障转移机制
【5月更文挑战第4天】关系型数据库引入故障转移机制
30 8
关系型数据库引入故障转移机制
|
10天前
|
JSON 自然语言处理 负载均衡
数据库-Elasticsearch进阶学习笔记(集群、故障、扩容、简繁体、拼音等)
数据库-Elasticsearch进阶学习笔记(集群、故障、扩容、简繁体、拼音等)
58 0
|
10天前
|
运维 Oracle 关系型数据库
服务器数据恢复-raid5故障导致上层oracle数据库故障的数据恢复案例
服务器数据恢复环境: 一台服务器中有一组由24块FC硬盘组建的raid5磁盘阵列,linux操作系统+ext3文件系统,服务器上层部署有oracle数据库。 服务器故障&检测: raid5阵列中有两块硬盘出现故障掉线,导致服务器上层卷无法挂载,oracle数据库无法正常使用。 通过管理后台查看服务器中硬盘的状态,显示有两块硬盘处于离线状态。
|
7月前
|
SQL Java 关系型数据库
JSP故障信息管理系统myeclipse开发sql数据库web结构计算机java编程
JSP 故障信息管理系统是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。
20 0
|
8月前
|
存储 Oracle 算法
数据库数据恢复-ORACLE数据库常见故障的数据恢复可能性分析
ORACLE数据库常见故障: 1、ORACLE数据库无法启动或无法正常工作。 2、ORACLE数据库ASM存储破坏。 3、ORACLE数据库数据文件丢失。 4、ORACLE数据库数据文件部分损坏。 5、ORACLE数据库DUMP文件损坏。
|
10月前
|
存储 运维 监控
分布式数据库HBase的重要机制和原理的宕机恢复和故障处理
HBase是一个分布式数据库系统,支持高可用性、高性能和高伸缩性。在分布式环境中,数据的分布式存储和管理是非常重要的。HBase通过分布式存储和管理数据来实现高可用性和高性能。同时,HBase还提供了一些重要的机制和原理来支持宕机恢复和故障处理。
334 1
|
11月前
|
Oracle 关系型数据库 网络安全
连接Oracle数据库失败(ORA-12514)故障排除
ORA-12514的故障是很多新手在连接Oracle数据库时经常遇到故障,它通常表示无法连接到数据库实例,这里姚远老师告诉大家如何排除这类故障。
4871 0
|
SQL 安全 数据库
故障解决:SQL Server数据库附加失败,错误3415、错误5120
本文为大家分享了SQL Server数据库附加失败的具体解决方法,供大家参考,具体内容如下
故障解决:SQL Server数据库附加失败,错误3415、错误5120
|
数据库
巧用iptables模拟数据库故障
巧用iptables模拟数据库故障