Hadoop分布式文件系统模拟桩HDFS_MOCK

简介:

简介 
Hdfs_mock属于单测工具,如果c/c++模块以API方式访问hdfs(相对于脚本模块会使用客户端方式),那么有了hdfs_mock就可以在没有真实hdfs情况下,协助进行手工或自动化测试。 
背景
在linkcache模块单元测试(持续集成)时,遇到了一个问题:该模块会以API方式进行hdfs上文件的增删改查等操作,先不说搭建hdfs是一件费时费力得不尝试的事情,即使在单测阶段能够采用搭建真实环境进行测试,仍然存在以下弊端: 
• 异常测试:hdfs异常情况难于模拟,导致测试覆盖不全面 
• 执行时间:访问真实hdfs,自动化测试执行时间难以保证,给快速持续集成带来挑战 
• 环境维护:为了支持持久、频繁的持续集成测试,hdfs环境需要始终维持不能变动 
• 环境独立:hdfs环境需要与其他测试模块隔离,才能避免相互影响 
思路
分析模块执行过程后发现,c/c++模块在使用API访问hdfs时,采用共享对象so的方式实现。编译时包含标准hdfs.h头文件,运行时查找libhdfs.so中API的实现来完成hdfs访问过程。基于以上分析,设计开发了单测工具hdfs_mock用以替代libhdfs.so,其具有以下特点: 
• 异常测试:支持从外部设置hdfs内部状态,能够构造各种异常情况进行测试 
• 执行时间:内部以本地文件系统方式实现,无网络通信代价,执行速度快 
• 环境维护:因为mock so动态加载,所以使用方面直接拷贝本so即可,易于使用维护 
• 环境独立:本地按照hdfs主机名分子目录独立维护数据,彼此间不受影响 
• 其他:支持标准hdfs API(linkcache使用的10个API函数) 
设计
在没有使用hdfs_mock时的测试过程如下图所示: 
apache提供的标准hdfs API包含hdfs.h和hdfs.c,编译后生成libhdfs.so。 
rd开发linkcache部分代码(HdfsFile.h/HdfsFile.cpp)依赖需要include hdfs.h,在libhdfs.so存在时编译生成libfile.so;运行时以动态方式加载并调用执行libhdfs.so中的代码,输出结果result 
qa开发测试代码test_HdfsFile.cpp依赖rd代码,在libfile.so存在时编译生成test_HdfsFile程序,执行该测试程序时,同样以动态方式加载并调用执行libfile.so中代码,根据测试结果输出测试报告Test result 
• hdfsmock_old.JPG: 
 



在使用hdfs_mock后的测试过程如下图所示: 
设计开发了hdfs_mock(hdfs_mock.h/hdfs_mock.cpp),include了apache标准hdfs.h以使得接口报纸一致,编译后生成libhdfs.so(图中黄色方框)。其余步骤不变,唯一区别在于,测试执行时,libfile.so所动态加载并调用执行的hdfs API改成了hdfs_mock中的实现了。在hdfs_mock中使用本地文件系统访问替代了hdfs访问以达到模拟API的效果;此外在运行时,也可根据需要在test_HdfsFile中直接调用mock的libhdfs.so中方法来达到设置测试环境(状态、数据)的目的。 
• hdfsmock.JPG: 
 



使用方式
下面是一个简单使用的例子,配置hdfs为正常状态,然后调用被测函数HDFSSystem::Init链接hdfs成功 
QA_TEST_HDFS_MOCK::QA_TEST_HDFS_MOCK* mock = QA_TEST_HDFS_MOCK::getInstance();
mock->resetStat();
mock->_M_stat = QS_TEST_HDFS_STAT_OK;
ASSERT_TRUE(HDFSSystem::Init("yx-namenode-v.yx01.baidu.com",64310,"anchorchecker","**"));
下面的简单跟上例是一组,只是配置hdfs为异常状态,然后调用被测函数HDFSSystem::Init链接hdfs失败 
QA_TEST_HDFS_MOCK::QA_TEST_HDFS_MOCK* mock = QA_TEST_HDFS_MOCK::getInstance();
mock->resetStat();
mock->_M_stat = QS_TEST_HDFS_STAT_SHUTDOWN;
ASSERT_FALSE(HDFSSystem::Init("yx-namenode-v.yx01.baidu.com",64310,"anchorchecker","**"));
下面是稍微复杂一点的例子,首先调用hdfs_mock的createHdfsFile接口,在hdfs_mock上模拟建立testfile文件,内容为给定buf开始的NUM个字节,然后构造HdfsFile对象Open打开testfile文件,最后是调用被测函数hf->Read()读取文件内容与标准数据进行比较 
// 构造测试环境
uint32_t NUM = 1024U;
char* buf = createNumChar(NUM);
QA_TEST_HDFS_MOCK::QA_TEST_HDFS_MOCK* mock = QA_TEST_HDFS_MOCK::getInstance();
mock->createHdfsFile("db-testing-ps7002.db01", "./home/spider/testdir/testfile", buf, NUM); // hdfs_mock提供的辅助接口

// 构造被测对象
const string fp("hdfs@db-testing-ps7002.db01/home/spider/testdir/testfile");
HdfsFile* hf = new HdfsFile(fp);
hf->Open(O_RDONLY);

// 调用被测函数
char rcvBuf[4096];
ASSERT_EQ((ssize_t)NUM, hf->Read(rcvBuf, 4096));

// 测试结果检查
ASSERT_STREQ(buf, rcvBuf);

(作者:shaanlan) 














本文转自百度技术51CTO博客,原文链接:http://blog.51cto.com/baidutech/743335,如需转载请自行联系原作者

相关文章
|
27天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
27天前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
74 2
|
15天前
|
存储 分布式计算 Hadoop
基于Hadoop分布式数据库HBase1.0部署及使用
基于Hadoop分布式数据库HBase1.0部署及使用
|
23天前
|
存储 分布式计算 Hadoop
[绝对要收藏]配置hadoop完全分布式环境
[绝对要收藏]配置hadoop完全分布式环境
23 0
|
25天前
|
分布式计算 Hadoop 测试技术
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
【4月更文挑战第5天】Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
44 8
|
25天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
53 9
|
26天前
|
存储 运维 分布式计算
面经:HDFS分布式文件系统原理与故障排查
【4月更文挑战第10天】本文深入剖析了HDFS的底层原理和面试重点,包括HDFS的架构(NameNode、DataNode、Secondary NameNode)、文件读写流程、高级特性(快照、Erasure Coding、Federation、High Availability)以及故障排查方法。通过HDFS Shell命令示例,加强理解,并对比了HDFS与其他分布式文件系统的优缺点。掌握这些知识将有助于求职者在面试中脱颖而出,应对HDFS相关技术考察。
34 3
|
26天前
|
分布式计算 Hadoop Shell
Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第4天】Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
32 5
|
12天前
|
NoSQL Java 关系型数据库
【Redis系列笔记】分布式锁
分布式锁:满足分布式系统或集群模式下多进程可见并且互斥的锁。 分布式锁的核心思想就是让大家都使用同一把锁,只要大家使用的是同一把锁,那么我们就能锁住线程,不让线程进行,让程序串行执行,这就是分布式锁的核心思路
109 2
|
7天前
|
监控 NoSQL 算法
探秘Redis分布式锁:实战与注意事项
本文介绍了Redis分区容错中的分布式锁概念,包括利用Watch实现乐观锁和使用setnx防止库存超卖。乐观锁通过Watch命令监控键值变化,在事务中执行修改,若键值被改变则事务失败。Java代码示例展示了具体实现。setnx命令用于库存操作,确保无超卖,通过设置锁并检查库存来更新。文章还讨论了分布式锁存在的问题,如客户端阻塞、时钟漂移和单点故障,并提出了RedLock算法来提高可靠性。Redisson作为生产环境的分布式锁实现,提供了可重入锁、读写锁等高级功能。最后,文章对比了Redis、Zookeeper和etcd的分布式锁特性。
59 16
探秘Redis分布式锁:实战与注意事项

热门文章

最新文章

相关实验场景

更多