安诺云联合阿里云国内首推批量计算,助力三代Canu组装加速

简介: 随着测序技术的不断发展,大量基因组学数据被积累,对于数据分析软件的要求也越来越高,尤其是在做基因组组装分析时,软件的计算资料消耗和分析周期往往是研究者不得不考虑的问题。Canu[1]是一款目前广泛使用的三代基因组组装软件,文章发表短短两年时间,引用的次数已接近1000次,其中不乏顶级的CNS期刊。

Canu软件同时适用于PacBio SMRT与纳米孔测序两款主流的单分子测序平台的数据,可以执行reads的纠错与组装部分的工作。Canu在做组装时,可获得更为准确的片段,其组装的准确性也是非常突出的[2]。

image.png

Dot plots of the evaluated assemblies of P. falciparum[2]


注:组装结果的共线性评价,横坐标与纵坐标分别是参考基因组序列与各组装软件组装的基因组序列,共线性呈现对角线排布认为共线性较好

可以说Canu软件是非常受基因组学研究者所认可的一个工具,其组装质量好,Contig N50也具备竞争力,但也有一个致命缺陷:计算资源消耗太大,周期较长。相比于节点资源的Wtdbg2软件[3],Canu的资源消耗大约是数十倍甚至百倍的提升,而且随着基因组测序数据量的增加,会愈发明显。

Canu、FALCON、Wtdbg2组装实例比较


image.png

阿里云批量计算团队对Canu软件进行了算法优化和调度优化,使用著名基因组学研究机构Broad Institute开发的流程编排语言Workflow Description Language(WDL)对Canu的调度重新进行了组织,提供WDL-Canu解决方案。首先,在不改变计算结果的前提下将Canu软件进行了计算的优化,在相同配置的计算资源上使得纯计算核时大幅缩减,同时后端改用cromwell工作流引擎解析Canu工作流,用阿里云批量计算弹性伸缩集群替代传统HPC后端,根据Canu全流程中的不同任务启动适配任务需求的弹性伸缩集群,极大提高资源使用率,并且相比于传统的固定HPC集群提供更大的弹性资源池,显著缩短总运算时间。

image.png

目前安诺优达已经部署了阿里云批量计算WDL-Canu应用,并进行了实际项目的运行测试,得益于阿里云批量计算团队的算法改写与阿里云服务,有效地解决了周期长这一难题。

批量计算Canu的周期与组装效果

image.png

注:原版Canu指官方1.8版本

通过阿里云批量计算的加速,不仅将周期成功的压缩了50%以上,而且基因组的组装质量也完全保持了原版Canu的特性,contig N50高达31 Mb,BUSCO评估为94.3%,表明基因组组装的连续性和完整性都非常好。

目前安诺已经推出基于阿里云批量计算的WDL-Canu组装服务,对于超过20 Gb的大型基因组组装,也有望在一至两周内完成,未来大型基因组的组装质量与长周期之痛,将不再是困扰。

目录
相关文章
|
对象存储 文件存储 存储
阿里云批量计算怎么在控制台提交和管理作业?
阿里云批量计算(BatchCompute)是一种适用于大规模并行批处理作业的分布式云服务。 用户可以提交一个任意的计算机程序,让它在阿里云的多个 VM 实例上同时运行,然后把结果写入到指定的持久化存储位置(如阿里云对象存储 OSS 或者文件存储 NAS)。
1480 0
|
人工智能
阿里云全球首推流量型独享虚拟主机新规格,网络访问速度最高提升400%
近日,为了提升用户网站访问体验,阿里云虚拟主机宣布推出流量型独享虚拟主机新规格,流量型独享虚拟主机新规格可以提供高速流量包,提高访问速度。在高速流量包用尽后,网站也不会关停,可自动降为低带宽模式,保证网站一直在线。
2180 0
阿里云批量计算推出预付费模式,最高节省用户60%成本
近日,阿里云批量计算推出预付费模式,适用于有稳定长期计算量需求的批量计算客户,用户通过包月方式创建集群,可以降低计算资源成本。
1592 0
|
安全
阿里云市场联合犀思云开启云V认证 首推“严选”模式企业采购更安心
12月20日,2017云栖大会·北京峰会上,阿里云市场联合犀思云开启企业“云V”认证。今后,具有正规资质、服务评价高、无投诉记录、产品部署在阿里云上的云市场服务商,均可申请开启“云V”认证,用户也可以快速筛选出更安全、更放心的商品和服务。
2617 0
|
算法 vr&ar 开发工具
阿里云首推免费人脸识别SDK 让每个APP轻松拥有短视频AR特效
早在今年五月,阿里云已经推出了短视频解决方案。近日,阿里云再次率先颠覆行业,在业内首推免费的人脸识别SDK,结合其原有的短视频能力,大大降低了人脸识别+AR特效+短视频的入行门槛。
11216 0
阿里云首推免费人脸识别SDK  让每个APP轻松拥有短视频AR特效
|
编解码
突破媒体转码效率壁垒 阿里云首推倍速转码
阿里云倍速转码技术依托于强大的云计算基础能力,大幅度提升转码速度,非常适用于音视频网站、新闻资讯、热门影视剧首发等多种场景。
3997 0
|
新零售 编解码 开发工具
阿里云首推音乐变速短视频SDK,上线抖音 freestyle只需1步
近期,阿里云短视频SDK更新了V3.3版本,增加了时下热门的实时混音和变速录制功能,这就是前文提到的抖音的核心玩法,也是现在C端年轻用户的主流偏好。
8461 0
|
安全 大数据
华栖云与阿里云首推“云上电视台”,可实现内容云端一站式制作
    5月23日,在云栖大会·成都峰会上,华栖云联合阿里云发布“云上电视台”解决方案,面向电视台新媒体部门,面向视频PGC/UGC,在公共云上、一站式提供从直播、点播、短视频的生产、制作、发布到用户数据存留分析、精准推送、视频内容的生命周期管理等全套的解决方案。
2237 0
|
人工智能 物联网 云计算
阿里云联合英特尔国内首推Skylake版云计算产品
2月20日,阿里云宣布云服务器ECS实例新成员——N5规格族启动公测。这是一款各行各业都可以采用的通用型实例,基于阿里定制版英特尔Xeon Skylake 处理器,以及阿里云对软硬件的深度优化,新产品单实例性能上限大幅度提升。
5679 0

热门文章

最新文章