超融合架构：主数据存储使命之外-阿里云开发者社区

在主站点上实现的数据存储与工作负载广为人知——而与之对应二级站点则并非如此。也正因此，近年以来二级站点相比主站点，在体系结构方面发展甚缓。

按照惯例，数据存储的主站点与应用程序直接读写、交互数据;工作负载的主站点上则负责程序运行，但并不一定用于支持最终用户。一级或二级应用程序(如ERP、CRM、Microsoft Exchange与SQL Server等)往往都被视为主站点上关键应用程序。在二级站点上，我们一般只会想到数据保护、归档、复制、重复数据删除、压缩、加密、分析报表以及二级应用的测试和开发，这些应用需要使用到那些在主站点中产生，并在二级站点存储的数据。

不过，今天在二级站点领域发生着翻天覆地的变化，其中充斥着各种晦涩而混乱的概念，大量的供应商通常只针对解决某个单一的问题。事实上，直到最近业内才开始从一种统一的视角来观察以往这些形态各异的，位于二级站点的应用和数据。

这些定义并非明晰确凿的：虽然这听上去有些奇怪——存储与应用究竟是在主站点还是二级站点上，其边界相当模糊。我们就此展开全文。

从主站点上着手

现在数据的二级存储像主存储那样，正在开始经历一种结构性的转变。我们首先总结归纳出在主存储端所发生的事，因为这同样适用于这场在二级存储上展开的变革。

烟囱式的主存储带来了相当大的混乱，对成本、时间效率以及应用程序性能所造成的影响数不甚数。所幸的是，我们已经看到了虚拟化技术应用、横向扩展、融合，以及最近才出现的超融合所带来的诸多改善。

虚拟化技术抽象了计算资源，改变了我们提供和管理硬件资源的方式。融合则以集成的方式将计算、存储、网络与虚拟化相结合，使得基础架构更易于购买、交付和管理。超级融合从本质上将计算、存储和存储网络(SAN、NAS)融合到一个单一的实体和横向扩展的架构之中，从而颠覆了整个行业。

由于超融合技术消除了IT行业在过往的三十年内一直想要解决的痛点，其成长与发展远未有结束。例如说，超融合可以减少或消除计算与存储资源在配置、微调、交付、管理以及仲裁方面的负载，并且很快会涉足到网络领域。

问题在于……

假如说超融合对数据存储和工作负载的主站点而言能带来如此多的收益，那么其能在二级存储方面发挥同样的作用吗? 虽然超融合有诸多创新，但上述问题的答案是，“不”。

从概念上看这样做似乎不难。我们应该应用超融合、横向扩展的文件系统、虚拟化、软件定义存储(SDS)等技术，令二级站点像主站点那样更具效能。

但这着实是一项艰巨的挑战。我们不禁开始思考是否有可能开发出一款包罗万象的产品来囊括所有二级站点上负载，而非各种功能的胡拼乱凑。

在解决这项难题之前，让我们先来描绘出这项新的体系结构所要达成的目标。

超融合二级存储

在Taneja集团内部，我们已经将这种新的体系结构定义为超融合二级存储。命名规则相当简单：这类产品应用超融合原则，并完全服务于二级站点的工作负载。

在开始阅读我们对这种全新超融合二级存储概念所做定义时，请注意，有些产品即使缺少某些特定的功能，但它们或许仍然会属于超融合二级存储这个范畴。其中的关键点在于，“产品的架构是否便于增加新的功能，而非从功能上完全进行重构?”目前市场上各供应商的产品没有完全符合上述定义：有一些较为接近而另一些则完全不同。所有这些都与主存储端的超融合技术发展完全一致。

另外，你还必须确定缺失的内容对你而言是否是至关重要的。这里所列出的是超融合二级存储所应涵盖的基本要求：

存储必须使用节点的体系结构，支持几近无限的“横向扩展”模式，事实上，“无限”意味着这种结构与当前的公有云相同;即，对于特定的应用集合，结构可以无限按需扩展，而不用担心性能下降或增加延迟的风险。

存储能够自动应对处理多项不同性能需求的工作负载而无需人工介入调整。使用在应用主站点的超融合架构原理在此同样适用。

软件定义是这类存储的核心，其使得控制层与数据层分离，从而令系统可以使用市场上绝大多数现有的硬件，摆脱被硬件锁定的风险;同样，其既可以在本地，亦可以运行于云端。

存储与公共云或私有云紧密集成。除了将数据发送到云端外，这还意味着能够在云端完成数据的管理与保护。其必须能够无缝得将云作为一个存储层。

存储可以应对处理当前或未来可能出现的所有二级站点的工作负载。在今天，这或许意味着数据保护、存档、灾难恢复、复制、数据迁移、重复数据删除、压缩加密、测试/开发以及复制数据管理(CDM)和分析。

存储至少能够支持多种混合的数据块、文件与对象协议，其中包括iSCSI、光纤通道、NFS、SMB和REST，并且能够在同一个存储池中储存所有的文件和对象。

存储完全基于策略。首先设置工作负载的策略，可能使用预定义的模板，然后系统管理整个数据生命周期和工作流程，包括启动和拆卸基础架构资源，而无需操作员参与介入。

存储具备的服务质量(QoS)控制。根据定义，许多二级应用程序要运行在基础架构，因此系统必须能够根据预设的策略自动分配资源，并且有适合的方案来确保其合规性。

存储可以和主站点的存储资源那样同时支持物理与虚拟的工作负载。

存储可以索引元数据与内容，具备构建定制化分析的能力，能够支持复杂的搜索功能，包括在文件中搜索数据的能力。检索的结果通过标准的API反馈给应用程序。

存储可以通过一个基于Web页面的管理控制平台，经由任意可以接入互联网的位置管理到整个二级基础架构——并根据客户需要设定全局命名空间。其能够和常见管理平台(例如VMware的vRealize Automation)相集成。

存储体系结构具备自我修复的能力，在发生故障时不需立即更换故障部件;可以应对多块磁盘与节电的故障;不会丧失灵活性与可用性;毋须进行数据迁移;且IT可以实时调整系统的弹性。

存储可以内设数据虚拟化策略，从而确保某个数据副本可用于多项应用程序的工作负载。

存储具备企业级安全性，包括后端的静态数据加密，以及活动数据的存取访问控制。同样，存储可选第三方的密钥管理器。

存储提供以秒和分钟测量的恢复点目标，具有瞬时恢复时间目标(不需要进行数据回算和重构)。

行业中存在着一种普遍的误解，即Hypervisor是实现超融合技术的先决条件。由于超融合技术首先使用在主站点并适用于虚拟工作负载，于是看似使用一项Hypervisor虚拟机管理程序必不可少。但随着行业向容器(container)技术转移，这种先决条件将逐渐消失。在二级站点上的情形同样如此。

正如你所看到的，上述这些将成为一项广泛的需求。我相信当前我们正处于这样一个时刻，即所有适合的技术都可以实现这种愿景。目前市场上的数款产品已经非常接近，而其他供应商在接下来的18个月内争相达成类似的目标，而另一方面，由于当前的架构设计，有些供应商或许永远无法做到。

超融合，准备好了么?

假如脱离一定的评估标准，想必会有不少的供应商声称他们的产品能够满足上述条件，但事实并非如此。那么，让我们来仔细看看市场上这些不同类别的超融合二级存储产品，以此了解更多。

在计算机科学领域，一项毋庸置疑的事实是：你的体系结构在设定以后，便决定了未来可以达成，或难以(有效)实现的目标。因此，对于大多数在几十年前便从事数据保护与数据复制产品的供应商而言，他们很难支持横向扩展的节点结构、虚拟化以及在过去五年出现的许多其它技术。

例如，假如某家供应商是CDM领域的专家，那么很可能他们要求受管理的数据副本必须要迁移到特定的数据库中。数据保护则可能是(也可能不是)该产品的组成部分(换句话说，可能需要第三方数据保护应用支持)，产品可能(也很可能)不支持横向扩展。

各家供应商所提供的分析技术水平层次不齐，其中大多数仍侧重于存储利用率与数据保护指标。当由某家供应商单独提供归档技术时，其很可能会形成信息孤岛。云集成或许只是单纯实现了数据传输功能。大多数重复数据删除产品只是：用于减少数据副本的专属设备。它们与同一(或不同)供应商提供的数据保护产品协同工作。横向扩展只适用于有限的一些供应商产品，远非市场上所有的方案。

与此同时，某些复制产品只能执行特定的功能，从而又造成某项单一功能的封闭性。大多数产品缺乏真正的QoS功能。虽然可能存在服务级别协议和基于策略的控制平台，但通常无法确定其合规性。经过设计，对象存储提供商可以具备横向扩展、单一命名空间、完全可靠安全的平台(借助纠删码)，但往往会缺乏完整的文件支持，并且难以支持上述所有二级站点的工作负载。

经由过去三十年的不断发展，今天支持二级站点的产品系列遍布各个领域。其中的绝大多数只是被设计完成单一的使命，从这点上讲这些产品做得不错。但是世界正在发生改变，单靠数据保护是远远不够的。我们必须重新思考和定义海量信息、消费数据、合规性、社交媒体、移动应用、云计算和大数据分析领域的保护与可用性的整理范例。

虽然从本质上去转变二十年前架构的产品很困难，但供应商们却在努力尝试，有时经由自己的开发团队，更多的则是借助合作伙伴。他们如何达成目标，或者如何达成目标，我们拭目以待。

今天有两家企业，他们的视角与本专栏所定义的最为接近。Cohesity满足了上述大多数的标准;Rubrik也较为接近，只是缺失了些许关键部分。 CDM领域的供应商，例如Actifio和Catalogic也有许多产品，很可能会弥补这些空缺。 IBM Spectrum Copy Data Management利用Spectrum Protect，并且(最有可能)将其与IBM Cloud Object Storage紧密集成，从而提供横向扩展功能。同时我们也不应该忘记，SimpliVity(最近被HPE所收购)以及Scale Computing曾公开展示在单个基础架构中为主存储和二级存储应用实现超融合的愿景。

在诸如亚马逊网络服务(Amazon Web Services)等公有云服务商的领导下，主数据存储端的改造业已在过去十年推动了整个行业的发展。我认为超融合技术直接来自于将公有云的理念应用于企业自行部署的基础设施。同时我还相信超融合技术会运用于数据中心内具有相同重要性的二级存储。在这方面的需求量甚至会更大，毕竟存储于二级存储中的数据占到了整体数据量的80%。

我们可以使得二级存储大放光彩，利用它实现更好的业务决策;同样，它也可能变成庞大而臃肿的数据堆栈。昨天的体系架构很难帮助我们带到前者。二级站点需要和主站点一样基于超融合技术。

作者：佚名

来源：51CTO

超融合架构：主数据存储使命之外

热门文章

最新文章

相关课程

相关电子书

相关实验场景