不要小看数据分类 它能帮你解决企业存储问题

简介:

企业存储的灵丹妙药是什么?这个“东西”能够影响到数据中心存储系统里的每个硬件和软件。这个终极的发现不仅仅局限在存储领域,而是对整个不断吞吐着数据的IT领域和所有的业务流程。

你也许会说,超融合基础设施(HCI)?有趣的回答,但这不过是数据中心这艘巨舰甲板的一种改进罢了。软件定义存储(SDS)?不,SDS看起来更像是一个关注点的转移,即不再强调硬件比任何其它东西更重要(但它主要还是由硬件供应商在销售,对吧?)。云存储? 算了吧,那不过是换了个地方存放你的数据。对象存储,这个正当红的存储阵列技术?

嗯,你越来越接近答案了。对象存储最酷的一点就是它支持扩展元数据的能力,而元数据是数据分类的基础。数据分类正是存储的终极灵药。

被忽视多年的数据分类

是的,是的,我承认我已经在好几个场合提到过数据分类这个话题,但要说服人们(和存储供应商)存储的革新不仅仅只是高性能闪存和大容量驱动器真的是不容易。如果你对正在读写的数据一无所知的话,那么延迟、吞吐量、IOPS,这一切都不重要了。

虽然数据分类的重要性得到了业界公认,但几十年来,大多数存储厂商对此所取得的进展寥寥,有的也只是些事后添加的小东西。这的确不太公平。还记得信息生命周期管理(ILM)吗?ILM致力于解决数据混乱无序的顽疾,但没过许久ILM便成了存储界的死亡之吻。让我们回到石器时代,当大型机充斥着世界,分层存储管理(HSM)曾是数据分类和管理的方法。但随着“新”存储架构和基础设施的出现,业界开始为满足容量、数据处理和保护的需求而孜孜不倦之后,所有这一切都被无情抛弃进了IT的垃圾堆。

但这实际上使数据得到了最好的保护,也使得我们现在做所有这些事情都更容易、更便宜,也做得更好。

从知道是什么到知道该做什么

还不够信服?让我们做个类比。假如你要对那个独立大壁橱进行一次春季大扫除,那里放着很多看起来不应该放在那里的东西。在打理这堆杂乱物件时,你在断了线的网球拍后边发现了一些东西。你接下来该对它们做什么?此时,你不知道要做什么,当然,因为我还没有告诉你那是什么“东西”。

它可能是从挂在上面的外套上松脱的一个按钮,或者是2009年VMworld大会的与会者徽章,抑或是一个已经丢失很久的彩票。你可能会把钮扣重新缝在外套上,丢掉那个徽章或者查看一下你是否是个获奖者,或者应该在法国南部购置不动产而不是在读我这篇文章。

事情就是这样,如果你知道是什么,你就会知道要做什么。数据也一样。

数据分类很关键,但还不是万能灵药

将数据分类,以便你知道一些关于它的基本事实,例如文件内有什么,为什么创建它,谁创建的,谁应该能看到它谁不应该等等,这一批不小的信息决定了数据该如何被处理和存放。如果它是公司的重要信息,你可能需要多次备份,加密并设置访问权限。如果它是公司圣诞派对的计划,可能就不需要太严格的措施。相比当前大多数文件系统所能提供关于某文件的相关信息,的确会让你茫然不知道该做什么。

信息生命周期管理之所以失败是因为它是一个额外步骤,事实上,是很多额外的步骤,需要大量的手动干预和关注。将数据分类这样的操作留给人类自己来完成,这样的设计注定要失败。但是如果能根据创建文件的应用程序,使用应用程序的人、该人所属的组、文件始发者的安全等级等一系列要素对分类进程自动化,则文件本身就包含了对它们进行下一步处置的的关键信息。

在以数据为中心的世界里,数据应该会说话。“对不起,你不能把我复制到云...嘿,是时候该把我做下归档了。 ...不,不要把我加到电子邮件附件里。”

大多数存储仍然不够聪明

当你考虑可靠的数据分类方法能够用于多少应用场景时,你可能会惊奇地发现,主要的存储供应商竟然都没有在这一领域发力。这也许并不奇怪,因为存储供应商们实际上很少把这些功能加到他们的产品里。然而,合规性、安全性和其他产品类别的供应商会以其他形式和格式提供这样的技术。

例如,我看过一个非常有用的文档,由数据安全供应商Digital Guardian发布的“数据分类权威指南”。是的,数据分类也是有效保护数据的关键。

虽然还有其它备选方案,但把所有数据分类的鸡蛋都放在一个供应商的篮子里,从而导致厂商锁定的问题还是带来了一些阻力。也许随着对象存储的风靡和更广泛的实现,它将激发存储供应商对元数据进行一定程度的标准化。这样一来,应用程序、操作系统和文件系统只需要一个简单的词汇表就能恰当地进行分类数据了。

本文转自d1net(转载)

目录
相关文章
|
9月前
|
存储 机器学习/深度学习 人工智能
大模型时代的存储趋势
从2022年下半年,大模型和AIGC这两个词变得极其火热,而GPU的市场也是一卡难求。对于这种迷乱和火热,让我想起了当年的比特币挖矿和IPFS。似乎世界一年一个新风口,比特币、元宇宙、NFT、AIGC,金钱永不眠,IT炒作永不停歇。 每一个新的风口出现,总有两拨势力在冲突,保守派不断探索业务的真实价值,通过价值投资试图证明这又是一个新的庞氏骗局;另一波则是来势汹汹,集结一切可团结的力量,证明新时代已经来临。对于这一个个的风口,AIGC和大模型似乎与前几年的风口不一样,让我们看到了一丝真正的未来科技,在这篇文章,我会分享我对大模型&AIGC的看法,以及从存储的视角思索,在大模型时代存储的趋势。
|
3月前
|
机器学习/深度学习 Python
网络训练需要的混合类型数据的组织方式
网络训练需要的混合类型数据的组织方式
|
9月前
|
存储 编译器 C语言
数据的存储--深度解剖数据在内存中的存储(上)
数据的存储--深度解剖数据在内存中的存储(上)
|
6月前
|
机器学习/深度学习 数据采集 搜索推荐
特征构造:从原始数据中创造出高效信息
特征构造:从原始数据中创造出高效信息
31 0
|
6月前
|
机器学习/深度学习 存储 算法
数据分类分级-结构化数据识别与分类的算法实践
本文分享了用九智汇数据分类分级产品开发过程中,对数据识别和数据分类中涉及的算法进行抽象、融合,以形成标准化产品所做的努力和积累的经验。当然,算法只是分类分级产品的一小部分,整个产品设计,工程实现,也是支撑标准化产品的关键,但是限于作者水平有限,本文只讨论算法相关的话题,欢迎大家关注公众号以了解更多信息。
89 1
|
9月前
|
存储 编译器 程序员
数据的存储--深度解剖数据在内存中的存储(下)
数据的存储--深度解剖数据在内存中的存储(下)
|
机器学习/深度学习 算法 数据处理
常见的降维技术比较:能否在不丢失信息的情况下降低数据维度
本文将比较各种降维技术在机器学习任务中对表格数据的有效性
227 0
常见的降维技术比较:能否在不丢失信息的情况下降低数据维度
|
存储 监控 安全
数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据
在大数据时代,企业首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到数据存储平台里面那么简单,更重要的是对数据进行分类、加工及管理。
数据人必知!认识数据“四种”分类“五大”价值,帮企业找到核心数据
|
存储 文件存储 对象存储
|
存储 Prometheus 分布式计算
对数据系统的分类做一个定义
对数据系统的分类做一个定义
99 0