技术篇:发挥磁盘管理优势
虚拟文件系统
如前文所述,在使用时,VTL可以被看作是一个机械磁带库,两者的工作流程可以完全一致。然而,这样做仅仅是对传统磁带库的模拟,还没有发挥磁盘在数据管理工作中的灵活性。因此,用户还希望VTL在数据管理中充分发挥类似在线设备那样的优势。虚拟文件系统便是这样一种技术。
众所周知,磁带是一种顺序的块级设备:一方面在数据读写方面都必须“顺序”到达指定位置才能操作;另一方面块级数据没有文件的概念,在恢复数据时只有完全恢复整盘磁带才能获得特定的文件。
虚拟文件系统通过一个NFS/CIFS界面可以把相同的文件列表作为一个虚拟文件系统展示出来。该文件系统甚至可以被安装用以读/写访问,允许用户立刻使用备份的文件系统从一文件系统备份即时恢复。虚拟文件系统的所有变化会被记录下来,并且以一种增量备份展现给备份软件。一旦真正的文件系统被恢复,可以使用备份软件将虚拟文件系统的改动恢复到原始卷。
如此一来,用户可以通过使用虚拟文件系统恢复特定的文件,而无须像传统恢复过程中那样恢复整盘虚拟磁带。
重复数据删除
重复数据删除技术同样利用了磁盘的管理优势。它主要应用在VTL中,因为在传统磁带中是无法实现重复数据删除的。企业战略集团创始人兼分析师Steve Duplessie说:“重复数据删除技术可能是存储行业最重要的一项新兴技术,这会让更多数据管理和保护目标变得更切实际”。
分析家们认为,异军突起的重复数据删除技术,将会改写存储行业的经济规则,实际存档的数据将会呈几何级别递减,大幅削减存储成本,借助于重复数据删除技术,用户的存档数据所占用的空间将会缩减为现在的5%.
ADIC近期以6300万美元收购来自于澳大利亚阿德莱德(Adelaide)的重复数据删除软件开发商Rocksoft Ltd.。该公司独家专利的重复数据删除软件技术,可自动搜索磁盘上保存的重复文件副本,并使用指向单一副本的指针替换掉其它重复副本;万一用户对重复副本的内容做了修改,那么,该软件将会自动为该文件创建一个可写入的拷贝。ADIC打算将其整合到PathLight VX虚拟磁带库和StorNext存档软件内。
在HDS最新发布的VTL产品中,采用了Diligent公司的ProtecTIER VT with HyperFactor重复数据删除技术。HDS称,该解决方案可以从根本上将物理存储需求降至原来的二十五分之一甚至更低。
近期, Sepaton公司宣布了其新一代的重复数据删除技术,以及实现该技术的应用软件DeltaStor.DeltaStor软件可以消除无变化的数据或复制的数据,从而使用户以很低的成本在线存储更多的数据,在不影响备份窗口的前提下实现高效的重复数据删除。
DeltaStor软件的核心是Sepaton内容已知的数据库。DeltaStor软件使用元数据标志数据对象之间的关系,并智能地做出处理决定。
数据收集
在数据收集阶段,软件通过比较进入的备份数据和先前的备份缩小需要进行分析数据的范围,使用“内容已知”数据库辨别它们之间可能的重复和相似数据。例如,如果名为同一个客户端中的 “ ootdocumentsabc.txt”文件在备份中存在两次,软件自动决定采取何种动作。如果进入的数据是已存在数据的修改版本,该数据就进入下一阶段(数据识别、数据比较)的处理流程以确定数据发生的具体变化;如果进入的数据和已存在数据完全相同,那么进入下一阶段对数据副本进行校验。另外的数据收集操作包括: 标志保存在不同位置(例如,不同的客户端、目录等)的相同对象副本。软件还为数据收集阶段发现的冗余数据对创建一工作列表,该表格用于数据识别和比较阶段进行进一步分析。
数据识别/数据比较
在数据识别/数据比较阶段,软件以字节为单位分析数据收集阶段标志出的相似数据对象。如果数据收集阶段创建的工作表表明需要进行数据识别,那么软件就会用 delta 差分算法确定备份组中的哪些数据是唯一的、哪些数据是重复的。
该算法可以有效地以字节为单位映射发生变化的数据,并且对数据对象内的偏移或者位置改变不敏感,所以,即使相关的对象之间发生明显的结构改变,该算法仍可以定位冗余的数据。
如果数据收集阶段从元数据级别认定备份组中的数据和前一个备份相同,那么在数据识别阶段将以字节为单位对数据进行比较。在该步骤中,软件调用数据比较器识别出数据发生变化的文件。
数据重组
数据识别/数据比较的结果被传递给数据重组过程,在该过程中数据被重新组装,放入临时的“保留磁带”中,新数据被保存,前一阶段被标出的重复数据被已存数据的指针替代。对备份软件而言,保留磁带和真正的磁带完全相同,只是存储在新磁带中的数据要远少于真正的磁带上存储的数据。从备份软件看来,数据是连续的并且也没有删除副本, 软件可以根据嵌入在文件系统中的指针读取重复数据的唯一一份副本。该过程的最终结果是产生一份经过重复数据删除的备份组视图。
可选的完整性检查
在实际删除所有的重复数据前,软件执行一次可选的检查,以保证数据100%的完整性。在本阶段中,软件通过将“保留磁带”(代表经过重复数据删除的数据)和原始数据进行比较验证其结构和整个数据内容。
空间回收
在空间回收阶段,软件从文件系统中删除冗余的数据,释放先前被占用的磁盘空间以备他用。保留磁带和原始的、没有经过重复数据删除的磁带交换位置(比如条码、槽位以及属性等),然后软件智能的释放重复的区块并将它们放回空闲空间池。经过这样的处理以后,所有其他需要存储空间的数据处理过程都可以重用先前被重复数据占用的空间。