还记得经典的科幻电视剧集《时光倒流七十年》吗?一个在剧中经常重复出现的主题就是时光倒流,回到从前,然后猜想如果没有发生某件事或者没有某个人物存在的话,世界将会是一番什么别样的景象。
我们也来做个相同的游戏,想想如果没有便宜的存储介质存在的话,今天的存储将会如何?换句话说,如果硬盘驱动器在过去的20年间没有经历容量的大规模提升和价格的大幅下跌,一切将会怎样?
当硬盘容量成为限制或者需要大量成本的时候,我们也许会更加注意数据管理。数据管理工作将会和现在大不相同,数据保存和数据净化的过程和能力将比现有的功能强大的多。对于企业来说,只有真实有用的数据需要保存,或许支持电子证供,满足法规遵从也就不算是一个挑战性的任务了。
现实的情况是,由于今天我们有大量廉价的硬盘空间,现在我们对于存储这件事已经乐此不疲了,拼命地把磁盘空间用各种各样的数据填满,在索引和分类等领域的应用也越来越多。
而由于受到法规遵从和控制数据运行成本的双重驱动,如今的企业都在努力更好地控制数据,虽然最初的尝试只是在电子邮件方面。
在企业试图进行数据控制和管理的时候,企业会发现由于牵扯到大量的无组织数据,实际操作过程中还存在大量风险,虽然我们也有可能大幅度降低存储这些数据所需要的容量规模。每一家企业都有大量的无组织的文件系统数据,其中有很多数据已经是历史久远的了,也可以说几乎没有什么存在的价值了。
但是我们该如何分辨这些没有价值的数据和一些关键的业务数据呢?为了对归档的电子邮件能够成功访问,厂商们提供了产品的增强版本可以重新部署文件数据到价格相对低廉的存储媒介上,并可以在需要的情况下能够随时访问得到数据。
不过,这种功能很大程度上是受元数据属性驱动的——文件类型,所有者,最后访问时间等等——而不取决于数据自身的价值,因此,只能解决一部分的问题。
基于实际内容而做的分类是常常会出问题的,但是满足数据真实性的需要非常重要。有些企业使用专门的文件管理程序,一本厚厚的使用手册将十分有效,但是这种程序一般都价格不菲而且很复杂。过去的几年间,也有一些面世的产品是基于内容的对无组织数据的索引和分类。经过了发展成熟的过程,人们现在开始高度关注这些技术,特别是在那些对于法规遵从有严格要求的环境中。
无组织数据的全面管理实际上需要以下三个方面的有机结合:用户的标签和分类,索引和自动内容分类,以及基于元数据的重定位。虽然这三个方面所占的比例由于企业需求的不同也会有所不同,我们要明确的是无组织数据的问题不能再被人们所忽略了。
抛弃大量的无价值的、无条例的无组织数据,保留和控制最为关键的业务数据,将成为我们的下一项挑战。