如何保障数据的生命
当然,有一些组织正在成功地应对数字化存档的挑战。
“大多数国家都存在数据保护的问题,”美国国家档案文件管理局负责数字记录档案方案的系统工程设计经理Dyung Le说。在他们那里,存档的磁带每10年就要复制一次,而国家档案馆的每份档案至少存有3份拷贝,其中至少有一份拷贝保存在档案馆之外的某地。据Le估计,档案馆管理着超过400TB的数据。

▲
美国国家档案馆内景
由于谁都无法知道电脑程序究竟能使用几个世纪,所以很多文字材料一般都要转换成XML格式,后者是基于ASCII码的。各种格式的元数据保存在文件中,包含可用于搜索辅助手段的描述性数据。Le称,存储元数据的XML文件使用的是一种PREMIS(保存原数据实施战略)扩展,后者也是一种基于XML和ASCII的数据保存标准,由图书馆联机计算机中心创建。
但是Le称,对于非文字数据,目前还不存在类似XML的媒介格式。因此,需要存档的组织所能做的最好的办法就是要记住,档案存储在何种介质上,最终计划将档案转移到何种介质上,而不用去管某种存储格式会不会在未来占据支配地位。而且所有这一切必须在原始介质还能使用时进行系统转换。换句话说,组织必须对未来会使用何种存储格式做出最好的猜想,然后在原始介质还能使用时进行转换。
档案管理员还必须能够证明所收藏的档案材料是可靠的拷贝,也就是说要为每份文件创建一个哈希锁(Hash key);该哈希锁须跟着文件一起移动。而提供拷贝时,档案管理员还必须证明文件的格式参数没有发生变化,否则档案的意义就有可能发生了变化。为此,有时候文本必须以其原始格式保存,因为格式对于文件的意义来说是最基本的,Le补充说。
美国的其他政府机构、各州的档案馆和图书馆,有时候还有私人的图书馆等,都面临着数字化内容的保存问题。LeFurgy说,对于它们来说,国会图书馆已经树立了一个标杆,该馆在国会的指导下已经建立了国家数字信息基础设施与保存计划(NDIIPP)。
NDIIPP的官员正在与大约170个参与单位合作,这些参与单位包括贸易组织和外国政府机构,已经发表了一份工具目录,并在DigitalPreservation.gov网站上开展了各项服务。