国会图书馆本身已经存储了大约167TB的数字化内容,其中包括涉及全国大选的Web网站,以及像卡特里娜飓风等重大事件的信息。和国家档案馆一样,国会图书馆也对每份档案保存了多份拷贝,而且也在密切注意技术的发展以避免存储格式过时带来的损失,LeFurgy说。
由于持续不断的卫星观测,美国地质勘探局(USGS)每个月大概要增加50TB的数字档案,如今该局所管理的数字内容已高达4.5PB(以拷贝数量计算),USGS地球资源观察与科学中心的档案管理员John Faundeen说。

▲
该中心执行的也是三分拷贝的存储策略:第一份拷贝在线,第二份近线,第三份离线。地球资源观察与科学中心差不多每隔3到5年就要将数字内容向新的存储介质转移一次。它还根据日期追踪它所使用的所有存储介质,以避免出现厂商已不再支持的介质。Faundeen解释说,每隔一年,该中心就会对离线存储行业做一次研究,随时掌握市场都发生了哪些技术进步。
苦恼不堪的奥斯卡和图书馆
当清楚地认识到数字化数据并非一种永久性的存储媒介之后,电影业所遭遇的打击是非常严重的。在好莱坞采用数字技术之前,它主要依靠电影胶片来保存影片资料,在这种介质上保存的电影资料时间最长的已经超过一个世纪。美国电影艺术与科学学院的Maltz说,该学院2007年所做的一份研究发现,以胶片形式保存一部商业电影的长期成本为每年1059美元,而以数字格式保存的话,其成本是胶片的11倍,每年高达12514美元。
使用数字技术,“你必须每隔3到5年就得变换数据格式和存储介质,要不然你的数据就可能再也无法恢复了,”Maltz说。
该学院已经启动了数个项目以尝试解决这一问题。例如它开发了图像文件的互换格式和适用于电影工业的元数据标准。它还构建了一个实验性的数字保存系统。
数字化内容的临时性对于图书馆来说也是一个严重问题,斯坦福大学图书馆LOCKSS项目的负责人Vicky Reich说,不但所存储的内容有可能在一瞬间消失,而且好事者还有可能采取不正当手段篡改数字内容,而且不会留下任何作案证据。
“纸质图书馆的书籍和杂志虽然也会被人盗窃,”她说,但是由于印刷的出版物图书馆通常都会在全库中的多处保存多份副本,所以不太可能有谁能够一次行动就将某本书籍完全盗光。
LOCKSS项目在数字化方面采取了同样的分散化策略。参与该项目的各个图书馆(目前已有约200家,以大学图书馆为主)首先要有一台电脑专门从事存档项目;这台电脑必须具备互联网连接,至少要有2TB存储量,并配备开源的LOCKSS软件。然后每家图书馆从大约420家出版商那里获准进行出版物存档。然后再由这些专用电脑从容地下载资源以及复制等。图书馆的这些电脑相当于原始网站的代理,一旦原始网站无法工作,其他站点便可以提供替代服务。
LOCKSS系统中的电脑存储有相同的书籍正本,如有需要可以进行内容比较或者修复。但不做磁带备份,Reich解释说,这是因为各台电脑之间已经是在相互备份了。