登录 / 注册
IT168存储频道
IT168首页 > 存储 > 存储资讯 > 正文

DNA存储将投入商业运营 数据可保存千年

2017-11-29 11:16    it168网站 原创  作者: 谢涛 编辑: 谢涛

  【IT168 资讯】随着我们所存储的信息量(从物联网传感器数据到日志文件和照片)的持续增长,某些系统的容量已经无法满足存储需求。

  但对许多组织来说,缺乏容量可能并不是一个大问题:硬盘技术仍然在不断改进,世界上大部分数据依旧保存在磁盘上。我们尚未解决的存储问题是如何长久保存——这就是人造DNA上数据存储方面真正可能发光的领域。

  一个DNA片段可以存储几十兆字节的信息,不过更让人关注的是,数千年后其中的数据仍然可以读取,这很有意思。纸张和缩微胶片可以使用500年以上,但数字媒体甚至几十年都难以保存。在更高温度下进行的加速测试表明,如果DNA在10摄氏度下储存将保持可读性达2000年(如果冷冻时储存长达200万年);将其封装在二氧化硅球体中就会避免湿度对其产生影响。

DNA存储将投入商业运营 可保存数据千年

  存储格式也不会像数字存储一样可能过时。“我们总是对阅读DNA感兴趣,所以我们可以肯定,我们将来会有能力阅读它——因为如果我们不这样做,科学发展会停下脚步。” 微软研究院计算机体系结构高级研究员,华盛顿大学计算机科学与工程系副教授Karin Strauss说道。

  在实验室中,研究人员能够百分之百准确地编写和阅读文本,照片,视频和其他文件,去年微软从Twist Bioscience购买了1000万个DNA分子进行实验。但是,如何将这个研究转变成一个真正的存储系统,以及什么时候可以考虑将其放入数据中心呢?

  将数据存储在DNA中意味着将文件中的Bit转换成DNA中的四个碱基——将00映射到A,01映射到C,10映射到G,11映射到T——然后有序地合成具有这些碱基的DNA分子。读取时,需要将这些分子放入一个DNA测序仪,读出碱基序列,并将其转换回Bit。目前,这个过程中有一些步骤需要手动操作,Strauss解释说。

  “有一些软件可以完成第一步,把数据转换成碱基。下一步是制造分子。我们向Twist发送文件,他们将分子返回给我们,他们内部有一个自动化的过程,但他们仍然需要有人去除机器中的DNA,并将分子运送给我们。定序器都是自动的,我们把分子扔进去,它会吐出数据。然后我们有数据管道的其余部分来解码数据。“

  微软和Twist正在与华盛顿大学合作,将其变成一个完全自动化的系统。Strauss预测,最终的结果将是一个看起来像一个磁带库。她说,这取决于你需要多少并行性——你想要同时写入或读取多少数据——“这可能看起来会像数据中心里的几个机架”。

DNA存储将投入商业运营 可保存数据千年

  DNA本身就是非常小,通过在同一个硅胶外壳中封装多个文件可以节省更多的空间,可以通过化学分离DNA以获得您想要的文件。因为排序是一个批处理过程,所以你将会在同一个顺序控制器上读回多个文件。文件也编码在多个DNA序列上,所以序列聚集在一起得到完整的结果。每个分子上都有一个序列号。我们可以把它想象成编号组成一个大ZIP压缩文件的不同部分。

  阅读DNA会破坏它,但这是医疗和生物技术应用的需求。“当你测序DNA时,你不想重复使用它,你不想要污染物,就需要把所有的东西都扔掉,包括所有的试剂。”DNA可能会被回收,但是用标准的聚合酶链反应制备更多的拷贝可能更容易一些,这个方法已经被应用,以你有足够多的不同序列的副本;选择要复制的序列可以随机访问大文件的有序部分。

  这些副本可能会引入错误,所以系统内置了纠错功能。实际上,这就是从现在已经存储和解码的兆字节到要处理的数十兆字节的扩展。“我们正在设计这个系统,这让我们可以容忍更多的错误。我们会让这个过程更加平行,虽然在阅读和写作方面可能会变得不够完美,但是我们可以通过其他方式来补偿。我们可以控制序列来对数据进行编码,这样可以让我们更容易对其进行解码。“

  纠错的开销目前约为15% “这是非常易控的。服务器中的ECC(错误检查和纠正)投入是百分之12.5%,所以其实并不遥远。“

  DNA测序和合成的成本下降的速度比数字媒介更快,特别是考虑到你每五年到十年就需要重写一次磁带时。但是只有当你需要长时间存储数据时,它的优势才有存在的意义。云供应商将会感兴趣,但是某些运行他们自己的数据中心的组织也会有兴趣。

DNA存储将投入商业运营 可保存数据千年

  Strauss说:“工作负载的类型肯定是档案,至少起初是这样。我们的用户一般需要按照授权保存数据,比如医院和诊所,或者有合法数据,养老金数据。他们想要长时间保存数据,然后把它放在一边,而不是重复地读取。最后,这是你存储的位,我们可以存储任何类型的Bit。”

  目前阅读DNA的吞吐量并不高。在其两个系统中,一个在24小时内产生大约200万次读取(大部分读取在头几个小时内完成),而另一个更多的并行系统在24小时内提供大约4亿次读取。但是超高的密度意味着,如果您需要长距离发送数据,可以以非常低的成本获得出色的带宽,因为您可以在明信片大小的某个东西上存储EB级(百亿亿字节)的数据。

  “现在我们运送的是硬盘,未来可能就是DNA。卡车和飞机四处移送硬盘,有了DNA,可以很容易地复制发行,因为它的密度更高。

  Strauss表示我们可以很快看到DNA存储在市场上露面。 “我们认为将此系统投入商业运营有很好的前景,也已经有了规划。明年太早,十年太迟,应该介于两者之间。”

标签: dna , 存储 , 微软
  • IT168企业级IT168企业级
  • IT168文库IT168文库

扫一扫关注

行车视线文章推荐

首页 评论 返回顶部