萧箫 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI
如何把一全版《绿野仙踪》,存到纳米的DNA里?
如今,得克萨斯州高校奥斯汀校区的专家保证了。
她们开辟了一套新的DNA数据编号和解码方式,不但十分高效率,还能够长期性储存数据。
最重要的提升取决于,准确度也十分高。
DNA技术性近几年来往往遭受关心,是由于它具备不容忽视的发展潜力:存储密度大。
比如,一个鞋盒、纸盒可装下的全部DNA,得以储存一百个大中型数据管理中心的全部数据。
但此项技术性除开价格昂贵,也有个较大 的难题:错误率高。
仅是插进和删掉二种错误,就占有DNA合成错误的50%之上。
而这套新的DNA数据编解码方式,专业对于DNA合成错误开展修补,促使数据在被储存后,还能完好无损的被获取出去。(文尾附毕业论文连接)
一起来看一下这类方式的表达效果。
DNA合成:两大短板
成本费价格昂贵
实际上,微软公司在2017年就早已运用DNA存储系统完成了约200MB数据的储存,包含《战争与和平》等。
做为一种优质的移动存储设备,DNA不但能完成高些的存储密度,并且还具备优良的使用性能,四十万年以前的远古人类遗传基因也可以被复建。
假如相反,要想将数据储存在DNA中,基础方式便是将0和1变换为4种多肽链(碱基组成的编码序列)。
但是,尽管微软公司没发布200MB数据合成的成本费,那时候每一个碱基的价钱一般在0.7元上下。
而200MB数据的储存,用了大概10亿个碱基……
这般价格昂贵的DNA合成价钱,却只有储存200MB的数据,比较之下,几百块的电脑硬盘它不香吗?
但是,成本费至少会随技术性发展趋势降低,最重要的难题,還是DNA合成的错误率高。
错误率高
在DNA合成全过程中,存有更换、插进与删掉三种普遍的错误。
讨论一下这3种错误造成的方法。
在DNA复制全过程中,假如在其中一条链「手滑」了,便会造成插进和删掉错误。
插进:下面的图左,因为子链在拷贝全过程中「拖动」了一下,本来早已合进子链的腺嘌呤(A)被拱了起來,造成原先的部位上多了一个腺嘌呤(A);
删掉:下面的图右,因为母链在拷贝全过程中「拖动」了一下,造成一个胸腺嘧啶(T)还没有被拷贝就被绕过了,子链上少了个腺嘌呤(A)。
下面的图是一种更换错误,DNA里将胞嘧啶(C)换成了胸腺嘧啶(T)。
而依据统计分析,在DNA合成会出現的错误中,插进和删掉的错误占有了57%。
过去尽管也是有对于DNA合成的改错方法,但高效率不高。
喜讯是,如今专家科学研究出了一种新的编解码方法HEDGES,全称Hash Encoded, Decoded by Greedy Exhaustive Search,能够 更高效率地将数据合入DNA,或取下来。
HEDGES高效率改错
下面的图是在解码时,传统式改错方法和HEDGES改错方法的比照。
在其中,鲜红色一部分是产生更换、插进或删掉错误的地区,深蓝色一部分是恰当编码序列。
从图上由此可见,传统式DNA合成在解码改错时,必须对一条链开展数次合成,随后开展核对,得到准确率高的恰当碱基对,进而减少错误率。
但HEDGES只必须开展一次载入,就能将产生缺少、删掉和更换错误的地区改正回来,并得到恰当的信息内容。
这类高效率改错的工作能力,与HEDGES编解码的方法紧密联系。
HEDGES编解码根据的是一种全自动加密技术,这类优化算法古时候战争中很普遍:
假定一方要传送「黎明曙光时攻击」的密文,如今彼此己知关键字是「QUEENLY」,那麼密匙便是「QUEENLY 密文」,数据加密时,用维吉尼亚登陆密码把「密文 密匙」译成保密。
随后,另一方只必须把握“QUEENLY”和保密,就能将密文破译出来。
但是,这类优化算法用以DNA编号时,会出現数据冗余的状况,比如,在半速度编号(每一个多肽链编号1比特犬数据)时,假如键入1比特犬数据,则会輸出2比特犬的数据量。
接下去,选用hash算法,融合数据自身、数据所属DNA链的ID和此前数据,做下「电子签名」,就能确保数据传送的安全系数,如下图。
而DNA开展解码的全过程,事实上类似全自动加密技术的破解全过程,将全部合成全过程中很有可能出現的「错误」标出来,一一开展清查。
解码中会出現删掉、插进的错误,下面的图就出現了插进错误。
此刻,历经hash算法数据加密的「电子签名」,能够 清除掉有误的解码假定。
比如,包括数据所属链的ID一部分,在解码时,假如发觉解码得到的链ID与「电子签名」包括的ID信息内容不一致,这一系列错误假定便会立即被「处理掉」。
那样,就能改正在解码全过程中出現的插进和删掉的错误。
自然,这仅仅数据编解码的全过程,此外,精英团队在外界储存方法上也设计方案了新方式。
最先,键入的多种类型的数据信息内容会被转化成特殊数据储存文件格式,随后根据一种名叫RS(Reed–Solomon)的外界方法,开展根据DNA的储存。
这类类似「直线」一样的储存方法,促使合成全过程中造成的错误能更匀称地遍布,并被精确测量出去,提升了改错特性。
更是根据这类编解码方式,精英团队取得成功完成了《绿野仙踪》的DNA数据储存、讲解。
結果耐高温平稳
从結果看来,总体错误率基础只有1%,并且在溫度化学诱变的状况下,历经2钟头和8钟头,错误率升高基础在0.1%上下,十分平稳。
而从总体数据看来,选用HEDGES开展编号,在编号率低于0.2、每一个多肽链错误几率Perr低于0.01的情况下,错误率理论上能靠近0。
看上去,DNA数据储存,将来或许真能替代电脑硬盘。
作者介绍
毕业论文一作是William H. Press,英国我国工程院院士,1948年出世,毕业于美国哈佛大学,并于1974年在加州理工大学获得博士研究生。
Press专家教授曾在美国哈佛大学执教天文学物理20多年,在广义相对论和天体物理学层面都有所建树。自2012年后,在得克萨斯州高校奥斯汀校区执教,现阶段是电子信息科学和合成分子生物学的专家教授。
毕业论文连接:https://www.pnas.org/content/pnas/early/2020/07/15/2004821117.full.pdf
参照连接:https://www.popularmechanics.com/science/a33327626/scientists-encoded-wizard-of-oz-in-dna/https://spectrum.ieee.org/nanoclast/semiconductors/memory/dna-data-storage-method-sets-standard-for-highdensity-data-futurehttps://en.wikipedia.org/wiki/William_H._Press