【IT168 编译】说到人工智能、深度学习,大家总会第一时间想到算法和模型,再然后就是最根本的、提供动力源的数据。由于人工智能技术的飞速进步与广泛应用,我们对待数据的方式已从收集为主转变为以获取信息为主。
如果你不把存储的数据转化为可用的信息,那么这些数据——狭隘点说——就只是一堆字节而已。而完成这个转化的过程之前,有时也需要多年时间来收集足够的数据,比如医学方面新工艺、药物或设备的试验;基于不常发生的外部因素的群体行为;气候变化。
首先,数据保存的重要性无法否认
关于数据,有一句很拗口的话,你不知道什么是你不知道的。有个很好的例子:“垃圾DNA”。这一术语是20世纪70年代某遗传学家发明的,用来表示基因组中95%—98%的不编译任何蛋白质或酶的DNA。当时的生物学家认为,既然几乎所有具体的生理机能都要蛋白质来完成,那么不编码蛋白质的DNA应该是没有用的,可以称为“垃圾DNA”。到本世纪初,人们发现一些垃圾DNA其实调控着染色体的复制方式和时间。
对于当时的人们来说,存储数据的成本是很高的。当然DNA测序的成本更大,这也是当初人们要保留垃圾DNA数据的原因之一。收集数据的成本很高,存储数据的成本也很高,正是因此,我们要更加感谢那些在我们之前做出正确事情的人。他们顶着成本压力储存了这些旧的数据,让我们有机会从中发现更多信息。
我们知道,一些天气预报中心每天都会保存所有收集到的数据,包括其预报模型的输出。当这些网站有一个新的预测模型时,他们通过新的模型运行旧的数据,查看模型的输出和观察,看看新模型是否比旧模型更好,以及有多好。对于一个城市来说,这个工作似乎很容易,但对整个地球来说,是大量的数据和信息比较。
因此,存储和数据架构师面临的挑战往往是如何通过开发满足性能、可伸缩性和治理需求的架构来保存这些数据。
由数据收集向信息挖掘的转变
从有数据收集开始,其唯一目的就是要使所收集的所有数据都有实际意义。手工进行数据收集和分析非常耗时,将数据转换为信息也既费时又费钱。
信息时代始于1890年美国人口普查时何勒内斯打孔卡片的使用,尽管它们是空白的,但与你见过的格式化卡片不同。这里的关键问题是,在1890年以前虽然有大量的数据,但并没有工具来进行分析,而且将其转化为信息的成本很高。
很明显,在1890年的人口普查中产生的信息在今天的标准下是非常基础性的。但按照19世纪90年代的标准,却是革命性的。通过这个办法,人们能够非常迅速地查看人口普查的结果并做出决定(例如,基于数据的可操作的信息)。
到了今天,我们已经不再把1890年人口普查数据的表格化称为信息。信息的定义——与数据相比——应该基于当代的标准,同样的,许多其他领域中的某些定义也在发生变革。
信息分析市场的规模和范围在不断扩大,从自动驾驶汽车到安全摄像头分析再到医疗发展。在每一个行业,在我们生活的每一个角落,都有快速的变化,并且变化的速度也正在增加。所有这些都是数据驱动的,所有收集的新旧数据都被用来开发新的可用信息类型。围绕数据收集与信息发展的需求,有很多问题也因此浮现。
除保持数据活性外,合规性同样重要
许多需求基于你所拥有的信息和数据类型。例如,一些可能涉及使用所谓DAR(Data Encryption at Rest,空闲时数据加密),它会对存储设备进行加密,这样如果从系统中删除,数据几乎是完全不可能访问的。(其困难程度取决于加密算法和大小、复杂性等)。我们可以将这种类型的需求归纳为“可操作性需求”,即数据在发挥价值的整个过程中会对架构、设备等产生的硬性需求,以确保满足业务运行所需的性能、可用性和数据完整性,为保持数据和信息的活性,所有这些问题都需要得到解决。
除此之外,你的数据或信息也应该基于你所在行业的非常好的实践或地区的法规条例,如最近欧盟出台的GDPR(通用数据保护条例)。也就是说,你对数据的使用需要始终保持合规性。由此产生的体系结构或过程方面的变化,也是需要架构师来处理的一类重要事务。
最后的想法
要做到合规并不容易,而且也不便宜。决定其成本的因素有很多,但是在计划和搭建好体系架构之后试图强制遵从,总是比事前做的代价要高。
笔者认为,在定义合规性需求时,你应该着眼于未来,而不是只看现在,因为事后硬塞东西的成本和挑战会更多。这意味着,我们需要不断地研究行业中的合规性需求,以及非常好的实践。数据在未来只会变得更加重要,我们始终会面对挑战,何不先定好应对方案。