快捷搜索:

企业为AI平台选择存储设备之前 必须首先考虑以

人工智能(AI)和机械进修将成为赞助企业使用其核心数字资产创造竞争上风的很紧张对象之一。但在选购AI数据存储设备之前,企业必须斟酌机械进修平台在获取、处置惩罚和保留数据时的一系列需求。

我们首先必要钻研一下机械进修软件应用的数据的生命周期,由于这有助于企业理解在为AI选择存储时应该斟酌哪些身分。最开始的时刻,企业必须获取大年夜量的数据来练习机械进修或AI算法。AI软件对象经由过程处置惩罚数据来进修义务,如识别某个工具、处置惩罚视频和跟踪运动。数据可以从各类各样的源天生,并且本色上长短布局化的,比如工具和文件。

在练习或开拓AI算法时,能够经由过程对数据的处置惩罚开拓一个模型,为企业供给所需的洞察力或效益。开拓机械进修算法很少是作为一个单一的历程来完成的。跟着企业赓续积累新的数据,算法也会获得改进。这意味着很少稀有据被丢弃,相反,数据会跟着光阴的推移而快速增长和从新处置惩罚。

AI数据存储设备的选型标准

在企业为AI平台选择存储设备之前,必须首先斟酌以下几点:

1、资源。AI数据存储设备的价格对企业来说是一个关键身分。显然,高管层和那些介入采购决策的人会盼望存储尽可能具有资源效益,在许多环境下,这将影响组织的产品选择和策略。

2、可伸缩性。如上文所说,在创建机械进修或AI模型的历程中,网络、存储和处置惩罚大年夜量数据是异常需要的。机械进修算法要求源数据呈指数增长,才能实现精度的线性前进。创建靠得住而准确的机械进修模型可能必要数百TB以致PB的数据,而且这只会跟着光阴的推移而增添。

构建PB级存储系统,一样平常必要应用工具存储或横向扩展文件系统。如今的工具存储当然可以满意AI事情负载的容量需求,但它们可能无法满意其他标准,如高机能。横向扩展文件系统可以供给高机能和优越的可伸缩性,然则将全部数据集存储在一个平台上可能会很昂贵。别的,出于可伸缩性需乞降高容量产品的资源,块存储每每不是机械进修或人工智能的精确选择。这里独一的例外是公有云,稍后我们对此进行评论争论。

存储资源的变更引入了分层存储或应用多种类型的存储来存储数据的观点。例如,工具存储是存储大年夜量不生动的AI数据的优越目标。当必要处置惩罚数据时,可以将数据移动到工具存储中的高机能文件存储集群或节点上,一旦处置惩罚完成,就可以将数据移动回来。

3、机能。AI数据的存储机能有三个方面。首先,可能也是最紧张的是延迟,也便是软件处置惩罚每个I/O哀求的速率。低延迟很紧张,由于改良延迟对创建机械进修或AI模型所需的光阴有直接影响。繁杂的模型开拓可能必要数周或数月的光阴。经由过程缩短这个开拓周期,组织可以更快地创建和细化模型。在反省延迟能力时,因为工具造访的流特点,工具将引用光阴存储为第一个字节,而不是单个I/O哀求的延迟。

机能的另一个方面是吞吐量,以及从存储平台写入或读取数据的速率。系统吞吐量很紧张,由于AI练习必要处置惩罚大年夜量数据集,常常重复读取相同的数据,以准确地开拓模型。机械进修和AI数据的滥觞,例如自动驾驶汽车上的传感器,天天可以天生多个TB的新数据。所有这些信息都必须添加到现有的数据存储中,并且对任何现有处置惩罚的影响要最小。

机能的着末一个方面是并行造访。机械进修和AI算法并行处置惩罚数据,运行多个义务,这些义务可以多次读取相同的数据,并超过多个并行义务。工具存储长于并行读取I/O处置惩罚,由于不必要治理工具或属性。文件办事器跟踪内存中打开的I/O哀求或文件句柄。是以,活动I/O哀求的数量取决于平台上可用的内存。

机械进修数据可以由大年夜量的小文件组成。在这个领域,文件办事器可以供给比工具存储更好的机能。这里必要问AI存储规划供应商的一个关键问题是,在大年夜文件类型和小文件类型上,他们的产品的机能特性会若何变更。

4、可用性和历久性。机械进修和AI模型可以长光阴继续运行。经由过程练习开拓算法可能必要几天或几周的光阴。在此时代,存储系统必须维持启动并持续可用。这意味着任何进级、技巧调换或系统扩展都必要在不绝机的环境下进行。

在大年夜型系统中,组件故障是常见的。这意味着任何用于AI事情的平台都应该能够从设备(如硬盘或SSD)和节点或办事器故障中规复。工具存储应用擦除编码在许多节点上广泛散播数据,并最小化组件故障的影响。有一些擦除编码技巧可以用在横向扩展文件系统,以供给一致水平的弹性。擦除编码规划的效率异常紧张,由于它直接关系到读写I/O的机能,分外是对付小文件而言。

因为多半大年夜规模工具存储都太大年夜,无法按期备份,是以靠得住的擦除编码成为AI存储平台的一个基础特点。

5、公有云。开拓机械进修和AI算法必要高机能存储和高机能谋略。许多AI系统都是基于GPU的,比如Nvidia DGX,它可以用于开拓正确算法所涉及的许多繁杂数学谋略。

公有云办事供给商已经开始供给GPU加速的虚拟实例,可用于机械进修。在公有云中运行机械进修对象低落了构建机械进修开拓根基举措措施的本钱资源,同时供给了扩展开拓机械进修模型所需的根基举措措施的能力。

应用公有云谋略的寻衅在于,若何以一种同时具有资源效益和实用性的要领将数据导入公有云。基于云的工具存储速率太慢,跟不上机械进修的I/O需求;是以,必须应用本地块存储。每延迟一分钟移动数据,就会带来更多运行根基举措措施的资源,以及履行机械进修的延迟。

公有云的另一个问题是数据导出的资源。只管云办事供给商不收取将数据转移到其平台的用度,但它们确凿对从其平台外的公共收集造访的任何数据收取用度。是以,只管公有云在谋略方面供给了机动性,但以及时和经济有效的要领从云中获取数据并不老是那么简单。

供应商正在开拓存储产品,这些产品运行在公有云中,覆盖了本地和云。这些产品可以有效地复制数据或将数据移动到云中,并且只在完成后将结果移动回来。这些复制技巧具有高效的带宽,使得在条件上存储数据并导入到云中进行阐发事情变得切实可行。

6、集成。在本文中,我们将机械进修和AI的数据存储与谋略分开来看。构建AI数据存储可能很艰苦,由于必须斟酌存储收集和调优存储以与机械进修利用法度榜样协同事情的其他身分。

产品的预打包使供应商能够在将产品交付给客户之前测试和优化其产品。如今,有一些存储产品结合了盛行的AI软件、谋略(如通用cpu和gpu)、收集和存储,以交付一个AI就绪的平台,许多具体的调优事情是在支配这些系统之前完成的。只管资源可能是个问题,但对许多客户来说,预先打包的系统可以低落采纳AI存储的障碍。

显然,选择精确的AI数据存储平台,着实是机能、可伸缩性和资源等指标之间的平衡。精确应用存储平台异常紧张,由于涉及的数据量异常大年夜。一旦选择差错,其价值可能是高昂的。与任何存储产品选型决策一样,紧张的是与供应商沟通,包括演示和评估,以准确懂得他们的产品若何满意人工智能和机械进修的需求。

您可能还会对下面的文章感兴趣: