是什么在制约企业的数据战略停滞不前?

作者:

李丽

责任编辑:

李丽

来源:

电脑商情在线

时间:

2025-03-10 15:15

关键字:

Hammerspace 数据管理 Tier 0技术

当我们在欢呼大语言模型基础技术的不断提升,降低了AI部署成本的同时,却又迎来了更大规模的AI模型带来的计算、存储和数据管理的一系列问题。现有IT架构不足以支撑AI训练、推理以及分析所需的GPU集群数据吞吐,尤其是数据流动缺乏敏捷性,非结构化数据也让数据副本泛滥。

尽管市场上不乏优秀的数据管理方案,可以将分散在本地、云端以及边缘的非结构化数据进行统一整合管理,但是这也对各个系统的性能造成一定的限制。同时在云端的数据涌入又缺乏云端敏捷性。尤其是在AI大模型训练、高性能计算(HPC)等场景下,效率更是难达预期。

一家名为Hammerspace的公司,凭借其高性能全局数据平台解决方案在业界开始崭露头角,如今其技术已被Meta等大型科技公司采用。

Hammerspace的全局数据平台解决方案可以满足本土超大规模计算企业对支持人工智能(AI)、高性能计算及其他 GPU 密集型场景的智能化数据调度日益增长的需求。该方案还可构建跨越任意存储系统、云服务商及地理位置的统一数据环境,实现数据实时全域可访问。

       Hammerspace公司成立之日就定位在专注于下一代数据周期架构,也就是说,通过全局数据访问、自动化编排与元数据技术创新,其平台实现了数据在混合云及多站点间的无缝流动,让数据“按需而动”,而不受困于物理位置。这一突破性创新可以说解了不少包括巨头公司在内的企业的燃眉之急。

就在不久前,Hammerspace公司宣布了在中国市场的战略布局。并且通过与北京驿心科技有限公司(Yition.ai )及其他本地技术领导者合作,将为中国客户提供全局数据平台解决方案。

目前Hammerspace 提供的“全局数据平台解决方案“可实现的功能主要包括:统一文件与对象存储于单一数据平台;跨任意存储或云端位置的全球数据访问;自动化的数据编排和工作流优化;增强型数据安全与合规保障;与现有基础设施的无缝对接;通过建立的合作关系提供本地支持;通过软硬件协同优化实现的成本效益。

Hammerspace董事总经理Molly Presley在接受中国媒体的采访中谈到,要让企业的所有数据可以真正实现全局访问,需要从技术层面突破现有云数据的功能。只有如此,才能满足在AI大模型训练的场景下,从不同位置抽取不同的预训练数据。并且可以用用户提供人工智能场景下高性能计算的性能扩展,无缝延伸到云端,通过各种不同的自动化数据编排工具和技术手段,让用户更快、更有效率地完成数据的访问和编排。

Hammerspace董事总经理Molly Presley

     需要强调的是,如今AI训练所面临的数据量并不是过去二三十年创造的数据,因为这里面还包含了我们不需要的重复数据。而Hammerspace元数据功能可以做到不创造任何数据副本,不把重复化数据提供给训练系统,这对于现在的AI训练场景是非常有效的手段。

技术护城河:解锁非结构化数据与性能极限

Hammerspace认为性能也需要并行化。前文我们已经谈到AI及其相关工具的迅猛发展,大型计算集群不仅开始在各类企业数据中心内出现,也越来越多地被部署于公有云平台之上。同时,HPC技术走向大众化的过程对数据存储提出了新的要求——存储系统不仅要能处理更大规模的数据,还要具备更高的效率。

现在,数据不仅要在多个物理位置之间进行创建、存储和处理,甚至可能跨越不同的云端环境,这就要求数据具有高度的流动性。

无论是高性能计算还是存储,并行化架构都是实现高吞吐、可扩展性的核心路径,而计算集群也必须保持数据流的持续畅通才能释放全部潜能。

Hammerspace认为并行文件系统的核心设计在于元数据与数据分离。也就是说元数据要处理零散随机的小型I/O请求;数据流要承载连续有序的大规模传输。这种解耦架构能够带来多重优势,最关键的是允许客户端直连存储设备,彻底摆脱传统NAS节点可能造成的性能瓶颈。

所以Hammerspace决定通过pNFS构建基于标准协议的并行文件系统。Hammerspace长期以来一直在与国际互联网工程任务组(IETF)和Linux社区紧密合作,致力于研发基于标准协议的开源解决方案,以应对上述挑战。这些研究成果体现在NFS v4.2和pNFS标准中,这两项技术是支撑 Hammerspace超大规模NAS架构的关键 。

Hammerspace的技术差异化还体现在“元数据就地同化”。面对非结构化数据激增的挑战,Hammerspace的“元数据就地同化”技术可将分散在不同存储系统中的数据整合为统一视图,无需物理迁移即可实现跨平台访问。这一能力在Meta等AI训练场景中得以体现,其元数据全局管理功能进一步支持智能数据编排,优化数据生命周期效率。

除此之外,在大规模GPU服务器集群场景下,通过Hammerspace 独有的Tier 0技术方案,可以把GPU服务器本地盘打造成全局命名空间的第0层,所有的数据可以在指定策略下,在其生命周期内存放在合理位置,比如从闪存到磁带等,极大提升读写性能,并且不需要额外的成本支出就能实现。数据中心的空间以及能源节约都有立竿见影的效果。

其实很多企业的GPU服务器本地盘大多都被闲置,Hammerspace看来,这部分空间应该被充分释放和利用,只是过去还缺乏更好的技术手段。所以Hammerspace Tier 0的方案也就应运而生。通过该技术方案,企业可以解决本地盘孤立和数据不安全的问题,并且通过利用GPU服务器本地闲置存储资源,实现了微秒级数据访问的突破。Hammerspace不需要在现有计算集群上安装任何客户端程序,因为NFS原生的协议,早已经内置在Linux内核。

       该方案兼容目前国内外的主流芯片,解决了本地存储资源利用率低与安全性不足的痛点,也为AI训练等高吞吐场景提供了高性价比选择。

全球标杆客户:从AI训练到跨域协同实践

Hammerspace的技术能力已通过Meta公司管理24,000个GPU集群的大规模AI部署实例,获得了成功验证。

除Meta之外,Hammerspace还为站点遍布全球的某视觉特效公司实现了数据智能调度,为其赋能全球协同制作,节省了超过300万美元云渲染成本。

一家名为Blue Origin的航空航天企业,通过Hammerspace提供的解决方案,将覆盖9个地点数据访问速度提升了80% ,并通过AWS分级存储节省超100万美元成本。

Hammerspace中国合作伙伴北京驿心科技有限公司首席执行官吴文昊对Hammerspace的全局数据平台的总结简明扼要:它对异构存储架构的全兼容能力,是驱动数据工作流变革的关键。即便对接DeepSeek最新的3FS架构,该平台仍能提供数据中心与云端GPU资源的高效利用性能,这正是当前推进中国数据战略所需的核心技术。

在生态方面,目前Hammerspace与云厂商、AI平台乃至硬件企业构建了良好的互补关系。正如Molly Presley所言,当数据成为新时代的“石油”,Hammerspace正以连接者的姿态,为行业提供更高效、更开放的流动管道。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255