最好的时代,也是最坏的时代:深度解析华为数据存储的AI突围之路

来源:CSDN
作者:CSDN
时间:2025-09-28
3761
这是最好的时代,也是最坏的时代。

在近日举办的华为全联接大会2025数据存储峰会上,华为公司副总裁、数据存储产品线总裁周跃峰博士以狄更斯的名言开场,分享了华为对AI时代数据存储产业变革的深刻思考。

“好”的一面是AI已深入各行各业,存储作为数据的核心支柱,其战略地位日益凸显,整个产业也站上了新的风口。“坏”则在于AI应用激增的背后,是诸如数据共享不畅、算力利用率不高、推理体验不佳等一系列亟待解决的挑战。针对于此,周跃峰全面阐释了华为数据存储持续进化的四大路径,并明确了AI时代数据存储的新标准。

1.高效数据归集与融合,构建AI语料库

众所周知,AI大模型的强大,得益于海量数据的“投喂”。然而现实是,海量数据在源头就被丢弃,能够被有效保存下来的数据不到3%,且形成了一座座难以共享的“数据孤岛”。这种数据现状,极大地制约了AI模型的训练和落地。

为此,华为提出了AI数据湖架构,旨在高效归集海量语料,从根本上解决“存不下”和“连不上”的问题。

周跃峰介绍,支撑这一架构的核心技术是多模态数据融合。传统的存储系统通常只擅长处理单一类型的数据(如文件、块或对象),而AI时代的数据是多模态的,包含文本、图片、语音、视频等多种形式。在实践上,华为AI数据湖通过统一的元数据管理和智能索引,将这些不同来源、不同格式的数据整合为一个有机的整体,形成高质量的AI语料库。

另一项必须的能力是按需流动与共享。AI数据湖不是一个静态的“仓库”,而是一个动态的“织网者”。它通过数据编织能力(Data Fabric)打破企业内部不同部门、不同业务系统间的数据壁垒,使数据能够像血液一样在整个组织中自由流动。

这一架构也已率先在行业落地,例如支持医疗行业海量非结构化数据的存储,并实现跨院区、跨科室的互联互通,让沉睡的病理切片数据转化为宝贵的AI训练语料。

2.以存强算,提升AI训练集群效率

在AI基础设施建设者乃至企业管理层眼中,AI算力集群往往是昂贵的“吞金兽”,然而其可用度通常低于50%。究其原因,是GPU/NPU等算力单元大部分时间都处于空闲状态,在等待数据加载(off-loading)和模型训练存档(checkpoint)。这不仅造成了巨大的算力浪费,也严重拖慢了AI模型的训练进程。

应对这些问题,华为提出了“以存强算”的理念,通过超高性能的AI存储系统,提升数据吞吐能力,以提升AI集群的实际利用率。

这一理念的关键支撑是华为OceanStor A系列存储。这是华为研发的超高性能AI存储产品,在MLPerf Storage v2.0基准测试中斩获多项全球第一。其技术核心在于能够提供超高的IOPS(每秒读写次数)和带宽,满足AI训练中海量小文件和超大文件的混合读写需求。

针对AI训练中模型存档过程耗时巨大的问题,OceanStor A系列实现了高效的模型存档。华为数据存储技术人员介绍,一个原本需要30分钟的模型存档过程,在华为高性能AI存储的加持下,可以缩短到2-3分钟。从长周期训练任务来看,这将GPU利用率从30%提升至60%甚至更高,将昂贵的算力资源从“等待”中解放出来,使其全身心投入到计算任务中,形成“以存强算”的价值。

3.UCM技术创新提升AI推理体验

AI大模型推理,尤其是多轮对话和长上下文推理,面临着严重的效率和成本挑战。数据显示,当前国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60 Tokens/s(时延50 - 100ms),如何提升推理效率成为了行业亟待解决的难题。

为此,华为发布了AI推理创新技术——UCM(Unified Cache Manager)推理记忆数据管理器,旨在通过多级缓存机制消除重复计算,显著提升AI推理的效率。

具体而言,大模型的推理过程中,许多重复的前缀或上下文会被反复计算。UCM通过层级化自适应的全局前缀缓存技术,将这些“记忆”存储在高性能存储中。当用户发起类似或重复的提问时,系统就可以直接调用缓存数据,避免重复计算,实测可将首Token时延最大降低90%。

“最重要的就是要存储在整个推理过程当中积累的信息。”周跃峰表示。

传统方案中,大模型的KV Cache(键值缓存)全部存储在昂贵的GPU显存中,容量受限,难以支持长上下文推理。而华为UCM将KV Cache扩展到外置的高性能AI存储中,将知识库容量从GB级扩展到了PB级。这一创新性架构使大模型能够轻松应对长文本输入,并实现“秒级”查询响应,为AI Agent和知识库问答等应用场景提供强大支撑。

值得一提的是,华为计划后续将UCM的核心技术进行开源,与全行业开发者共同探索和完善AI推理的未来。

4.面向Agentic AI,构建AI记忆系统

业界普遍认为,AI Agent是下一代AI应用的重要方向。而AI Agent的爆发,对数据存储系统的需求不再是简单的存和读。未来的AI Agent需要具备类似于人类的“短期记忆”和“长期记忆”,以及业务域知识,以实现持续学习和高效决策。

所以,华为将数据存储定位为AI Agent的“记忆系统”,通过高性能缓存分级存储架构,为AI Agent提供了双重记忆能力。高性能AI存储如同人类的短期记忆,用于快速处理高频、实时的交互数据;而海量数据湖则如同长期记忆,用于存储和管理庞大的多模态知识库。

华为正致力于构建一个能够支持新型服务语义和多模态知识库的强大数据底座,为AI Agent提供坚实、可靠的“记忆”,使其能够更高效地执行复杂任务,并从海量数据中提炼出有价值的信息。

5.AI存储正向新的能力标准持续进化

从华为存储发展的技术路径中,我们看到了AI时代存储的新标准。传统的存储能力标准通常聚焦于性能、数据范式和可靠性,而面向AI时代,华为数据存储新的标准新增了如下关键能力:

  • 数据编织能力:能够打破数据孤岛,实现全局数据的可视、可管、可用。

  • 绿色节能:通过高密度存储和重删压缩等技术,有效降低能耗和成本。

  • 可扩展性:横向扩展至EB级容量,纵向扩展实现算力加速。

这几大维度的能力,共同构成了AI时代数据存储的全新画像。华为正通过持续的技术创新,为开发者和企业提供更高效、更可靠的AI数据存储基础设施,共同迎接AI大模型产业化落地的实际挑战与机遇。

原文链接:点击前往 >
版权说明:本文内容来自于CSDN,本站不拥有所有权,不承担相关法律责任。文章内容系作者个人观点,不代表快出海对观点赞同或支持。如有侵权,请联系管理员(zzx@kchuhai.com)删除!
扫码关注
获取更多出海资讯的相关信息
个人VIP
小程序
快出海小程序
公众号
快出海公众号
商务合作
商务合作
投稿采访
投稿采访
出海管家
出海管家