为进一步展示存力基础设施建设的新技术、新成果、新应用,加强存储技术创新,中国信息通信研究院近日组织召开“存力中国行”相关座谈会及实地调研活动,交流探讨存储产业建设发展思路,助力我国存储产业高质量发展。
“存力中国行”活动启动仪式暨第一站——广东站,于7月2日-3日在广州市、深圳市举办,活动围绕存力在广东省各行业应用落地情况建设情况展开探访交流。
“未来数据将成资源储备”
“我们国家有粮食储备、能源储备,未来数据也会成为一种资源储备。”华为数据存储产品线战略与业务发展部总裁王旭东介绍。
当前,数据呈现爆发性增长,未来全球数据将以36%规模持续增长,预计到2030年,全球数据将达到YB级。数据也正在从过去的沉睡的资产蜕变成为驱动未来整个产业发展的核心生产要素。
尽管中国全球数据产量达到第二,但保存下来的只有5.1%,将近95%的数据没有得到有效利用。
此外,在多模态时代,文本、视频、图片等多元异构数据需要融合,传统的网络架构不足以支撑整个技术的发展。
王旭东表示,存力中心是一种新型的数据基础设施,通过规模聚数、高效治数、安全供数、产业用数四个维度,助力打造数据的可信托管中心、数据治理中心、数据流通中心,还有数据的开发中心,实现数据从资源到资产的有效闭环,目前,广东韶关、重庆、贵州,还有河北廊坊等枢纽节点也同步在建立存力中心。存力中心未来可以成为省级备份灾备中心,或者行业、区域语料库,开发汇聚基地、产业聚集基地。
目前,华为推出了Omni—dataverse,一方面实现数据的可视,让客户有统一的视图,看清楚数据在各地的分布。另一方面,依托智能数据目录,帮助客户把海量数据实现自动标签,实现百亿级数据可以秒级查找。此外,还可以帮助客户如何跨区域、跨设备自定义流通。
AI大模型发展高度依赖于高质量数据集,而当前存储在存力中心的数据无论是格式、质量,还是规模,都参差不齐。华为公司通过打造开源工具在数据使能、模型使能和应用使能三方面帮助客户构建高质量数据集,大幅提升数据的清洗和标注。
存力中心关键是打通数据资源实现高效利用。王旭东举例说,一家汽车厂商,汇聚了行业和自身数据,一方面可以打造高质量数据集,为汽车生产厂家、汽车研发提供高质量数据基础,同时结合当地金融数据、充电桩数据、医疗保险数据,推出相应的金融产品。另一方面,数据可以提供给城市管理部门。
在提到存力中心建设时,王旭东提到三点建议,在产业韧性方面,全闪存介质是一种重要的数据支撑,过去大量的数据都保存在机械硬盘,时至今日,国内80%以上的数据都是保存在机械硬盘。目前国内还要加速建设全闪存的生态与应用,快速追上发达国家的步伐。
产业先进性方面,AI存储通过极致的性能,在千亿级训练中心大幅提升训练效率,通过边缘融合、长记忆存储,加速整个推理体验,提升推理的效率,建议将AI存储作为整个AI关键技术上的竞争一环。
数据安全方面,国内数据灾备覆盖率对比先进国家,比例还非常低,因为很多行业习惯把数据灾备当成一种成本,但随着勒索病毒频发,国外对国内开源软件限制或不实时披露,导致底座面临很多安全问题,呼吁加强整个产业数据灾备重视度。
王旭明还提到,随着“冷数据”慢慢走向温数据、热数据,例如过去气象、医疗数据,长期难以利用的数据,随着AI大模型被慢慢激活。
多模态对存力要求更高
在讨论环节,多位专业就存力话题展开讨论。华为数据存储副总裁、营销运作部部长樊杰举例说,瑞金医院早在2022年,和华为开始做数字化病理,经过三年积累,积累了103万张高质量病理切片,因为有高质量数据,就可以进行训练,在业界12个主流公开数据集的14个辅助诊断任务测试中,有7个达到业界领先水平(SOTA),并已具备临床验证能力。
“为什么现在开始提存力?当数据集足够大的时候,模型识别准确率就突然达到了接近90%,而之前只有50%、60%。”樊杰说,大模型走向行业,数据变得越来越重要,而存力主要是支撑数据。
他还提到,很多算力集群使用时间只有30%左右,70%的时间是在等待数据归集、加载。模型每两个小时会做一次数据保存,而每次存的时候,要等待存放的时间,如果一旦出错,又要重做一遍,尽管算力很宝贵,但数据大量的时间其实是在等待。
“存力就是如何快速把数据存下来,同时在数据类型特别复杂情况下,如何快速读取,低时延、大带宽,AI对存储非常重要的一个需求。”樊杰说,现在已经可以从小时级数据存放到做到分钟级,这可以大规模提高训练效率,比如将整个算力集群效率从30%提高到60%。
而随着成本的下降,樊杰说,很多企业对于以前的“温数据”要求越来越高——以前的温数据只是用于归档、共享,现在走向分析和调用,甚至用于作为AI语料库,越来越多数据被“唤醒”,“这也是为什么产业在倡议走向全闪化,当前的技术准备也在支撑这个趋势发展”。
华为分布式存储解决方案部部长陈琳则提到,所有的大模型,基本上把市面上能够学习的文本全部学完了,下一步将重点利用数据的多模态,多模态就意味着数据量会有指数级爆发,对存力也会有很多要求,如存储的扩展性、安全性、可靠性。
存力建设还将带来产业集聚。陈琳以湖南马栏山音视频基地为例,通过把湖南的音视频特色数据、湖南台等园区内所有的视频制作单位数据汇聚起来,形成规模效应,吸引了周边一百多家视频制作企业入驻园区。
“从不同单位汇聚数据,要求高效传输,还要解决网络问题,比如能不能把数据重删压缩,压缩后的数据再传输可以节省网络带宽。”陈琳说。
数据存储后,还要进行治理,报考对数据进行标注,尤其是音视频的数据进行标注,使用人工方法要耗费大量人力,现在逐步开始在存力中引入AI治理方式,包括工具链、模型,加快AI数据清洗和治理。
在陈琳看来,建存力实际上也是数字化向智能化转型的一个抓手,比如,中央广播电视总台把原来保存在磁带上的数据,导到了70PB的存储,并在此基础上进行数据治理,进行模型的训练和智能体的构建,其中关键一步是建大存力中心,把数据价值有效挖掘出来。
南方+记者 郜小平
订阅后可查看全文(剩余80%)