鹏城云脑II获广东科技进步特等奖
在近日公布的2023年广东科技进步奖中,鹏城实验室、华为技术有限公司等共同完成的“国产E级高性能人工智能算力平台”获得特等奖。
该成果更为人所熟知的名字是“鹏城云脑II”,是全球性能领先的算力平台。
在衡量全球高性能平台数据吞吐能力的IO500排行榜中,鹏城云脑II获得八连冠;已在其上正式发布的国产人工智能大模型“鹏城·脑海”,实现“算力—数据—算法”全链条自主可控,加速为千行百业插上“AI翅膀”,向全球开源开放,为全球人工智能变革提供更多选择。
用整体架构设计弥补“单兵”劣势
什么是E级算力?
“E级算力代表这台机器的每秒运算次数能达到10的18次方。”鹏城实验室网络智能研究部副主任、北京大学深圳研究生院信息工程学院院长田永鸿介绍。
目前我国先进芯片面临“卡脖子”,对鹏城云脑II这样的高性能算力平台造成一定影响。通俗来讲,芯片的制程越小,意味着其技术越先进,“单兵能力”越强。如今,境外的芯片制造向5纳米甚至2纳米制程进军,而境内目前还有较大差距。
通过挖掘整体架构的潜力,弥补单块芯片的性能劣势,鹏城云脑II最终实现了性能上的全球领先。
“通过三维堆叠、片上集成等整体架构上的设计,类比相同的制程,我们的机器具有很强的竞争力。”中国工程院院士、鹏城实验室主任高文解释,在算力平台搭建时,团队探索应用了很多前沿技术,通过整体架构来提升效能。
比如,由几千块芯片组成的鹏城云脑II中,芯片与芯片之间有很多通信任务,为了让信息能在芯片间高效传递、减少延迟,鹏城实验室团队做了很多优化设计,最终使得任意两块芯片间的通信延迟控制在2微秒之内。
高文。
围绕冷却效率,鹏城实验室与合作团队联手设计了一种贴片式液冷装置,比国外同类平台使用的风冷装置效果更好、故障率也更低。高文说:“这种设计为每块芯片做到极致的降温,还把故障率降低到同类机器的十分之一左右。”
在实际训练大模型时,整个平台存在一定的故障率,每一两天就会有某处零部件坏掉,而重启一次就需要5小时,非常浪费时间。团队想了很多办法,让系统的重启时间更短,显著提升了大模型训练效率。
高文的总结简短有力:“国内做高性能算力平台,其实并没有落后国外太多,没什么可担心的。”
做大做强国产算力平台和生态
做出全球最高性能的算力平台,有什么用?
田永鸿介绍,鹏城云脑II的E级算力平台主要就是为了高效训练各类人工智能模型,其上部署了8大软件,涵盖智慧城市、生物医药、智能交通、金融等不同领域,能全面支撑国家战略需求和广东地方经济社会发展需要。
比如面向智慧城市,鹏城云脑可以对一大片区域的交通流量进行分析;在生物医药领域,可以模拟计算某种病毒未来可能的变异种类,也可以计算分子药物或者多肽、基因等的不同折叠或组合形式;通过大规模训练智能体(具有智能的实体),还能为兵棋推演、金融博弈等提供支撑。
为支持深圳企业发展,鹏城云脑II还拿出一部分算力,帮助企业训练自己的大模型,促进产业发展。包括云天励飞、优必选等在内的知名企业都曾受惠。
“比如无人驾驶行业,有些特殊的交通场景,普通人看一眼就能明白要停车或者转向,但机器就很难适应。自动驾驶还可能存在起步太快、刹车太急,或者停得离目的地太远等问题,系统要收集乘客的反馈,每天不断训练,才能越用越好用。算力在其中就是起到一个调试、促使进步的作用。”高文表示,像无人驾驶、低空物流这些领域,都可以用好的算力和好的模型来训练,达到快速发展,以算力帮助新质生产力发挥作用。
鹏城实验室智能计算研究部主任、清华大学计算机科学与技术系教授陈文光说:“自从大模型受到广泛关注以来,很多人想知道,像鹏城云脑II这样完全国产、自主可控的算力平台,到底能不能训练大模型?”
陈文光认为,鹏城云脑团队成果此番获得特等奖,既是对过去工作的肯定,更是团队对国家需求的一次响亮作答。“答案是:国产算力能行,完全可以训练出千亿参数的大模型,而万亿参数级别的大模型也有望在未来的下一代鹏城云脑上成功训练。下一步,还要培养国产算力的生态,推广基于国产算力的应用,要做的工作还有很多。”
田永鸿认为,在目前国际科技合作竞争复杂形势下,走科技自立自强是必经之路。“鹏城云脑是一个典型代表,这样的例子会越来越多。”
“我们做的是科学上特别超前的事情,企业不愿意做、很难投入大量资源去做,而且做了以后很难马上获得回报。作为科研机构,我们可以试错,如果做通了,大家都能做;如果证明走不通,大家就不用投入资源。按照这种思路,鹏城实验室正继续布局研究项目,为做大做强国产算力平台和生态继续努力。”高文透露,下一代鹏城云脑有望在今年底或明年初完成,并于明年正式上线,目标之一就是能训练出万亿参数级别的多模态大模型。
文字:南方+记者 钟哲
摄影:南方+记者 许舒智
剪辑:南方+记者 金镝
订阅后可查看全文(剩余80%)