
孟伟
Linux基金会人工智能及数据基金会
董事会主席、
中兴通讯开源战略总监
文 | 何静怡 采编|张孟月
校对|吴政希
图|由受访者提供
2022年11月30日,ChatGPT正式面向全球发布,以ChatGPT为代表的生成式人工智能加速应用,AIGC浪潮席卷而来,OpenAI加速进入公众视野。而AI大模型的横空出世,亦为各行业都带来了不可忽视的影响,多个厂商纷纷推出自己的大模型。工业和信息化部的最新数据显示,截至目前,我国完成备案并上线为公众提供服务的生成式人工智能服务大模型近200个,注册用户超过6亿。
与此前基于深度学习的AI不同,如今大火的AIGC,背后的底层技术是Transformer架构,可同时吸收更长的字符串(token)做相关任务处理。那么,是否所有行业都适用于AI大模型?Transformer技术与基于传统深度学习技术的AI相比,有哪些优势和局限性呢?AIGC经过语料数据的“历练”,如何进一步为各行各业赋能?作为AI行业重要基石之一的通信行业,其大模型的应用潜力如何,在落地过程中面临哪些挑战……为深入了解AIGC,本期《科技与金融》邀请了Linux基金会人工智能及数据基金会董事会主席、中兴通讯开源战略总监孟伟进行分享。
Q 《科技与金融》记者
A 孟伟
Transformer的核心
在于自注意机制
Q:AI的概念层出不穷,有AIGC、GAI(Gen AI)、AGI,在学术界,有文献把GAI(Gen AI)和AIGC都翻译成“生成式人工智能”。可否请您解析一下上述概念的差异。
A:AIGC全称叫Artificial Intelligence Generated Content,它的重点在于生成的结果,即人工智能技术生成的内容本身,包括文本、图像、音频、视频等各种形式的数字内容。
GenAI即Generative Artificial Intelligence,指代用于生成这些内容的人工智能技术、模型和算法。重点在于用于生成内容的技术和方法,如生成对抗网络(GAN)、变分自编码器(VAE)、Transformer等模型。
AGI即Artificial General Intelligence,指的是具有与人类相当的认知和学习能力,能够理解、学习、适应和执行任何类型智力任务的人工智能系统。简而言之,AIGC强调输出的内容和结果,GenAI强调实现的技术和方法,AGI强调对AI未来发展的愿景。
Q:与以ChatGPT为代表的生成式人工智能相比,基于深度学习技术的传统人工智能面临怎样的问题?生成式人工智能为人工智能带来了怎样的提升?
A:由于受技术和数据量限制,传统的深度学习技术具有一定局限性,比如通用性和灵活性有限、上下文理解和依赖处理能力不足、生成和创新能力有限、人机交互欠佳等。生成式人工智能则在传统深度学习技术的基础上进行了提升,尤其在注入海量数据后,它出现的“涌现现象”让人工智能产生了强大的自然语言理解和生成能力。此外,生成式人工智能还实现了强大的泛化能力和零样本学习能力。
因此,生成式人工智能并非取代了深度学习人工智能,而是在其基础上进行了演进与优化。生成式人工智能不仅突破了传统人工智能在数据依赖、任务专用性和生成能力等方面的限制,还增强了模型的泛化能力、上下文理解、创造性输出和人机交互体验能力,拓宽了AI的应用范围,为人工智能的发展带来了显著提升。
Q:Transformer架构与以前的AI模型相比,它的核心优势是什么?当前市面上的生成式人工智能产品是否都采用了Transformer算法架构?
A:Transformer的核心优势在于引入了自注意机制(self-attention)。工作时,它会计算每个词与之前输入和生成的其他词之间的依赖关系。Transformer认为,语言的内部数据之间长跨度地相互依赖。它所做的工作,就是将既有文字的“内部依赖关系”转换到未来的文字中去,也就是“生成”。相较于传统深度神经网络,Transformer在并行处理上具有更好的处理速度和效果。
当前,Transformer架构是人工智能大模型中的主流技术,占据绝对优势地位。但也有少数生成式AI产品采用传统深度神经网络结构,比如现在非常流行的大模型RWKV。与Transformer架构相比,非Transformer架构模型的量级较小,更容易部署在端侧,未来预计也会在端侧环境中部署。
Q:Transformer模型有局限性吗?
A:尽管Transformer模型在处理上下文方面表现出色,但其本身的自注意机制可能导致模型开销非常大,这是大模型的一个通病。模型经过预训练和精调后,如果要满足部署需求,可能还需要大量的GPU推理资源。
从技术角度看,由于Transformer模型的关键特性之一是顺序性,这意味着训练过程必须按照特定顺序进行,难以实现并行化训练,导致训练时间较长,这对开发者的时间和经济成本都构成了挑战。此外,Transformer模型在处理问答任务时,对输入序列的长度要求较高。例如,我向模型提问时,它不能从已知的上下文中获取所需的知识,需要我不断进行解释。这也是Transformer模型的局限性之一。
大模型并不适合所有行业场景
Q:据您了解,我国大模型与美国大模型相比,有何优势及劣势?
A:中国信息通信研究院最新发布的《全球数字经济白皮书(2024年)》显示,全球基础大模型一共有1328个,其中美国占44%,中国占36%,中美在大模型的数量上遥遥领先。
中国大模型对比美国大模型,往往具有本地化和语言优势,比如在中文语料上的训练数据更加丰富,能够更准确地理解和生成中文内容,包括对汉语的语法、语义、成语、俗语以及文化背景的深度理解等。
此外,中国很多行业对人工智能的需求很大,行业大模型层出不穷。我认为,在某些特定行业(如教育、医疗、金融等),中国在这些行业的大模型应用将比美国发展得更快,而且更能满足国内的行业标准和监管要求。
当然,我们也要正视中美之间的差距,美国在人工智能基础研究方面已有多年积累,拥有更多的顶尖研究机构和领先的创新成果,在新模型架构、训练方法和算法优化等方面,中国通常只是以跟随者的姿态出现。在硬件和算力上,美国在GPU、TPU等高性能计算芯片领域具有领先地位,而我国在高端芯片的制造和设计方面都存在短板,可能会受到供应链限制,但中国目前也在努力解决技术代差的问题。
Q:中国大模型在某些特定行业会发展得更快,为什么?
A:值得注意的是,尽管大模型技术应用广泛,但它并不适合所有行业场景。因为使用大模型的开销较大,效果也不一定比采用传统的人工智能方式更好。大模型具备深层次人工智能技术,能够生成并遵循推理逻辑链,对于具有推理需求的复杂场景来说较为适合。而对于一些通过线性计算或传统深度学习方法就可实现自动化的行业,就没必要引入大模型了。
以医疗领域为例,其中的线上问诊由于数字化普及度较高,AI大模型的加入显著提高了诊断的准确性和效率。此外,AI大模型还能在个性化治疗、药物研发、医学影响分析、医疗质控等方面发挥作用。教育和金融领域也因数字化程度高,发展相对较快。例如,在教育领域,我国的教材相对统一,可以通过线上方式实现AI辅助教学、个性化学习等许多功能,减轻教师的工作负担,提高教学效率,也为教育大模型的应用提供了基础。在金融领域,大模型则在智能客服、智能风控、智能营销等方面有着广泛的应用场景,业务之间存在较强的联动性。
然而,虽然大模型的应用范围日益扩大,但依然存在一些难点,尚未能在行业中广泛使用。例如,在医疗领域,B超、X光、CT这类检查数据及诊疗结论因为涉及患者隐私以及医院间的技术成果共享,便出现了语料数据收集不足等应用难点,一定程度上限制了大模型的推广。在教育领域,如何确保学生个人数据的安全和做好隐私保护,如何获取全面、准确、有代表性的数据以训练大模型等都是当下面临的挑战。
大模型落地
亟需AI工程师与行业专家紧密合作
Q:在通信领域,多家通信运营商、厂商都发表了各自基于开源大模型或自研大模型的研究和应用进展。与其他领域相比,大模型在通信领域的应用有哪些特征?
A:通信行业作为数字化、智能化的先行者,拥有丰富的数据资源,成为大模型率先落地的垂直领域之一,已陆续涌现出一批行业大模型,在语音客服、套餐推荐、电软开发、网络运维、故障定位等场景积极探索落地道路。
不同于一般行业对声音、图像、文字的处理,通信大模型的主要应用场景在于网络优化与智能运维。通信网络每天产生大量数据,包括用户行为、网络流量、设备状态等,需要大模型来高效处理和分析这些数据。训练一个通信大模型,可以利用它实现对网络设备的故障预测和预防性维护,提升网络的可靠性和稳定性。此外,通过对网络流量的预测和分析,可优化带宽分配和网络拓扑结构,提高资源利用率。
Q:通信行业对大模型研究和应用的热情很高,运营商、网络设备厂商、OSS厂商、BSS厂商可能都有自己的通信大模型,应用时是否会出现接口不统一、标准不统一的问题?对此,您有怎样的建议?
A:对通信行业来说,每个运营商既有标准化的相同业务流程,也有基于企业标准的独特业务流程。每个设备商产品的特性也有所不同,比如对于某一设备告警,不同厂商的文字描述及定义也会有显著差别。因此,在运维领域,大模型是很难实现通用的,需要针对特定厂商或运营商进行定制化训练,尤其是这种具有独特性的数据注入,必须由特定厂商或者特定运营商来提供。但在通讯知识问答领域,例如5G标准、IPv6标准,由于有全球统一的标准,可以构建一个通用大模型。
而对于大模型接口,我认为是可以努力统一的。为避免接口和标准不统一的问题,通信行业需要在竞争中寻求合作,共同制定和遵守统一的标准和规范。这不仅有助于降低研发和运营成本,提高系统的互操作性和兼容性,还能促进整个行业的健康有序发展。比如3GPP(第三代合作伙伴计划)、ITU(国际电信联盟)等标准组织正在研究如何将生成式人工智能技术与传统的通信网络相结合,以及如何将AI技术嵌入到网络的各个元素(网元)中。这种结合和嵌入的目标是创建一种新型的网络,这种网络从设计之初就考虑到了AI的应用,因此被称为“AI原生网络”。
Q:业内专家认为,现阶段大模型解决问题带来的效益远比它的成本投入要低。那么,对于通信行业中大模型的商业化,您有什么意见和建议?
A:在大模型时代,通信行业正面临如何有效商业化大模型的问题。那么应如何解决该问题?
首先,我们要明确商业化目标,聚焦高价值应用场景,以业务需求驱动,并基于具体业务需求,评估大模型能否带来实际的商业价值,而非盲目追求技术前沿。例如大模型在处理大规模、复杂的数据方面具有优势,可用于快速进行网络故障分析,节约运营人力成本。
其次,控制大模型部署的成本,优化资源配置。通过模型剪枝与量化、知识蒸馏,减少硬件成本。
再次,建立共享数据平台和模型库,避免重复建设,降低整体成本;同时,可充分利用开源的大模型和算法,降低研发成本。
最后,运用分步实施,逐步推进商业化进程,在有限的区域或业务中试点部署大模型,验证其商业价值和可行性,根据试点结果调整和优化模型,降低风险。
Q:最后,请您谈谈垂类大模型如何在行业中更好地落地?
A:大模型在行业的落地,主要困难在于训练和部署合作具有较大难度。我认为垂类大模型最好能基于开源的通用大模型构建,如LLaMA、通义千问等。这些通用大模型贡献者一般会基于模型本身训练一些垂直领域的行业大模型,但弊端是不够深入,因为AI工程师缺乏行业数据。例如,要在通用大模型的基础上训练一个法律大模型,开发者很难获得专业的法律数据或只能通过公司内部的律师团队贡献语料,导致大模型的训练有较大局限性。
与此同时,很多传统行业缺乏AI落地经验。一方面,很多企业虽然知道大模型好,但往往不清楚在行业特定场景中是否适用,还是只需普通规则算法或传统深度学习的AI就能满足。另一方面,大模型的具体部署过程专业性过高,目前又缺少可以“一键部署”的APP或软件,企业只能请第三方帮助部署或聘请AI工程师,这无形中增加了企业的经营成本。此外,并非每个行业都有足够的数据用于大模型语料训练,而且企业间的数据共享目前还比较难实现。这些因素都在一定程度上限制了AI技术在传统行业的落地与应用。
因此,企业只有根据需求选择合适的通用大模型,并根据行业特点进行增强训练、精调,才能创造出符合行业需求的垂类大模型。同时,大模型的落地还需要AI工程师与行业专家共同努力,方才能够将其应用到实际场景中。
· 未经授权,不得转载。转载请注明作者及来源《科技与金融》杂志。
· 如需获取转载、合作、采访等需求请到微信公众号菜单栏-商务合作,获取相应信息。
· 您亦可在知网、今日头条、南方号等相关平台上关注我们。
订阅后可查看全文(剩余80%)