PRODUCT

供应产品

【招银研究行业深度】AIGC之算力篇——加速大模型计算的超级引擎

时间:2025-04-04作者:雷竞技APP官方

  随着大模型规模的增长、数据处理需求的提升以及复杂算法运算的持续不断的增加,对算力的需求慢慢地攀升。大模型的运行可以分成训练和推理两个阶段。训练阶段需要高性能、大规模训练集群的算力支持,以提升效率和精度;而推理阶段则更注重低延迟、低成本以及高能效的算力资源。在训练领域,GPU凭借其出色的并行计算能力和高内存带宽,成为加速大模型训练的关键硬件。在推理场景中,AI ASIC针对特定任务来优化,能够在高效能、低成本和高并发的环境中发挥更大优势。

  随着Transformer架构大模型的兴起,算力需求的上涨的速度从每两年约8倍激增至275倍。AIGC技术的持续进步依赖于算力基础设施的投资,云服务商、数据中心运营商与芯片制造商正在加大对AI算力的投入,全球AI资本支出预计将从2022年的1325亿美元增长至2027年的5124亿美元。云服务商如亚马逊、谷歌和微软推出AIaaS服务平台,带动超大规模数据中心建设和AI服务器需求的大幅度增长。预计到2029年,全球AI服务器的出货量将达到284万台。从市场结构来看,训练算力仍占据市场主导地位,但推理算力的上涨的速度更快。GPU和AI ASIC市场快速扩展,预计到2029年,GPU的市场规模将增至1715亿美元,AI ASIC将达到561亿美元。

  AI算力厂商在算力、功耗和能效方面的创新持续推动GPU和AI ASIC产品的优化。英伟达作为全球GPU市场的领导者,持续推出高效的产品架构,巩固了其在大模型算力市场的主导地位。AMD、英特尔、谷歌和亚马逊等厂商也在通过创新产品来缩小与英伟达的差距,谷歌的TPU系列和亚马逊的Trainium等产品发挥了及其重要的作用。台积电作为全球领先的芯片代工厂商,将AI芯片的制造工艺逐步从7nm推进到更先进的3nm,提升了算力性能和能效。AI ASIC芯片的设计也慢慢变得多元化,博通和美满电子在此领域展现出强劲的增长潜力。然而,美国加强对AI芯片出口的管制措施,促使中国厂商加大在AI算力的研发投入。中国企业如华为和字节跳动等正在加速国内AI芯片的研发和量产,推动国产AI算力技术的发展。

  在AI算力产业链布局中,应优先关注产业成熟度高、市场规模大的细致划分领域。(本部分有删减,招商银行各行部请登录“招银智库”查阅原文)

  (1)宏观经济波动的风险。(2)技术研发的风险。(3)市场之间的竞争加剧的风险。(4)政策监管的风险。(5)供应链中断的风险。(6)商业化不确定的风险。

  AI算力是推动大模型加快速度进行发展的关键驱动力,AIGC技术的慢慢的提升依赖于算力的创新与发展。本报告围绕算力技术的演变趋势、大模型训练和推理所需算力资源的市场规模与供给情况,分析AI算力产业链中的相关机会,并探讨中国厂商在这一领域的机遇与挑战,最后总结商业银行在AI算力赛道中的业务机会与潜在风险。

  近年来,大模型如GPT-3、GPT-4、ChatGPT等引发了广泛关注,成为推动AIGC领域加快速度进行发展的关键力量。GPT-3由OpenAI于2020年推出,拥有1750亿个参数,展现出了惊人的生成能力,能完成诸如撰写文章、回答问题、翻译文本等多样化任务,让人们看到大模型在自然语言处理领域的巨大潜力。GPT-4进一步将参数规模扩展到1.8万亿,在知识理解、逻辑推理等方面实现了重大突破,其应用场景也更广泛,从简单的文本交互拓展到辅助专业领域的决策支持。ChatGPT则凭借出色的对话交互能力,在全世界内迅速走红,通过大量的对话数据训练,能够与用户进行流畅、自然的交流,满足大家日常的信息获取、知识咨询需求。未来大模型将朝着更加智能化、多模态融合以及行业专业化方向发展。

  随着深度神经网络(DNN)、自注意力机制(如Transformer)、图神经网络(GNN)等复杂算法的广泛应用,模型的算法复杂性持续增加。这些复杂算法需要强大的算力支持,以确保高效的计算,尤其是在训练过程中,随着模型深度和参数数量的增长,计算复杂性和运算量呈指数级增长。例如,GPT-3拥有1750亿个参数,每次训练都有必要进行数十万次甚至百万次的矩阵乘法运算,这对于传统计算硬件来说是巨大的挑战。GPU等专用硬件可以通过并行处理大量的计算任务,大幅度的提高训练效率,使得大模型的训练成为可能。

  早期的神经网络模型参数仅有数百万甚至更少,而如今头部大模型参数以千亿、万亿计。模型规模的逐步扩大,对算力的要求也随之急剧攀升。训练一个拥有百亿参数的大模型与训练一个千亿参数的大模型相比,计算量可能相差数十倍甚至更多。随着模型参数的增加,训练和推理所需的计算资源呈指数增长。每一个模型参数都需要在训练过程中来优化,每次模型训练时,都需要对数以百万计的参数进行计算,这在某种程度上预示着需要更加多的算力资源来并行处理这些计算任务。

  大模型通常依赖于海量的训练数据,这一些数据包括文本、图像、音频、视频等多模态信息,且来源广泛、质量参差不齐。为了更好的提高模型的准确性和通用性,必须对这些原始数据做处理,包括数据清洗、标注和预处理等。处理过程中涉及到的数据任务,如去噪、特征提取、归一化等,都需要大量的计算资源。随着数据规模的扩大,这些计算任务的复杂性和计算需求也呈现指数级增长,从而逐步推动了算力的需求。

  训练(Training)是让模型从数据中学习规律,优化模型的参数,使其能够对未来的输入做出准确的预测或生成合理的输出。推理(Inference)是利用已经训练好的模型,在新的输入上进行预测或生成输出。

  在训练过程,模型根据输入数据和相应的标签,计算损失,并通过反向传播算法更新模型参数。训练过程需要大量的计算资源和时间,通常在训练集上多次迭代优化,以提升模型的表现。在推理过程,模型参数(权重、偏置等)已经固定,模型不会再进行参数更新,而是通过前向传播计算,直接生成输出。

  推理的质量和效果是建立在训练阶段模型学习到的知识和模式之上的。训练阶段通过数据学习和优化,赋予了模型对数据的理解和生成能力。没有充分的训练,推理的结果就会偏离预期,生成的内容也不准确。训练阶段使模型能够理解数据和生成高质量的内容,而推理阶段是将这些能力实际应用到新数据上的过程。

  随着模型规模的增大,训练时间也会呈指数级增长。充足的算力能够让大模型在极短的时间内完成多次训练迭代,快速探索参数空间,找到最优解。训练时间的缩短意味着更多的实验迭代、更快速的模型调优和更高效的模型开发。采用高性能算力集群训练,可以在数小时内完成对中等规模大模型的初步优化,使模型在验证集上的准确率快速提升;而算力不足时,大模型训练缓慢,可能长时间陷入局部最优,无法达到理想的精度。

  训练是大模型生命周期中计算资源最密集的阶段,需要高性能和大规模集群算力。

  训练过程的计算复杂度极高,主要包括前向传播和反向传播计算。在每次模型参数更新时,通常会涉及大量的矩阵乘法运算,并且模型需要对数据集进行多次完整遍历,以完成学习任务。训练大模型(如GPT、BERT等)需要巨大的计算资源,而GPU因其高度并行的计算能力,成为了训练的核心硬件。为了提升训练速度,通常需要将多个GPU互联组成集群,通过并行处理大量的数据和计算任务来显著缩短训练时间。GPU集群能够分担计算负载,尤其在处理大规模数据时,能够有效提升效率。同时,训练过程还需要依赖高速网络和大规模存储系统,以支持数据的快速读取和模型参数的频繁更新。

  模型的推理通常需要大量的计算和内存带宽,算力的提升能够加速推理过程,提高模型的实时反应能力。例如,ChatGPT等基于GPT-3的大型对话系统,在推理过程中需要高效的算力支持,才能实现流畅的对话和快速的应答。强大的算力能够确保模型在面对大量推理请求时快速响应;反之,推理速度过慢会导致用户等待时间过长,降低用户体验和使用满意度。

  与训练阶段相比,推理的计算复杂度通常较低,因为它仅涉及前向传播计算,而不需要进行反向传播。这意味着推理过程的计算量相对较小,因此通常可以在硬件性能较低的设备上进行。虽然推理相较于训练的计算需求较低,但仍然对硬件资源有一定的要求。尤其是在生产环境中,需要满足实时性和高并发的要求。根据任务的规模和实时性要求,推理可以在单张GPU、多个GPU,或甚至在CPU上执行。单个GPU常用于处理大规模模型的推理任务,尤其是在需要高吞吐量和实时响应的场景中,而对于较简单的任务或低实时性需求,CPU也可以作为推理的选择。

  推理阶段的算力需求主要受到用户访问频率、并发请求数量和模型规模的影响。为了满足这些需求,优化推理效率、降低延迟、提高能效比是推理任务中的关键目标。此外,随着用户请求的增加,如何通过硬件优化、模型量化、知识蒸馏等技术进一步提升推理效率,成为当今AI应用中面临的重要挑战。与训练相比,推理任务的计算负担较轻,但其需求的并发性和实时性要求更高。在推理阶段,尤其是在延迟敏感和带宽有限的应用场景中,边缘计算布局可以显著优化推理效率。通过将计算任务推向离用户更近的边缘设备,能够减少数据传输延迟、降低带宽压力并提高响应速度。因此,边缘计算在推理任务中扮演着至关重要的角色,特别是对于需要快速决策和实时反馈的应用场景,如自动驾驶、智能制造和物联网设备等。

  大模型需要不同类型的算力芯片,以支持更高计算密度、更低延迟和更高能效。

  传统的计算架构(如CPU)已经难以满足大模型算力需求,因此专为AI设计芯片成为了主流。AI芯片根据不同的应用场景和硬件架构,主要分为以下几类:GPU(图形处理器)、FPGA(现场可编程门阵列)、AI ASIC(专用集成电路)和NPU(神经处理单元)。GPU仍然是大规模训练和高效并行计算的主力军,FPGA主要用于低延迟和特定任务的加速,而AI ASIC和NPU则是为大规模、高效的推理任务提供专用计算单元。例如,谷歌的TPU、亚马逊的Trainium和微软的Maia都是AI ASIC的代表产品。

  AI芯片必须能够在更小的面积内提供更高的计算密度。这可以通过提高芯片的集成度、增加处理单元数量以及优化计算架构来实现。通过更高的计算密度,芯片可以在更短的时间内处理更多的计算任务,显著提高效率。

  尤其在推理阶段,大模型需要快速响应,处理大量的数据请求。芯片设计必须优化数据流的传输,减少中间环节的延迟,提高数据的吞吐能力。通过高速缓存、数据流架构和并行计算等技术,AIGC芯片能够在保证低延迟的前提下,实现高吞吐量。

  算力芯片在处理复杂计算任务时,能效比(性能与功耗的比值)成为了决定芯片性能的重要因素。

  为了降低能源消耗并减少计算成本,AI芯片的设计必须致力于在提供强大计算力的同时,保持低功耗。需要硬件设计和算法层面的深度优化,例如通过量化技术、低精度计算、动态电压频率调整等手段,优化芯片的能效比。

  在大模型训练领域,GPU架构凭借其出色的并行计算能力和高内存带宽,成为加速模型训练的关键硬件。

  最初,GPU设计的目的是加速图形渲染和显示,广泛应用于游戏、视频制作及其他图形处理任务。然而,随着人工智能(AI)技术的快速发展,GPU逐渐成为AI领域,尤其是深度学习中不可或缺的计算单元。与传统的CPU相比,CPU通常具有较少的高效核心,适合处理串行任务,而GPU则包含数千个处理核心,这些核心能够同时处理多个任务,使得GPU在大规模并行计算中表现出显著优势。深度学习模型的训练本质上涉及大量的矩阵运算,这些运算可以高度并行化,GPU的并行计算能力使得训练过程得以大幅度加速。此外,GPU具有较高的内存带宽,在训练大规模神经网络时,大量的参数和数据需要频繁地在GPU的内存和计算核心之间传输。较高的内存带宽可以有效减少数据传输中的瓶颈,加速整体训练过程。

  大模型训练的一个关键挑战是训练时间的长度,特别是对于大规模神经网络,训练过程可能需要数天甚至数周的时间。GPU的高并行计算能力显著缩短了这一过程,尤其是在训练大语言模型时,GPU能够并行处理多个输入数据并计算梯度,在数天内完成数百万次迭代训练。GPU设计集成了许多专门为AI任务优化的硬件加速单元。例如,英伟达的Tensor Core专门加速深度学习中的张量计算,能够大幅提升矩阵乘法的吞吐量,并减少计算过程中的延迟,进一步加速训练过程。通过这些硬件加速,GPU不仅加快了训练速度,还使得训练大规模深度学习模型成为可能,推动了AI技术的快速发展。

  大模型的训练通常需要大量的计算资源和长时间的计算,因此高昂的计算成本一直是一个挑战。然而,GPU能够显著缩短训练时间,从而减少计算资源的消耗。通过并行计算,GPU能够以更高的效率处理数据,大幅降低整体计算成本。特别是在使用多个GPU进行分布式训练时,训练速度加快的同时,整体计算成本也得以显著降低。

  相对计算单元(RCU)是指每单位计算任务所需的计算资源。随着GPU技术的进步,架构优化、效率提升和算法优化,GPU能够以更少的硬件资源完成相同数量的计算任务,这直接导致了AI计算单元的成本下降。根据ARK的分析,AI相对计算单元的成本预计每年将降低53%。

  此外,GPU的高效能和低功耗特点使其在训练和推理中具有更高的性价比。GPU能够以更少的能源消耗完成更多的计算任务,从而降低了训练过程中的能源成本。例如,根据英伟达的数据,每个Token生产所消耗的能量,从Pascal架构的17000焦耳下降到Blackwell架构的0.4焦耳/token,下降幅度达99.8%,GPU能效的提升显著降低了运营成本。

  随着深度学习模型的规模不断扩大,单个GPU的计算能力已经难以满足需求。为了应对这一挑战,现代深度学习框架(如TensorFlow)已经支持多GPU并行训练。通过将模型和数据划分到多个GPU上进行计算,训练过程能够大幅加速,尤其是在训练非常大或复杂的模型时,多GPU并行训练显得尤为重要。多GPU并行训练不仅可以大幅减少训练时间,还能有效解决大规模模型无法完全加载到单个GPU显存中的问题。通过分布式计算,多个GPU可以协同工作,利用各自的计算资源共同完成训练任务,从而提升整体训练效率和训练规模。尤其在大模型和大数据集的训练中,分布式GPU集群能够帮助AI研究者和工程师更快、更高效地训练出性能卓越的模型。

  AI ASIC(Application-Specific Integrated Circuit)是专门为执行某一特定类型的计算任务(如AIGC推理)而设计和制造的集成电路。与通用硬件(如GPU)不同,AI ASIC是针对特定工作负载进行了优化,能够提供更高的计算效率、低延迟和更低的功耗。其核心目的是提高处理速度并减少不必要的计算开销,从而更好地处理机器学习、深度学习和其他AIGC任务。

  AI ASIC在某些高效能、低成本、高并发的应用场景中,相较于传统GPU具有明显优势。

  GPU作为通用计算平台,在处理某些计算任务时可能存在性能瓶颈和较高功耗;而AI ASIC专门针对特定操作(如深度学习中的矩阵运算、卷积等)进行优化,能够在这些任务上提供更高的性能和更低的功耗。虽然GPU在训练过程中表现强劲,但在推理任务(尤其是低延迟和高吞吐量的推理)中,并不是最优选择。AI ASIC则能够针对推理任务进行高度优化,通常在这些应用中表现得比GPU更加高效。虽然GPU具有强大的计算性能,但其成本较高,特别是在大规模部署时,可能导致较高的硬件和运营开销。相比之下,AI ASIC在成本和功耗方面通常比GPU更具优势,适合大规模部署的场景。随着AI应用的复杂性不断增加,单纯依赖GPU可能无法满足日益复杂的计算需求。AI ASIC的定制化设计使其能够更好地适应特定类型的AI任务,并优化计算资源的使用。

  AI ASIC能够提供更高的计算效率、低功耗和低延迟,尤其适合推理和边缘计算任务。

  AI ASIC在推理任务中尤其表现突出,特别是在需要低延迟和高吞吐量的应用场景。例如,谷歌的TPU被广泛用于云端AI推理服务,如Google Search和YouTube推荐等。AI ASIC还非常适合部署在边缘设备上,因为其高效计算和低功耗特性可以支持在硬件资源有限的环境中进行AI推理。在某些特定的神经网络架构训练中,AI ASIC也能提供高效的解决方案。

  AI ASIC可以分为推理专用ASIC、训练专用ASIC和混合用途ASIC。

  推理专用ASIC的目标是优化能源效率,同时最大限度地减少计算延迟。常见的推理专用ASIC有Google TPU v5e和Amazon Inferentia。Google TPU v5e在推理方面具备强劲的性能、高性价比、良好的可扩展性以及广泛的软件框架支持。Amazon Inferentia具有高性价比和易于集成与使用的特点,专为推理任务优化,适合大规模AI服务应用。训练专用ASIC的目标是提供极高的计算能力,优化深度学习模型的训练速度。常见的训练专用ASIC有Google TPU v5p和AWS Trainium。Google TPU v5p在大规模训练任务中表现出色,具有更强的性能、灵活性和可扩展性,适用于多种深度学习训练场景。AWS Trainium通过优化架构设计,显著提升深度学习模型训练速度,特别适合需要高并行性和低延迟的训练任务。混合用途ASIC如Cerebras Wafer-Scale Engine,主要面向超大规模深度学习训练,能够处理极其庞大的神经网络,适合高性能计算需求和超大规模训练任务。

  随着AIGC技术的迅猛发展,特别是基于Transformer架构的大规模AI模型的崛起,对算力的需求呈现出指数级增长。

  这些先进的AI模型在训练和推理过程中需要巨大的计算资源,包括高性能GPU、高速存储系统以及高带宽的通信网络。自2017年Transformer模型问世以来,Transformer架构已成为构建大规模模型的基础。相比传统的循环神经网络(RNN)结构,Transformer摒弃了序列数据的顺序处理方式,采用了自注意力机制,能够并行处理整个数据序列,大幅提高了训练和推理效率。

  根据英伟达的数据,在引入Transformer架构之前,算力需求的增长速率为每两年约8倍;然而,采用Transformer架构后,算力需求的增长幅度激增,达到了每两年约275倍。这一变革性进展迫使数据中心朝着超大规模方向发展,以满足日益增长的计算需求,并确保提供更强的计算能力和更好的可扩展性。同时,AI服务器集群也在快速迭代和升级,以确保能够满足这些前所未有的算力要求。

  根据Scaling-law法则,大模型的性能与模型参数量、训练数据量和计算资源成正比。

  且随着这些因素的增加,模型性能呈显著提升。在AIGC大模型的算力需求方面,随着模型参数规模、Token数量以及训练所需算力的同步增长,模型性能不断优化。例如,GPT-4的参数量从GPT-3的约1750亿增加到约1.8万亿,增幅超过10倍;同时,训练数据集的规模也从GPT-3的几千亿Token扩展到13万亿Token。这一规模的增长极大地提升了GPT-4在处理复杂问题和生成自然文本方面的能力。

  然而,随着AIGC大模型性能的提升,对计算资源的需求也呈现出指数级的增长。

  以GPT-4为例,其训练过程需要约2.15e25 FLOPS的运算量,相当于需要约25000块A100 GPU的协作,且训练周期长达90至100天。此外,数据采集、模型优化和强化学习等环节的额外开销,使得整体训练成本变得更加高昂。根据斯坦福大学2024年发布的《AI指数报告》,AIGC模型的训练成本正经历剧烈上涨。具体而言,GPT-4的训练成本从2022年GPT-3的约430万美元激增至2023年的7835万美元,呈现出近18倍的增长。随着模型的规模不断扩大以及训练过程的日益复杂,这些成本预计将持续攀升。

  随着大模型规模的不断扩展,其训练成本也不断攀升。EPOCH AI估算了45个前沿大模型(其中包括发布时计算量排名前10的模型)的训练成本,发现前沿模型的训练成本(包括硬件摊销和能源消耗)自2016年以来增长迅速,年均增幅达到2.6倍。随着技术的进步和模型规模的扩大,预计到2027年,最大规模的大模型训练成本将突破10亿美元。这意味着,除非具备强大资金支持的组织,否则前沿大模型的训练将变得不再可行,对绝大多数组织而言,这种训练成本将是不可承受的负担。

  AIGC的迅猛发展高度依赖于算力基础设施的建设和算力资源的供给。云服务商、数据中心运营商以及芯片制造商在算力领域的投资力度,直接决定了AIGC应用能否实现突破性发展。根据IDC的预测,全球AI资本支出预计将从2022年的1325亿美元增长到2027年的5124亿美元,年复合增长率为31.1%。这一增长反映了AIGC技术在多个行业中日益重要的地位。

  云服务商正在积极推动AI算力即服务(AIaaS)模式,以降低AIGC技术应用的门槛并简化企业对基础设施的投入需求。

  通过提供定制化的AIGC解决方案,云服务商可以帮助企业和开发者更快实现AI应用的落地。为满足AIGC应用的需求,领先的云服务商已经推出了自有的定制化AI芯片(如Google的TPU和Amazon的Inferentia),这些芯片专门针对AIGC应用进行优化,提供更高效、低成本的计算能力。越来越多的AIGC企业选择在多个云平台之间分配计算任务,以利用各平台的优势和算力资源,选择最合适的部署方案。

  云服务商持续加大对AIGC专用硬件和服务平台的投资,以满足大规模模型训练和推理对算力的需求。

  主要云服务商已推出专门的AI云服务,如AWS的SageMaker、Azure的AI基础设施和Google Cloud的AI Platform。这些服务为企业提供灵活的AIGC模型训练和推理解决方案,满足不同规模企业的多样化需求。云服务商还提供GPU和AI ASIC实例,帮助用户更高效地运行AIGC任务。AWS、Azure和Google Cloud等云平台已在其数据中心大规模部署这些高性能计算资源,以支持AIGC的复杂工作负载。

  为了支持大规模AIGC训练,许多数据中心运营商和大型科技公司开始建设超大规模的数据中心。这些数据中心通常分布在多个地区,具备极高的计算能力和存储容量,特别优化了AI任务的处理,支持分布式计算、低延迟以及高带宽的数据传输。大型云服务商正在投资建设专门为AI工作负载优化的数据中心,配备大量GPU、TPU等算力资源,以支持AIGC模型的训练和推理。

  根据海外云服务巨头的资本开支计划,亚马逊、微软、谷歌和Meta等公司正持续增加对AIGC基础设施的投资。

  2021至2023年间,这四家云服务商的总资本支出达到4670亿美元,年均约1550亿美元。到2024年第二季度,四家云服务商的资本支出已达520亿美元,同比增长54%,主要用于数据中心的AIGC基础设施建设,以推动产品转型和技术升级。以微软为例,2024财年第四季度的资本开支为190亿美元,其中云和AI相关支出占比高达50%。这一部分资金中,约一半将用于IDC基础设施建设,另一半将用于采购GPU和CPU服务器。展望未来,预计2024至2027年间,四家云服务商将在AIGC领域的资本支出总额将达到8500亿美元,年均2125亿美元,进一步推动其在竞争激烈的AIGC市场中的领先地位,并促进技术创新和市场增长。

  从海外云服务公司管理层的表态来看,针对AIGC领域的高额资本支出预计将持续较长时间。

  Meta CEO马克·扎克伯格强调,保持在AI领域的领先地位至关重要,并警告称,投资不足可能会导致Meta在未来10至15年内处于竞争劣势。谷歌CEO桑达尔·皮查伊表示,公司将倾向于超额投资,确保在AI领域抓住收入机会,即便面临资源过剩的风险。亚马逊CFO布莱恩·奥尔萨夫斯基预计,2024年下半年资本支出将持续增长,主要投资于满足AI市场的需求。微软CFO艾米·胡德宣布,将加大AI基础设施建设投入,预计2025财年将刷新资本支出记录,以应对日益增长的AIGC和云服务产品需求。

  中国的AI资本支出预计将从2022年的128亿美元增至2027年的400亿美元,年复合增长率为25.6%。以云服务商为例,字节跳动的资本开支预算预计从2024年的800亿元大幅增长至2025年的1500亿元以上,主要用于AI算力采购和IDC基础设施建设。电信运营商方面,中国移动2024年资本开支预计为1730亿元,其中算力领域的投入预计达到475亿元,同比增长21.5%,占资本开支比重提升至27.5%。中国将继续在亚太地区AI市场发展中发挥引领作用,预计其AI资本支出将占亚太地区总支出的50%。

  AIGC推动云服务商提供训练和推理的按需服务,这将进一步促进数据中心业务增长。

  根据Synergy Research Group的数据,全球数据中心市场规模近年来持续增长,尤其在北美、欧洲和中国表现强劲。截至2023年底,全球活跃的超大规模数据中心增至992个。预计,未来十年每年将有120-130个超大规模数据中心上线年底,美国占全球超大规模数据中心的51%,欧洲和中国分别占17%和16%。在数据中心客户方面,公有云市场领先的三巨头亚马逊、微软和谷歌占据主导地位,这三家公司占据了所有超大规模数据中心容量的60%,紧随其后的是Meta、阿里巴巴、腾讯、苹果和字节跳动。

  根据Yole的预测,AI服务器的出货量将从2023年的112万台增至2029年的284万台,年复合增长率为16.8%。AI服务器在数据中心服务器出货量中的占比将从2023年的8%提升至2029年的18%。

  GPU服务器依然是AI算力的重要载体,尤其在AIGC训练和推理任务中,GPU服务器的优势显著。

  根据Yole的预测,GPU服务器的出货量将从2023年的66万台增至2029年的139万台,年复合增长率为13.0%。然而,GPU服务器在AI服务器出货量中的占比将从2022年的63%逐步下降至2029年的49%。这主要受到AI ASIC服务器日益增长的市场份额的影响。

  尽管灵活性较差,AI ASIC服务器主要应用于推理等特定场景的计算任务。随着AIGC应用的加速、云服务的扩展以及定制化算力需求的提升,AI ASIC服务器的市场需求也在增长。根据Yole的预测,AI ASIC服务器的出货量将从2023年的45万台增至2029年的145万台,年复合增长率为21.4%。

  为了应对训练任务日益复杂的计算需求,新一代GPU需要采用更先进的制造工艺(如5nm、3nm制程)和更高规格的硬件组件,这推动了单个GPU的制造成本上升,进而导致其ASP(平均销售价格)的增长。AIGC算力需求的增加也进一步推动了高端GPU的需求,这些高端GPU的售价较高,从而推动了整体GPU ASP的上升。根据Yole的预测,AI GPU的ASP将从2023年的8991美元增长至2029年的18449美元。与此同时,全球数据中心GPU市场的出货量持续攀升,2023年出货量达到了423万颗,较2022年的258万颗增长了64%。预计AI GPU市场规模将从2023年的380亿美元增长至2029年的1715亿美元,年复合增长率为28.6%。

  AI ASIC是为特定任务量身定制的,通常需要大量的前期研发投入。设计一款针对AI应用的ASIC芯片需要耗费大量资源、时间和技术,这些成本最终会反映在销售价格中。AI ASIC采用最先进的半导体工艺,这些工艺不仅提升了性能和效率,也带来了更高的制造成本。根据Yole的预测,AI ASIC的ASP将从2023年的4233美元增长至2029年的6457美元。AI ASIC市场规模预计将以快速增长的态势发展,从2023年的115亿美元增至2029年的561亿美元,年复合增长率为30.2%。

  从算力市场的结构来看,训练算力仍占据主导地位,但推理算力的增长速度更快。

  根据彭博的预测,AIGC硬件市场将从2022年的350亿美元增长至2032年的6400亿美元,这一增长趋势反映了AIGC技术在训练和推理两个关键环节对算力资源的强大需求。训练算力是当前AIGC算力市场的核心,彭博预计训练硬件市场规模将从2022年的320亿美元增长至2032年的4710亿美元,年复合增长率为31%。

  推理算力的增长速度超过了训练算力,这主要得益于推理任务在边缘计算、云服务和各种AI应用中的广泛部署,特别是在低延迟和高效能硬件需求日益增长的背景下。随着AIGC应用的爆发,推理硬件市场的增速将更为迅猛,预计推理硬件的市场规模将从2022年的30亿美元增长至2032年的1690亿美元,年复合增长率为48%。

  GPU和AI ASIC市场正处于快速发展阶段,主要厂商的长期产品路线图着重提升计算能力、降低功耗并提高能效。

  英伟达继续巩固其在AIGC算力市场的领导地位,AMD和英特尔则通过持续创新的GPU产品力图缩小与英伟达的差距。代表性产品包括英伟达的A100和H100、AMD的MI300系列,这些GPU产品推动了AIGC技术的发展,进一步加速了大模型的训练和应用落地。与此同时,谷歌和亚马逊也在不断优化其AI ASIC产品,以提升推理和训练效率,巩固在云计算和AIGC领域的技术优势,代表性产品有谷歌的TPU系列、亚马逊的Trainium和Inferentia系列。

  英伟达作为全球GPU市场的领军者,其产品在AIGC领域中扮演了关键角色。英伟达推出了多个成功的GPU架构系列,如Volta、Turing、Ampere和Hopper等,这些架构配备了专为深度学习设计的专用计算单元Tensor Core,显著提高了大模型训练与推理的效率。2024年3月,英伟达发布了基于Blackwell架构的产品,并计划于2026年推出下一代AI平台“Rubin”,预计将在算力、能效和性能上进一步提升,巩固其在AIGC市场的领导地位。

  AMD则主要采用CDNA系列架构,并在其设计中引入了Matrix Core和Infinity Fabric等技术,致力于提升计算单元规模,同时优化内存和缓存设计。AMD计划在2025年推出CDNA4架构,支持FP4和FP6精度,预计将在大模型推理任务中显著提升性能,进一步增强其在训练和推理领域的竞争力。

  谷歌是AI ASIC的领导者。谷歌TPU系列是最热门的AI ASIC芯片之一,广泛应用于Google云服务中。TPU v5e在推理任务中具有较高性价比,而TPU v5p则在大规模训练任务中表现卓越,能够在更短时间之内完成更多计算任务,显著提高训练效率。2024年5月,谷歌发布了第六代AI ASIC处理器——Trillium(TPU v6),该产品在计算性能、能效比和可扩展性方面都做出了大幅提升,进一步巩固了谷歌在云计算和AIGC领域的技术优势。

  亚马逊打造高性能AI ASIC。亚马逊在AI ASIC领域也取得了显著进展,Inferentia专为AI推理任务设计,Trainium则专门为大模型训练而开发。亚马逊计划在2025年底推出Trainium3,旨在满足新一代生成式AI工作负载的高性能需求,该产品将突出性能、能效和密度,设立新的标杆。

  英特尔推出了Gaudi系列AI加速器,专门设计用于加速大模型训练。2024年10月,英特尔发布了Gaudi3,算力性能显著提升,在FP8精度下算力能力是Gaudi2的2倍,而在BF16精度下是Gaudi2的4倍。与其他主流产品如英伟达的H100相比,Gaudi3在价格上具有明显优势,有助于降低AIGC训练的硬件成本,尤其对企业和研究机构具有吸引力。

  台积电是全球最重要的GPU和AI ASIC芯片代工厂商,其制造工艺直接决定了AI芯片的计算性能和能效比。

  随着技术进步,AI芯片的制造工艺正从7nm逐步迈向更先进的5nm和3nm工艺。作为全球领先的半导体代工厂,台积电为众多重要的GPU和AI ASIC芯片提供制造能力,其技术能力和产能在AI芯片供应链中具有不可替代的地位。

  英伟达的GPU主要由台积电代工生产,台积电先进的制造工艺为英伟达的高性能计算GPU提供了强大的技术支持。英伟达的A100 GPU基于台积电的7nm工艺制造,而H100 GPU进一步升级至4nm工艺,显着提升了计算性能和能效表现。即将量产的B200 GPU采用台积电的N4P工艺,这是一种优化版的4nm工艺,能够在能效和性能之间实现更好的平衡。未来,英伟达计划继续与台积电深度合作,预计将在下一代GPU中采用台积电的3nm工艺,以逐步提升性能和效率。

  AMD的CDNA架构工艺GPU同样由台积电代工打造。基于CDNA 3架构的MI300A采用台积电5nm工艺,MI325X升级至4nm工艺。根据AMD的长期规划,其将于2026年推出基于CDNA 5架构的Instinct MI400系列,预计采用台积电的更先进工艺,为AIGC领域提供更强的支持。

  英特尔则致力于提升其自身制造工艺的水平,例如Intel 4和Intel 3工艺。Ponte Vecchio GPU采用了英特尔的Intel 4工艺,主要应用于AIGC领域。然而,与台积电相比,英特尔在先进的制造工艺技术上依然不足,英特尔计划在2025年推出下一代旗舰GPU Falcon Shores,将部分芯片生产转交台积电,采用其5nm和3nm先进工艺。

  谷歌、亚马逊、Meta、微软等云服务商大力推进自主研发的AI ASIC芯片,此类芯片的设计服务和IP供应商包括博通(Broadcom)、美满电子(Marvell)、世芯电子(AIchip)和GUC等。这些公司为AI ASIC芯片设计提供从前端设计、架构布局到IP授权的全方位支持,包括计算、存储、网络I/O和封装等关键领域。同时,设计团队还协助开发AI芯片定制的软件开发工具包和加速库,以优化芯片性能。

  以博通为例,自2016年谷歌推出TPU v1以来,博通就与谷歌展开了深度合作,所有已发布的TPU芯片均由双方共同设计。目前,博通已获得谷歌下一代AI芯片TPU v7的设计合同。美满电子同样积极布局AI ASIC设计领域,2024年12月与亚马逊达成为期五年的战略合作协议,助力亚马逊设计和优化自研AI ASIC芯片。

  AI ASIC芯片的制造工艺与GPU类似,但由于其高度定制化,对生产工艺的要求更为严格。大部分AI ASIC芯片均由台积电代工。例如,谷歌的TPU系列和亚马逊的Trainium芯片均采用台积电的先进制造工艺。谷歌TPU v5采用了5nm工艺,并计划在未来的产品中升级至3nm或2nm工艺,以进一步提升计算性能和效率。亚马逊则计划在2025年推出Trainium 3芯片,该芯片也将采用台积电3nm工艺。

  英伟达作为GPU市场的绝对领导者,其产品在大模型训练和推理市场中占据主要份额。

  根据Yole的数据,2023年英伟达服务器GPU销售收入达到362亿美元,市场份额高达96%。与此同时,AMD和英特尔也在服务器GPU市场中占有一席之地。AMD的MI300系列GPU凭借出色性能,获得了微软和Meta等大客户的订单,占据了3%的市场份额。英特尔则通过Gaudi 2提供高性能且具备成本效益的解决方案,占据了1%的市场份额。此外,一些新兴企业也正在进入市场,推动技术创新和产品多样化。

  除了芯片代工环节以外,芯片载板、覆铜板(CCL)、印制电路板(PCB)、计算板卡、NVLink交换板以及服务器机架等关键部件的性能需求均不断提高,带动了供应链整体价值量的明显提升。例如,英伟达的下一代GB300 GPU引入了GPU插槽设计,替代了传统的直接表面贴装方式。这种新设计对PCB的制造工艺提出了更高的要求,采用三片式高难度PCB组合技术。与此同时,新产品的推出还进一步提升了芯片载板的面积需求,并提高了产品整体的传输性能和功耗效率。

  例如,摩根士丹利预计富士康在英伟达最新GB200服务器市场中份额第一,达到了54%。此外,富士康还获得了NVLink交换板独家代工订单。与此同时,中国厂商也逐步进入高价值供应链环节。例如,胜宏科技为高性能PCB供应商,麦格米特负责服务器电源模块供应,铂科新材则为芯片电感主要供应商。

  根据摩根大通估计,这两家公司合计占据超过60%的市场份额,其中博通以55%-60%的份额稳居第一,美满电子则以13%-15%的份额紧随其后。博通的主要客户包括谷歌、Meta和字节跳动。谷歌每年为TPU芯片支付的费用持续增长,从2023年的35亿美元预计提升至2024年的70亿美元。此外,博通与Meta在AI基础设施方面的合作也为其带来可观的收入,摩根大通预计该合作在未来两年内可能贡献数十亿美元的收入。

  美满电子的AI ASIC业务也在快速增长。摩根大通预测,美满电子的AI ASIC收入将在2025年达到28亿至30亿美元,到2028年进一步增长至70亿至80亿美元。这种增长主要得益于其在高性能计算、数据中心和云计算市场中的深耕布局。

  为了保持在AIGC领域的全球领先优势,美国政府不断加强对AI芯片的出口管制措施。

  2022年8月,美国政府对向中国销售一些高端计算机芯片实施了新的限制,主要涉及英伟达、AMD等公司的高端GPU产品,例如英伟达的A100和AMD的MI250等,要求企业在出口相关产品时必须申请出口许可证。2023年10月起,英伟达被禁止向中国出口A100、A800、H100、H800等GPU产品。同年11月,美国政府进一步要求,若英伟达等公司向中国供应具有一定“处理密度”的高性能处理器,则必须向美国商务部工业与安全局申请出口许可证。2025年1月,拜登政府发布《人工智能扩散框架》,设立三级出口限制许可体系,限制全球范围内对AI芯片的获取。

  中国企业正在加大对GPU设计和高端芯片制造工艺的资金与人力投入,同时在半导体材料、设备等上游环节努力实现自给自足,减少对国外技术和设备的依赖。2024年5月,国家大基金三期正式注册成立,注册资本达到3440亿元人民币,重点支持先进集成电路制造、AI芯片等关键领域,以促进国内AIGC产业的健康发展。中芯国际作为中国最大的芯片代工厂商,已经具备7nm制程的量产能力,但由于美国禁令的影响,中芯国际只能使用深紫外光(DUV)光刻机,无法获得更为先进的极紫外光(EUV)光刻机。这一制约导致在推进5nm甚至3nm制程时,光罩数量增加、成本上升,且良率难以保证,进而限制了其在AI芯片更先进制程研发和量产方面的进展。

  尽管国产GPU与英伟达GPU在性能上仍存在明显差距,但随着英伟达产品的禁运,部分国内厂商正在加速抢占市场份额。

  目前,主要的国产GPU和AI ASIC厂商包括华为、壁仞科技、寒武纪、天数智芯、燧原科技、沐曦、摩尔线程、登临科技等。华为的昇腾系列已在AI算力市场中形成较强竞争力,成为国产AI算力市场的领军者。国内厂商的芯片制造仍依赖台积电和中芯国际,但随着国内芯片制造工艺的逐步进步,能够很好的满足部分高端芯片的量产需求。

  国内厂商还加大了与国外厂商在AI ASIC领域的合作,试图突破英伟达GPU市场的垄断。

  据悉,字节跳动正在与博通合作开发自有的ASIC和DPU芯片,逐步构建强大的AI算力基础设施,以支持公司迅速增加的大模型训练和推理需求。目前,这款芯片符合美国的出口限制,且制造工作计划由台积电代工。博通是AI ASIC芯片领域的头部玩家,与谷歌、Meta等公司有广泛合作,具备强大的定制化设计能力、高性能互联技术以及卓越的供应链整合能力。国内厂商与此类国外企业的合作,不仅能够借助其成熟的技术和经验,还能加速国内AI芯片的研发进程及产品落地。

  注意:未经招商银行事先授权,任何人不得以任何目的复制、发送或销售本报告。