GPU深度报告,三大巨头,14名国内玩家

2023-11-21

GPU是Graphics Processing Unit(图形处理器)是一种微控制器,专门用于个人电脑、工作站、游戏机和一些移动终端(如平板电脑、智能机器等)的图形计算。).NVIDIA企业图形处理器(NVIDIA)NVIDIA于1999年8月发布 GeForce 256(GeForce 256)制图处理芯片时提出的第一个概念,在此之前,在计算机中解决图像输出显示芯片,一般很少被称为独立的计算单元。而对手冶天科技(ATi)还提出了视觉CPU(Visual Processing Unit)定义。图形处理器减少了显卡对微处理器(CPU)依赖和分配部分最初由中央处理器承担,特别是在进行三维绘图计算时。图形处理器采用的关键技术包括硬件坐标转换和灯源、三维环境材料地图和端点混合、线压缩和凹凸投影地图、双向线四像素256渲染发动机等。

图形处理器可以单独与专用电路板及其附件形成图形卡,或者单个芯片可以立即嵌入主板,或者将主板放置在北桥芯片中。现在也有一些人将SOC放置在CPU上。在个人电脑领域,2007年,90%以上的新台式机和笔记本电脑都有嵌入式制图芯片,但在能量上通常不如许多独特的显示器。然而,2009年以后,AMD和英特尔大力推广放置在微处理器中的高能集成图像处理的关键。他们可以在2012年超过这些低端独立显示器,这使得许多低端独立显示器逐渐失去了市场需求。在两位个人计算机图形处理器的研发领导者中,AMDAMD APU产品线取代其大部分低端单独显示核心产品线。然而,在手持设备领域,随着平板电脑等一些设备对图像处理水平的要求越来越高,许多制造商似乎都是高通公司(Qualcomm)、Imagination、ARM、NVIDIA等,也在这一领域“大展身手”。

GPU不同于Intel等传统CPU i5或i7Cpu的核心数量较少,专门为通用计算设计。相反,GPU是一种具有100多个或数千个核心的特殊处理器,可以通过升级并行运行大量计算。尽管GPU在游戏中以3D渲染而闻名,但它们对操作分析、深度学习和机器学习算法尤为有效。GPU允许一些测量比传统CPU快10到100倍。

今天,我们推荐方正证券报告GPU研究框架,从GPU的底层技术、产业链的发展和国内GPU的独立方式三个方面全面分析GPU和行业。

今日内参由来:方正证券

原标题:

GPU研究框架

作者:陈杭 等

GPU(graphics processing unit)图形处理器,又称显示核心和视觉CPU、显示芯片,它是一种微控制器,在个人电脑、工作站、游戏机和一些移动终端(如平板电脑、智能电脑等)上进行图像和图形操作。GPU通常包括图形显存控制板,缩小模块BIOS、图形及计算列、总线接口、电池管理模块、视频管理单元、显示界面。GPU通常包括图形显存控制板,缩小模块BIOS、图形和计算列、总线接口、电池管理模块、视频管理单元和显示界面。GPU的诞生减少了计算机对CPU的依赖,解放了一些原始的CPU工作。GPU在3D图像处理中选择的关键技术是硬件T&L(几何转换和光处理)、立方环境材料地图和端点混合、纹理压缩和凹凸投影地图、双向纹理四像素256渲染发动机等,硬件T&L技术是GPU的象征。

GPU的结构构成部分

GPU关键,PCB板

GPU的微架构(Micro Architecture)在CPU中结合给定指令集和图形函数是一种方法。图形函数主要用于制作各种图形所需的计算。GPU硬件加速了与像素、光影解决、3D坐标变换等相关的操作。在不同的微架构中可以实现相同的指令集和图形函数组合,但执行的目的和效果可能会有所不同。优秀的微架构在提高GPU能量和效率方面起着至关重要的作用。GPU系统是GPU微架构和图形API的集合。

以最新的英伟达安培微架构为例,GPU微架构的运算部分由流处理器组成(Stream Processor,SP)、纹路模块(Texture mapping unit, TMU)、张量单元(Tensor Core)、光跟踪模块(RT Cores)、光栅化处理单元(ROPs)构成。在这个操作单元中,NVIDIA在伏特/图灵微架构中引入了张量单元和光跟踪模块。

GPU的微架构除上述操作单元外,还包括L0/L1操作缓存、Warp调度器、分配模块(Dispatch Unit)、存储器堆(register file)、特殊功能模块(Special function unit,SFU)、存储模块、显卡互连模块(NV Link)、PCIE总线插口、L2缓存、第二代上位宽显存(HBM2)等插口。

英伟达安培核心概述

“英伟达安培核心”SM”模块

GPU的流处理器模块是NVIDIA,并命名统一架构GPU中的通用标量着色器。SP模块是继Pixel之后的全新全能渲染模块 Pipelines(像素管)和Vertex Pipelines未来新一代显卡渲染性能指标(端点管道)。VSP模块可用于VSP模块(Vertex Shader,计算顶点着色器)也可以进行PS(Pixel Shader,计算像素着色器,并可根据需要构成随机VS/PS的比例,从而给开发者更广阔的发挥空间。

DirectXX首次出现流处理器模块 Nvidia,10时代G80的核心 GeForce 8800GTX显卡是显卡发展史上的重大创新。

DirectXX首次出现流处理器模块 Nvidia,10时代G80的核心 GeForce 8800GTX显卡是显卡发展史上的一项重大创新。未来,AMD/ATI显卡也引入了这一概念,但流处理器在横向和纵向上是不可比拟的。大量流处理器是GPU强大的必要条件。

纹理映射模块(TMU)作为GPU的一部分,它可以旋转、缩放和扭曲二进制图像,然后将其作为纹理放置在给出的3D模型的任意平面上。这个过程被称为纹理映射。纹理映射模块不能简单地跨平台进行横向比较,大量的纹理映射模块是GPU强度的必要条件。

光栅化处理单元(ROPs)它主要从事游戏中的光和反射计算,包括AA、高像素、浓烟、火焰等效果。游戏中的抗锯齿和光影效果越强,ROPS的能量规定就越高,否则帧率可能会急剧下降。NVIDIAROPS模块与流处理器捆绑,两者同比调整。在AMD ROPS单元与流处理器模块在GPU中没有直接捆绑关联。

英伟达安培核心SP、ROPs、TMU拆卸

英伟达RTX 3080 GPU-Z参数

2018年,英伟达“图灵”GPU首次引入交易GPU的实时光跟踪,光追模块(RT Cores)在这个过程中发挥了决定性的作用。图灵GPU的光追模块适用于边界容积水平加快、即时阴影、光线、照明和反射。光追单元和光栅模块可以协调工作,进一步提高帧数和阴影的真实性。

英伟达RTX光跟踪技术、微软DXR光追踪模块 API、Optix英伟达 在API和Vulkan光追API的支持下,能够充分发挥作用。RTX2080Ti拥有68个光追单元,在光解方面比无光追单元GTX1080Ti强10倍。

张量单元(Tensor Core)英伟达的“伏特”GPU于2017年首次引入。张量单元主要用于基于人工智能的即时深度学习,大型矩阵操作和深度学习非常取样(DLSS),基于云系统的高效人工智能可以带来惊人的游戏和专业图像显示。

英伟达RTX2080ti张量单元算率

英伟达图灵GPU光追模块运行流程

英伟达图灵GPU张量单元给予多精度AI

GPU的API(Application Programming Interface)应用程序接口起到连接应用软件和显卡驱动的桥梁作用。但随着系统优化的深入,API可以直接管理高级语言、显卡驱动和底层汇编程序。但随着系统优化的深入,API可以直接管理高级语言、显卡驱动和底层汇编程序。

3D API可以让编程师设计的3D软件只刺激API中的程序,让API自动与硬件驱动软件沟通,在3D芯片中运行强大的3D图像处理,从而大大提高3D过程的设计效率。同样,GPU制造商也可以根据API规范设计GPU芯片,以优化API硬件平台,获得更好的能源。3D API可以适应不同厂家的硬件和软件。如果没有API,开发者必须对不同的硬件进行一对一的编号,这将带来大量的软件兼容性问题和编号成本。

目前GPU API可分为两大势力和多个其他类别。两大势力分别是微软的Directx标准和KhronosGroup标准,包括苹果的Metal API、AMD的Mantle(地幔)API、英特尔的One API等。

微软Directx和Khronos Group API组成比较

Directx是Direct 简称extension,作为API,是微软企业建立的多媒体编程界面。Directx可以使以Windows为平台的游戏或多媒体程序获得更高的执行效率,提高3D图形和声音效果,为设计师提供共同的硬件驱动规范,使游戏开发者不需要为每个品牌的硬件编写不同的驱动软件,也可以降低用户安装和设置硬件的复杂性。Windows操作系统和Xbox主机网络游戏开发已广泛应用于Directx。

Opengl是Open Graphics Library的缩写用于渲染2D、跨语言、跨平台应用程序编程接口的3D矢量图形(API),比Directx更开放。该插座由近350个不同的函数调用组成,用于制作从简单的二维图形到复杂的三维景观。CADDADA常用Opengl、虚拟现实、科学可视化流程和网络游戏开发。

因为Opengl是开放的,它可以在Windows中运行、MacOS、Linux、在安卓、iOS等操作系统中,学习门槛低于Directx。但Opengl的主要缺点是效率低。

与Opengl特性相比,Directx和Opengl特性

Metal是由Apple于2014年建立的,低成本硬件加速3D图形,计算着色器API。Metal在iOS 8中首次亮相。Metal将Opengl和Opencl等功效融入API中。它希望通过iOS,iPadOS,Macos和TVOS上的应用程序为GPU硬件提供底层浏览,以提高能量。与OpenGL相比 ES,Metal减少了10倍的编码拥堵,带来了更好的解决方案,并将在苹果设备中取代Opengl。Metal还支持英特尔HD和IRIS系列GPUP、GCN和AMDRDNA GPU、NVIDIA GPU。Metal也是面向对象的API,可以用Swift或Objective-C编程语言调用。Metal上色语言控制GPU的所有操作。

2017年,苹果推出了Metal升级版Metal2,适用于上一代Metal硬件、iOS11、MacOS和TVOS11。Metal2可以更有效地配备和调试Xcode,加快机器学习速度,减少CPU任务量,适用于Macos上的VR,充分利用A11 GPU的特点。

Vulkan是一种低成本、跨平台的3D图像和API测量。面对视频游戏、互动媒体等跨所有平台的高能即时3D图形应用软件。Direct3与OpenglD 与Metal相比,Vulkan旨在提供更高能量、更平衡的CPU/GPU用法。Vulkan除了使用较低的CPU外,还旨在使开发者在多核CPU中更好地分配工作。

Vulkan源于Mantlele,基于AMD 最初版本的API部件被称为OpenGL的下一代。2020年1月15日,最新Vulkan1.2发布,该版融合2经常使用的Vulkan扩展三个附加。

与OpenGLMetal相比,Metal

与Vulkan相比,Opengl和Vulkan

在软件生态层面,GPU不能独立工作,需要CPU控制和启用才能工作,而CPU可以在处理多种相同的数据时使用GPU进行并行计算。因此,GPU的生态与CPU的生态密切相关。

近年来,随着摩尔定律演变的缓解和GPU在通用计算领域的快速发展,通用图形处理器(GPGPU)慢慢地“喧宾夺主”,用GPU来计算最初由CPU处理的一般计算任务。

目前,每个GPU制造商的GPGPU完成方法不同,如NVIDIA使用的CUDA(compute unified device architecture)原ATIATIATI技术 Stream技术,Open CL联盟,微软DirectCompute技术。这些技术可以使GPU在媒体编号、视频帧和界面改进、人工智能和深度学习、科研领域、超级计算机等方面发挥异构加速的优势。在上述四种技术中,只有Opencl适用于跨平台和开放注明,也可以使用特殊的可编电路加速计算,在行业中得到了广泛的应用。

与Opengl生态相比,Directx与Opengl生态

Opencl生态联盟

根据接入方式,GPU可分为单独GPU和集成GPU。单独的GPU通常包装在单独的显卡电路板上,具有独立的显存,而集成的GPU通常与CPU共享一个Die,共享系统内存。根据接入方式,GPU可分为单独GPU和集成GPU。单独的GPU通常包装在单独的显卡电路板上,具有独立的显存,而集成的GPU通常与CPU共享一个Die,共享系统内存。

GPU的重要分类

单独GPU

集成GPU Die

GPU显存是GPU正常运行必不可少的核心部件之一,用于存储显卡芯片处理或即将提取的渲染数据。GPU的显存可分为单独显存和集成显存。GDDR3通常用于单独显存、GDDR5、GDDR5X、DDR3通常用于集成显存、DDR4。服务器GPU喜欢使用Chiplet的HBM显存,以增加货运量。

集成视频存储器仅限于64位操作系统,即使构成2个通道甚至4个通道,也与独立视频存储器的带宽非常不同。一般而言,这也会导致单个GPU比集成GPU更强大。

显存的重要分类

单独显存的工作状态

单独显存的工作状态

集成显卡是指使用一部分主内存作为显存的显卡,通常没有显存。集成显卡可以融入主板作为北桥芯片的一部分,也可以与CPU集成在同一个Die中。一般情况下,根据系统和系统软件的需要,自动调整集成显卡的显存。如果显卡运行必须占用大量的存储空间,则整个设备的运行将受到限制。此外,系统内存的数量一般低于独立显示器,因此集成显卡的数量可能低于独立显示器。

独显是将显示芯片及相关设备制成不同于计算机主板的板卡,成为专业的图像处理硬件配置。独立显示器比集成显卡更好,因为它具有上位宽、高频单独显示和更多的控制部件。它不仅适用于一般工作,而且具有完善的2D性能和强大的3D水平。因此,它通常用于高能台式机和笔记本电脑。关键接口为PCIE。

如今,独显和集成显卡不再是两个完全分区,分别是图像控制部件。在微软DX12的支持下,两者也可以实现独核显战,AMD和NVIDIA的显卡也可以完成混战。

对比集成显卡和独立显卡

与CPU相比,GPU

:从芯片设计的概念来看,CPU应以低延迟为主导的计算单元,一般由几个专门为串行解决方案而改进的关键组成,而GPU应以货运为主导的计算单元,由数千个更小、更有效的关键组成,专门为并行多任务设计。

微架构的差异是由于CPU和GPU设计理念的差异。CPU的缓存超过GPU,但在线程数、存储器数和SIMD(单指令多数据流)层面的GPU远强于CPU。

微架构的差异导致CPU中的大部分晶体管用于构建控制电路和缓存,只有少数晶体管用于具体的计算,程序模块多,擅长分支预测等复杂操作。GPU的流处理器和显存控制板占据了绝大多数晶体管,而控制板相对简单,擅长简单操作大量数据,远远优于CPU的强浮点计算水平。

比较GPU和CPU的关键设计理念

GPU和CPU的关键比较

后摩尔时期,随着GPU可编程度的不断提高,GPU的应用能力已经远远超过了图形渲染,一些GPU被用来计算图形渲染以外的领域,成为GPGPU。

此外,为了追求通用性,只有少数晶体管用于计算,而大多数晶体管用于构建控制电路和高速缓存。但GPU不可能完全取代CPU,因为GPU对CPU的附着力和GPU比CPU更难开发。我们认为未来的计算架构将是GPU 异构计算系统CPU。

在GPU 在CPU的异构计算中,GPU和CPU无需内存复制和缓存更新就可以无缝共享数据,因为任务以非常低的成本调度到合适的CPU。CPU采用多个专门为串行解决方案而改进的关键操作程序的串行部分,GPU应用数千个小型关键操作程序的平行部分,充分利用协同作用和竞争优势。

异构计算不仅需要CPU、GPU等硬件支持,还需要合理组织程序编程。OpenCL是(OpenComputing Language)简称,这是异构系统通用并行编程造成的第一个统一、免费的规范。OpenCL适用于多核CPU、GPU、Cell架构及其信号处理器(DSP)由其他并行设备组成的异构系统。

OpenCL异构计算组成

GPU在异构计算中的工作内容

将GPU与ASIC和FPGA进行比较

:数据、计算能力和算法是人工智能的三个要素。CPU加速芯片模式已成为典型的人工智能部署方案。CPU提供计算率,加快芯片提高计算率,促进算法。常见的AI加速芯片包括GPU、FPGA、三类ASIC。

GPU用于大量的重复计算,由数千个更小、更有效的关键组成。配置GPU服务器可以取代数百个通用CPU服务器来处理HPC和人工智能业务。

FPGA是一种集成度高、操作量小、量产成本高的半定制芯片,适用于算法升级频繁或市场规模小的特殊行业。

ASIC专业化强,市场需求大,但开发时间长,难度大。

在人工智能实践阶段,需要大量的数据运算,GPU估计占市场份额的64%,FPGA和ASIC分别占22%和14%。GPU将占据42%的上下市场,FPGA和ASIC分别占34%和24%。

AI芯片在不同应用场景中的能量需求和实际指标

GPU、FPGA、ASIC AI芯片对比

GPU的概念在PC诞生之初就没有了,所有的图形和多媒体计算都由CPU承担。但由于X86 CPU的临时存储器数量不多,适合串行计算,不适合平行计算。虽然以英特尔为代表的制造商多次发布SSE等多媒体扩展指令集,试图填补CPU的不足,但仅在指令集层面的改进并不能发挥根本作用,因此图形加速器被用作CPU辅助操作单元。

总而言之,GPU的发展历史就是NVIDIA、AMD(ATI)在此过程中,前GPU大佬Imaginationation、3dfx、年轻一代已经超越了东芝等。目前独显行业主要由英伟达和AMD操纵,而集成显卡行业由英特尔和AMD操纵。

GPU的发展历史

自2008年以来,英伟达的GPU架构几乎每两年都保持一次大的更新节奏,带来了新的更新操作单元和更好的API兼容性。在每一个大的替代中间,都有一个小的更新,比如GK110的关键使用开普勒第二代微架构相对于GK104的关键选择开普勒第一代微架构,更新显卡智能动态超频技术,CUDA计算能力提高到3.5代,完美的流动多处理器(SMX)浮点运算模块增加8倍,加入Hyper-Q技术提高GPU利用率,减少闲置,网格管理模块已经升级(Grid Management Unit),为动态并行技术带来灵便。

随着英伟达GPU微架构的不断更新,英伟达GPU的能效提高了数十倍,占据了独显技术的主要地位。

随着英伟达GPU微架构的不断更新,英伟达GPU的能效提高了几十倍,占据了独特技术的主导地位。

2008-2020英达GPU微架构演变

在GPU的计算过程中,图形API作为GPU运行和研发的“桥梁”和“翻译”,起到连接高级语言、显卡驱动甚至底层汇编程序的作用。微软Directx规范可分为显示部分、声音部分和输入部分网络部分,其中与GPU最直接的关系是显示部分。表示部分可分为DirectDraw、Direct3D等标准,前者主要从事2D图像加速,后者主要从事3D效果表示。

1995年公布的第一代DirectX 1.0微软的Directx已经更新到DirectX 12。在此过程中,Directx逐步完善了各种GPU的适应性,提高了开发人员的权限,提高了GPU的显示质量和运行帧率。

DirectX通常与Windows操作系统实时同步,例如Windows。 7上线了DX11、Windows DX1210上线。

1998-2014年微软Directx演变

以先进工艺为主导的GPU和CPU数字芯片。在操纵发热和电能消耗的同时,先进的工艺可以在有限的Die中尽可能多地放置晶体管,以提高GPU的能量和能效。

NVIDIAGPU从2008年GT200系列65纳米工艺逐步升级为RTX3000系列7/8纳米工艺。在整个过程中,晶体管的数量增加了20多倍,并逐渐确立在独立GPU的行业领先地位。

同时,在整个过程中,NVIDIA始终坚持让台积电承担GPU的生产,而不是IDM,致力于IC设计,充分发挥比较优势。

2008-2020英伟达GPU关键制造和晶体管数演变

根据前12年GPU的发展轨迹,GPU微架构升级趋势可以简单概括为“大量”、”更专”、"更智能"。

“大量”是指晶体管数量和运算单元的增加,主要包括流处理器模块、纹理模块、光栅模块等总数的增加。“更专业化”是指GPU除常规计算单元外,还会增加新的计算单元。例如,与帕斯卡架构相比,英伟达的图灵架构增加了光追逐单元和张量模块,分别处理实时光追踪和人工智能计算。“更智能”是指GPUAI运算能力的提高。例如,与前代相比,第三代张量模块的货运量增加了一倍。

英雄GTX1080与RTX208相比

英伟达伏特微架构对比安培微架构AI加速

完善英伟达安培架构

对微软DirectX12进行全面分析、苹果的Metal2、Khronos GroupVulkan API相对于上一代DirectX11、Metal、Opengl升级,GPU是我们认为的 API升级趋势是提高GPU的使用效率,提高高级语言与显卡驱动的连接,提高视觉效果。其中,提供更底层的应用:大多数API更新的主要方向是综合高级语言、显卡驱动和底层语言。其中,提供更底层的应用:大多数API更新的主要方向是综合高级语言、显卡驱动和底层语言。

然而,提供更底层的应用只是更高帧率或更强画质的重要和不充分条件。在所有软件开发环节中,软件开发者必须比驱动软件和系统层更好地调度硬件平台,才能充分利用底层API效果。

在显示质量方面,DirectX 12 Ultimate选择了最新的图形硬件技术,适用于光跟踪、网格着色器和可变速度着色。PC和Xbox使用相同的API,可以被称为下一代游戏的新黄金标准。

非底层Directxt 11比较底层DirectX 12

DirectX 12 Ultimate新特

GPU制造更新趋势:以先进工艺为导向

。主频、微架构、GPU能三大决定因素API。在各种因素中,主频通常取决于GPU的制造。在过去,制造业通常表现出晶体管或网格的长度等特征尺寸,但由于营销的必要性,制造业早已偏离了原意,因此纯粹比纳米数毫无意义。根据英特尔的立场,每平方毫米的晶体管数量(百万)可以考虑制造。因此,台积电和三星的7nm工艺更接近英特尔的10nm工艺。

在GPU中,前沿制造可以降低各晶体管的成本,提高晶体管的密度 在不变的体积下完成更高的能量;先进的工艺可以提高处理器的效率,在不变的前提下,通过提高主频来降低热量或提高热量。

先进工艺的目的是减少平面结构带来的电源问题。改进方案可以改变过程,如FinFET(鳍场效应晶体管)或GAA(环绕栅极);或使用FD等材料-SOI(根据SOI纤细绝缘层上的硅体技术)。

FinFET优秀的制造工艺

英特尔10nm先进工艺带来的能量和效率提升

GPU深度报告,三大巨头,14名国内玩家
GPU制造更新趋势:Chiplet化。

上位宽内存(HBM)是小芯片(Chiplet)常用于GPU。HBM是一种快速计算机存储器3D堆栈SDRAM插座。第一款HBM于2013年发布,第二代HBM2于2016年被JEDEC接受。目前HBM主要用于高端独显和服务器显卡。

HBM根据3D层叠4DRAM 根据TSV(硅通孔),Die和1片逻辑Die形成了一个Chiplet,其中一个DRAM有2个128位通道。因此,Chiplet共有8个128位通道,总位宽1024比特。Chiplet和GPU包装在同一中介层(Interposer)连接GPU芯片。相比之下,GDDR5内存总线宽度为32位,512位内存接口显卡只有16个通道,采用传统FBGA包装。与GDDR5相比,HBM每GB面积降低94%,每GB/S带宽能效提高2倍以上。

HBM适用于每个Chiplett 在4GB的存储中,HBM2在HBM的前提下将Chiplet的最大容量提高到8GB,显存主频增加1倍,总宽度保持一致。

GPU使用HBM

与HBMM相比,GDR5比较

HBM先进的封装结构

GPU制造可分为IDM和Fab Fabless。IDM集IC设计、芯片制造、芯片包装和测试于一体。英特尔是IDM的典范。

Fabless只管芯片电路的原理和销售,外包生产、检测、包装等环节。苹果和AMD是Fabless的典范。Foundry只管制造,不负责ic设计,能同时为多家设计公司服务,但受公司间竞争关系的制约。台积电是Foundry的典范。英特尔GPU落后的主要原因是GPU制造落后,其根源在于英特尔被IDM操作模式所困扰。随着28纳米以下先进工艺的发展,芯片制造成本和设计成本成指数级增加。同时,12英尺晶圆生产线从建设到生产约2年,投资至少30-50亿美元,资本支出占80%,整体风险特别大。英特尔与其持续设计和生产的两线作战并不兼容,资源有限。

Fab Fabless的方式根据充分发挥比较优势,分散了GPU设计制造的风险,符合半导体分工的大趋势。

IDM与Fab Fabless比较

IC设计成本趋势(亿美元)

在过去的20年里,GPU的基本需求来自于视频加速和2D/3D游戏。然后GPU应用其平行计算和通用计算的优势,逐步扩大服务器、车辆、矿机、人工智能、边缘计算等方面的衍化要求。虽然GPU不能离开CPU独立运行,但在当前“云化”加速期间,离开GPU的CPU也不能满足巨大的计算要求。因此,GPU和CPU形成了一个异构计算系统,通过系统和驱动层从底层支持上层的各种应用。GPU已成为特殊计算期的刚性需求。

GPU在当代云计算中的加速刚性需求

2020年全球GPU价值预计为254.1亿美元,预计2027年将达到1853.1亿美元,年平均增长率为32.82%。按GPU类型划分,市场可分为单独、集成和混合。2019年,集成GPU在GPU市场占据主导地位,但由于混合GPU具有集成和特殊GPU能力,预计混合目标市场将完成最大的复合增长率。

按GPU机器划分,市场可分为计算机、平板电脑、智能机器、游戏机、电视等。就收入而言,智能机器的目标市场所占比例最大,未来将保持这一趋势。但由于医疗等对小GPU的需求不断增加,预计未来年复合增长率将最大化。

按GPU领域划分,市场可分为电子、IT与电信、国防与情报、媒体与娱乐、车辆等。由于GPU在设计和工程应用中的广泛应用,预计车辆细分行业的复合增长率最大。

根据GPU的地理区域规划,市场可分为北美、欧洲、亚太等地区。亚太地区在2019年主导了全球GPU市场,预计将在所有预测期内保持主导地位。

全球GPU市场容量预测

2015-2025年全球前三GPU经销商收入总数

全球GPU已进入寡头垄断局面。在之前的GPU市场中,Nvidia排名前三、AMD、Intel的利润几乎可以代表GPU行业的所有收入。英伟达的收入占56%、AMD占26%、英特尔占18%。

在手机和平板电脑GPU层面,联发科、海思麒麟和三星Exynos的GPU设计主要基于公共ARM MaliGPU或PowerVR微架构。自主研发GPU微架构的高通骁龙Adreno和苹果A系列。2019Q2,ARM、高通、苹果、Imagination科技、英特尔是全球智能手机和平板电脑前五大GPU经销商。同期ARM Mali占上述五大GPU经销商的43%,高通Adreno占36%,苹果占12%。

比较2019年前三家GPU经销商的收入份额

2019 Q2手机和平板GPU经销商的份额

英伟达成立于1993年,并于1999年率先推出“GPU图形解决方法。GPU、移动计算和自动驾驶汽车SOC是GPU计算行业公认的全球管理者。其主要GPU生产线“GeForce“AMD”和“Radeon产生直接竞争。与此同时,为了扩大网络游戏平台,英伟达推出了掌机Shield、Shield平板电视盒和云游戏服务Geforce Now。目前,公司已完成从芯片供应商向计算平台的转型。

英伟达的四大推动力是游戏业务、数据中心业务、专业视觉业务和无人驾驶业务。每个业务的典型GPU方案是Geforce,DGX、EGX、HGX,Quadro、AGX。

英伟达2021财年收入167亿美元,其中游戏、数据中心、专业视觉、无人驾驶业务在2020财年分别贡献了47%的收入、40%、6%、3%。2014年毛利率上升50%后,公司2021年毛利率突破60%。

英伟达2021财年的业务组成

提高英伟达的重要驱动力

由Geforce和Shield组成的英伟达游戏业务。Shield面对手机和云,GeForce面对PC。游戏笔记本和云游戏是公司开拓市场的两个方向。Geforce是英伟达游戏业务的关键。Geforce是世界上最大的游戏平台,拥有超过2亿玩家。在PC游戏领域,英伟达的利润是其他主要GPU经销商的三倍多。Geforce已经来到RTX30系列,选择第二代NVIDIA RTX架构-NVIDIA安培架构,配备全新的RTX架构 Core、Tensor 有RTX游戏的Core和流式多处理器,DLSS、G-SYNC、先进的技术,如DirectX12,能带来逼真的光跟踪效果和先进的AI能量。

除了PC游戏行业,英伟达也是合作伙伴–任天堂Switch主机定制Tegra SoC。作为合作的一部分,Shield主机可以享受任天堂游戏、GameStream串流游戏和热门游戏,完成4KHDR图像质量,适用于百度DuerOS对话人工智能。

CUDA(统一计算设备架构)是英伟达信息中心业务技术的根源。2006年首次推出CUDAG80关键,属于通用并行计算架构,创造了GPGPU。在“安培”期间,CUDA的关键早已演变为8.0,并应用于绝大多数英伟达产品线。

CUDA兼容Directcompute、OpenCL等测量插口。Direct3D、与Opengl等高级图形API相比,CUDA使开发者更容易应用GPU资源。目前,CUDA本质上代表GPU硬件系统和GPU软件系统。

在硬件系统层面,CUDA包括CUDA指令集及其GPU内部并行计算模块。INTT、FP32、CUDA负责FP64。开发人员可以用C语言和Fortran语言为CUDA编写程序。

在软件系统方面,根据CUDACUDA-X加速库和工具技术的结合,连接不同行业的业务需求。在英伟达的软件栈系统中,它被分为CUDA-X AI和CUDA-X HPC,面对人工智能和HPC两个领域,他们可以在人工智能和高能计算方面提供远远超过其他竞争产品的能量。CUDA-X的开发者已经超过100万。

英伟达CUDA-X HPC

英伟达CUDA-X AI

英伟达数据中心的产品包括AIDGX系统、边缘计算EGX平台、超算HGX平台和数据处理DPU、NGC目录简化了深度学习、机器学习和高能计算。A100相关GPU加速器采用安培架构、A40,T44选择图灵架构、RTX6000、RTX8000,V100,伏特架构。

GPU深度报告,三大巨头,14名国内玩家

在过去的五个财年中,英伟达数据中心的利润从8.3亿美元上升到6.96亿美元,年复合增长率为69%。与此同时,公司注册开发商超过200万,与谷歌、腾讯、阿里等主要云经销商建立了供应关系,全球500强的份额从6%上升到70%。

英伟达关键云合作伙伴

英伟达数据中心的收入趋势

英伟达超过500强的份额

主要由Quadro产品线组成的英伟达专业视觉业务。在Geforce的前提下,Quadro增强了NVLink、GPU具有Iray的通用计算能力和显存容量、独特的技术,如Omniverse平台,材料定义语言。Quadro广泛应用于台式工作站、笔记本电脑、EGX服务器、虚拟办公空间、云、个性化方案。英伟达Quadro方案拥有50多种应用、4000万设计用户和2000万企业客户,并不断开拓新市场。

在过去的五个财年中,英伟达的专业视觉利润从8.35亿美元上升到10.53亿美元,年复合增长率为6%。

英伟达专业视觉GPU加速合作伙伴

英伟达专业视觉营收趋势

英伟达专业视觉方案

英伟达的汽车产品包括驾驶软件、驾驶基础设计和AGX平台,提供练习、模拟、智能驾驶舱体验、高清地图和定位等解决方案。在绝对能水平上,配备4个Drive AGX Origin的威来ADAM超算平台适用于L4以上的无人驾驶,超过7个特斯拉FSD的总算率。

与特斯拉自动驾驶追求软硬件的高度契合不同,英伟达的计划更加开放。公司在汽车领域的合作伙伴大多使用软件服务和汽车,分别达到76家和42家。同时,公司与大众、丰田、本田、奔驰、宝马、奥迪、沃尔沃、马牌、滴滴、采埃孚、蔚来、小鹏、图森等世界知名公司建立了强大的生态系统。

在过去的五个财年里,英伟达自动驾驶的收入从4.87亿美元上升到5.36亿美元,年复合增长率为3%。

英伟达无人驾驶营收趋势

英伟达无人驾驶合作伙伴数量众多

NVIDIA于2020年9月13日宣布以400亿美元收购ARM。本次收购的意义可分为以下五个领域:

1. 在人工智能时代创造了世界级的计算公司,将英伟达领先的AI计算平台与ARM庞大的CPU生态相结合;

2. ARMIP受权构成英伟达在移动终端、PC等主要终端市场的技术扩展;

3. 加快ARM服务器CPU、数据中心,边缘人工智能、物联网发展;

4. 将英伟达计算平台的开发者从200万增加到1500多万;

5. 并购可立即提高英伟达非GAAP毛利率和非GAAP每股收益;

合并后,英伟达将从云、智能机、PC、将自动驾驶汽车和自动化技术推向边缘物联网,在扩大规模、高增长市场的同时,将人工智能计算扩展到全球,加快创新。

从云到边缘的英伟达

AMD是世界上唯一能够提供高能GPU和CPU的公司。

从云到边缘的英伟达

AMD是世界上唯一一家能够提供高能GPU和CPU的公司。AMD显卡来自2006年并购的ATI技术。在接下来的四年里,AMD正常使用ATI作为显卡品牌。直到2010年,AMD才抛开原ATI的品牌命名方式。

目前AMD提供单独的GPU和集成GPU,其集成GPU主要用于Ryzen APU、在嵌入式和半定制平台中,单GPU分为Radeon和Instinct系列,主要用于游戏、专业视觉、服务器等应用。

在过去的六年里,AMD运算图形收益的利润从18.05亿美元上升到64.32亿美元,年复合增长率为29%。

未来五年,AMD方案将成为高能计算的领导者,并提供刷新的CPU和GPU方案。

AMD运算图型单位收入

AMD 以GPU为重点的行业

AMD集成GPU主要用于台式机和笔记本APU产品,与CPU形成异构运算单元。台式和笔记本APU的GPU部分采用微架构和关键技术,两者GPU的重要区别在于TDP和控制部件的总数,台式比笔记本好。

“Renior“Vega微架构正常用于APUGPU,但由于7纳米工艺,每个控制部件的效率显著提高。

7纳米Vega的改进包括:数据网络翻倍,低能耗状态转换改善,主频增加25%,存储位宽增加77%。在保证15W功耗不变的前提下,这种改进增加了每个计算单元59%的浮点峰值,1.79TFLOPS吞吐。

3DMark Time Spy在7纳米的Ryzen(DX12)跑分中 4800U的GPU性能超过10纳米i7-1065G7,约为14纳米i7-10710U的2倍。

AMD “RENIOR”APU

AMD “RENIORAPU核心分析

AMD “RENIOR“APU跑分比较

AMDRadeon系列游戏可分为RX6000系列、RX5000系列、Radeon 7、 RX500系列。除RX500系列外,上述四大系列均采用台积电7纳米工艺。

与上一代RDNA相比,2020年11月推出的RDNA2微架构绝对能提高一倍,能效提高54%,适用于DirectX12 Ultimate,先进技术,如硬件光跟踪和可变速度着色器。配备16GBGDR6显存和128MB RXFininityCache高速缓存 6900XT游戏可以接近英伟达的RTX 3090。

为了发挥AMD Radeon具有CPU和GPU的协同作用 SmartAccess 瑞龙CPU和显卡之间的Memory技术可以实现更好的通信。在某些游戏中,RX6800系列显卡的4K画质可以额外提高7%。

2022年之前,AMD将基于更先进的制造创建RDNA3微架构,进一步加强光追等计算性能。

AMD除了传统的BGA显存包装外,还积极使用HBM系列显存。在Radeon7中,16GB的HBM2显示了1TB/S的带宽,超过了同期Titan RTX 50%。

GPU路线图AMD独立游戏

AMD独立游戏GPU产品线

Radeon Instinct加速器系列、以客户为中心的数据中心解决方案和ROCM。AMD的重要合作伙伴包括戴尔、惠普等OEM,AMD还为微软AZURE和亚马逊提供视觉云解决方案。

ROCM是世界上第一个根据UNIX的选择哲学、极简主义风格和GPU计算模块化程序开发的超大型开源平台。

ROCM适用于大规模计算,多路GPU,系统运行库丰富,包括架构、库、编程模型、互连和Linux Kernel适用于上游,提供支持大规模应用、编译器和表达操作库研发的重要功能。

AMD正在与美国能源部、橡树岭国家实验室和Cray合作,应用EPYC(小龙)CPU、Radeon Instinct GPU和ROCM打造全球超过150亿个FLOPS超快超算平台。

AMD ROCm开源项目生态

GPU产品线AMD数据中心

Radeon Instinct MI 100加速器采用专注于计算的CDNA微架构,在估计和连接层面上取得了巨大的飞跃。与上一代AMD加速器相比,高能计算工作负载(FP32矩阵)可提高近3.5倍,而人工智能工作负荷(FP16)可以增加近7倍。InstinctMI 在FP32和FP64的峰值TFLOPS中,100超过了同期英伟达安培A100,功耗比后者低100瓦。InstinctMI 在FP32和FP64的峰值TFLOPS中,100超过了同期英伟达安培A100,功耗比后者低100瓦。

AMD开发了InfinityFabric技术,以满足多路GPU的互联通信要求。Infinity Fabric拥有完善的平台连接和可扩展性,最多支持4路GPU连接。P2P带宽是PCIee 4.0的2倍,4GPU集群的P2P带宽高达552GB/s。

未来,AMD将以更先进的制造业为基础,打造CDNA2微架构,进入百亿级时期。

Instinct MI 100与安培A100相比

GPU路线图AMD数据中心

AMD Infinity Fabric互连

AMD的许多单独GPU主要包括嵌入式、半个性化、Radeon Pro工作站显卡。在索尼、微软的本代和次代主机中,半个性化独显关键倍应用。如今,AMD技术在家里享受游戏和视频娱乐2.2亿次常用机器的关键。

嵌入式GPU的特点包括优秀的图形能、多屏显示、紧密的外观、高效、长期供应。嵌入式GPU分为高能嵌入式GPU、高能内嵌GPU、主要使用14纳米GCN的高能内嵌GPU 1.4北极星微架构,TDP覆盖20W-135W范畴。

Radeon Pro系列显卡广泛应用于AMD远程工作站、建筑工程、生产设计、媒体娱乐等行业AMD Eyefinity多屏显示技术AMD Radeon Prorender等技术。Radeon Pro系列采用Vega微架构,7或14纳米工艺,直接竞争对手是英伟达的Quadro系列。Radeon 苹果、戴尔、惠普等Pro移动和台式工作站的合作伙伴。

Radeon™ Pro VII GPU规格

英特尔是世界上最大的PC GPU经销商是PC和服务器显卡中唯一的IDM制造商。英特尔的GPU最早可以追溯到1998年的i740,但由于能量薄弱,更新速度慢,一直没有太大改善。进入Core i时代之后,英特尔可以捆绑核心显卡和CPU,利用CPU的巨大市场份额,在整合GPU领域确立寡头垄断地位。在这个过程中,AMDAPU一直是酷睿的直接竞争对手。

2020年,英特尔推出了第12代GPGPU,采用全新的Xe微架构和10纳米Super Fin制造。与第11代核显相比,Xe-在保证电压不变的前提下,LP显著提高了主频,显著提高了能效。配备Xe-LP的i7i7 GPU层面的1185G7已经超过了同期AMD的Vega验证和英伟达的MX系列。

Xe系列可分为集成/低能耗Xe-LP、Xe娱乐/游戏-HPG、数据中心/高能Xe-HP、Xe,高能计算-HPC。

目前,Xe-LP的集成版早已被第11代酷睿采用。Xe-LP移动独立GPU版DG1和服务器独立GPU版SG1也已发布。在核显版的前提下,独显版进一步增加了主频,并增加了128位4GB LPDDR4X-单独显存4266,单精度浮点计算率提高15%。

英特尔Xe纵向比较第11代核显

英特尔Xe产品线

在形式上,英特尔的集成GPU体现为核心显卡。核心显卡应用系统DRAM作为一种非单独显存,负责处理游戏、视频娱乐等图像负荷,根据CPU内部环形总线与CPU连接。

依托10纳米SuperFin的优势,英特尔Xe核显最大限度地将控制部件提升到96个,比Icelake的64个增加了50%,将连接CPU和GPU的总线带宽翻了一番,最终单独缓存(LLC)增加50%,最大存储带宽为86GB/s。这些提高使得i7-1185G7的3DMark跑分比上一代i7-1065G7提高了近一倍,超过了AMD的R74800U和同期英伟达的MX350。

Xe核显示器和媒体模块都得到了加强。双EDP适用于插口层,DP1.4.4适用于外部、HDMI2.0、雷击4、USB4 Type-C。8K适用于画质层面、HDR10、12BT2020色域,360HZ刷新率等。

通过自己的One,英特尔Xe核心显卡和CPU API促进内框架和顶层应用。英特尔One API克服了不同微架构之间编号模型的堡垒,使跨平台状态更大,项目成本最小化。

英特尔Tiger Lake 实体图和Die

英特尔Tiger Lake Xe核显3DMark可以比较

英特尔单独的GPU分为锐炬Xe MAX和服务器GPU都属于Xe LP系列采用标准包装和10纳米SuperFin制作,微架构与核显Xe相同。

目前,锐炬Xe 第一个基于英特尔的MAX Xe 面对轻薄笔记本GPU的架构。锐炬Xe 在Xe集成GPU的基础上,MAX增加了4GBLPDR4X-4266的独立显存,TDP 25W,峰值主频1650mHz,单精度浮点2.46TFLOPs。锐炬Xe MAX可以跟随11代酷睿处理器,锐炬Xe GPU同时工作。依靠英特尔Deep Link技术通过功耗获得强大的集成系统,以提高想象力和游戏体验。

目前,在Xe验证的前提下,英特尔服务器GPUTDP增加到23W,增强了8GB LPDR4的独立显存适用于高密度、低延迟的Android云游戏和高密度媒体转码/编号,实现OTT视频的实时直播。与此同时,英特尔服务器GPU适用于两个或四个单独的GPU的聚合,以加倍提升能量。

未来,英特尔还将推出面对游戏和高能桌面的Xe。 采用传统包装、外包生产的HPG产品线,增强了光线跟踪等硬件支持。英特尔服务器GPU使用Xe HPC、Xe HP微架构,采用2.5D和3D先进包装,10纳米SuperFin和更先进的自家或外包技术。

英特尔Xe服务器GPU参数

英特尔Xe商品,包装,制造

英特尔锐炬Xe MAX

ARM是世界上最大的半导体IP提供商。全球95%以上的智能手机和平板电脑都采用ARM架构。Mali推动了全球近43%的手机和平板GPU2019Q2。2020年第四季度,ARM半导体合作伙伴根据ARM技术的芯片销量达到67亿,创历史新高,超过了所有其他流行的CPU指令集架构-X86、ARC、Power、MIPS之和。

基于ARMCpu技术的国内SOC95%,AR根据ARM架构,中国拥有150多家受权客户,中国芯片销量已超过184亿。

ARM的Mali GPU按能可分为高能、流行、高能效三类。

ARM IP组合和SOC设计

ARM Mali GPU路线图

Arm Mali-G78 根据Valhalll结构,GPU用于高端设备的第二代GPU。Mali-G78是最高ArmGPU,也支持复杂的使用,如所有新API的游戏图形和机器学习,如Vulkan和Opencl(ML)。

Mali-与上一代设备相比,G78GPU可以提升25%,并且增强了ML在设备上的作用,从而有助于将高度复杂的游戏带到移动终端。Mali-G78最多支持24个核心,包括异步顶级功能,可以保证多个核心的有效传播,使图形运行更加顺畅。新执行引擎中的新组合乘加(FMA)模块能耗可进一步降低30%。

GFXBench Aztec 在Ruin的跑分中,采用台积电5纳米工艺,配备24个Mali-G78核的林林9万 SoCGPU的帧率比骁龙865的Adreno好 650,但仍落后于苹果A14。

ARM Mali-G78

林林9000系列ARM Mali-G78运用

Imagination Technologies是一家总部在英国销售PowerVR移动图形处理器、MIPS嵌入式微处理器和消费电子产品的公司,致力于半导体及相关知识产权许可。公司还提供无线基带解决方案、网络、数字信号处理器、视频和声音硬件、IP语音软件、云计算及其芯片和系统设计服务。2017年,股东大会宣布公司被中国投资的Canyon Bridge回收。

Imagination在GPU行业有着悠久的历史,但在25多年的历史中,Imagination推出了多代GPU产品,积累了1500多项GPU专利,为苹果提供了图像处理器(GPU),在图像处理器中(GPU)该领域与高通、ARM三分天下,曾占GPU市场的三分之一左右,在汽车领域达到43%。Imagination IP芯片产品总销量已超过110亿。Imagination IP芯片产品总销量已超过110亿。

ImaginationIP包括图形处理器和视觉和人工智能。公司Power VR商品广泛应用于移动终端(智能机器、平板电脑)、车辆(仪器、信息娱乐、辅助驾驶)、互动体验(AR/VR)、消费电子(电视、机顶盒)。

根据Imagination的GPU路线图,在A系列GPU最大增长2.5倍后,B系列到D系列GPU的年复合增长率在30%左右。2021年,C系列GPU将首次添加L4级光跟踪,并在硬件方面应用一致的分类级别包围体(BVH)与目前英伟达和AMD的L3级光追踪方案相比,复杂的光源解决方案可以显著提高能效,实现更好的客户体验。

GPU路线图IMG系列GPG

2020年10月,Imagination推出了全新的IMG B系列GPU是公司第一个包括新多核架构的GPU RISCC系列也是首次选择-V,最高能密度可以提供。由于多核架构和Imagination图像压缩技术(IMGIC),与A系列相比,B系列功耗降低30%,带宽降低35%、面积减少25%,人工智能算率达到24% TOPS,而且填充率是竞争产品IP核心的2.5倍。与A系列类似,B系列GPU还支持AI协作技术,可以利用预留资源解决可编AI等任务,同时提供图像处理功能。

IMG IMGGPU系列GPU BXE、IMG BXM、IMG BXT、IMG 四系列BXS。其中IMG 面对超清,BXE表示使用,IMG BXM主要推图像处理感觉,IMG BXT面对高能应用,IMG BXS走向未来的车辆。

ISOSOXS系列 26262标准也是迄今为止开发的最先进的车辆GPU IP核心。BXS为下一代人机界面提供了从入门到高端的详细产品系列(HMI)、UI显示,信息娱乐系统,数据驾驶舱,围绕视图提供解决方案。高计算水平配置还支持无人驾驶和ADAS。

具有关键可扩展的优点,IMG B系列适用于传统移动终端、消费设备、物联网、微处理器、数字电视(DTV)汽车等市场领域。IMG 也可以扩展到桌面GPUB系列、支持无人驾驶和辅助驾驶的云GPU服务器。

IMG 与A系列相比,B系列能效提升

Imagination GPU组成

自主研发高通GPU Adreno源于AMD移动GPU Imageon系列。早期Adreno 100系列只有2D图形加速和有限的多媒体功能。2008年发布的Adreno 200是第一个集成到骁龙SOC的GPU,并增加了3D硬件加速功能。

2020年12月,高通上线配备Adreno 660的骁龙888 SoC。Adreno 660延续了Adreno650的微架构,采用了三星5纳米LPE工艺,大大提高了主频率,使图形渲染提高了35%,能效提高了20%。Adreno 660全面支持Qualcommm® Snapdragon Elite Gaming和Qualcomm® Game Quick Touch ,可变速度渲染和响应时间分别增加30%和20%。

GFXBench Aztec Ruin 1080P检测中,Adreno 峰值帧率660与麟麟9000相当,但与苹果A14相比仍有近20%的差距。

Adreno高通 660 1080P能比照

Adreno高通 660 GPU

Adreno高通 660参数

2017年A11首次出现苹果自研GPU SoC。作为苹果首款自研GPU,A11的三关键GPU可以超过Power的选择 VR GT7600 的A10 GPU 30%。之后,所有A系列SoCGPU都是苹果自己开发的。

2020年,根据A14芯片,苹果推出了5纳米制造的M1芯片,在CPU、GPU、NPU、为了促进苹果的Mac商品,加强了缓存等各个方面。M1芯片的发布意味着苹果在2005年放弃IBM的PowerPC指令集转化为Intel的X86指令集后的另一个主要PC行业发生了变化。

M1选用8核GPU有128个执行单元,可同步运行近2.5万个进程,单精度浮点算率为2.6 TFLOPs。M1 GPU的能效性能是当时PC中集成GPU的三倍,峰值能是其他GPU的两倍。

苹果M1 GPU参数

能效比较苹果M1

苹果M1 8核GPU

国内GPU的发展落后于国内CPU。直到2014年4月,景嘉微才成功开发出国内首款高能低能耗GPU芯片JM5400。GPU对CPU的依赖和GPU的高研发难度阻碍了国内GPU的快速发展。

首先,GPU依赖CPU。GPU结构没有控制板,需要CPU控制启用才能工作,否则GPU不能独立工作。因此,与国内GPU相比,国内CPU的第一步是符合芯片行业的发展逻辑。

其次,GPU技术难度很大。Moor Insights & Strategy首席分析师莫海德曾说:“与CPU相比,GPU的开发难度更大,而GPU设计师、工程师和驱动软件的作者更少。中国人才短缺也是国内GPU发展缓慢的重要原因之一。在芯片行业,一般来说,至少需要10年的时间来塑造一个经验丰富、能够根据行业动态立即改变芯片设计方案的完善工程师。

国内GPU公司及业务简介

中国GPU具有巨大的市场容量和潜力,巨大的整机制造能力代表着巨大的GPU采购。虽然近年来计算机和智能机器的产量有所不足,但由于这两种商品规模巨大,2019年中国智能手机出货量为3.72亿部,计算机年产量为3.56亿台,GPU需求量大,品类价值高,市场容量仍相当可观。

与此同时,随着整机出货量的快速增长,服务器GPU的需求也迅速增加。据调查,2018年国内服务器销量达到330.4万部,同比增长26%,其中互联网、电信、金融、服务等领域的销量也超过20%。此外,中国在物联网、车联网、人工智能等新的计算行业对GPU也有很大的要求。

据调查,近年来,我国集成电路自给率不断上升,2018年为13%,预计2020年将上升至15%,但仍处于较低水平。根据国务院发布的《新时期促进集成电路产业和软件产业优质发展的若干政策》等文件,2025年中国芯片自给率需要达到70%,这将带来8000亿元的中国芯片要求。我国芯片产业发展机遇特别大。

2019年中国大陆集成电路进口额结构

2012-2020年中国大陆集成电路自给率

长沙景嘉微电子有限公司成立于2006年4月,位于长沙高新技术开发区。公司拥有经验丰富的集成电路设计团队,是国内GPU的重要参与者,它也是唯一一家自主研发和大规模商业化的公司。

2014年4月,国内首款高可靠、低能耗GPU芯片JM5400成功开发,拥有完全独立的知识产权,打破了国外商品长期垄断中国GPU市场的局面,成功应用于各国重点项目;

2018年8月,公司自主研发新一代高能、高可靠GPU芯片JM7200流片,将国内GPU的技术发展提升到一个新的水平,可以为各种信息系统提供强有力的表现;

2019年,在JM7200的前提下,公司推出了商业版JM7201,满足桌面系统的高能显示要求,全面支持国内CPU和国内操作系统,促进国内计算机的生态建设和进一步完善。

景嘉微发展史

景嘉微已完成两个系列、三个GPU的量产应用,产品覆盖军民市场。

景嘉微发展史

景嘉微已经完成了两个系列和三个GPU的大规模生产和应用,其产品涵盖了军民市场。景嘉微第一代GPU JM5400主要用于军事市场,取代原ATI M9、M54、M72等美国GPU芯片。景嘉微第二代GPU 与JM5400相比,JM7200在商品能和工艺技术上有了很大的提升,是首款进入民用市场的图形芯片。公司与国内主要CPU制造商和计算机整机制造商建立了合作关系。JM7201在JM7200的前提下,优化了民用市场的桌面应用,发布了标准MXM和标准PCIE显卡,降低了功耗和体积,同时保证了能源。

景嘉微国内GPU芯片产品线

景嘉微第二代GPU JM7200系列于2018年8月成功流片,并于2019年3月获得首个订单。与上一代JM5400相比,JM7200在理论上可以翻倍,同时制造也进化到28纳米。但与2012年相比,JM7200在显存带宽、像素填充率、浮点能等方面都有很大的不同,英伟达GT640选择了GK107的核心。

各景嘉微GPU参数对比

2018年12月,景嘉微为高能通用图形处理器和面向消费电子领域的通用芯片研发和产业化项目筹集了10.88亿元。其中,高能通用图形处理器项目包括JM9231和JM92712GPU芯片,面向不同应用领域的中高端主要产品。根据公司2020年中报,下一代图形处理器的研发部门正处于后端设计环节,研发过程一切顺利。

景嘉微JM9系列是继JM5400和JM7200局部渲染计算核心之后,首次采用统一渲染结构的GPU,并增加了可编计算模块的总数。JM9231和JM9271在2016年推出的GTX1050和GTX1080中表现相似。JM9系列的发布将将公司的GPU水平和海外领先水平缩短到5年,大大提高了公司在GPU行业的竞争力。

景嘉微后高能通用GPU能参数比较

芯原微电子是一家依托独立半导体IP为用户提供平台化、多方向、一站式芯片定制服务和半导体IP授权服务的企业。到目前为止,该公司拥有超清视频、高清音频和语音,以及车载娱乐系统Cpu、视频监管、物联网连接、数据中心等一站式芯片定制解决方案,以及图形处理器IP的五种独立可控处理器IP、神经网络处理器IP、IP视频处理器、模拟信号处理器IP及图像信号处理器IP及其1、400多个数模混和IP及射频IP,年平均流片项目超过40个。主营业务的应用领域包括消费电子、汽车电子、计算机及附近、工业、数据处理、物联网等,主要客户包括IDM、芯片设计公司、系统制造商、大型物联网公司等。

以前的CMOS是核心的、全球流行的半导体工艺节点,如优秀的FinFET和FD-SOI,具有优秀的设计水平,覆盖14nm/10nm/7nm Finfet和28nm/2nm FD-SOI,5nm已经开始了 FinFET 芯片设计研发和新一代 FD-SOI 工艺节点芯片设计预研究。

此外,据Ipnest统计,芯原是2019年中国大陆排名第一、全球排名第七的半导体IP受权服务提供商,全球市场份额约为1.8%。

芯原股份发展史

2019年全球IP公司市场份额排名

芯原GPU IP来自美国内嵌GPU设计师图芯技术,该公司于2016年收购(Vivante)。芯原在GPU IP行业已经掌握了核心技术,如适用流行图加快规范、自主可控指令集、可扩展性强、能源范围广等,可广泛应用于IOT、汽车电子、PC等市场。依据 IPnest 报告,芯原GPU IP(含 ISP)全球市场份额排名前三,仅次于ARM和Imagination,2019 年全球市场份额约为 11.8%。

目前,芯原图形处理器技术的研发课题包括通用图形处理器计算核心的不断优化和矢量图形处理器DDR-Less技术。矢量GPU DDR-Less技术适用于物联网、可穿戴设备和车载设备,无需应用外部存储器DDR,完成架构清晰、各司其职、使用方便、软件控制流程简单等特点。

2019年全球IP设计分类

芯原GPU IP的关键技术和典型应用实例

Vivanteee芯原本可以扩展 GPU IP应用包括从低能耗的小型物联网MCU(GPU Nano 面对强大的SoC(GPUArcturus图形IP),IP系列)它是一种高质量的图形处理器解决方案,可以满足不同芯片尺寸和功耗预算的要求。

芯原图形处理器服务支持业内流行的嵌入式图形加快Vulkan1.0的标准化、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2.具有自主可控指令集和专用编译器,适用于每秒2500亿次的浮点操作能力和128个并行着色器控制部件。

芯原GPU Nano IP产品线和应用领域

芯原GPU IP 适用于API和操作系统

芯原股份的半导体IP分成处理器IP、GPU IP属于处理器IP。总体而言,2017-2019芯片原本是由于IP储备的不断完善和一站式芯片定制业务的协同作用,企业半导体IP受权经营收入持续增长,GPU IP年复合增长率达到13%。总体而言,2017-2019芯片原本是由于IP储备的不断完善和一站式芯片定制业务的协同作用,企业半导体IP受权经营收入持续增长,GPU IP年复合增长率为13%。2019年GPU IP利润占公司半导体IP收入的31.29%,主要是由于各类IP收入的增加,GPU IP比例相对降低。

芯原在图形处理器技术方面的研发包括GC8400的高能通用图形处理器 IP,该IP适用于汽车电子,目前仍处于IP设计验证环节,计划实现每秒1万亿次浮点运算水平的两倍精度,512个并行着色器控制部件 。

航锦科技是锦西化工总厂的大型化工生产基地。2017年下半年,航金科技通过收购长沙韶关、威科两家军工企业,挺进电子产业,生产化工 电子双主业发展模式,构建三个支撑板块(化工、电子、金融)。

航锦科技电子板块以芯片为核心产品,覆盖高端芯片(图形处理芯片/特殊FPGA/存储芯片/总线接口芯片),覆盖高端芯片(图形处理芯片/存储芯片/总线接口芯片)、北斗3芯片及其通信射频三大产业。以军民两用为发展方向,产品广泛应用于航空、航天、武器、船舶、电子等行业,市场空间广阔。

航锦科技的GPU技术起源于并购的长沙韶光。2018年,长沙韶光自主开发合作开发的第一代和第二代图形处理芯片(GPU)获得集成电路布图设计注册证书;2019年,长沙韶光自主研发的第二代改进版图形处理芯片在自主可控设备应用领域得到验证,并收到相关订单。

航锦科技独立可控芯片板块平面图

上海兆鑫集成电路有限公司,通常被称为“兆鑫”,由上海联合投资有限公司(上海国有资产监督管理委员会完全注资)和台湾威盛电子共同成立,也是世界上第三家拥有X86授权微处理器企业,总部位于上海张江,在北京、西安、武汉、深圳等地设有研发基地和子公司。

同时掌握CPU的企业、GPU、芯片组三大核心技术,具有三大核心芯片及相关IP设计和研发能力,致力于通过技术创新和适应流行发展路线,促进信息产业整体发展,并被评为“高新技术公司资质”。兆芯带来了桌面机、服务器、工业主板、工业平台、系统解决方案,广泛应用于党建办公、交通、金融、能源、教育、网络安全等领域。

GPU深度报告,三大巨头,14名国内玩家

2019Q2,兆芯发布了全新的PC处理器KX-6000系列。KX-6000是业内第一个详细集成CPU、GPU、国内通用处理器的SOC单芯片芯片组。

KX-6000系列处理器采用16纳米工艺,集成高能显卡,适用于DP/HDMI/VGA导出与DirectXX兼容、OpenGL、Opencl等主流API最大可同时导出3个显示屏,分辨率可达4K。

全新的KX-6000系列处理器具有出色的适应性和应用感,包括Windows操作系统、日常办公应用、4K视频解码和主流游戏。

kx-6000系列适应应用体验

KX-6000处理芯片架构

kx-6000处理器集成显卡参数

C-96000兆芯KX-6000 GPU由惠普兆芯图型DCH推动,Dota 2.UHD可以远远落后于伍英特尔酷睿i5-7400 630。未来,兆芯还将进一步升级KX系列处理器,应用新的CPU架构,将内存从DDR4升级为DDR5,将总线从PCIE3.0升级为PCIE4.0。内存和总线的更新可以提高显卡的带宽和CPU和GPU之间的通信率。

除上述集成GPU外,兆芯还计划公布台积电28纳米工艺,TDP 单独GPU70瓦。

兆芯KX6000 可以比较GPU游戏

兆芯处理器发展路线图

凌久电子成立于1983年,是中国船舶重工集团的第七家公司〇九研究所控制的高新技术企业。

凌久电子基于嵌入式实时信号分析和高能计算技术,为芯片级、模块级、设备级、系统级等民用高科技领域提供软硬件产品,如船舶、航空、航空航天、武器等国防电子领域和城市轨道、海洋装备、能源电力、半导体设备等;为科研单位、军队和军事院校提供个性化军事模拟服务。

凌久电子设备包括四类:元器件产品、基本硬件配置、基本支撑软件和应用产品。国产通用GPU GP101属于元器件产品。

凌久电子平台商品

凌久电子元件产品分类

凌久电子股权结构

GP101是由中国船舶重工集团第709研究所控股的凌久电子开发的具有完全独立知识产权的图形处理器芯片。GP101适用于2D/3D图形加速和二维矢量图形加速,支持4K分辨率、视频解码和硬件涂层解决。GP101适用于VxWorks、Linux、通用操作系统,如Windows,适用于中标麒麟、道等国产操作系统,以及龙芯、飞腾、申威等国产处理器。

GP101完成了中国通用3D显卡零的突破,充分保证了信息安全和供应能力的便利性,可广泛应用于军民多个领域。

自主研发JARII716 G12是2018年最强大的国内通用图形处理器。该点理器采用混合渲染架构,具有数据带宽和渲染延迟要求,大大提高了芯片的灵活性和集成性;

给PCIe 3.0总线适用于X86处理器、龙芯、飞腾、申威等国内处理器;4路数据通道和1路VGA导出适用于DP、eDP、HDMI、DVI等通用表示界面,单路数据通道大输出分辨率3840×2160@60fps适用于扩展、显示和“扩展” “显示模式;

强大的内部建筑视频解码,支持2路3840×2160分辨率视频的编号和解码功能;

Opengl适用于Opengl 4.5OpenGL ES 3.0,满足高能3D加速和VR显示的要求;

Opencl适用于Opencl 2.0满足并行计算和云计算的使用要求;

集成张量加速强度计算,适用人工智能加速度计算。GPU适用于Windowsws、Linux、VxWorks等主流操作系统同时支持麒麟中标,JARI-Works、道等国内自主可控操作系统,生态环境体系完善。

JARI G12架构平面图

芯动科技是中国一站式IP和芯片定制的龙头企业,为全球6家工艺厂(台积电/三星/格芯/中芯国际/联华电子/英特尔)提供一套从130nm到5纳米的快速混合电路IP核和ASIC定制解决方案,聚焦先进工艺。

在过去的15年里,基于当地的发展,所有的IP和产品都是独立和可控的,中国的市场份额已经连续十年领先。

在过去的15年里,基于当地的发展,所有的知识产权和产品都是独立和可控的,中国市场份额连续十年处于领先地位。企业客户群包括华为海思、ZTE通信、瑞新微、全志、君正、AMD、Microsoft、Amazon、Microchip、全球知名公司,如Cypress。

核心动力解决方案在高能量计算/多媒体&汽车电子/物联网等行业具有国际先进水平,包括DDR5/4、LPDR5/4、GDDR6/GDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含 PCIE5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、GPU、多媒体解决方案核心等智能图像处理器技术。芯片定制,跨工艺跨包装,涉及从需求到产品, 能够端到端加快客户从规格、设计到流片量产、包装成型的全过程。芯片定制,跨工艺跨包装,涉及从需求到产品, 能够端到端加快客户从规格、设计到流片量产、包装成型的全过程。

芯动技术一站式IP系列

IPIP芯动技术高能计算平台

2020年10月13日,芯动科技与Imagination战略合作。选择最前沿的多晶芯片(chiplet)以及GDDR6快速显存等SOC创新,芯动科技将推出全球IMagination全新高配BXT多核架构。

在信创和算率安全方面,“风华”系列GPU嵌入国内物理无法克隆iUnique Security PUF信息安全加密算法适用于桌面计算机和数据中心GPU计算自主可控生态,以提高数据安全性和计算能力。

“风华”系列GPU内置浮点和智能3D图像处理功能,全定制多级流水计算核心,兼顾高能渲染和智能AI计算率。它还可以组成多个芯片组合处理量,灵活性强,兼容国内桌面市场1080P/4K/8K的高质量性能,适用于VR/AR/AI,中国新基建5G风口下的大数据图形应用领域,如多路服务器云桌面、5G数据中心、云教育、云游戏、云办公等。

GPU Turbo是一种薄而协同的图形加速技术,可以减少无用的渲染频率,提高或合并渲染区域。

GPU Turbo是一种薄而协同的图形加速技术,可以减少无用的渲染频率,改进或合并渲染区域。通过算法,将相关操作放置在一个或相邻的存储器中,以优化图像处理的效率。

GPU Turbo技术开辟了EMUI操作系统及其GPU和CPU之间的解决方案,重构了设备底部的传统图像处理架构,完成了软硬件合作,大大提高了GPU图像处理的整体效率。

2018年6月发布GPU Turbo 1.0图像处理效率提高60%,同时更省电,保证高画质。

GPUU于2018年9月发布 Turbo 2.0动画场景功耗可降低13.6%,几款主流游戏适用新增,重要&极限适用于适用游戏场景(如打团、载具等。)重点打磨优化。

2019年4月GPU Turbo升级版不仅带来主流游戏接近全帧运行的愉悦感,还带来续航时间的不断降低。国内游戏总共适用60款。

GPU Turbo 2.0能效比照

2001年,中国科学院计算所成立了龙芯研究小组,并逐步开发了龙芯系列CPU,获得了中国科学院和863、973、全力支持核高基等特点,实现了十年的关键技术积累。2010年4月,中国科学院和北京率先注资入股,成立龙芯中科技有限公司,龙芯宣布从研发向产业化迈进。

目前,龙芯自主研发GPU集成在7A1000桥片中。龙芯7A1000桥片是龙芯3号处理器的芯片组,根据HT3.0插座与CPU连接,集成GPU、显示控制器和独立显示插座包括32个PCIE2.0、2路GMAC、三路SATA2.0、6路USB2.0等低速插座,能满足桌面和服务器领域IO接口业务的需要,并以外部独特的形式适用高能图形业务需求。

虽然龙芯7A1000桥的GPU一般,但作为CPU产业链的一部分,龙芯已经实现了CPU、在CPU产业链的每一个环节上,桥片和GPU都是完全自主化的。

2020年,龙芯成立了3A5000突击队、3C500突击队、7A2000突击队、2K2000突击队、GPU突击队、PCIE突击队六支研发突击队。

2020年,龙芯成立了3A5000突击队、3C500突击队、7A2000突击队、2K2000突击队、GPU突击队、PCIE突击队六支R&D突击队。这六支突击队的目的是在一年内完成2-3年的工作!

龙芯7A1000

龙芯7A1000 GPU的主要参数

芯瞳半导体成立于2019年,主要业务包括GPUIC设计、异构计算平台解决方案、嵌入式显示系统解决方案、GPU应用部署解决方案。公司专注于开发高能GPU芯片,为用户提供基于自主开发GPU芯片的解决方案,努力打造行业领先的GPUIC设计平台,目标是成为世界级的GPUIC设计公司。公司创始团队在GPU领域拥有10多年的学术和工程经验,是一支适用于软硬件全栈的研发团队。

公司GPU架构采用业内流行的统一渲染架构,具有高度可扩展的互连结构和运算阵型,便于芯片后的迭代升级。通过多年的积累,团队建立了芯片模型虚拟平台,通过虚拟平台,团队可以快速开发GPU专业软件和软件生态部署,此外,在虚拟平台上快速验证芯片架构,缩短GPU芯片设计验证周期,提高GPU芯片设计效率。

公司第一代GPU芯片(GenBu01)初试成功,与统信、林林、昆仑兼容,目前正在对小批量生产进行最终测试。 Genbu01主要为需要定制嵌入式计算机产品的用户提供ODM/OEM制造商,并为国内替代领域提供信件创建公共PC。

Genbu01参数

GPGPUIC设计于2018年全面启动,是中国第一家GPGPU高端芯片和超级计算能力提供商。天数智能芯侧重于打造自主可控、国际一流的通用、标准化、高能云计算芯片GPGPU,从芯片端解决计算能力问题;推出云推理GPGPU,面对5G技术需求,为进口流行GPGPU系统提供无缝适应和社会选择。2021年1月15日,天数智芯成功照亮自研7纳米GPGPU云练习芯片,可达市场主要产品的两倍。大规模生产后,该芯片将广泛应用于人工智能练习和高能计算(HPC)以教育、互联网、金融、无人驾驶、诊疗、安全等相关领域为基础,创造人工智能智能社会。

天数智能芯7纳米GPGPU高端自主研发云实践芯片的产品优势包括:多向生态适应、高能合理的计算率、指令集编程架构、软硬件堆栈适用、独立产权。

天数智芯GPGPU BI芯片参数

该团队成立于2019年,由国内外芯片和云计算行业的关键专业人员和研发团队组成、DSA(专用加速器)和计算机系统结构等行业具有深厚的技术积累和独特的领域洞察力。

致力于开发原创通用计算系统,打造高效的软硬件平台,并在智能计算领域提供综合解决方案。从发展路线来看,壁伦科技将首先对焦云通用智能计算,在人工智能培训推理、图形渲染、高能通用计算等领域逐步超越目前的解决方案,完成国内高端通用智能计算芯片的推广。

沐曦集成电路致力于设计具有完全自主知识产权的高能通用GPU芯片,用于异构计算。公司专注于打造中国最好的商业GPU芯片,其主要应用方向包括传统GPU和移动应用、人工智能、云计算、数据中心等高能异构计算行业。

针对发展方向,沐曦表示,将采用行业最前沿的5nm生产技术,开发适合CUDA和ROCM生态的国产高能GPU芯片,实现HPC、数据中心和人工智能的计算要求。GPU将采用原专利保护的可重构GPU架构,打破传统GPU芯片能效的不足;选择数据压缩、数据广播、共享硬件加速模块等先进技术,大大提高关键计算率能耗比。

沐曦高能GPU研发项目

登临科技成立于2017年11月,是一家专注于为新兴计算领域提供高能、高功能计算平台的高科技企业。公司的产品是以芯片为中心的系统解决方案,坚持在所有关键IP上自主研发路经。由元禾普华和元生资产联合领投的A登临科技已经完成 轮融资,包括北极光在内的老股东,在这一轮不断加仓跟踪。首款GPU登录科技 (软件定义的异构通用人工智能CPU)产品已成功返回电影并通过测试,并逐步向客户发送样品。公司团队在架构、系统、软件、硬件、芯片、认证等方面具有综合能力。

登录科技Goldwasertmer GPU 在原有市场主流GPU架构上,商品创新选用软硬件协同异构设计。GPU 异构设计使商品在原始生态中投入客户的实际业务,同时确保高兼容性,显著提高人工智能计算中传统GPU的能源和能源效率,可以减少外部带宽的需求,显著降低客户的总成本。

摩尔线程成立于2020年10月,去年12月获得天使轮融资,今年2月22日获得Pre-A轮融资。摩尔线程致力于构建中国视觉计算和人工智能领域的计算平台,开发世界领先的技术创新GPU专利权,其GPU产品线覆盖通用图形计算和高能计算。公司核心人物主要来自英伟达、微软、英特尔AMD、ARM等,覆盖GPU研发设计、生产加工、市场、服务保障等详细架构。

汉博半导体成立于2018年12月,决心发展成为世界顶级芯片公司,注重中国市场,填补中国芯片在国内市场的空白,为智能应用提供高效率,为人工智能创新及其应用创造变革。

由国内外专家组成的韩博半导体团队。该公司的核心员工来自世界顶尖的新技术公司,平均有15年以上的芯片和软件开发经验。汉博的产品注重机器视觉和视频编辑的改进,提供大量特殊、高效的能源/功耗;可用于多个人工智能领域。SOC和服务器市场涵盖从边到云的产品。汉博半导体首席执行官钱军拥有25年以上的高端芯片设计经验和40多个IC设计和大规模生产经验。领导者设计了第一个7纳米图像处理器和人工智能服务器芯片,曾任AMD高管Senior Director,超过800人直接负责设计部门,全面负责GPU( 芯片设计与生产,图像处理器和人工智能服务器,现在市场上所有的AMD Radeon图像处理器和AI服务器都是由其领导者开发的,包括多系列DGPU和MI主要产品。火原科技成立于2018年3月,致力于人工智能领域的云计算能力平台,致力于为人工智能产业的发展提供包容性的基础设施解决方案,为自主知识产权提供高计算能力、高能效比、可编译的通用人工智能实践和推理产品。绥远科技成立于2018年3月,致力于人工智能领域的云计算能力平台,为人工智能产业的发展提供包容性的基础设施解决方案,为自主知识产权提供高计算能力、高效率、可编制的通用人工智能实践和推理商品。产品技术由练习、推理、软件系统组成。其中,练习业务包括加速卡 “云燧T10” 和“云霄T11”;推理业务包括加速卡 “云燧i10”;软件系统包括“控算”。自主研发的DTU架构采用“云霄”系列加速卡,适用于ESL快速互连和开放生态。 格罗方德的12nm选用“云霄”芯片 FinFET工艺集成 2.5D先进包装,141亿晶体管和16GB HBM2显存,在FP32计算能力和能效比方面领先GPU。计算和编程平台的“控制”是由绥远自主开发的,适用于流行的深度学习框架,并对深度思维芯片进行了改进。智东西觉得,GPU设计最初是为了图像处理,但随着技术的不断迭代升级,GPU的效果不再局限于“绘图”。GPU在服务器、车辆、人工智能、边缘计算等领域逐渐丰富多彩。目前,尽管国内GPU与英伟达、AMD等世界巨头存在明显差距,但在一些空白细分行业可能有很大的“弯道超越”空间。
标签: 十四个   芯片   英伟达