补位GPU禁运“缺口”难在哪?

TechWeb 子墨 2022-09-27 13:29  阅读量:5050   

英伟达和AMD的高端通用GPU禁运再次敲响警钟,国内超算,东西方计算,云计算,自动驾驶等行业已经明显感受到寒意但就像硬币的两面一样,这一禁令无疑为国内GPU厂商创造了新的机会

但从GPU市场来看,还是有巨大的差距情节在集成GPU市场,英特尔,英伟达,AMD一统天下,独立GPU领域基本由英伟达和AMD主导,前者的市场份额甚至超过2/3,在GPGPU领域,英伟达更胜一筹当英特尔,英伟达,AMD全面布局,通过合并或整合控制GPU+CPU+DPU时代的话语权时,国内GPU厂商仍需奋起直追

要想在GPU领域有所突破,国产GPU的性能,生态,应用都是一个接一个的考验要在演出层面率先通关,IP的力量不可小觑在生态层面,是和CUDA占一席之地,还是自己建生态,还是一个两难的选择

01

起风了,云聚了——带着巨大的力量前进

GPU的重要性从它的市场规模就可以看出来。

在多重因素的交织影响下,GPU完成了一次华丽的蜕变从最早应用于2D/3D图形计算和处理,最近几年来,凭借并行处理和通用计算的优势,GPU已经成为数据中心,5G,AIoT和自动驾驶领域的关键计算基础设施,GPU市场也迎来了快速发展

根据Gartner的预测,到2023年,AIoT,5G应用等将迅速推动全球商用GPU市场,规模有望达到250亿美元,包括PC在内的民用GPU市场也将增长到150亿美元

在这个动荡的市场中,不仅让英伟达,AMD等高歌猛进,也为无数新进入者提供了一个竞争的舞台在市场需求,政策和资本的驱动下,GPU在中国广受追捧国内GPU初创企业如雨后春笋,融资记录不断创新高,呈现星星之火,可以燎原之势

需要指出的是,伴随着技术的进步和应用的扩展,GPU系统日趋复杂,按访问类型可分为集成GPU和独立GPU,按应用可分为PC GPU,移动GPU和服务器GPU按功能可分为以图形图像为主的GPU和以通用计算为主的GPGPU

国内初创GPU公司根据自身优势和阶段性定位,采取了不同的切入路线,有的专注GPGPU,有的直指渲染GPU,有的先基于GPGPU再切入渲染GPU或并行推进,涉及富弼,牧溪,登麟,天典智芯,摩尔线程,激励计算,深流微,汉博,芯瞳,格兰菲等。

作为这次禁运的主角,英伟达的A100和H100都是数据中心加速卡A100拥有540亿个晶体管,采用TSMC 7nm工艺,支持FP16,FP32和FP64浮点运算H100作为NVIDIA最新一代数据中心GPU,集成了800亿个晶体管,最大18000个CUDA核心,采用TSMC定制的4nm工艺,并已全面投产50多种基于H100的合作伙伴服务器将在年底前上市

虽然国内还有一年的缓冲期继续备货英伟达产品,但很可能一年后,仍然会有拿不到最先进产品的可能,不同的应用终端会对此有所感受或了解。

02

应用约束

相比超级计算机,互联网等应用场景,快速发展的自动驾驶汽车领域是此次培训卡禁令的最大受害者直接断言微咨询

维基咨询进一步指出,由于超级计算中的核心计算能力仍然是基于CPU的,并且可以使用协处理器与核心CPU协同工作,因此短期内GPGPU的影响不会对超级计算应用产生太大影响。

另外,虽然互联网应用的智能推荐和图像识别算法也需要大量的训练,但得益于微咨询和分析,值得庆幸的是,中国互联网行业经历了一段蓬勃发展的时期,现在处于稳定期,算法迭代和应用相对成熟目前互联网巨头手中的训练资源相对均衡,各家都开始根据自己的业务需求开发自己的训练芯片英伟达培训卡禁令看似对互联网行业影响很大,但实际情况比预想的要好

相比之下,自动驾驶体验到的寒意更明显。

虽然英伟达不直接禁止自动驾驶芯片的销售,但是自动驾驶算法的训练还是绕不过云端GPGPU国内智能汽车或自动驾驶汽车产品迭代快,新车发布周期缩短,硬件栈增加,摄像头视觉传感器,雷达等硬件模块的自行车配置快速上升,高级自动驾驶档次的迭代和渗透也在快速发展因此,自动驾驶算法的迭代必须保持同步算法的迭代必须建立在训练的基础上,训练量的增加一定会反馈到训练卡性能和需求的提升上微问诊详解

更值得注意的是,自动驾驶信息所涉及的大部分数据都涉及高度机密的内容,大概率不是租用云服务商的培训服务器就能解决的微咨询揭示了中国自动驾驶汽车热闹背后的隐忧

03

知识产权困难

对于国内GPU初创企业来说,长期持续的盈利支持是GPU跨代发展的强大动力面对英伟达,ADM等巨头构筑的高壁垒,瞄准目标应用的大量验证和出货是国产GPU不可避免的困难

GPU作为高性能,高复杂度的大芯片,要想在短时间内快速推出相关产品,必须依赖外部ip而且近几年国内GPU厂商也在陆续探索轻量化和商业化的发展之路但除去生态和落地挑战,据一位业内人士分析,国产GPU在核心基础技术上的投入仍然不够虽然目前研发GPU的公司很多,但是大部分都是license IP模式,同质化明显

说到GPU IP,主要有两大IP类型:数字IP和模拟IP,每个IP系统都有不同的分类从模拟IP来看,分为三部分,一是PCIe,,第二,内存,涉及DDR5/4,LPDDR5/4等三是重要的显示IP,即Displayport和HDMI从数字IP的角度来看,涉及到核心的GPU IP,以及基于RISC—V或Arm的微控制器IP,和视频编解码器的IP,例如H.264..需要注意的是,在GPGPU层面,核心IP大多是厂商开发的,也有厂商使用的是经过训练或想象推理的IP,GPGPU不需要显示IP

理论上,越是自研的IP,GPU的差异越明显,但相对来说,资金,人员,时间的成本也更高一位从事GPGPU R&D的企业代表告诉我们,自行开发GPU IP需要36—48个月,200名工程师,外包IP可以减少12—18个月的开发周期

不得不说,由于设计GPU IP的复杂性,很多最优方案都获得了专利,使得GPU核心IP市场成为少数玩家的阵地。

在PC和服务器GPU领域,核心的GPU IP厂商主要是Imagination,core,Grenfell在移动GPU领域,主要有Arm Mali和Imagination PowerVR系列过去几年,芯元在收购了美国嵌入式GPU designer Graphics Core,以及的Adreno之后,也有了不少授权用户高通Adreno从AMD购买,不向外界出售作为GPU的老牌巨头,英伟达和AMD都有自己强大的GPU IP,英特尔也购买了AMD的GPU IP,在独立GPU市场东山再起

总体来看,国内GPGPU企业与国际厂商的技术差距在3年左右,渲染GPU与国际厂商的差距在10年左右要弥补这一差距,不仅需要在生态层面发力,还需要提升国产核心IP能力

业内人士还指出,从GPU IP供应商的角度来看,国内R&D存在投入不足,竞争力弱,市场狭窄,技术研发后续力量不明确等问题,要想在国内发展GPU,就要想办法让那些在GPU技术链各环节投入真金白银进行技术研发的公司生存下来,慢慢发展。

值得注意的是,虽然火热的小芯片开启了一种新型的IP复用模式,但也给IP厂商的商业模式带来了新的变化,国内GPU IP厂商如鑫源也在加速以小芯片的形式实现IP芯片化不过,吉维咨询认为,这不仅会给商业模式带来挑战,还需要解决设计,模对模接口挑战,封装制造等方面的困难,很难实现弯道超车

04

生态忧虑

虽然A100和H100的禁售成为国产GPGPU发展的新催化剂,可以说创造了难得的机会窗口,但除了性能差距,成功补位也显得尤为迫切。

很多客户都非常方便地使用过英伟达的训练加速卡一方面性能优异,通用性强,另一方面生态CUDA的计算平台适用于各种模型,客户可以在此基础上高效地训练或改进自己的算法吉维咨询表示,国内芯片设计能力和头部品牌还有很大差距考虑到软件和生态方面,差距会进一步拉大

正如一位GPGPU厂商代表所说,GPGPU的生态非常复杂,需要一直到应用层,为所有应用提供全面的支持,甚至需要独立开发来支持一个新的应用领域。

虽然禁运有一年缓冲期,但是一年后呢很可能你也会面临拿不到最先进产品的可能虽然英威达也表示可以提供一些性能低于A100的相对低端的产品,让客户通过堆叠等方式达到相应的计算能力,但这仍然会大大影响培训的成本和效率

因此,吉为咨询认为,虽然国内在GPGPU领域已经实现了部分国产替代,但短期内性能达到A100级别不现实另外,更大的阻力来自于生态虽然很多国产GPGPU芯片都支持CUDA兼容,但是兼容程度和级别无法量化,各个公司的产品级别标准也不统一,这肯定会增加算法工程师的使用和学习成本

所以整合微诊和分析,兼容是捷径,但不是终点从长远来看,我们必须建立自己的生态国内的GPGPU厂商也要盯紧点

毫无疑问,美国对中国芯片产业的全面围剿,将形成新的半导体铁幕,也将加速国产芯片自主化的进程但是,从弱到强,从低端到高端,显然是一个需要几年时间的长征

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。