(原标题:在既有英伟达又有AMD的GPGPU赛道上,天数智芯靠什么?)
自从上海天数智芯半导体有限公司(简称“天数智芯”)7纳米GPGPU云端芯片已经开始流片的消息传出,这家公司就被一些投资机构“瞄”上。因为如果接下来的路走得顺利,那么这家公司就有可能成为中国第一家能做7纳米GPGPU大芯片的创业企业,其估值就会进一步走高。天数智芯究竟是一家什么样的公司?它为什么要做GPGPU,这个市场究竟有多大?关于GPGPU,现在的难题又是什么?
天数智芯切入GPGPU赛道
GPGPU是什么,GPGPU与GPU有什么不同?GPGPU全称是通用图形处理器(General-Purpose Computing on Graphics Processing Units),就是让本为图形图像处理而生的GPU能够运行图形渲染之外的通用计算任务。因为其并行处理能力特别强,并且有很大的存储带宽,所以它被人工智能模型训练与推理、高性能计算所青睐,目前它在人工智能市场和高性能市场有广阔的应用空间。
关于GPGPU的价值和市场规模,一般人可能没有太多的概念。真实的情况是,目前某头部供应商的一块高端GPGPU板卡,其售价接近一辆普通轿车的价格。根据有关数据预测,到2025年,中国GPGPU芯片板卡的市场规模将达到458亿元,是2019年86亿元的5倍多,2019年到2025年的年复合增长率高达32%。按行业来分,互联网及云数据中心为228亿元,安防与政府数据中心为142亿元,行业AI应用为37亿元,高性能计算为28亿元。按应用场景来分,到2025年的预测数据是,人工智能推理286亿元,人工智能训练144亿元,高性能计算28亿元。
从GPGPU供应商的情况看,AI红火的这5年,全球排名第一的芯片设计公司英伟达股价飙升2268%,并在7月8日收盘后,英伟达以2513.1亿美元市值首超英特尔,一度成为美国市值最高芯片制造商、全球市值第三的半导体公司。GPU市场排名第二的是AMD,这家公司的市值也同样一路飙升,在最近其市值也逼近了千亿美元的大关。也是在最近,英特尔宣布将在今年底正式推出Xe-LP GPU,正式进入GPU市场;除了英特尔,最近连苹果也透露即将采用自研的GPU。
这几组数据和相关信息足以描绘出GPGPU的广阔“钱”景。除了“钱”景,还有用户供应链安全的需求。比如在2017年,因为人工智能训练和数字货币挖矿的需求猛增,GPGPU供不应求,价格高涨,一部分用户尝试将原本用作独立显卡的消费级GPGPU,替代用于数据中心,但是被供应商在软件驱动上禁用。目前全球GPGPU市场供应处于一家独大的局面,价格昂贵,产品种类单一。以中国的云端AI训练芯片市场为例,最大的供应商市场份额达到90%,其中,某一款产品就占整个市场的50%。用户需要更多元的供应商。
基于以上种种,曾经分别任职AMD、Oracle、IBM、英伟达等公司的多位技术骨干共同创业了天数智芯公司,希望抓住正在到来的云端计算、以及AI训练与推理的高增长红利,同时也基于为中国用户提供更多选择的诉求,进入GPGPU赛道,希望成为国内真正全自研通用计算GPU架构的GPU设计公司。
天数智芯认为未来在云端和边缘侧都将有巨大的需求,所以在云端和边缘侧都做了重要的布局。目前来看,天数智芯云端的市场以一款名为Big Island的芯片为主打。目前Big Island正在流片的过程中,接下来要交给合作伙伴进行相关测试,该旗舰芯片有望成为国内第一款真正的GPU架构下的7nm GPGPU云端芯片,量产后将应用于AI训练、超级计算(HPC)等场景。从边缘端来看,天数智芯的主打产品将是一款名为Avenger (简称AG)芯片。今年上半年启动了这款边缘云端7nm GPGPU芯片的研发,沿袭GPGPU架构。它根据云端推理场景,增加视频编解码功能,优化推理计算性能,瞄准5G等“新基建”领域。
既有英伟达又有AMD,天数智芯靠什么?
在一个既有英伟达又有AMD,还将加入英特尔以及苹果的GPU市场,天数智芯有什么机会?还有巨头们没有尝试过的技术路线吗?
“巨头们当初设计的GPU是为图形处理、游戏而生的,而且做的是‘完整版’现在要进入数据中心的云端计算需要进行较大的改进。天数智芯的GPGPU直接针对云端计算以及AI训练进行专门的优化,芯片可以做到面积更小而性能更强。”天数智芯首席科学家郑金山说。“国际领先厂商GPU里是有图形渲染的,在芯片上大约占30%,但是图形渲染对于AI和数据中心完全没有用。所以这一块我们直接取消掉。”
这个世界就是这样,每一种技术的诞生都是为某种需求而生的,在新需求下就有可能需要更优的技术来满足。而巨头公司的技术往往有很多历史包袱,难以“轻装上阵”,这往往是创新企业的机会。
作为首席科学家的郑金山拥有20多年芯片设计经验,一直专注于GPU IP设计。在AMD,他带领上海芯片设计团队参与过多个GPU芯片的研发与产品化。“究竟是从12纳米开始还是直接做7纳米,究竟是先做低端还是直接一步到位做高端,这是个需要纠结的决策。”但没想到几个技术骨干几乎是没有犹豫就决定直接上7纳米跳过低端做高端,这个决定让郑金山有一点意外,毕竟当时的英伟达也只做到了12纳米。“但如果不超前设计,等两年后我们的产品出来就落后了。”
押宝更超前的工艺直接做高端产品,其实是艰难决定。因为越是高端产品其风险也大,成本也越高。一旦决定下来,就必须要和投资人进行沟通,告知对方相关的时间节点。要做高端芯片前期需要付出更多的时间,在架构上、设计上、细节上进行打磨,这需要得到投资人的理解和支持。
“前期慢一点,做得稳做得扎实,后期迭代所时间就能缩短就能够更快。”郑金山表示,芯片设计和做互联网创新不一样,互联网可以一边试错一边推进,但是做芯片设计如果一开始没有想好,其后再推推倒重来成本就太高了,尤其是做高端芯片。业界的流片行情是大公司的一次成本约为1000万美金,而创业公司一次流片要高达1500万美金到2000万美金之间。
天数智芯的7纳米GPGPU针对当前市场上的旗舰产品在设计指标上可达到2~4倍不等的性能与能效领先。而按照这样的规格的芯片的研发即便是在大公司里通常需要比天数智芯多一倍以上的人,时间还得更长。除了得力的精英创始人团队,还因为天数智芯拥有一支一流的数字集成电路设计与基础软件团队,一批行业经验超过20年的世界级技术专家,也有一大批高执行力5-15年业界经验的技术精英,目前天数智芯研发团队约占总员工的85%。
现在在市场上有很多不同类型的创业公司,每个公司都能讲各种各样的“动听”故事,有各种各样的标签,但郑金山说,天数智芯没有太多的故事,就是典型的工程师文化,诉求就是做成功的产品。“我们希望通过自身的努力,做出来的产品是业界用户愿意采用的,是商业上能够成功的,自己挣钱去养活自己的正向循环。”郑金山说。
据了解,天数智芯在芯片设计初始,就与服务器厂商合作共同对产品设计进行定义,目前,天数智芯已经与浪潮、新华三等服务器厂商签署战略合作,共同推动服务器领域人工智能和HPC的计算芯片及硬件解决方案发展。天数智芯还与具有自主知识产权的中科龙芯对接技术及业务合作,希望在自主知识产权的生态发展上建立更广泛的阵营。
做芯片很难,但并非可望不可即。“展望未来,我们深知任务艰巨,但我们也有信心、决心和耐力,为具有自主知识产权的GPGPU闯出一片天地。也希望有更多的人才、合作伙伴、行业应用单位加入我们的征程。”郑金山说。