经济学人:
芯片之战自2018年以来一直持续。当时,唐纳德·特朗普(以及后来的乔·拜登和特朗普)领导下的美国开始对希望在中国销售产品的半导体公司实施日益严格的出口限制。这项高科技禁令旨在挫败中国打造自身先进芯片制造业的雄心。
相反,它激励了他们。中国政府希望国内企业能够用硬件完成他们已经用软件完成的工作,并突破美国的极限进行创新。今年 1 月,中国软件公司 DeepSeek 发布了一款人工智能 ( AI ) 模型,令世界震惊。尽管该模型只使用了西方竞争对手的一小部分计算能力进行训练,但却具有竞争力。中国的芯片制造商正在尝试做类似的尝试。他们正在将工具发挥到极致,构建大型处理器集群以抵消较慢的芯片,并融合硬件和软件以榨干每一滴性能。问题是中国能否将这些组件(芯片、系统和代码)连接成一个自给自足、具有竞争力的AI “技术堆栈”。
先从芯片本身说起。风险投资公司 Edgerunner Ventures 的 Ryan Cunningham 收集的数据显示,中国人工智能芯片的平均性能为每秒 114 万亿次浮点运算(即每秒进行一万亿次计算),远远落后于美国竞争对手(见图表)。华为的旗舰人工智能芯片 Ascend 910 C 的浮点运算速度为每秒 800 万亿次浮点运算,而英伟达的高端产品B 200的浮点运算速度则为每秒 2500 万亿次浮点运算。
造成这种差距的一大原因是这些芯片制造难度大。过去半个世纪以来,提高微芯片速度最可靠的方法是缩小晶体管的尺寸。晶体管是一种微型电子开关,其开或关状态代表二进制算术中的“1”和“0”。B 200芯片集成了 2080 亿个晶体管,分布在数千个独立的核心中,所有这些晶体管都塞进了几十毫米宽的硅片中。
只有三家公司——韩国三星半导体公司、台湾台积电公司以及(在一定程度上)美国英特尔公司——能够制造包含极小晶体管的芯片。台积电占据市场主导地位,但美国的压力意味着其最先进的工厂对中国客户关闭。他们不得不与本土芯片制造商合作,例如部分国有企业中芯国际和拥有自主制造工厂的科技巨头华为。
但中芯国际和华为也面临限制。芯片制造工厂使用的先进机床则由另一类公司制造。例如,光刻机利用光将构成微芯片的电路图案蚀刻到硅晶圆上。就像书法笔比蜡笔画得更精确一样,较短的光波长可以蚀刻出更精细的细节。最先进的机器使用波长为 13.5 纳米(nm;十亿分之一米)的极紫外 ( EUV ) 光。只有荷兰公司ASML制造了这些机器,该公司花费了数十年时间完善这项技术。
再次迫于美国的压力,ASML不愿向中国芯片制造商出售EUV设备。因此,中国芯片制造商唯一的选择就是将其使用 193nm 波长的旧式“深紫外”(DUV)系统推向极限。其中一种策略是“多重图案化”。工程师们不再将晶圆片暴露在光源下一次,而是重复该过程多次,从而构建出单次曝光无法实现的更小特征。
多重曝光还会增加成本、减慢生产速度并降低良率(即每片晶圆上无缺陷芯片的比例)。对中国而言,自给自足可能比效率更重要。但深紫外光(DUV)技术的推广存在物理限制。大多数分析师认为,除非中国能够确保ASML的EUV光刻机供应,否则最先进芯片的大规模生产仍需数年时间。
如果中国在质量上仍然落后,另一个选择就是追求数量。人工智能的数学原理非常适合“并行化”,即将一项任务拆分成更小的块,由多个芯片同时处理。今年4月,华为发布了CloudMatrix 384,这是一款旨在嵌入数据中心机架的人工智能系统。它将384块华为的Ascend 910 C芯片连接在一起,旨在与英伟达的GB 200 NVL 72系统竞争,后者搭载了72块英伟达的B 200芯片。
咨询公司 SemiAnalysis 估计,每块 Ascend 芯片的性能约为B 200 的三分之一。因此,使用五倍于此的芯片数量,华为的系统性能略低于英伟达产品的两倍。代价是功耗:华为系统耗电量为 600千瓦,是英伟达机器的四倍多。但坎宁安先生认为,这是一个合理的权衡。他指出,能源“在中国不是问题”。
以这种方式连接大量芯片也充分发挥了华为的优势。该公司在计算机网络领域享有盛誉。CloudMatrix 384 将数据以光脉冲而非电脉冲的形式传输。这种被称为光网络的方法比电网络耗电更少,产生的废热也更少。它曾主要用于长距离光纤电缆,但现在正逐渐进入数据中心。投资公司伯恩斯坦的芯片分析师林庆元表示,华为的做法正在“从根本上改变”人工智能基础设施的构建方式。
中国战略的最后一步是使其硬件与在其上运行的软件紧密结合。芯片内部处理数字的方式就是一个例子。大多数通用处理器用 32 位或 64 位(或二进制数字)表示数字。与十进制计数一样,可用的数字越多,可以表示的数字范围就越大。更多的数字还可以更好地近似表示无法精确表示的数字,例如十进制的 2/3 或 二进制的 1/5——这两个数字都会产生无限重复的数字模式。但是每一位——每个 1 或 0——都需要一个晶体管来表示,而每个额外的晶体管都会消耗更多的电能。
一点点
然而,人工智能模型可以容忍其数学运算中的一些模糊性。因此,许多现代人工智能芯片仅用16位、8位甚至4位来表示数字。伊利诺伊大学厄巴纳-香槟分校的电气工程师拉凯什·库马尔(Rakesh Kumar)称这是一种“简单但非常有效”的硬件优化方法。8月,迅速成为中国人工智能标准制定者的DeepSeek发布了一种新的数字格式。它用8位存储数字,不区分正数和负数,并且完全没有小数部分。
这种方案无法表示大范围的数字,而且精度不足。但它应该效率更高。中国芯片设计公司寒武纪科技的股价在 DeepSeek 发布后飙升;其处理器已经支持该公司的格式。华为的处理器目前还不支持,但可能很快就会支持。
中国构建国产人工智能堆栈的尝试已初见成效,但仍任重道远。英伟达的CUDA 人工智能编程工具仍然占据主导地位。中国设计师仍然依赖美国程序(例如 Synopsys 或 Cadence 等公司开发的程序)来设计芯片。(美国于 5 月禁止这两家公司向中国出口芯片,但于 7 月有所松动。)尽管中国芯片在推理(即人工智能模型响应用户查询)方面正在缩小差距,但在用于创建这些模型的训练阶段,它们仍然较弱。训练模型需要将大量数据传入和传出内存,而先进的内存芯片是美国试图限制中国获取的另一个组件。
但如果计算和人工智能被认为对国家安全至关重要,那么中国的产业无需达到世界一流水平也能发挥作用。仅仅具备竞争力的硬件就能发挥很大作用。至少在官方层面,中国展现出了信心。今年4月,美国限制了英伟达H20芯片的销售,这是一款专为中国制造的产品,为了满足出口规定而故意限制其生产。但几个月后,当白宫做出让步时,中国政府的反应并非如释重负,而是敦促其科技公司加倍努力。中国政府表示,这些公司应该彻底放弃英伟达的产品,转而使用国产替代品。
评论
发表评论