梁文锋身材瘦削,行事风格内敛,在会议上显得害羞,甚至有些紧张。这位最近颠覆了人工智能领域的中国初创公司DeepSeek的创始人,说话容易磕磕绊绊,沉默时间也比较长。但新员工很快就能学会不把他的沉默寡言误认为是胆怯。一旦梁文锋理解了讨论中的细节,他就会提出一些精准而难以回答的问题,例如模型架构、计算成本以及DeepSeek人工智能系统的其他复杂细节。
员工们称梁为“老板”,这是中国对上司的常见尊称。不同寻常的是,他们的“老板”会授权年轻的研究人员甚至实习生承担大型实验项目,经常在他们的办公桌前停下来了解最新情况,并鼓励他们考虑不寻常的工程路径。谈话越技术性越好,特别是如果它能带来真正的绩效提升,梁亲自在内部 Lark 消息频道上分享了这些里程碑。“他是个真正的书呆子,”一位前 DeepSeek 员工说,他和本文采访的许多人一样,由于无权公开谈论公司,因此要求匿名。“有时,我觉得他比他的研究人员更了解这项研究。”
今年1月,梁和他的年轻公司发布了R1模型,一举成名,该模型堪称一次爆炸式突破,在国际上声名鹊起。R1在几项用于评估人工智能性能的标准化测试中击败了占据主导地位的西方公司,而DeepSeek声称,其基础模型的构建成本仅为GPT-4(OpenAI ChatGPT的基础模型)预估成本的5%左右。
测试结果引发美国股市1万亿美元的抛售,并引发了人们对美国利用出口管制来阻碍中国人工智能发展战略的质疑。亚马逊和微软与Meta和Mistral AI等竞争对手竞相将DeepSeek的模型添加到其云服务中。亚马逊公司语言模型市场负责人Atul Deo表示:“基本上一个周末的时间,人们对DeepSeek的兴趣就增长了很多,我们开始采取行动。”
DeepSeek 拨开美国人对中国人工智能领域诸多迷雾的迷雾:中国人工智能笼罩在神秘之中,很容易被当成一个夸张的幽灵而置之不理,但其可怕之处很可能比他们愿意承认的还要大。在这家初创公司出现之前,许多美国公司和政策制定者都抱有安慰的观点,认为中国仍然远远落后于硅谷,这给了他们充足的时间为最终的赶超做准备,或者阻止中国达到那个水平。
美国主导人工智能投资......
人工智能的私人投资
资料来源:Quid,斯坦福大学AI指数汇编
事实上,DeepSeek 所在的杭州以及中国其他高科技中心都涌现出许多人工智能初创公司。MiniMax和 Moonshot AI 等本土初创公司开发的复杂聊天机器人人气飙升,包括在美国。阿里巴巴集团控股有限公司的 Qwen系列大型语言模型在谷歌和 Anthropic 的法学硕士排行榜上一直名列前茅;百度公司首席执行官李彦宏在 4 月份宣称,由于其使用内部芯片组装的新型超级计算机,这家搜索巨头可以开发出与 DeepSeek 一样好但更便宜的模型。华为技术有限公司也因其旨在与英伟达公司竞争的产品而赢得赞誉,英伟达的图形处理单元 (GPU) 为美国和欧洲最先进的人工智能模型提供动力。
……但中国科技正在迎头赶上
LMSYS Chatbot Arena 上顶级 AI 模型的性能衡量
资料来源:LMSYS,斯坦福大学AI指数汇编
注:Chatbot Arena 是一个通过人类偏好评估人工智能的开源平台,由 LMArena 的研究人员开发
不久前,政府还在对其眼中失控的科技行业施压。反垄断调查和数据合规性审查接踵而至,阿里巴巴联合创始人马云等名人逐渐淡出公众视野,社交媒体、零工经济和游戏应用也遭遇了新的监管。如今,面对外国势力的干涉,中共正在大力发展国内科技产业。正在向人工智能和半导体领域投入资源,鼓舞中国高技能劳动力,并呼吁建立“自主可控、协同共建”的软硬件生态系统。
讽刺的是,旨在减缓中国人工智能发展势头的地缘政治限制,也推动了中国近期的进步。Counterpoint Technology Market Research 的分析师孙伟表示,美国和中国在人工智能领域的差距现在以月而非年来衡量。“在中国,人们拥有一种集体道德和高强度工作的意愿,这带来了执行力上的优势,”孙伟说道,并指出英伟达芯片的强制短缺激发了新的人工智能创新。“这种动态创造了一种达尔文式的压力:生存属于那些能够用更少资源做更多事情的人。”
中国认为创新的地方,许多美国人却继续怀疑存在不法行为。美国众议院两党委员会4月份发布的一份报告指出,DeepSeek与中国政府之间存在“重大”联系,并得出结论认为该公司非法窃取了OpenAI的数据,对美国国家安全构成了“严重威胁”。Anthropic首席执行官达里奥·阿莫迪(Dario Amodei )呼吁美国加强出口管制,他在一篇长达3400字的博客文章中声称,DeepSeek肯定走私了大量英伟达GPU,包括其最先进的H100。(彭博新闻社最近报道称,美国官员正在调查DeepSeek是否通过新加坡的第三方购买违禁芯片来规避出口限制。)
中国大使馆驳斥了众议院委员会的指控,称其“毫无根据”。英伟达表示,DeepSeek 的芯片符合出口规定,更多限制措施可能使中国半导体公司受益。该芯片制造商的一位发言人表示,迫使 DeepSeek 使用更多来自中国的芯片和服务将“促进华为和外国人工智能基础设施提供商的发展”。
这场争论的中心人物是一家神秘的公司。DeepSeek 以开源其 AI 技术为荣,但却对其内部运作和意图讳莫如深。它在公开论文中披露了极其具体的研究细节,但却不愿透露其 AI 构建的总体成本、GPU 的当前构成以及数据来源等基本信息。
梁文峰本人长期以来以性格孤僻而闻名,以至于中国人工智能领域的一些领军人物私下称他为“科技狂人”,这个绰号源于那些雄心勃勃、古怪的企业家。过去10个月里,他从未接受过任何媒体采访,也很少有人知道他的长相,直到最近一张他戴着眼镜、略带稚气的照片出现在中国国务院总理李强的听证会上。梁小军和他的同事们没有回应记者多次提出的置评请求,只有一位员工在邮件中回复称,该询问正在处理中:“感谢您对DeepSeek的关注和支持!”
为了进一步了解该公司的运作方式及其如何融入国家更广泛的人工智能雄心,彭博商业周刊采访了梁的 11 名前雇员,以及三十多位接近中国人工智能行业的分析师、风险投资家和高管。
由于缺乏公众影响力,Amodei 和 OpenAI 负责人Sam Altman等批评者得以用诽谤来填补空白,这引起了美国观众的共鸣,他们已经将中国技术视为一种隐秘的威胁。但即使是那些仍然对 DeepSeek 保持警惕的人,也不得不面对其人工智能不可否认的威力。Perplexity AI Inc. 的首席商务官Dmitry Shevelenko表示,他的公司(该公司生产一款人工智能搜索产品)没有一个人能够与 DeepSeek 的任何同行进行交流。尽管如此,Perplexity 还是接受了 DeepSeek 的技术,只将其托管在美国和欧洲的服务器上,并对其进行了后期训练,以删除任何表明审查的数据集。Perplexity 将其标记为 R1 1776(美国建国年份),Shevelenko 称这是对自由的致敬。 “我们不知道DeepSeek的真正动机是什么,”他说,“它有点像个黑匣子。”
DeepSeek 曾预料其人工智能可能会在国外引发担忧。在 2024 年 3 月的英伟达开发者大会上,DeepSeek 的深度学习研究员 Deli Chen 在一场被忽视的线上演示中,谈到了价值观应该如何与法学硕士“脱钩”,并适应不同的社会。在一张逻辑清晰的幻灯片上,Chen 展示了一个 DeepSeek 原型,用于定制聊天机器人内置的道德标准,供不同背景的人使用。只需快速点击一个按钮,开发者就可以设置赌博、安乐死、性工作、枪支所有权、大麻和代孕等问题的合法性。“他们只需选择符合自身需求的选项,然后就能享受到根据他们的价值观量身定制的模型服务,”Chen 解释道。
寻找这种高效的解决方法一直是 DeepSeek 的文化常态。2000 年代中期,梁和他的朋友们在浙江大学学习了各种技术领域——机器学习、信号处理、电子工程等等——并且,显然是为了寻求刺激(当然,也是为了赚钱),在全球金融危机期间开发了股票交易的计算机程序。
毕业后,梁继续独自构建量化交易系统,赚了一笔小钱,然后与杭州的几位大学朋友联手,于 2015 年创立了 High‑Flyer Quant。
早期的招聘启事吹嘘说,他们能吸引谷歌和Facebook的顶尖人才,并寻求像情景喜剧《生活大爆炸》中笨拙的主角谢尔顿那样“古怪才华”的数学和编程“极客” 。他们承诺提供免费零食、赫尔曼·米勒座椅、扑克之夜、崇尚T恤和拖鞋的办公室文化,以及一丝金融科技兄弟文化,还有机会与“可爱、说话温柔的90后女孩”和“从华尔街回归的犀利女神”一起工作。
与DeepSeek的情况一样,High-Flyer也营造了一种神秘感——其首条社交媒体帖子中只称梁为“L先生”——同时致力于营造一种“让我证明一下”的透明度。每周五,High-Flyer都会在中国超级应用微信上发布其10只原始基金的业绩图表。在2016年夏季仅向注册投资者提供每周数据之前,该投资组合的平均年化回报率为35%。
数十亿美元最终流入了 High-Flyer 的持股,其投资和研究团队的员工人数也增加到 100 多人。梁小军于 2019 年开始认真招募人工智能部门的人才,旨在挖掘庞大的数据集,以发现被低估的股票、高频交易的微小价格波动以及特定行业投资者错过的宏观趋势。到新冠疫情开始时,他和他的团队已经构建了一个由串联运行的互连处理器组成的高性能计算系统,这个系统被称为集群。High-Flyer 表示,为了打造这个集群,他们已经采购了 1,000 块 Nvidia 2080Ti 芯片(游戏玩家和 3D 艺术家常用)以及另外 100 块 Volta 系列 GPU。 (Volta GPU,又名V100,是 Nvidia 的第一款针对 AI 优化的处理器。)而 High-Flyer 之前较小的计算架构需要两个月的时间来训练新的经济分析模型,其新设备只需不到四天即可处理相同的工作负载。
这些金融模型令人印象深刻,但比 OpenAI 等美国公司正在构建的通用模型要小得多。梁推动建造一台更大型的超级计算机,该计算机由Nvidia 当时新款的 A100 GPU(其 V100 的升级版)组成。参与该项目的一位前 High-Flyer 工程师表示,梁是这个不断增长的集群的“最大用户”,估计用于开发模型的 80% 的计算机处理都分配给了他的用户名。这位前工程师说,梁似乎对深度学习很着迷,称其为“他昂贵的爱好”。对于一家量化公司来说,向这样的人工智能基础设施投入数亿美元可能有点过度,但梁已经创造了足够的利润来负担得起。“当时对梁来说,这只是一笔小钱,”这位工程师回忆道。“更强大的计算能力、更好的模型、更多的交易收益。”
至少那是希望。当时管理着约141亿美元资产的High-Flyer在2021年12月致股东的一封信中,就一系列令人失望的回报表示道歉。该公司将业绩下滑归咎于其人工智能系统,称其系统虽然做出了明智的选股,但在疫情动荡时期未能精准把握退出时机。即便如此,它还是决定加倍押注人工智能:2022年1月,High-Flyer在社交媒体上发布消息称,它已积累了5000台Nvidia A100芯片,每台芯片通常售价数万美元。3月,该公司宣布该集群已扩展至10000台,而就在六个月前,Nvidia警告称,美国的新限制措施可能会影响此类芯片对华出口。
目前尚不清楚这些基础设施最终有多少是用于量化交易,有多少是用于梁的昂贵爱好。第二年春天,在OpenAI推出ChatGPT大约五个月后,他将DeepSeek拆分成一个独立的研究实验室。在杭州和北京的不同办公室,财务不再是重点。在一份充斥着陈词滥调的未署名宣言中,High-Flyer誓言要摒弃平庸,应对人工智能革命中最艰巨的挑战。它的最终目标:通用人工智能。
2023 年全年,DeepSeek 实验室都在加紧开发 AI 代码助手、通用知识聊天机器人和文本转 3D 艺术生成器。梁从 High-Flyer 挖来了工程师,并从微软北京办公室以及中国领先的科技公司和大学招募了更多人才。同年 9 月以学生研究员身份加入实验室的刘波(Bo “Benjamin” Liu)表示,梁经常把在其他地方会分配给高级员工的重要工作交给实习生。“就拿我来说吧:我刚到公司的时候,还没有人从事 RLHF 基础设施方面的工作”——这是支持一项名为“从人类反馈中强化学习”的重要技术所需的基础设施——“所以他就让我来做,”刘波说,“他相信你能做前人未做之事。” (这种信任也为 DeepSeek 带来了额外的好处:它向实习生支付相当于每天 140 美元的薪水,并提供每月 420 美元的住房补贴,这在中国是一笔丰厚的薪酬,但仅为美国人工智能公司实习生薪酬的三分之一,也仅为硅谷全职工程师收入的一小部分。)
据两位前 DeepSeek 研究人员称,梁早期在稀疏性方面投入了巨额资金,稀疏性是一种通过将法学硕士 (LLM) 分解成不同专业来更高效地训练和运行的技术。当你向最初的 ChatGPT 提问时,它的整个法学硕士大脑都会启动,以确定理想的答案,无论你问的是 2 + 2 的和还是馅饼的食谱。相比之下,稀疏模型会将资源划分为“专家”,只有相关的专家才会在响应特定提示时被激活,从而更好地利用资源。
稀疏方法可以大幅节省计算成本,但它会变得极其复杂。如果一个问题没有被足够多的大脑回路处理,或者被发送到错误的脑叶,答案质量就会下降。(例如,数学大脑知道如何在公式中使用圆周率,但不知道馅饼的配方中包含什么。)梁从谷歌和法国独角兽公司 Mistral那里看到了这一领域的进展。Mistral 于 2023 年 12 月发布了一个稀疏模型,该模型被划分为八位专家,每个查询都会根据上下文激活其中最相关的两位专家。他召集团队设计了包含更多专家的模型,这种技术可能会增加幻觉并碎片化 AI 的知识。“这引发了内部的激烈争论,”这位前 DeepSeek 员工说。
随后,DeepSeek取得了更多突破,每个突破都公开分享,并越来越引起中国竞争对手的注意。随后,在 2024 年底,DeepSeek 发布了 V3,这是一个通用 AI 模型,比Meta Platforms Inc.的同类模型大约大 65%,后者是当时最大的开源 LLM。但真正引起谷歌、OpenAI 和微软高管注意的是一篇冗长的 V3 研究论文,大约在 DeepSeek 凭借其 R1 推理模型引起广泛关注的一个月前。PDF 文件中出现了一个令人震惊的统计数据:DeepSeek 暗示 V3 的整体开发成本仅为 560 万美元。这个数字很可能只指最后的训练运行——一个数据细化过程,将模型的先前原型转变为完整的产品——但许多人认为对于整个项目来说,这是一个非常低的预算。相比之下,最先进的前沿模型的累积训练成本可能达到 1 亿美元或更多。 Anthropic 的 Amodei 甚至预测(在 DeepSeek 崛起之前),下一代模型的训练成本将在 100 亿美元到 1000 亿美元之间。
热门人工智能平台Hugging Face Inc.的研究主管 Leandro von Werra表示,DeepSeek 的“架构创新”并非其模型最引人注目之处。该平台提供法学硕士 (LLM) 排名。他从其研究论文中得到的最大启示是,该公司必须开发高质量的数据——要么是从网络上巧妙清理出来的,要么是通过其他方式提取的——才能让 V3 得以实现。“如果没有非常强大的数据集,模型就会缺乏性能,”von Werra 说。“从报告中可以清楚地看出,DeepSeek 拥有市场上最好的法学硕士 (LLM) 训练数据集之一。不幸的是,该报告长达 50 页,但只用了半页就涵盖了数据集。”
DeepSeek 之所以能快速发展,是因为梁将开源精神视为其理念的组成部分。他认为,隐藏专有技术并对强大的模型收费——包括 OpenAI 和谷歌在内的美国顶级实验室所采取的做法——只会优先考虑短期优势,而非更持久的成功。DeepSeek 最有效的方法是将他的模型完全向公众开放,并且基本上免费,以加速其技术的应用,并吸引初创公司和研究人员在其技术上进行开发。他们希望这能形成产品消费和反馈的飞轮效应。正如 DeepSeek 近两年前在其首个法学硕士项目公告中所写,他引用了开源操作系统 Linux 的发明者的话:“光说不练,直接上代码。”
四月一个阴天的星期天,杭州萧山国际机场熙熙攘攘,宣传阿里巴巴、字节跳动和华为人工智能服务的数字广告牌迎接着抵达的旅客。现代化的航站楼内,一个长着蓝色头发的人形机器人挥手致意,欢迎乘客。航站楼外,一家自动驾驶汽车初创公司正在停机坪上测试用于运输货物的小型自动驾驶卡车。尽管DeepSeek备受瞩目,但西方人似乎忘记了它只是众多在中国硅谷崛起的人工智能巨龙之一。仅在杭州这座拥有1250万人口的特大城市,DeepSeek就属于被称为“六小龙”的精英科技初创公司群体之一。
在风景秀丽的西湖区,有一家炙手可热的游戏工作室Game Science,它是畅销动作游戏《黑神话:悟空》背后的开发者,这款游戏因使用机器学习技术使其计算机角色更加栩栩如生而备受赞誉。不远处还有两家机器人巨头和一家专注于 3D 空间软件的独角兽公司。附近还有浙江强脑科技有限公司,简称 BrainCo,最好将其理解为中国版的 Neuralink Corp。它的前身是哈佛大学由中国出生的博士生韩璧丞孵化的一家初创公司,目前其在杭州的附属实验室正在开发仿生肢体和用于大脑活动控制计算机的技术。BrainCo 的一只人工智能假肢目前正在杭州另一个新兴科技中心中国人工智能小镇的展览中心展出。
据一位参加过展览的人士透露,最近几周,BrainCo的领导人已经带人参观了展览。参观者通常都想投资,但显然这些“脑力激荡者”们似乎并不太急需外部资本。“他们基本上不需要钱,”一位参加展览的基金经理说道。“六小龙”的宣传炒作太火爆了,人们纷纷向他们砸钱。”
所有这些初创企业背后默默支撑着习近平主席领导的政府。据中国官方媒体新华社报道,生成式人工智能、机器人技术和其他高科技雄心正推动着国家议程,而这一议程的首要目标是实现“自力更生、自强不息”。习主席在最近的一次政治局会议上表示:“我们必须正视差距,加倍努力,全面推进技术创新、产业发展和人工智能应用。”
巨龙们在倾听,而且并非所有巨龙都如此渺小。市值 3000 亿美元的企业集团阿里巴巴的主园区是一处拥有私人湖泊的庞大地产,位于杭州西湖以西约 40 分钟车程的区域。该公司最近承诺在未来三年内投资 530 亿美元建设更多人工智能数据中心,据称其最新的 Qwen3 旗舰机型可与 DeepSeek 的性能和成本效益相媲美。在中国以外,阿里巴巴通常被认为是一家电子商务公司,但其扩张速度更快的人工智能和云计算部门于 2022 年被分拆到杭州郊区的一个独立中心。在阿里巴巴的会议室里,大屏幕上闪烁着“行业洞察快讯”,每 72 小时更新一次,详细介绍 DeepSeek 和 OpenAI 等竞争对手的最新成果。卫生间里甚至还有每周更新的版本,提醒人们即使大自然呼唤人类技术人员,人工智能仍在飞速发展。
今年四月,阿里巴巴联合创始人马云再次现身园区,庆祝其云计算部门成立十五周年。这位神秘的人物在近五年前中共打压中国科技行业期间几乎销声匿迹。据几位目睹了这场演讲的人士透露,马云在一次罕见的演讲中表示,他希望人工智能服务于人类,而不是主宰人类。在香港和东京办公室观看直播的与会者表示,他们对马云的强势回归感到兴奋不已。
这提醒我们,尽管美国科技领袖的光环日渐消退,但像马云这样的科技摇滚明星显然已重新获得中共的青睐,而像梁这样的后起之秀也加入了他们的行列。中国的民族自豪感日益高涨,渴望证明自己能够克服西方的障碍。驻香港的政策咨询公司亚洲集团有限公司董事总经理乔治·陈表示,中国的顶尖工程师开始在苹果、谷歌、微软和其他领先公司工作后回国。虽然特朗普政府的敌意是部分原因,但他们也感到真正的行动可能正在向东方转移。“对中国人才来说,硅谷不再是一个有吸引力的工作地点,”陈说。
另一家中国独角兽公司零一人工智能的创始人李开复则更进一步。李开复本人就曾在苹果、谷歌和微软任职,他表示,下一代人才不会效仿他先在美国公司发展,然后再在中国创业。“这些年轻的人工智能工程师大多是本土培养的,”他说道。“DeepSeek 的成功,以及其他新兴人工智能初创公司的成功,正在激励更多年轻人才加入中国人工智能复兴的行列。”
如今,中国没有哪家科技公司能像DeepSeek这样让人如此自豪。今年4月,来自加拿大的27岁计算机科学家柯比·冯(Kirby Fung)携家人来到杭州,参观了梁的母校浙江大学。冯曾在那里做过交换生,他想让祖父母和弟弟知道,他和梁是同一所学校的学生。“能跟加拿大的朋友们解释,开发DeepSeek的人也曾是我们的校友,真的很酷,”冯说。
游客和社交媒体网红也经常光顾DeepSeek的总部,它位于一座俯瞰中国著名大运河的四座塔楼建筑群中。游客们会在当地的商店里寻找梁的踪迹,其中包括DeepSeek大楼里的一家高档火锅店,员工有时会在那里吃饭。(女主人不得不透露,梁从未光顾过。)
认识梁的人说,他的时间主要在杭州和DeepSeek位于北京的办公室之间分配。DeepSeek位于当地科技中心一栋玻璃大楼的五层。在那里,二十多岁的程序员们在可调节高度的办公桌前忙碌工作,茶水间里备有能量饮料、康师傅方便面和辣条。办公室里还有一块白板,员工们可以在上面随意书写加餐请求。“我在那里吃了几个月的午饭和晚饭,胖了点儿,”一位最近离职的研究员说道。
梁很少同意与局外人会面,有时甚至会以全息投影的形式出现在他接受的少数人面前。他拒绝了今年颇具影响力的巴黎人工智能行动峰会的邀请。该峰会吸引了OpenAI的Altman、Alphabet Inc.和谷歌首席执行官Sundar Pichai以及多位总理和总统出席。
中国为DeepSeek欢呼雀跃,而美国却将其视为水源中神秘出现的陌生生物,仔细检查其良性或恶性迹象。批评人士指责DeepSeek受政府控制,窃取美国竞争对手的训练数据,并参与更大规模的间谍活动或心理战,旨在破坏硅谷的人工智能霸权。“DeepSeek是美国科技行业与中共监控国家的直接连接渠道,不仅威胁美国公民的隐私,也威胁我们的国家安全,”美国众议院调查DeepSeek委员会的一位发言人表示。
然而,DeepSeek 在 2 月份 X 上的一篇文章中表示,自己与任何热门初创公司并无二致——是“纯粹车库能量”的产物。毕竟,它与谷歌在同一个北京园区运营,离汉堡王和两家 Tim Hortons 不远。尽管更广泛的人工智能行业此前并未过多关注 DeepSeek,但这并不意味着幕后有什么不可告人的阴谋。“人工智能界没想到 DeepSeek 会这样,”风险投资公司 Alpha Intelligence Capital 的合伙人 Arnaud Barthelemy 表示,该公司曾投资 OpenAI 和商汤科技。“他们本应有所预料。”
巴泰勒米表示,DeepSeek 真正值得借鉴的是,中国科技公司如何有效地将自身面临的限制转化为优势。“中国有很多聪明才智,他们用更低的计算要求实现了大量的智能创新。”他说道。
事实上,2023年5月,恰逢DeepSeek成立的同月,英伟达首席执行官黄仁勋在接受《商业周刊》采访时表示,美国对中国的过度监管只会激励其在创新方面超越那些阻碍其发展的国家。他将经济影响力描述为维护国家安全的有效工具,并强调政府干预的意外后果将是严重的。“失去三分之一的科技行业市场将是灾难性的,”他指的是限制美国对华技术出口的风险。“他们将在没有竞争的情况下蓬勃发展。他们将蓬勃发展,并将技术出口到欧洲和东南亚。”
“你必须注意你推动竞争的程度,”黄继续说道。“突然之间,反应变得非常难以预测。那些一无所有的人的反应往往令人大吃一惊。”
DeepSeek 故事的一个重要部分仍然存在争议:它实际花费了多少钱来构建其模型。在一份被广泛引用的报告中,美国研究公司SemiAnalysis 估计,High-Flyer 和 DeepSeek 可能拥有约 5 万块 Nvidia 顶级 H 系列 GPU 集群的使用权,价值 14 亿美元,而这些 GPU 大多对公众隐瞒了信息。SemiAnalysis 表示,这些基础设施的大部分包括可能符合出口要求的 GPU。(美国允许 Nvidia 向中国出售一些芯片——H20 和 H800——但 Nvidia 对这些芯片进行了修改以限制性能,以使其符合白宫的限制。)但该咨询公司还声称,DeepSeek 还可以使用另外 1 万块 Nvidia 尖端的 H100 芯片,而美国政府已禁止向中国出售这些芯片。
三名前员工强烈否认这些说法,称DeepSeek拥有不到2万个GPU,这些GPU都是老款英伟达芯片和出口管制芯片。“他们在散布谎言,”博士生刘波在谈到SemiAnalysis时说道。该研究公司表示坚持其报告。
毫无疑问的是,DeepSeek 是否会乐意利用美国科技公司拥有的大规模计算能力。该公司似乎有信心,利用这些资源可以比硅谷取得更大的成就。“现实情况是,法学硕士(LLM)的研究人员对计算资源的需求巨大——如果我使用数万个 H 系列 GPU,我可能也会变得浪费资源,运行许多并非绝对必要的实验,”一位 DeepSeek 前员工表示。但获取更多资源是中国技术人员愿意解决的问题。“我希望我们中国公司有一天能拥有 5 万个 GPU,”这位已离职的研究员说道,他后来加入了北京的另一个开源 AI 实验室。“想看看我们能取得什么成就吗?”
评论
发表评论