一家中国人工智能(AI)公司的程序员使用不那么先进的芯片做成了几乎可以匹敌美国对手的产品,这让硅谷惊叹不已。
根据一项热门排名,中国公司DeepSeek的AI模型在性能方面已跃居全球前十,这暗示着美国政府的出口限制或许难以阻止中国AI技术的快速发展。
1月20日,DeepSeek推出了AI模型R1,这是一款为解决复杂问题而设计的专用模型。
“Deepseek R1是我见过的最令人惊叹、最令人印象深刻的突破之一,”为美国总统特朗普(Trump)提供咨询的硅谷风险投资家马克·安德森(Marc Andreessen)上周五在X上发帖称。
DeepSeek取得的进步引发了周一早盘以芯片股为首的大跌,原因是人们担心美国科技巨头在尖端半导体和其他AI基础设施上的巨额支出是否合理。 以科技股为主的纳斯达克100指数期货下跌约3%,英伟达(Nvidia)下跌10%。(译者注:DeepSeek引发美国科技股周一重挫,纳指收盘下跌3.1%,英伟达暴跌17%。)
DeepSeek是在中国对冲基金经理梁文锋的领导下发展起来的,他已成为中国AI发展浪潮中的代表人物。1月20日,梁文锋参加了由中国国务院总理李强主持召开的座谈会,并探讨了本土企业如何缩小与美国之间的差距。
评估模型的专家表示,DeepSeek的技术仍落后于OpenAI和谷歌(Google)。不过,尽管使用的芯片数量更少,使用的也不是最先进的芯片,但DeepSeek仍是一个实力接近的竞争对手,而且在某些情况下还跳过了美国开发人员认为必不可少的步骤。
DeepSeek表示,训练其中最新一款模型的成本为560万美元。相比之下,AI开发商Anthropic的首席执行官达里奥·阿莫代(Dario Amodei)去年曾表示,构建一个模型的成本在1亿至10亿美元之间。
旧金山AI硬件公司Positron的联合创始人巴雷特·伍德赛德(Barrett Woodside)说,他和同事们一直在热烈讨论DeepSeek。伍德赛德在提到DeepSeek的开源模型时说:“这很酷。”在开源模型中,AI模型背后的软件代码可免费获取。
DeepSeek最新旗舰模型V3于去年12月发布,DeepSeek表示,R1和V3的表现都优于或接近西方领先的模型。截至上周六,这两个模型在Chatbot Arena上均排名前十。Chatbot Arena是由加州大学伯克利分校(University of California, Berkeley)研究人员运营的一个平台,用于对聊天机器人的性能进行评级。谷歌的Gemini模型位居榜首,而DeepSeek的排名超过了Anthropic的Claude以及埃隆·马斯克(Elon Musk)麾下xAI的Grok。
DeepSeek是从幻方量化(High-Flyer)的AI研究部门发展而来的。幻方量化是一家在管资产达80亿美元的对冲基金管理公司,以利用AI进行交易而闻名。
梁文锋在2019年的一次演讲中说,“人来做投资决策的时候,它是一种艺术,要凭感觉。程序来决策的时候,它是一种科学,它有最优解。”
梁文锋1985年出生,在中国东南部的广东省长大。他毕业于中国知名学府浙江大学,专攻机器视觉。毕业几年后,梁文锋在2015年与两位大学好友共同创立了幻方量化。
据接近梁文锋的人士透露,梁文锋更愿意自己被视为一名工程师,而不是交易员。他的公司幻方率先在中国将深度学习应用于计算机交易。这种技术以人脑为模型,使计算机能够分析更多类型的数据。
虽然DeepSeek的旗舰模型是免费的,但用户将自己的应用程序连接到DeepSeek的模型和计算基础设施是收费的,比如直接利用该技术为客户的查询提供AI答案的企业。
去年年初,DeepSeek将这项服务的定价降至远低于其他供应商的收费水平,在中国拉开一场大模型价格战的序幕。
硅谷一家利用生成式AI预测财务回报的初创公司的联合创始人安东尼·符(Anthony Poo)说,他的公司去年9月份从Anthropic的Claude模型转向了DeepSeek。测试显示,DeepSeek的性能与Claude相似,但成本却只有后者的四分之一左右。
“OpenAI的模型在性能上是最好的,但我们也不想为不需要的功能付费,”符说。
据知情人士透露,梁文锋在1月20日的座谈会上对中国总理李强表示,尽管中国企业正在努力追赶,但美国限制向中国出口先进制程芯片仍是一个瓶颈。
2019年,幻方开始建立一个用于AI研究的芯片集群,部分资金来自其金融业务。该公司表示,后来又建立了一个更大的集群,包含约10,000个英伟达(Nvidia)图形处理器,可用于训练大语言模型。
到2022年底OpenAI发布ChatGPT时,中国只有少数几家公司的计算基础设施强大到足以开发此类模型。
DeepSeek在一份技术报告中表示,该公司使用了一个由2,000多个英伟达芯片组成的集群来训练其V3模型,比训练类似模型所需的数万个芯片要少很多。最近,几名美国AI专家怀疑幻方和DeepSeek是否已拥有超出其对外宣称水平的算力。
一些外部研究人员表示,DeepSeek模型缺乏以更高成本训练出来的模型所具备的某些能力,例如在跟踪长对话的上下文的准确度方面。
对于1月20日发布的最新推理模型,DeepSeek跳过了一个被称为监督微调的过程,在该过程中,程序员会输入人类专家的知识,给模型一个起步优势。DeepSeek表示,其模型旨在解决棘手的数学文字题和类似挑战,该模型与OpenAI的推理模型o1相当,但省略了监督微调,侧重于强化学习——本质上是有方向的试错。
英伟达高级研究科学家吉姆·范(Jim Fan)称赞DeepSeek这篇报告成果的论文是一项突破。他在X上表示,这让他想起了早期一些开创性的AI程序,这些程序“从零开始,无需先模仿人类大师”就掌握了国际象棋等棋类游戏。
OpenAI前高管扎克·卡斯(Zack Kass)表示,DeepSeek在美国限制下取得的进步“凸显了一个更广泛的教训:资源限制往往会激发创造力”。