The Information引述知情人士报导,中国大陆人工智慧(AI)新创DeepSeek,正使用数千颗美国禁止输往大陆的辉达Blackwell晶片,打造下一款大型模型。这些最新的辉达晶片,将助DeepSeek在国内和全球的AI竞赛中保持竞争力。
根据报导,DeepSeek已透过一套复杂的走私流程,取得这些先进晶片,部分员工希望能在明年2月的农历春节前推出下一代模型。不过,知情人士表示,DeepSeek创办人梁文峰比较重视效能,因此没有硬性规定新模型的截止日期。
这套走私流程包含先将晶片运往获准购买这些晶片国家的资料中心,再拆解含有这些晶片的伺服器,并将设备拆解后进口至大陆。DeepSeek可向一家或多家大陆资料中心公司取得这些晶片。
报导指出,DeepSeek今年1月凭借其R1深度推理模型一举成名后,至今都只对现有模型进行小幅升级,尚未推出过全新模型。一个可能原因是该公司采用一种名为「稀疏注意力」(sparse attention)的方法,这种方法只使用一部份的模型来回答问题,而非整个模型,可降低推理成本,但也提高了模型开发的挑战性。
不过,Blackwell晶片特别适用于这种技巧,因为此晶片包含的专门设计硬体可加速稀疏运算,运算速度比传统方法快两倍。
$(document).ready(function () {nstockStoryStockInfo();});