中國大陸人工智慧(AI)新創公司DeepSeek 1日發表新技術論文,勾勒一種效率較高的AI開發方式,顯示儘管無法自由採購輝達(Nvidia)公司晶片,中國大陸AI業仍努力與OpenAI等業者競爭。
這篇論文提出一個名為流形約束超連接(Manifold-Constrained Hyper-Connections,mHC)的架構,推出這個框架目的是改善可擴展性,以及降低訓練先進AI系統的運算與能源需求。這篇論文列出19名作者,DeepSeek共同創辦人梁文鋒排在最後一位。
DeepSeek研究員團隊分別以有30億、90億和270億個參數的模型測試mHC,結果發現mHC能在運算負擔未大增情況下擴展規模。這些研究員說:「實證結果證實,mHC能有效達成穩定大規模訓練,而且可擴展性優於傳統超連接(HC)。」
業內觀察家認為,DeepSeek論文常提供重要早期訊號,暗示該公司下一個推出的大模型將選擇哪種工程設計。DeepSeek一年前推出的R1推理模型震撼全球,彭博行業研究(BI)分析師認為,DeepSeek未來數月可能推出的R2模型,有再次顛覆全球AI業的潛力。
由於美國阻止中國大陸新創公司取得開發和執行AI不可或缺的最先進半導體,這些業者營運持續嚴重受限,這些限制已迫使研究員訴諸非傳統方法與架構。 $(document).ready(function () {nstockStoryStockInfo();});