新年頭一天發表高效率新架構 DeepSeek 準備再次震撼全球？

中國大陸人工智慧（AI）新創公司DeepSeek 1日發表新技術論文，勾勒一種效率較高的AI開發方式，顯示儘管無法自由採購輝達（Nvidia）公司晶片，中國大陸AI業仍努力與OpenAI等業者競爭。

這篇論文提出一個名為流形約束超連接（Manifold-Constrained Hyper-Connections，mHC）的架構，推出這個框架目的是改善可擴展性，以及降低訓練先進AI系統的運算與能源需求。這篇論文列出19名作者，DeepSeek共同創辦人梁文鋒排在最後一位。

DeepSeek研究員團隊分別以有30億、90億和270億個參數的模型測試mHC，結果發現mHC能在運算負擔未大增情況下擴展規模。這些研究員說：「實證結果證實，mHC能有效達成穩定大規模訓練，而且可擴展性優於傳統超連接（HC）。」

業內觀察家認為，DeepSeek論文常提供重要早期訊號，暗示該公司下一個推出的大模型將選擇哪種工程設計。DeepSeek一年前推出的R1推理模型震撼全球，彭博行業研究（BI）分析師認為，DeepSeek未來數月可能推出的R2模型，有再次顛覆全球AI業的潛力。

由於美國阻止中國大陸新創公司取得開發和執行AI不可或缺的最先進半導體，這些業者營運持續嚴重受限，這些限制已迫使研究員訴諸非傳統方法與架構。 $(document).ready(function () {nstockStoryStockInfo();});

🔗 您可能感興趣的內容: