DeepSeek令人驚訝的是,廉價的AI模型挑戰了行業巨頭。這家中國初創公司聲稱已經培訓了其強大的DeepSeek V3神經網絡,僅利用2048 GPU,這與競爭對手的成本明顯更高。但是,這個看似低的數字忽略了諸如研究,改進,數據處理和基礎架構之類的巨額費用。
圖像:ensigame.com
DeepSeek V3的創新架構有助於其效率。關鍵技術包括多型預測(MTP),該預測同時預測了多個單詞;專家(MOE)的混合物,采用256個神經網絡進行加速培訓;和多頭潛在注意力(MLA),重點是至關重要的句子元素以提高準確性。
圖像:ensigame.com
與DeepSeek的公開數字相反,半分析顯示,涉及大約50,000個NVIDIA HOPPER GPU的大量計算基礎設施,價值約16億美元,運營成本達到9.44億美元。這項大量投資,加上其研究人員的高薪(每年超過130萬美元),與最初的600萬美元培訓成本索賠相矛盾。
圖像:ensigame.com
DeepSeek獨特的結構 - 中國對衝基金的高飛行員的子公司,擁有其數據中心並獨立運營 - 提供了敏捷性和控製權。這種自資助的方法與雲依賴的競爭對手形成鮮明對比。該公司對AI開發的總投資超過了5億美元。
圖像:ensigame.com
盡管DeepSeek的成功展示了資金充足的獨立AI公司的潛力,但其“預算友好”的敘述是一個過度簡化的。現實表明,重大投資,技術突破以及一支高技能的團隊是其成就的真正驅動力。但是,即使經過這些大量投資,與競爭對手相比,其成本仍然顯得蒼白,據報道,R1與Chatgpt的Chatgpt4o $ 1億美元花費了500萬美元。顯著的成本差異仍然是關鍵的區別。