DeepSeek令人惊讶的是,廉价的AI模型挑战了行业巨头。这家中国初创公司声称已经培训了其强大的DeepSeek V3神经网络,仅利用2048 GPU,这与竞争对手的成本明显更高。但是,这个看似低的数字忽略了诸如研究,改进,数据处理和基础架构之类的巨额费用。
图像:ensigame.com
DeepSeek V3的创新架构有助于其效率。关键技术包括多型预测(MTP),该预测同时预测了多个单词;专家(MOE)的混合物,采用256个神经网络进行加速培训;和多头潜在注意力(MLA),重点是至关重要的句子元素以提高准确性。
图像:ensigame.com
与DeepSeek的公开数字相反,半分析显示,涉及大约50,000个NVIDIA HOPPER GPU的大量计算基础设施,价值约16亿美元,运营成本达到9.44亿美元。这项大量投资,加上其研究人员的高薪(每年超过130万美元),与最初的600万美元培训成本索赔相矛盾。
图像:ensigame.com
DeepSeek独特的结构 - 中国对冲基金的高飞行员的子公司,拥有其数据中心并独立运营 - 提供了敏捷性和控制权。这种自资助的方法与云依赖的竞争对手形成鲜明对比。该公司对AI开发的总投资超过了5亿美元。
图像:ensigame.com
尽管DeepSeek的成功展示了资金充足的独立AI公司的潜力,但其“预算友好”的叙述是一个过度简化的。现实表明,重大投资,技术突破以及一支高技能的团队是其成就的真正驱动力。但是,即使经过这些大量投资,与竞争对手相比,其成本仍然显得苍白,据报道,R1与Chatgpt的Chatgpt4o $ 1亿美元花费了500万美元。显着的成本差异仍然是关键的区别。