Deepseekの驚くほど安価なAIモデルは、業界の巨人に挑戦しています。中国の新興企業は、競合他社の大幅に高いコストとはまったく対照的である2048 GPUのみを利用して、強力なDeepseek V3ニューラルネットワークをわずか600万ドルで訓練したと主張しています。ただし、この一見低い数値では、研究、洗練、データ処理、インフラストラクチャなどのかなりの費用が省略されています。
画像:Ensigame.com
Deepseek V3の革新的なアーキテクチャは、その効率に貢献しています。重要なテクノロジーには、複数の単語を同時に予測するマルチトークン予測(MTP)が含まれます。加速トレーニングに256のニューラルネットワークを採用している専門家(MOE)の混合。マルチヘッドの潜在的な注意(MLA)、精度を向上させるために重要な文要素に焦点を当てています。
画像:Ensigame.com
Deepseekの公表された数字に反して、Semianalysisは、約16億ドルの相性が高い約50,000 NVIDIA Hopper GPUを含む大規模な計算インフラストラクチャを明らかにしており、運用コストは9億4,400万ドルに達しています。この実質的な投資は、研究者の高い給与と相まって(年間130万ドルを超える)、最初の600万ドルのトレーニングコスト請求と矛盾しています。
画像:Ensigame.com
Deepseekのユニークな構造は、高級家の子会社である中国のヘッジファンドの子会社であり、データセンターを所有し、独立して運営していますが、敏ility性と管理を提供しています。この自己資金によるアプローチは、クラウド依存の競合他社とは対照的です。 AI開発への同社の総投資は5億ドルを超えています。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業の可能性を示していますが、その「予算に優しい」物語は単純化しすぎです。現実は、その成果の真のドライバーとして、重要な投資、技術的なブレークスルー、高度な熟練したチームを指し示しています。ただし、これらの実質的な投資があっても、競合他社と比較してそのコストは依然として薄く、ChatGPT4OのCHATGPTの1億ドルに対してR1に500万ドルが費やされました。大きなコストの違いは、重要な差別化要因のままです。