O modelo de IA surpreendentemente barato de Deepseek desafia os gigantes da indústria. A startup chinesa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões, utilizando apenas 2048 GPUs, um forte contraste com os custos significativamente mais altos dos concorrentes. Essa figura aparentemente baixa, no entanto, omite despesas substanciais, como pesquisa, refinamento, processamento de dados e infraestrutura.
imagem: ensigame.com
A arquitetura inovadora da DeepSeek V3 contribui para sua eficiência. As principais tecnologias incluem previsão de vários toques (MTP), que prevê várias palavras simultaneamente; Mistura de especialistas (MOE), empregando 256 redes neurais para treinamento acelerado; e atenção latente de várias cabeças (MLA), concentrando-se nos elementos cruciais da frase para melhorar a precisão.
imagem: ensigame.com
Ao contrário dos números divulgados da Deepseek, a semiânica revela uma enorme infraestrutura computacional envolvendo aproximadamente 50.000 GPUs da NVIDIA Hopper, avaliadas em aproximadamente US $ 1,6 bilhão, com custos operacionais atingindo US $ 944 milhões. Esse investimento substancial, juntamente com altos salários para seus pesquisadores (excedendo US $ 1,3 milhão anualmente), contradiz a reivindicação inicial de custo de treinamento de US $ 6 milhões.
imagem: ensigame.com
A estrutura única da Deepseek-uma subsidiária da High-Flyer, um fundo de hedge chinês, possuindo seus data centers e operando de forma independente-fornece agilidade e controle. Essa abordagem autofinanciada contrasta com os concorrentes dependentes da nuvem. O investimento total da empresa em desenvolvimento de IA ultrapassa US $ 500 milhões.
imagem: ensigame.com
Embora o sucesso da Deepseek mostre o potencial de empresas independentes de IA bem financiadas, sua narrativa "orçamentária" é uma simplificação excessiva. A realidade aponta para investimentos significativos, avanços tecnológicos e uma equipe altamente qualificada como os verdadeiros impulsionadores de suas realizações. No entanto, mesmo com esses investimentos substanciais, seus custos ainda empalidecem em comparação com os concorrentes, com US $ 5 milhões gastos em R1 versus US $ 100 milhões do ChatGPT para ChatGPT4O. A diferença de custo significativa continua sendo um diferencial importante.