|
本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議
 周末最大的分歧,估計(jì)就是算力之爭(zhēng)了。刷屏討論的DeepSeek-V3模型,消息稱只用了極少數(shù)卡,就完成了訓(xùn)練。周末復(fù)盤,也就中國(guó)股市有這反饋,美股根本不為所動(dòng)。 簡(jiǎn)單想想,今年字節(jié)在算力投入800億,明年預(yù)估1600億。會(huì)因?yàn)檫@一個(gè)模型的訓(xùn)練成本變化,就減少投入嗎?更何況,經(jīng)過(guò)周末的調(diào)查了解,這個(gè)DeepSeek是走了捷徑的模型。相當(dāng)于走迷宮,直接有了地圖,而不需要逐一開圖試錯(cuò)的模式。 以調(diào)研的結(jié)果做個(gè)解析:DeepSeek V3 671B,使用2048塊H800訓(xùn)練2個(gè)月,而Llama 3.1 405B使用1.6萬(wàn)H100訓(xùn)練80天。需要注意的是:2048塊H800并非全部訓(xùn)練算力投入。1) 不包括DeepSeek R1模型(對(duì)標(biāo)OpenAI o1)生成的高質(zhì)量數(shù)據(jù)消耗的算力。2) 不包括模型架構(gòu)的探索調(diào)試階段消耗的算力。第二條,相當(dāng)于走迷宮之前搭建程序的時(shí)間忽略不計(jì)。(關(guān)鍵詞:蒸餾。蒸餾過(guò)的小模型訓(xùn)練成本本來(lái)就是指數(shù)級(jí)下降。因?yàn)榍懊嬗写竽P筒韧炅怂械目樱寥f(wàn)苦收斂成功了,它作為一個(gè)“teacher”模型去教一個(gè)“student”模型如何做個(gè)好模型,時(shí)間正好就是兩個(gè)月,幾百?gòu)埧ǖ氖隆?/span>可是之前踩的坑 都不算成本是吧?幻方去年底就有超過(guò)10000張gpu,囤這么多卡都是為了吃灰?小米的卡都沒(méi)它多。要做新聞也行,不要玩文字游戲太狠。 可是之前踩的坑 都不算成本是吧?幻方去年底就有超過(guò)10000張gpu,囤這么多卡都是為了吃灰?小米的卡都沒(méi)它多。要做新聞也行,不要玩文字游戲太狠。——來(lái)源:小熊跑的快)
|