萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓練成本被低估
時(shí)間:
來(lái)源: 24直播網(wǎng)
這可能是迄今為止海外對 DeepSeek 最全面的一份分析報告,來(lái)自知名半導體研究機構 Semianalysis。
從 DeepSeek 讓訓練成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能對比,人均年薪千萬(wàn)的頂尖人才,還指出目前 DeepSeek 的成本估算是錯誤的,推測其擁有大約 5 萬(wàn)塊Hopper GPU……
關(guān)于 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據現有信息給出了更客觀(guān)的論述。
圖靈獎得主楊立昆最近再次發(fā)表了關(guān)于 DeepSeek 的觀(guān)點(diǎn),他指出硅谷某些圈子的通病,是認定別處的創(chuàng )新都是靠作弊得來(lái)的。
而科技要快速進(jìn)步,恰恰需要讓更多人才參與并共享創(chuàng )新成果。在 DeepSeek 的開(kāi)源模型上,我們也看到了這種愿景。
報告原文:
https://semianalysis.com/2025/01/31/deepseek-debates/
APPSO 整理了這篇分析報告中的關(guān)鍵要點(diǎn):
推測 DeepSeek 大約有5萬(wàn)塊 Hopper GPU,在 GPU 上的投資總額超過(guò) 5 億美元
廣為討論的 600 萬(wàn) 美元成本僅指預訓練過(guò)程中 GPU 的花費,這只是模型總成本的一部分。
DeepSeek 團隊目前約 150 人,從北大浙大等中國高校招聘人才,年薪可達千萬(wàn)
多頭潛在注意力(MLA) 是 DeepSeek 大幅降低推理成本的關(guān)鍵創(chuàng )新,將每次查詢(xún)所需的 KV 緩存減少了約 93.3%
在推理性能上 R1 與 o1 不相上下,而 o3 的能力明顯高于 R1 和 o1。
DeepSeek 風(fēng)暴席卷全球
過(guò)去一周,DeepSeek 成為了全世界人們唯一熱議的話(huà)題。
目前,DeepSeek 的日活(據悉超過(guò) 1900萬(wàn))已經(jīng)遠高于 Claude、Perplexity 甚至 Gemini。
然而,對于長(cháng)期關(guān)注 AI 行業(yè)的人,這個(gè)消息不算新鮮。我們已經(jīng)討論 DeepSeek 數月,對這家公司并不陌生,但瘋狂的炒作卻出乎意料。SemiAnalysis 一直認為 DeepSeek 極具才華,而美國更廣泛的公眾并不在意。
當世界終于關(guān)注到這家公司,其中狂熱的輿論并沒(méi)有完全反映它的真實(shí)情況。
我們想強調的是,輿論已經(jīng)發(fā)生了轉變。上個(gè)月,當 Scaling Laws (擴展定律)被打破時(shí),我們就已揭穿了這個(gè)神話(huà);如今,算法改進(jìn)的速度過(guò)快,而這在某種程度上對英偉達和 GPU 不利。
現在大家討論的是,DeepSeek 效率如此之高,以至于我們不再需要更多的計算資源,而由于模型的變革,出現了巨大的產(chǎn)能過(guò)剩。
雖然杰文斯悖論(Jevon?s Paradox)也被過(guò)度炒作,但它更接近現實(shí),因為這些模型已經(jīng)引發(fā)了需求,對 H100 和 H200 的定價(jià)產(chǎn)生了實(shí)質(zhì)性的影響。
編者注:杰文斯悖論簡(jiǎn)單來(lái)說(shuō)就是,當某種資源的使用效率提高后,雖然單次使用時(shí)消耗更少,但因為成本降低、使用更方便,反而可能讓人們用得更多,導致整體消耗量反而上升。
5 萬(wàn)塊 Hopper GPU
幻方量化是一家中國對沖基金,也是最早在其交易算法中采用 AI 的先行者。他們早早就意識到 AI 在金融以外領(lǐng)域的潛力以及擴展能力的重要性,因此不斷增加 GPU 的供應。
經(jīng)過(guò)使用數千個(gè) GPU 集群進(jìn)行模型實(shí)驗后,幻方量化在 2021 年,在任何出口限制出臺之前,就投資了 10000 個(gè) A100 GPU。
這筆投資得到了回報。隨著(zhù)幻方量化的不斷進(jìn)步,他們意識到是時(shí)候在 2023 年 5 月剝離出 「DeepSeek」,以更專(zhuān)注地追求進(jìn)一步的 AI 能力。
當時(shí)由于外部投資者對 AI 缺乏興趣(主要擔心商業(yè)模式問(wèn)題),幻方量化自籌資金成立了這家公司。如今,幻方量化與 DeepSeek 經(jīng)常共享資源,包括人力和計算資源。
如今,DeepSeek 已經(jīng)發(fā)展成為一項嚴肅且協(xié)同的重要項目,絕非很多媒體所稱(chēng)的「副業(yè)項目」。
我們相信即使考慮到出口管制因素,他們在 GPU 上的投資總額超過(guò) 5 億美元。
我們認為,他們大約擁有 50000 個(gè) Hopper GPU,但這并不等同于擁有 50000 個(gè) H100 GPU。
英偉達根據不同法規要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中國大模型公司使用。需要注意的是,H800 的計算能力與 H100 相同,但其網(wǎng)絡(luò )帶寬較低。
我們認為 DeepSeek 擁有大約 10000 個(gè) H800 和大約 10000 個(gè) H100。此外,他們還訂購了更多的 H20,過(guò)去 9 個(gè)月內,英偉達已為中國市場(chǎng)生產(chǎn)了超過(guò) 1000000 個(gè)此類(lèi) GPU。
這些 GPU 在 幻方量化和 DeepSeek 之間共享,并在地理上有所分布。它們被用于交易、推理、訓練和研究。
我們的分析顯示,DeepSeek 的服務(wù)器資本支出總額約為 16 億美元,其中與運營(yíng)這些集群相關(guān)的成本高達 9.44 億美元。
同樣,由于資源集中化是一大挑戰,所有 AI 實(shí)驗室和超大規模云服務(wù)商都擁有比單次訓練運行所使用的 GPU 數量要多得多,用于研究和訓練的任務(wù)。
年薪近千萬(wàn),在中國高校挖頂尖人才
DeepSeek 完全從中國招聘人才,不拘泥于以往的資歷,而是高度重視能力與好奇心。DeepSeek 定期在北京大學(xué)、浙江等頂尖高校舉辦招聘活動(dòng),許多員工均畢業(yè)于這些院校。
崗位職責并完全固定,招聘時(shí)會(huì )有一定靈活性,招聘廣告甚至宣稱(chēng)可以無(wú)限制調用 10000 多個(gè) GPU 。
這些職位競爭極為激烈, 據稱(chēng)對有潛力的候選人提供的薪資超過(guò) 130 萬(wàn)美元(約合 934 萬(wàn)人民幣),遠高于中國大型科技公司和 AI 實(shí)驗室(如 Moonshot)等競爭對手。
目前 DeepSeek 約有 150 名員工,但正在迅速擴張。
歷史證明,一家資金充足且專(zhuān)注的小型初創(chuàng )公司往往能夠突破界限。
DeepSeek 不具備像 Google 那樣的官僚主義,由于其自籌資金,能夠迅速推進(jìn)新想法。
然而,與 Google 類(lèi)似,DeepSeek(在大多數情況下)自建數據中心,而不依賴(lài)外部方或供應商。這為進(jìn)一步實(shí)驗提供了更大空間,使他們能夠在整個(gè)技術(shù)棧上實(shí)現創(chuàng )新。
我們認為,他們是當今唯一最優(yōu)秀的「開(kāi)源權重」實(shí)驗室,超越了 Meta 的 Llama 項目、Mistral 以及其他競爭者。
DeepSeek 的極低成本被誤讀了
DeepSeek 的價(jià)格與效率引發(fā)了硅谷科技圈地震的關(guān)鍵。
然而,關(guān)于 DeepSeek V3 的訓練成本為 600 萬(wàn)美元這個(gè)廣為流傳的數字,其實(shí)是片面的。這相當于只關(guān)注產(chǎn)品物料清單中的某一部分,并將其視為全部成本。預訓練成本僅僅是總成本中很小的一部分。
我們認為,預訓練所支出的成本,遠遠不能代表模型所花費的總成本。
我們相信 DeepSeek 在硬件上的支出遠超過(guò) 5 億美元。他們?yōu)榱碎_(kāi)發(fā)新的架構創(chuàng )新,在模型開(kāi)發(fā)過(guò)程中,花費了大量資金用于測試新思路、新架構和消融實(shí)驗。
多頭潛在注意力(Multi-Head Latent Attention) —— DeepSeek 的一項關(guān)鍵創(chuàng )新,耗時(shí)數月開(kāi)發(fā),花費了整個(gè)團隊的大量人力和 GPU 計算時(shí)間。
論文中提到的 600 萬(wàn)美元成本僅指預訓練過(guò)程中 GPU 的花費,這只是模型總成本的一部分。研發(fā)費用以及硬件本身的總體擁有成本等重要部分并未包含在內。
作為參考,Claude 3.5 Sonnet 的訓練成本達數千萬(wàn)美元,如果那就是 Anthropic 的全部成本,那么他們就沒(méi)必要從 Google 融資數十億、從亞馬遜融資數十億美元。因為這是他們進(jìn)行實(shí)驗、提出新架構、收集和清洗數據、支付員工工資的必要成本。
那么,DeepSeek 是如何獲得如此大規模的集群的呢?出口管制的滯后是關(guān)鍵,我們會(huì )在下文將詳細討論。
V3 讓性能差距縮小的秘訣
毫無(wú)疑問(wèn),V3 是一款令人印象深刻的模型,但值得強調的是,它的「令人印象深刻」是相對于什么而言。
許多人將 V3 與 GPT-4o 進(jìn)行比較,并強調 V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月發(fā)布的。以當下 AI 的發(fā)展速度,算法改進(jìn)方面那個(gè)時(shí)候和現在已是天壤之別。此外,我們并不驚訝在經(jīng)過(guò)一定時(shí)間后,用更少的計算資源就能實(shí)現相當或更強的能力。
推理成本大幅下降正是 AI 改進(jìn)的標志。
舉個(gè)例子,一些可以在筆記本電腦上運行的小模型,其性能可與需要超級計算機訓練,以及需要大量 GPU 推理的 GPT-3 相媲美。換句話(huà)說(shuō),算法改進(jìn)使得用更少的計算資源即可訓練和推理具備相同性能的模型,而這種模式在業(yè)內以及出現了多次。
這一次世界終于注意到了,是因為它來(lái)自中國的一家實(shí)驗室,但小模型性能提升并不是什么新鮮事。
目前行業(yè)的趨勢是,AI 實(shí)驗室在投入的絕對資金上不斷增加,以獲取更高的智能水平。
據估算, 算法效率每年進(jìn)步 4 倍,即每過(guò)一年,用于達到相同性能的計算資源減少 4 倍。
Anthropic 的 CEO Dario 認為,算法進(jìn)步甚至會(huì )更快,可以實(shí)現 10 倍的提升。
就 GPT-3 質(zhì)量的推理價(jià)格而言,成本已經(jīng)下降了 1200 倍。
在研究 GPT-4 的成本時(shí),我們也看到了類(lèi)似的下降趨勢,盡管處于曲線(xiàn)的較早階段。時(shí)間上的成本差異降低可以解釋為不再像上圖那樣保持性能不變。
在這種情況下,我們看到算法改進(jìn)和優(yōu)化使得成本降低 10 倍,同時(shí)性能提升 10 倍。
需要說(shuō)明的是,DeepSeek 的獨特之處在于他們率先實(shí)現了這種成本和性能水平。
雖然 Mistral 和 Llama 模型也曾在開(kāi)源模型上做過(guò)類(lèi)似的事情,但 DeepSeek 做到的程度獨樹(shù)一幟。如果到了年底,成本再下降 5 倍,也請不要感到驚訝。
R1 憑什么迅速追上 OpenAI o1
大家熱議的另一個(gè)話(huà)題,是 R1 能夠達到與 o1 相當的效果,而 o1 僅在 9 月發(fā)布。
僅僅幾個(gè)月時(shí)間,DeepSeek 是如何如此迅速地趕上的呢?
問(wèn)題的關(guān)鍵在于,推理能力形成了一種全新的范式。
推理范式迭代速度更快,且以較少的計算資源即可獲得顯著(zhù)收益。正如我們在擴展定律報告中提到的,以往的范式依賴(lài)于預訓練,而這這種方式不僅成本越來(lái)越高,且已經(jīng)難以取得穩健的進(jìn)步。
新的推理范式,專(zhuān)注于通過(guò)合成數據生成和在現有模型上進(jìn)行后訓練中的強化學(xué)習來(lái)提升推理能力,從而以更低的成本實(shí)現更快的進(jìn)步。
較低的入門(mén)門(mén)檻加上易于優(yōu)化,使得 DeepSeek 能夠比過(guò)去更快地復制 o1 方法。隨著(zhù)各方探索如何在這一新范式下進(jìn)一步擴展,我們預計不同模型在匹配性能的時(shí)間差距將會(huì )拉大。
需要注意的是,R1 論文中沒(méi)有提及所使用的計算資源。這絕非偶然 —— 為了生成用于后訓練的合成數據,R1 需要大量的計算資源,更不用說(shuō)強化學(xué)習了。
R1 是一款非常優(yōu)秀的模型,但它披露的一些基準測試也具有誤導性。R1 特意沒(méi)有提及那些它并不領(lǐng)先的基準測試,雖然在推理性能上 R1 與 o1 不相上下,但在每項指標上它并不都是明顯的贏(yíng)家,在許多情況下甚至不如 o1。
這里我們還沒(méi)有提到 o3。o3 的能力明顯高于 R1 和 o1。實(shí)際上,OpenAI 最近分享了 o3 的結果( 還提前發(fā)布了 o3-mini ),其基準測試的擴展呈垂直趨勢。
這似乎再次證明了「深度學(xué)習遭遇瓶頸」,但這個(gè)瓶頸不同以往。
與 Google 的推理模型不相上下
盡管 R1 的炒作熱潮不斷,但很多人忽略了,一家市值 2.5 萬(wàn)億美元的美國公司在上個(gè)月以更低的價(jià)格發(fā)布了一款推理模型:Google 的 Gemini Flash 2.0 Thinking。
該模型已經(jīng)可以使用,并且通過(guò) API 即使擁有更長(cháng)的上下文長(cháng)度,其成本仍遠低于 R1。
在已公布的基準測試中,Flash 2.0 Thinking 超越了 R1,盡管基準測試并不能說(shuō)明全部情況。Google 只發(fā)布了 3 個(gè)基準測試,因此情況不夠全面。不過(guò),我們認為 Google 的模型非常穩健,在許多方面可以與 R1 相當,但卻未獲得太多關(guān)注。
這可能是由于 Google 營(yíng)銷(xiāo)策略平平、用戶(hù)體驗較差,但同時(shí) R1 也作為一項來(lái)自中國的黑馬出現。
需要明確的是,這些都不會(huì )削弱 DeepSeek 非凡成就的價(jià)值。DeepSeek 作為一家快速運作、資金充足、聰明且專(zhuān)注的初創(chuàng )公司,這正是它在推理模型方面超越 Meta 等巨頭的原因。
讓美國科技圈瘋狂復制的 MLA 創(chuàng )新
DeepSeek 實(shí)現了許多領(lǐng)先的 AI 公司都未達到的技術(shù)創(chuàng )新。我們預計,接下來(lái) DeepSeek 發(fā)布的任何技術(shù)進(jìn)展,都將幾乎立刻被西方實(shí)驗室復制。
這些技術(shù)突破是什么?大多數架構上的成就都與 V3 相關(guān),而 V3 也是 R1 的基礎模型。下面讓我們詳細介紹這些創(chuàng )新。
訓練(預訓練與后訓練)
DeepSeek V3 利用 Multi-Token Prediction (MTP) 實(shí)現了前所未見(jiàn)的規模,這是一種新增的注意力模塊,可預測接下來(lái)的多個(gè) token,而非單一 token。
它在訓練過(guò)程中顯著(zhù)提高了模型性能,并且在推理時(shí)可以被移除。這就是一種利用較低計算資源實(shí)現性能提升的算法創(chuàng )新。
還有一些額外的考量,比如在訓練中采用 FP8 精度,但領(lǐng)先的美國實(shí)驗室已經(jīng)使用 FP8 訓練有一段時(shí)間了。
DeepSeek V3 還是一種專(zhuān)家混合模型,即由眾多專(zhuān)注于不同任務(wù)的小專(zhuān)家組成的大模型,表現出強大的涌現能力。
MoE 模型曾面臨的一個(gè)難題,是如何確定哪個(gè) token 應該分配給哪個(gè)子模型或「專(zhuān)家」。DeepSeek 實(shí)現了一個(gè)「門(mén)控網(wǎng)絡(luò )」(gating network),能以平衡的方式將 token 路由到合適的專(zhuān)家,而不會(huì )影響模型性能。
這意味著(zhù)路由效率非常高,在訓練過(guò)程中每個(gè) token 相對于整個(gè)模型的規模僅需修改少量參數。
這提高了訓練效率,同時(shí)也降低了推理成本。
盡管有人擔心專(zhuān)家混合模型(MoE)帶來(lái)的效率提升,可能會(huì )減少投資,但 Dario 指出,更強大 AI 模型所帶來(lái)的經(jīng)濟效益非??捎^(guān),因此任何節約的成本都會(huì )迅速再投資于構建更大規模的模型。
MoE 的效率提升不僅沒(méi)有減少總體投資,反而會(huì )加速 AI 的規模擴大。目前硅谷的主流科技公司都在正全力以赴地將模型擴展到更多計算資源,并在算法上提高效率。
R1 背后的基礎模型 V3
就 R1 而言,其極大地受益于擁有一個(gè)強大的基礎模型(V3),這部分得益于強化學(xué)習(RL)。
RL 主要聚焦兩個(gè)點(diǎn):格式化(以確保輸出連貫)以及有用性和安全性(以確保模型實(shí)用)。
推理能力是在對模型進(jìn)行合成數據微調時(shí)產(chǎn)生的。正如我們在擴展定律文章中提到的,這正是 o1 所經(jīng)歷的過(guò)程。
需要注意的是,R1 論文中沒(méi)有提及計算資源的使用情況,這是因為提到所用計算資源的數量會(huì )透露他們擁有的 GPU 數量遠超過(guò)其對外宣傳的規模。
如此大規模的強化學(xué)習需要大量計算資源,尤其是在生成合成數據的場(chǎng)景。
此外,DeepSeek 使用的一部分數據似乎來(lái)自 OpenAI 的模型(尚未證實(shí)),我們認為這將對從輸出中進(jìn)行蒸餾的政策產(chǎn)生影響。根據服務(wù)條款這是違規的,但未來(lái)一種新的趨勢可能會(huì )采取類(lèi)似 KYC(了解你的客戶(hù))的方式來(lái)阻止數據蒸餾。
談到蒸餾,也許 R1 論文中最值得關(guān)注的部分,是能夠通過(guò)用推理模型的輸出對非推理小模型進(jìn)行微調,將其轉變?yōu)榫邆渫评砟芰Φ哪P汀?
數據集策劃共包含 80 萬(wàn)個(gè)樣本,現在任何人都可以利用 R1 的思維鏈(CoT)輸出創(chuàng )建自己的數據集,并借助這些輸出構建推理模型。
我們可能會(huì )看到更多小模型展示出推理能力,從而提升小模型的性能。
多頭潛在注意力(MLA)
正如我們在前文提到,多頭潛在注意力(MLA) 是 DeepSeek 在推理成本上大幅降低的關(guān)鍵創(chuàng )新。
因為與標準注意力機制相比,MLA 將每次查詢(xún)所需的 KV 緩存減少了約 93.3%。KV 緩存是 Transformer 模型中的一種內存機制,用于暫時(shí)保存代表對話(huà)上下文的數據,從而減少重復計算。
隨著(zhù)對話(huà)上下文的增長(cháng),KV 緩存也會(huì )增加,進(jìn)而帶來(lái)巨大的內存壓力。因此大幅減少每次查詢(xún)所需的 KV 緩存,就能降低每次查詢(xún)所需的硬件量,從而降低了整體成本。
不過(guò)我們認為 DeepSeek 是以成本價(jià)提供推理服務(wù)以搶占市場(chǎng)份額,而并非真正盈利。
Google Gemini Flash 2.0 Thinking 仍然更便宜,且 Google 不太可能以成本價(jià)提供該服務(wù)。MLA 尤其引起了許多領(lǐng)先的美國實(shí)驗室的關(guān)注。
MLA 于 2024 年 5 月在 DeepSeek V2 中首次發(fā)布,由于 H20 的內存帶寬和容量相比 H100 更高,DeepSeek 在推理工作負載上也獲得了更多效率提升。他們還宣布與華為建立合作關(guān)系,但迄今為止在昇騰計算方面的應用還很少。
( 昨天硅基流動(dòng)和華為云團隊宣布聯(lián)合首發(fā)并上線(xiàn)基于華為云昇騰云服務(wù)的 DeepSeekR1/V3 推理服務(wù)。)
我們認為,MLA 對利潤率帶來(lái)的影響,對整個(gè) AI 生態(tài)系統都意義重大。
R1 沒(méi)有在技術(shù)層面削弱 o1 的優(yōu)勢
在利潤率方面,我們有一個(gè)關(guān)鍵發(fā)現:R1 并未削弱 o1 在技術(shù)上的優(yōu)勢,反而以更低的成本提供了相似的能力。
這一結果合理且具有啟示意義,促使我們構建了一個(gè)面向未來(lái)的定價(jià)機制框架。能力越強,利潤率越高,這一邏輯與半導體制造行業(yè)的發(fā)展路徑頗為相似。
當臺積電首次突破至新的工藝節點(diǎn),推出前所未有的產(chǎn)品時(shí),便能獲得強大的定價(jià)權。而處于技術(shù)追趕階段的競爭者,如三星和英特爾,則更多依靠在成本和性能之間尋求平衡,通常以低于市場(chǎng)領(lǐng)導者的價(jià)格進(jìn)行競爭。
對于芯片制造商(在這里可類(lèi)比為 AI 實(shí)驗室)而言,優(yōu)勢在于可以靈活調整產(chǎn)能。如果某個(gè)新模型具備更優(yōu)的成本效益,企業(yè)可以快速增加其產(chǎn)能,同時(shí)逐步減少對舊模型的支持。
這種產(chǎn)能調整機制不僅符合當前 AI 實(shí)驗室的運作模式,也與半導體行業(yè)長(cháng)期以來(lái)的經(jīng)驗契合。
技術(shù)的競爭就是定價(jià)權爭奪
這或許預示著(zhù)未來(lái) AI 競賽的發(fā)展軌跡。
率先進(jìn)入新能力層級的企業(yè)將掌握顯著(zhù)的定價(jià)溢價(jià),而跟隨者則只能依靠微薄的利潤勉強維持。
那些在能力上落后的產(chǎn)品仍會(huì )存在,前提是它們能滿(mǎn)足特定的使用場(chǎng)景,但每一代產(chǎn)品中能夠趕超領(lǐng)先者的參與者會(huì )越來(lái)越少。
我們已經(jīng)在見(jiàn)證,R1 已經(jīng)達到了領(lǐng)先的能力水平,卻以零利潤的價(jià)格銷(xiāo)售。
這種鮮明的價(jià)格差異引發(fā)人們的疑問(wèn):憑什么 OpenAI 的產(chǎn)品這么昂貴?因為他們的產(chǎn)品定價(jià)基于最前沿的技術(shù),并從中獲取相應的溢價(jià)收益。
我們認為,未來(lái)的技術(shù)發(fā)展速度將超過(guò)半導體制造業(yè)目前的快速節奏。
追求最新能力意味著(zhù)持續的定價(jià)權——以ChatGPT Pro為例,而能力滯后的產(chǎn)品則必須通過(guò)降低價(jià)格來(lái)維持市場(chǎng),利潤主要依賴(lài)于底層的算力和代幣基礎設施。
在當前這個(gè)快速迭代的技術(shù)周期中,追求卓越能力的動(dòng)力只會(huì )加速產(chǎn)品的更新?lián)Q代。只要企業(yè)能夠持續拓展能力、開(kāi)發(fā)具有新價(jià)值的功能,就理應享有定價(jià)權;反之,在開(kāi)放市場(chǎng)中,產(chǎn)品同質(zhì)化的趨勢會(huì )迅速顯現。
在這個(gè)背景下,人們對當前局勢存在著(zhù)根本性的誤解。我們所描述的情景,頗有幾分類(lèi)似于超高速發(fā)展的半導體制造業(yè)——這是全球資本密集度最高的行業(yè)。沒(méi)有哪個(gè)行業(yè)在研發(fā)上的投入超過(guò)半導體制造業(yè),但最接近這一現實(shí)的AI模型供應鏈,卻常常被視為不利的參照對象。
將 AI token與杰文斯悖論進(jìn)行比較,可以發(fā)現深刻的歷史相似性。
最初,人們對晶體管能否持續微縮存在疑慮;一旦這一趨勢被確認,整個(gè)行業(yè)便全力以赴推動(dòng) CMOS 技術(shù)向極限縮放,并在此基礎上構建關(guān)鍵功能。
如今,我們正處于將多鏈思維模型和能力整合的初期階段,這與晶體管微縮的早期時(shí)代頗為相似。盡管從技術(shù)角度來(lái)看,這可能是一個(gè)充滿(mǎn)動(dòng)蕩的時(shí)期,但對于英偉達而言卻是一個(gè)好消息。
免費又強大推理模型能一直持續嗎
事實(shí)上市場(chǎng)一直在尋找一種新的破局點(diǎn),而這正是它所選擇的。
如果 DeepSeek 愿意以 0 或甚至負利潤率運營(yíng),那么其產(chǎn)品價(jià)格確實(shí)可能被壓低到如此程度。
然而,對于前沿 Token 服務(wù)的定價(jià)彈性顯然要高得多。鑒于 DeepSeek 正處于新一輪融資之中,他們有強烈的動(dòng)力去追求這一策略。
在推理領(lǐng)域的一個(gè)關(guān)鍵轉折點(diǎn)上,DeepSeek 打破了 OpenAI 占主導地位的利潤率。這種領(lǐng)先地位能否持續?
我們認為不會(huì )——畢竟,一個(gè)開(kāi)源實(shí)驗室現在已經(jīng)展示了曾被認為僅屬于閉源實(shí)驗室的能力。雖然這是一個(gè)關(guān)鍵性的發(fā)展,但必須認識到 DeepSeek 仍然是一個(gè)快速跟隨者。
我們確實(shí)認為,一個(gè)更強大的開(kāi)放實(shí)驗室(目前 DeepSeek 是最杰出的代表),將極大地惠及新興云服務(wù)提供商和基礎設施供應商。
無(wú)論模型是開(kāi)源還是閉源,計算資源的集中化依然至關(guān)重要。然而,如果建立在這些計算資源之上的上層服務(wù)開(kāi)始免費提供產(chǎn)品,那么計算本身的內在價(jià)值很可能會(huì )上升。
更多資本將流向計算基礎設施,而不是封閉模型供應商,這標志著(zhù)支出正向硬件轉移。軟件公司也將從這一動(dòng)態(tài)中大幅受益。
【文章來(lái)源】:24直播網(wǎng)籃球資訊,本文唯一鏈接:https://tumeidp.com/news/lanqiu/8925.html
【文章關(guān)鍵詞】: