您的位置:首頁(yè) >科技 >

    深度求索大模型:“花小錢(qián)辦大事”

    2025-01-15 16:19:01    來(lái)源:科技日?qǐng)?bào)

    一個(gè)來(lái)自中國(guó)的開(kāi)源模型,在開(kāi)年之際聚焦了人工智能(AI)行業(yè)的目光。

    日前,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(以下簡(jiǎn)稱(chēng)“深度求索”)上線并同步開(kāi)源DeepSeek-V3模型,同時(shí)公布長(zhǎng)達(dá)53頁(yè)的技術(shù)報(bào)告,介紹關(guān)鍵技術(shù)和訓(xùn)練細(xì)節(jié)。

    和很多語(yǔ)焉不詳?shù)膱?bào)告相比,這份報(bào)告真正做到了開(kāi)源。其中最抓人眼球的部分是,V3模型能力大幅升級(jí),但訓(xùn)練僅僅花費(fèi)557.6萬(wàn)美元,僅用2048塊H800顯卡,耗時(shí)不到兩個(gè)月。

    美國(guó)人工智能初創(chuàng)公司Anthropic首席執(zhí)行官達(dá)里奧·阿莫迪曾透露,GPT-4o的模型訓(xùn)練成本約為1億美元。美國(guó)開(kāi)放人工智能研究中心(OpenAI)創(chuàng)始成員之一安德烈·卡帕西點(diǎn)評(píng),DeepSeek-V3讓在有限算力預(yù)算內(nèi)進(jìn)行模型預(yù)訓(xùn)練這件事變得容易。

    深度求索如何實(shí)現(xiàn)“花小錢(qián)辦大事”?它是否走出了大模型發(fā)展的一條新路?

    降低模型推理成本

    深度求索一直是國(guó)內(nèi)AI版圖上位置相對(duì)獨(dú)特的一家——它是唯一沒(méi)有做2C(面向個(gè)人消費(fèi)者)應(yīng)用的公司,選擇開(kāi)源路線,至今沒(méi)有融過(guò)資。

    去年5月,深度求索發(fā)布DeepSeek-V2,以其創(chuàng)新的模型架構(gòu)和史無(wú)前例的性?xún)r(jià)比爆火。模型推理成本被降至每百萬(wàn)Tokens(大模型用來(lái)表示自然語(yǔ)言文本的單位)僅1元錢(qián),約等于開(kāi)源大模型Llama370B的七分之一,GPT-4Turbo的七十分之一,引發(fā)字節(jié)、阿里、百度等企業(yè)的模型降價(jià)潮。

    個(gè)中關(guān)節(jié)在于,DeepSeek提出的MLA(多頭潛在注意力機(jī)制)架構(gòu)和DeepSeekMoESparse(采用稀疏結(jié)構(gòu)的混合專(zhuān)家模型)結(jié)構(gòu),大幅降低了模型的計(jì)算量和顯存占用,實(shí)現(xiàn)了高效推理和經(jīng)濟(jì)高效的訓(xùn)練。

    簡(jiǎn)單來(lái)說(shuō),模型壓縮、專(zhuān)家并行訓(xùn)練、FP8混合精度訓(xùn)練、數(shù)據(jù)蒸餾與算法優(yōu)化等一系列創(chuàng)新技術(shù)大幅降低了V3模型成本。作為新興的低精度訓(xùn)練方法,F(xiàn)P8技術(shù)通過(guò)減少數(shù)據(jù)表示所需的位數(shù),顯著降低了內(nèi)存占用和計(jì)算需求。據(jù)報(bào)道,目前,谷歌等已將這項(xiàng)技術(shù)引入模型訓(xùn)練與推理中。

    深度科技研究院院長(zhǎng)張孝榮在接受媒體采訪時(shí)說(shuō),DeepSeek的“出圈”是對(duì)其在大模型技術(shù)上的突破和創(chuàng)新的認(rèn)可,其通過(guò)優(yōu)化算法和工程實(shí)踐,實(shí)現(xiàn)高性能與低成本的平衡。DeepSeek為整個(gè)行業(yè)的發(fā)展注入活力,也對(duì)大模型的技術(shù)路徑和工程實(shí)踐產(chǎn)生積極影響,推動(dòng)高效訓(xùn)練、模型輕量化和工程優(yōu)化。

    有業(yè)內(nèi)人士分析,V3在架構(gòu)創(chuàng)新、訓(xùn)練效率和推理性能方面展現(xiàn)巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻(xiàn)。不過(guò),與此同時(shí),也仍有許多挑戰(zhàn)需要解決,如需進(jìn)一步擴(kuò)展上下文長(zhǎng)度、優(yōu)化多模態(tài)數(shù)據(jù)處理等。未來(lái)的研究方向包括提升模型的推理速度、完善更高效的硬件架構(gòu)設(shè)計(jì),以及增強(qiáng)多模態(tài)學(xué)習(xí)和生成能力。

    不堆算力創(chuàng)新算法

    大參數(shù)、大算力、大投入,這條已經(jīng)被驗(yàn)證行之有效的ChatGPT路徑,實(shí)則是絕大部分創(chuàng)業(yè)公司難以承受之重。

    據(jù)報(bào)道,仍處于研發(fā)過(guò)程中的GPT-5,已進(jìn)行過(guò)至少兩輪訓(xùn)練,每輪訓(xùn)練耗時(shí)數(shù)月,一輪計(jì)算成本接近5億美元。一年半過(guò)去,GPT-5仍未問(wèn)世。這意味著,新一代通用大模型的訓(xùn)練成本已達(dá)到十多億美元甚至更高。未來(lái)這一數(shù)字可能持續(xù)攀升。

    規(guī)模定律(Scalinglaw)是指在訓(xùn)練大模型時(shí),數(shù)據(jù)量、參數(shù)量和計(jì)算資源越多,訓(xùn)練出的模型能力和效果越好。然而,一段時(shí)間以來(lái),行業(yè)對(duì)規(guī)模定律可持續(xù)性的疑問(wèn)不絕于耳。

    V3的出現(xiàn)提供了新的解法。“ScalingLaw不只停留在預(yù)訓(xùn)練階段,而是往后訓(xùn)練,尤其是注重推理領(lǐng)域的后訓(xùn)練集、強(qiáng)化學(xué)習(xí)等領(lǐng)域擴(kuò)展。”智源研究院副院長(zhǎng)兼總工程師林詠華接受科技日?qǐng)?bào)記者采訪時(shí)說(shuō),這一點(diǎn)在國(guó)外以O(shè)penAIo1發(fā)布為標(biāo)志,國(guó)內(nèi)則有DeepSeek使用強(qiáng)化學(xué)習(xí)訓(xùn)練發(fā)布DeepSeekR1這個(gè)具有很強(qiáng)挖掘和激活能力的模型。

    在林詠華看來(lái),V3的發(fā)布,也印證了利用R1可以很好進(jìn)行能力提升。

    行業(yè)相關(guān)探索還有很多,如Kimi將強(qiáng)化學(xué)習(xí)用到更多搜索場(chǎng)景,發(fā)布以邏輯思考和深度思考為核心功能的數(shù)學(xué)模型K0-math;螞蟻技術(shù)研究院建立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,圍繞如何在后訓(xùn)練及強(qiáng)化學(xué)習(xí)上進(jìn)行更多模型能力的探索。林詠華期待,未來(lái)不僅是靠堆砌更多算力、參數(shù)和數(shù)據(jù),而是靠真正的算法創(chuàng)新,持續(xù)在后訓(xùn)練階段幫助模型提升基礎(chǔ)能力。

    值得注意的是,“省錢(qián)模式開(kāi)啟”并不意味著算力式微。

    V3發(fā)布后,360集團(tuán)創(chuàng)始人周鴻祎發(fā)文稱(chēng)贊“DeepSeek的進(jìn)步對(duì)推動(dòng)中國(guó)AI產(chǎn)業(yè)發(fā)展是極大利好”,但他也認(rèn)為,這并非說(shuō)中國(guó)AI發(fā)展不需要高端算力芯片。囤顯卡建算力集群依舊必要,因?yàn)槟壳邦A(yù)訓(xùn)練算力需求或許沒(méi)那么大,但像慢思考這類(lèi)復(fù)雜推理模型對(duì)推理算力需求大,文生圖、文生視頻的應(yīng)用也需消耗大量算力資源。巨頭們提供AI云服務(wù),構(gòu)建龐大算力基礎(chǔ)必不可少,這與DeepSeek降低訓(xùn)練算力需求是兩回事,兩者并不矛盾。

    一位行業(yè)專(zhuān)家在接受記者采訪時(shí)認(rèn)為,2025年,大模型行業(yè)會(huì)進(jìn)一步收斂,這種收斂既包括技術(shù)層面,也包括廠商層面。進(jìn)入“百模大戰(zhàn)”后期,要進(jìn)一步提高模型計(jì)算效率,降低推理成本,對(duì)計(jì)算的架構(gòu)分布、利用效率等都提出更為精細(xì)化的要求。

    “燒錢(qián)”不是唯一邏輯

    深度求索創(chuàng)始人梁文鋒在金融行業(yè)征戰(zhàn)已久。他成立的幻方量化早在2019年就開(kāi)始大手筆投入深度學(xué)習(xí)訓(xùn)練平臺(tái)。2023年7月,梁文鋒創(chuàng)立深度求索,專(zhuān)注AI大模型的研究和開(kāi)發(fā)。

    據(jù)報(bào)道,包括梁文鋒在內(nèi),深度求索僅有139名工程師和研究人員。在外界看來(lái),這是一支“神秘的東方力量”。

    但在一次采訪中,梁文鋒曾透露,深度求索并沒(méi)有什么高深莫測(cè)的奇才,團(tuán)隊(duì)都是國(guó)內(nèi)頂尖高校的應(yīng)屆畢業(yè)生,沒(méi)畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。他特別提及,“V2模型沒(méi)有海外回來(lái)的人,都是本土的”。

    他也曾在訪談中說(shuō),過(guò)去30多年的IT浪潮,中國(guó)基本上扮演的是追隨者角色,“隨著經(jīng)濟(jì)的發(fā)展,中國(guó)也應(yīng)該逐步成為技術(shù)創(chuàng)新的主要貢獻(xiàn)者”。如今,V3的橫空出世貢獻(xiàn)了一個(gè)更高效率、更低成本的大模型發(fā)展樣本,也讓AI行業(yè)看到一種可能:雖然訓(xùn)練大模型依然需要大規(guī)模顯卡集群,但“燒錢(qián)”不是行業(yè)唯一的邏輯,也并不是誰(shuí)燒錢(qián)多,誰(shuí)就注定贏得一切。

    對(duì)此,周鴻祎評(píng)論道,V3用2000塊卡做到了萬(wàn)卡集群才能做到的事。用這種極致訓(xùn)練方法訓(xùn)練專(zhuān)業(yè)大模型,算力成本會(huì)進(jìn)一步降低,促使中國(guó)AI在專(zhuān)業(yè)、垂直、場(chǎng)景、行業(yè)大模型上更快普及。

    標(biāo)簽:

    精彩閱讀

    伊頓與國(guó)軒高科達(dá)成戰(zhàn)略合作,共繪綠色能源未來(lái)

    《醬香威士忌團(tuán)體標(biāo)準(zhǔn)》正式發(fā)布

    在購(gòu)買(mǎi)車(chē)輛保險(xiǎn)時(shí)需要注意哪些因素?

    故宮博物院攜手蘇州灣數(shù)字藝術(shù)館,共啟“‘紋’以載道——故宮沉浸式數(shù)字體驗(yàn)展”

    當(dāng)前兒童呼吸道感染有哪些特點(diǎn)?家長(zhǎng)應(yīng)該注意什么?專(zhuān)家建議

    我與國(guó)家一起前行丨中國(guó)嗩吶成新“頂流” 鄉(xiāng)土樂(lè)器也能吹出國(guó)際范兒

    新華社經(jīng)濟(jì)隨筆:車(chē)企駛?cè)搿叭诵螜C(jī)器人”賽道的背后

    北京市出臺(tái)自動(dòng)駕駛汽車(chē)條例 支持用于個(gè)人乘用車(chē)、城市公共汽電車(chē)等服務(wù)

    各行各業(yè)積極因素不斷涌現(xiàn)實(shí)現(xiàn)“開(kāi)門(mén)紅” 中國(guó)經(jīng)濟(jì)熱度穩(wěn)步提升

    女人過(guò)了40歲穿衣別糾結(jié),真該試試這些穿搭,溫柔又顯女人味

    伊姐周日熱推:電視劇《千朵桃花一世開(kāi)》;綜藝《你們說(shuō)了算》......

    粉色+灰色、藍(lán)色+棕色,這4組配色怎么搭都好看!

    中年女人冬季要會(huì)穿搭,用這些單品塑造簡(jiǎn)約美,優(yōu)雅高級(jí)又耐看

    冬季過(guò)半,50歲的女性朋友們就這樣穿,才能保暖、時(shí)髦兩不誤

    女人冬天穿衣要精致些,試試這些大氣簡(jiǎn)約穿搭,每一套都舒適

    戰(zhàn)略大調(diào)整 蒂芙尼退出云南市場(chǎng)

    2024年中國(guó)輕紡城成交額破4000億元

    羽絨服里的“科技范”

    日妝在華業(yè)務(wù)繼續(xù)收縮

    世界最大“水能充電寶” 全面投產(chǎn)發(fā)電

    甘肅電源裝機(jī)容量突破1億千瓦 新能源占比超64%

    人工智能延伸中國(guó)電影想象力

    “投資中國(guó)”品牌更閃亮

    2025全國(guó)網(wǎng)上年貨節(jié)將于1月7日啟動(dòng)

    光電融合確定性新型算網(wǎng)基礎(chǔ)設(shè)施在南京開(kāi)通

    用于鋅-空氣電池的新型高效催化劑面世

    裸子植物核型演化歷史和關(guān)鍵模式揭示

    我國(guó)直徑最大雙護(hù)盾硬巖掘進(jìn)機(jī)始發(fā)

    上海腦機(jī)接口臨床試驗(yàn)迎重大突破 漢語(yǔ)“意念對(duì)話”成真

    全球首個(gè)光電融合確定性新型算網(wǎng)基礎(chǔ)設(shè)施正式開(kāi)通

    地磁暴跟銀川地震并無(wú)直接關(guān)系

    世界最大超導(dǎo)磁體動(dòng)態(tài)測(cè)試設(shè)施建成

    研究顯示中國(guó)大米越來(lái)越好吃

    著力構(gòu)建可解釋性模型

    有色金屬行業(yè)首個(gè)大模型“坤安”面世

    重慶大學(xué)有了AI輔導(dǎo)員

    南京:挖掘數(shù)據(jù)潛力 打造智慧城市

    營(yíng)建公正透明數(shù)字消費(fèi)環(huán)境

    抖音支付回應(yīng)“注冊(cè)資本增至31.5億元”:有助于更穩(wěn)健地開(kāi)展業(yè)務(wù)

    2025年國(guó)際消費(fèi)電子展將至 中國(guó)AI眼鏡產(chǎn)業(yè)鏈或成熱點(diǎn)

    2025年,人工智能如何進(jìn)化

    開(kāi)源鴻蒙操作系統(tǒng)5.0版本發(fā)布

    2025全國(guó)網(wǎng)上年貨節(jié)將于1月7日啟動(dòng)

    人工智能延伸中國(guó)電影想象力

    貴4000元!零跑C16長(zhǎng)續(xù)航售17.28萬(wàn)起 限時(shí)降5000

    大眾汽車(chē)與小鵬汽車(chē)再聯(lián)合 打造超快充網(wǎng)絡(luò)

    極氪領(lǐng)克整合:讓中國(guó)新能源汽車(chē)從做大到做強(qiáng)

    2025款I(lǐng)D.4 CROZZ上市 售19.49-29.86萬(wàn)元

    主打低油耗 吉利銀河L6 EM-i官圖發(fā)布

    利好接續(xù)政策值得車(chē)市期待 激發(fā)首購(gòu)需求是促進(jìn)消費(fèi)關(guān)鍵

    特斯拉汽車(chē)交付量十多年來(lái)首次同比下滑

    合資車(chē)企合資模式蝶變 今年欲打“翻身仗”

    推動(dòng)汽車(chē)產(chǎn)業(yè)高質(zhì)量發(fā)展正當(dāng)時(shí)

    年終講|從云端融入市場(chǎng)競(jìng)爭(zhēng) 保時(shí)捷在中國(guó)市場(chǎng)還有很多事可以做

    浙江為科技成果轉(zhuǎn)化上“雙保險(xiǎn)”

    吉林:溫室大棚“科技范”,農(nóng)民增收添動(dòng)力

    引江補(bǔ)漢工程首臺(tái)雙護(hù)盾硬巖掘進(jìn)機(jī)始發(fā)

    上海2024年接待入境游客超600萬(wàn)人次

    清潔能源賦能青海綠算發(fā)展

    浙江為科技成果轉(zhuǎn)化上“雙保險(xiǎn)”

    南京:挖掘數(shù)據(jù)潛力 打造智慧城市

    四川丹棱:追“光”逐“綠” 向“新”而行

    江西省科技型中小企業(yè)入庫(kù)數(shù)突破16000家

    提升粵港澳大灣區(qū)科技創(chuàng)新中心建設(shè)整體效能

    推動(dòng)香港更好融入國(guó)家創(chuàng)新體系建設(shè)

    如何破解“一人生病全家動(dòng)員”的難題?無(wú)陪護(hù)病房給出暖心答案

    “蛇幣”“蛇鈔”、陳醋、冰雪……新年消費(fèi)市場(chǎng)活力足、人氣旺

    冬季是發(fā)生一氧化碳中毒最主要的季節(jié) 該如何應(yīng)對(duì)?

    陜西首開(kāi)至香港直達(dá)高鐵

    各地冰天雪地變成“金山銀山” 冰雪經(jīng)濟(jì)持續(xù)繁榮“熱”起來(lái)

    “硬核”數(shù)據(jù)見(jiàn)證冰雪經(jīng)濟(jì)潛能 “冷資源”釋放出“熱效應(yīng)”

    兒童感染流感后建議48小時(shí)內(nèi)用抗病毒藥

    近期流感病毒陽(yáng)性率快速上升 兒童流感、肺炎支原體感染高發(fā)

    新年伊始 冰雪經(jīng)濟(jì)活力綻放

    專(zhuān)家提醒:兒童流感癥狀和成人不同 應(yīng)對(duì)流感 可以“未病先防”

    專(zhuān)家提醒:兒童流感癥狀和成人不同 應(yīng)對(duì)流感 可以“未病先防”

    賣(mài)慘短視頻何以頻出“新花樣”

    網(wǎng)紅兒童玩具安全性調(diào)查:用“迷你廚房”炒菜,刺鼻味道撲面而來(lái)

    全國(guó)碳市場(chǎng)活力進(jìn)一步提升 2024年配額成交額超181億元

    2024年前11月民企新增減稅降費(fèi)及退稅1萬(wàn)億元 占比超七成

    冷空氣將影響我國(guó)大部地區(qū)

    “主動(dòng)”放棄休年假,能否獲得補(bǔ)償?

    青海率先實(shí)現(xiàn)居民醫(yī)保省級(jí)統(tǒng)籌

    國(guó)內(nèi)首款市域C型動(dòng)車(chē)組上線運(yùn)營(yíng)

    首店經(jīng)濟(jì)蓬勃發(fā)展激活消費(fèi)新動(dòng)能

    繳納過(guò)社保仍被認(rèn)定為“應(yīng)屆畢業(yè)生”?這個(gè)可以有!

    集采阿司匹林一片3分錢(qián),質(zhì)量有保證嗎?

    守護(hù)“核電心臟”的90后

    這群年輕人,組裝出載人飛船

    河北希望工程:傳承希望星火 傳遞社會(huì)溫暖

    羽絨服里的“科技范”

    一起解鎖“微度假”多種打開(kāi)方式 “City Eat”成為年輕力消費(fèi)新趨勢(shì)

    免簽效應(yīng)持續(xù)顯現(xiàn) “中國(guó)游”成“熱”體驗(yàn)

    科技為“中國(guó)速度”點(diǎn)睛加油

    地方發(fā)力吸引新品牌、新門(mén)店,企業(yè)加速開(kāi)首店、推新品 首店經(jīng)濟(jì)蓬勃發(fā)展激活消費(fèi)新動(dòng)能

    2025年全國(guó)新年登高健身大會(huì)四川省主會(huì)場(chǎng)活動(dòng)在天全縣啟動(dòng)

    重磅!華潤(rùn)啤酒攜旗下雪花啤酒與摘要酒簽約2025春糖首席合作伙伴

    |閬芽|第六屆新芽杯國(guó)際少兒書(shū)畫(huà)大賽圓滿(mǎn)落幕

    寶驪賦能亞太市場(chǎng),攜手經(jīng)銷(xiāo)商伙伴共贏新時(shí)代

    奔向健康新藍(lán)海,揚(yáng)子江藥業(yè)集團(tuán)召開(kāi)2024年年終工作會(huì)議暨職工代表大會(huì)

    國(guó)家退役軍人服務(wù)中心領(lǐng)導(dǎo)蒞臨中銀律所交流座談

    中銀律所及中銀律師榮登《2024錢(qián)伯斯大中華區(qū)指南》榜單

    寶驪叉車(chē)實(shí)力“炸街”,法國(guó)市場(chǎng)全面生花

    孔達(dá)達(dá):文藝工作者于大國(guó)文化建設(shè)中的責(zé)任與擔(dān)當(dāng)

    河南黃河酒業(yè):大黃河美酒

    聯(lián)創(chuàng)十載·居安興業(yè):西安聯(lián)創(chuàng)物業(yè)10周年盛典年會(huì)成功舉辦!

    一加 Ace 5 系列Pop-up快閃來(lái)襲,電競(jìng)女神程瀟驚喜現(xiàn)身

    全國(guó)冰雪消費(fèi)季“歡騰亞冬 嗨購(gòu)龍江”促消費(fèi)系列活動(dòng) 正式啟動(dòng)

    亚洲第一综合天堂另类专| 国产日本亚洲一区二区三区| 亚洲精品~无码抽插| 亚洲av日韩av永久无码电影| 亚洲三级在线视频| 亚洲国产福利精品一区二区| 亚洲精品午夜久久久伊人| 亚洲色图综合网站| 亚洲毛片在线免费观看| 亚洲精品视频在线免费| 亚洲第一页在线观看| 亚洲男人电影天堂| 亚洲一区二区三区四区视频| tom影院亚洲国产一区二区| 99热亚洲色精品国产88| 亚洲一卡二卡三卡| 亚洲中文字幕无码久久2020| 亚洲色欲啪啪久久WWW综合网| 亚洲色精品VR一区区三区| 亚洲精品av无码喷奶水糖心 | 国产AV无码专区亚洲AV蜜芽| 亚洲s码欧洲m码吹潮| 偷自拍亚洲视频在线观看| 亚洲成A人片在线观看无码3D| 亚洲国产午夜福利在线播放| 国产精品亚洲不卡一区二区三区| 亚洲伊人久久大香线蕉综合图片 | 亚洲另类无码专区丝袜| 亚洲sm另类一区二区三区| 亚洲精品岛国片在线观看| 国产av无码专区亚洲国产精品| 亚洲线精品一区二区三区| 亚洲AV无码乱码在线观看富二代| 亚洲AV永久无码精品成人| 久久亚洲私人国产精品vA| 亚洲欧洲国产综合| 一本色道久久88亚洲精品综合 | 亚洲国产婷婷综合在线精品| 亚洲乱码一区二区三区在线观看 | 亚洲黄色三级网站| 国产亚洲福利在线视频|