黄色片一级免费,国产网址在线,亚洲午夜网站,黄色在线播放网址

地方頻道:
您的當(dāng)前位置:首頁(yè)>經(jīng)濟(jì)
Scaling Law不再唯一?任度大模型首發(fā),全球首個(gè)數(shù)推分離雙網(wǎng)絡(luò)架構(gòu)引發(fā)討論
2024-11-19 17:45:55   來(lái)源:咸寧網(wǎng)

禪宗有云:“以小見(jiàn)大,一花一世界,一葉一菩提”。啟示我們即便在微小如一片葉子中,也能洞察到宏大的菩提智慧。


步入AI時(shí)代,企業(yè)在智能化轉(zhuǎn)型時(shí),常面臨決策成本高、投入大且效果難以預(yù)料的挑戰(zhàn)。在此情境下,企業(yè)迫切渴望突破傳統(tǒng)AI推理與訓(xùn)練邏輯,在大模型時(shí)代踐行“以小見(jiàn)大,見(jiàn)微知著”的理念,如同從一葉之中領(lǐng)悟菩提真諦,更精簡(jiǎn)高效地駕馭智能化進(jìn)程。


2021年AI技術(shù)迅猛發(fā)展初期,就有聲音指出Scaling Law(規(guī)模定律)可能存在局限性。然而,ChatGPT從2.0到3.0再到3.5的連續(xù)迭代和巨大技術(shù)飛躍,使Scaling Law的有效性得到廣泛認(rèn)可。但ChatGPT 4.0似乎觸及人類(lèi)現(xiàn)有數(shù)據(jù)處理的極限時(shí),該領(lǐng)域探索似乎遇到瓶頸。


在此背景下,行業(yè)內(nèi)開(kāi)始深入探討在通向AGI的征途中,除了依賴(lài)Scaling Law外,我們還需要哪些新的策略與方向。大模型的目標(biāo)應(yīng)當(dāng)是追求“智慧”的提升,而不僅僅是參數(shù)規(guī)模。客戶(hù)期待的是大模型在自身實(shí)際場(chǎng)景中,像懂自己業(yè)務(wù)的專(zhuān)家一樣發(fā)揮實(shí)效,解決實(shí)際問(wèn)題,而不是一個(gè)無(wú)關(guān)痛癢的外部顧問(wèn),也不是參數(shù)越大越好。大模型要真正在服務(wù)客戶(hù)時(shí)發(fā)揮內(nèi)部專(zhuān)家作用,就不能僅僅停留在表面交互模式,而是必須深入客戶(hù)實(shí)際數(shù)據(jù)中進(jìn)行深度理解和挖掘。因此,集中式預(yù)訓(xùn)練模式需重新審視,實(shí)時(shí)學(xué)習(xí)和訓(xùn)練模式更具探索價(jià)值。


大模型的未來(lái),不能完全押注在Scaling Law上

很多模型都在追隨OpenAI的路徑,一味增加模型腦容量(即“參數(shù)”),認(rèn)為這樣能讓模型更聰明。然而近期大量論文表明,大模型的聰明程度與腦容量并非成正比,甚至腦容量增加,聰明程度反而降低。

近期,傳神推出的“任度數(shù)推分離大模型”獨(dú)辟蹊徑,采用雙網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)數(shù)推分離,把推理網(wǎng)絡(luò)與數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)分開(kāi)??蓪⑵淅斫鉃閮蓚€(gè)協(xié)同聯(lián)動(dòng)的大腦:一個(gè)是客戶(hù)數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)大腦,專(zhuān)注于數(shù)據(jù)的動(dòng)態(tài)管理與迭代訓(xùn)練,為模型持續(xù)注入知識(shí);一個(gè)是推理網(wǎng)絡(luò)大腦,作為經(jīng)大量數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò),有良好的推理和泛化能力。雙網(wǎng)絡(luò)通過(guò)共享嵌入層和中間表示層協(xié)同工作,形成類(lèi)似“主腦”與“輔腦”的高效配合模式,既支持獨(dú)立訓(xùn)練,也支持聯(lián)合推理。


憑借這一創(chuàng)新模式,傳神成為全球大模型領(lǐng)域第一家實(shí)現(xiàn)數(shù)推分離技術(shù)路線的人工智能企業(yè),也是中國(guó)人工智能在行業(yè)內(nèi)的重大突破。



(一)打破上下文輸入長(zhǎng)度限制,實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)學(xué)習(xí)效果

數(shù)推分離的雙網(wǎng)絡(luò)架構(gòu),能夠突破常規(guī)大模型數(shù)推混合一體技術(shù)架構(gòu)限制,使得推理大腦成熟后,數(shù)據(jù)大腦還可以持續(xù)不斷地學(xué)習(xí)接入的數(shù)據(jù),并且不影響推理大腦的能力。因此,對(duì)于雙網(wǎng)絡(luò)架構(gòu)來(lái)講,上下文輸入長(zhǎng)度不再受限,可將類(lèi)似1億字?jǐn)?shù)據(jù)乃至更多數(shù)據(jù)壓縮到神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)深度知識(shí)理解。


任度大模型的技術(shù)架構(gòu)無(wú)需通過(guò)大量參數(shù)存儲(chǔ)數(shù)據(jù)來(lái)豐富知識(shí),它可依靠數(shù)據(jù)大腦在客戶(hù)場(chǎng)景中實(shí)時(shí)學(xué)習(xí)數(shù)據(jù)。這樣能大幅降低參數(shù)規(guī)模,進(jìn)而減少訓(xùn)練和推理的硬件投入成本。


這種架構(gòu)能隨著客戶(hù)業(yè)務(wù)發(fā)展產(chǎn)生的新數(shù)據(jù)持續(xù)學(xué)習(xí)并提升完成數(shù)據(jù)壓縮。在數(shù)推分離模式下,更新數(shù)據(jù)的網(wǎng)絡(luò)壓縮對(duì)推理網(wǎng)絡(luò)影響極小,能廣泛適應(yīng)各種場(chǎng)景,靈活處理數(shù)據(jù),訓(xùn)練時(shí)間可縮短至分鐘級(jí)。


(二)客戶(hù)本地即可完成數(shù)據(jù)學(xué)習(xí)訓(xùn)練,確保數(shù)據(jù)安全無(wú)憂(yōu)

雙網(wǎng)絡(luò)大模型架構(gòu)可以降低訓(xùn)練推理的算力和能耗成本,還能有效避免一體化大模型在客戶(hù)數(shù)據(jù)微調(diào)訓(xùn)練時(shí)出現(xiàn)的基座模型能力退化和泛化能力減弱問(wèn)題。而且,數(shù)據(jù)網(wǎng)絡(luò)學(xué)習(xí)客戶(hù)數(shù)據(jù)無(wú)增加算力和專(zhuān)業(yè)人員,數(shù)據(jù)可在客戶(hù)現(xiàn)場(chǎng)完成訓(xùn)練,學(xué)習(xí)企業(yè)歷史數(shù)據(jù)和新數(shù)據(jù),消除企業(yè)的數(shù)據(jù)安全擔(dān)憂(yōu)。

任度的數(shù)推分離雙腦模式在應(yīng)用中,解決了客戶(hù)定制大模型的三大難題:客戶(hù)數(shù)據(jù)需離場(chǎng)、向量效果差、人才投入高,實(shí)現(xiàn)本地實(shí)時(shí)學(xué)習(xí),讓客戶(hù)數(shù)據(jù)快速轉(zhuǎn)化為“專(zhuān)家”為客戶(hù)服務(wù)。重要的是,客戶(hù)數(shù)據(jù)本地訓(xùn)練不傳公有云,保障了數(shù)據(jù)隱私安全。


Scaling Law 不是萬(wàn)能的,性參比才是根本,本土企業(yè)需另辟蹊徑

在中國(guó)市場(chǎng),大型語(yǔ)言模型尚未充分體現(xiàn) Scaling Law。在AGI 領(lǐng)域,Scaling Law 涉及算力、算法、數(shù)據(jù)三要素,其實(shí)現(xiàn)需大量資金支持。過(guò)去一段時(shí)間,甚至有國(guó)際大公司宣稱(chēng)在大數(shù)據(jù)、大算力背景下,算法一文不值。


傳神語(yǔ)聯(lián)創(chuàng)始人何恩培認(rèn)為,僅依賴(lài)Scaling Law的大模型路線已遇瓶頸,要真正突破需依靠算法與架構(gòu)。事實(shí)上,在不同算法與框架下,模型性能不總與參數(shù)規(guī)模成正比,采用創(chuàng)新架構(gòu)的小參數(shù)模型憑借高效算法設(shè)計(jì),也能有強(qiáng)大性能,甚至在特定指標(biāo)上超越常規(guī)大參數(shù)模型。


目前,雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型已應(yīng)用于任度“雙腦”大模型一體機(jī),其內(nèi)置的任度大模型有9B和2.1B兩種參數(shù)。在多項(xiàng)國(guó)內(nèi)外測(cè)評(píng)中,9B參數(shù)模型與數(shù)百億乃至千億參數(shù)大模型對(duì)比脫穎而出,以更少的參數(shù)實(shí)現(xiàn)領(lǐng)先性能。


事實(shí)上,過(guò)高的成本投入已使大模型開(kāi)發(fā)商和使用企業(yè)裹足不前。而最佳方案顯然是企業(yè)能以最低成本實(shí)現(xiàn)大模型應(yīng)用。相較于大參數(shù)模型,小參數(shù)模型降低了算力投入和資源消耗,更適合商業(yè)落地,且滿(mǎn)足通用場(chǎng)景應(yīng)用需求,是驗(yàn)證大模型落地可行性的便捷方式。所以,傳神語(yǔ)聯(lián)未來(lái)會(huì)加大在算法和架構(gòu)提升大模型能力方面的研發(fā)投入,持續(xù)迭代。


何恩培堅(jiān)信,“算法制勝”是具有中國(guó)特色的技術(shù)路徑之一,這符合中國(guó)人的聰明智慧,在以大模型為代表的AI時(shí)代尤為重要。相信中國(guó)有很多像傳神這樣的團(tuán)隊(duì)在默默耕耘,正在以獨(dú)特理念引領(lǐng)智能創(chuàng)新,只是他們現(xiàn)在還未走向臺(tái)前,但終將會(huì)成為中國(guó) AI 技術(shù)發(fā)展的重要力量。





技術(shù)支持:湖北報(bào)網(wǎng)新聞傳媒有限公司

今日湖北網(wǎng)版權(quán)所有 鄂ICP備2020021375號(hào)-2 網(wǎng)絡(luò)傳播視聽(tīng)節(jié)目許可證(0107190) 備案號(hào):42010602003527 違法和不良信息舉報(bào)中心