地方頻道：

Scaling Law不再唯一？任度大模型首發(fā)，全球首個(gè)數(shù)推分離雙網(wǎng)絡(luò)架構(gòu)引發(fā)討論

2024-11-19 17:45:55 來(lái)源：咸寧網(wǎng)

禪宗有云：“以小見(jiàn)大，一花一世界，一葉一菩提”。啟示我們即便在微小如一片葉子中，也能洞察到宏大的菩提智慧。

步入AI時(shí)代，企業(yè)在智能化轉(zhuǎn)型時(shí)，常面臨決策成本高、投入大且效果難以預(yù)料的挑戰(zhàn)。在此情境下，企業(yè)迫切渴望突破傳統(tǒng)AI推理與訓(xùn)練邏輯，在大模型時(shí)代踐行“以小見(jiàn)大，見(jiàn)微知著”的理念，如同從一葉之中領(lǐng)悟菩提真諦，更精簡(jiǎn)高效地駕馭智能化進(jìn)程。

2021年AI技術(shù)迅猛發(fā)展初期，就有聲音指出Scaling Law（規(guī)模定律）可能存在局限性。然而，ChatGPT從2.0到3.0再到3.5的連續(xù)迭代和巨大技術(shù)飛躍，使Scaling Law的有效性得到廣泛認(rèn)可。但ChatGPT 4.0似乎觸及人類(lèi)現(xiàn)有數(shù)據(jù)處理的極限時(shí)，該領(lǐng)域探索似乎遇到瓶頸。

在此背景下，行業(yè)內(nèi)開(kāi)始深入探討在通向AGI的征途中，除了依賴(lài)Scaling Law外，我們還需要哪些新的策略與方向。大模型的目標(biāo)應(yīng)當(dāng)是追求“智慧”的提升，而不僅僅是參數(shù)規(guī)模。客戶(hù)期待的是大模型在自身實(shí)際場(chǎng)景中，像懂自己業(yè)務(wù)的專(zhuān)家一樣發(fā)揮實(shí)效，解決實(shí)際問(wèn)題，而不是一個(gè)無(wú)關(guān)痛癢的外部顧問(wèn)，也不是參數(shù)越大越好。大模型要真正在服務(wù)客戶(hù)時(shí)發(fā)揮內(nèi)部專(zhuān)家作用，就不能僅僅停留在表面交互模式，而是必須深入客戶(hù)實(shí)際數(shù)據(jù)中進(jìn)行深度理解和挖掘。因此，集中式預(yù)訓(xùn)練模式需重新審視，實(shí)時(shí)學(xué)習(xí)和訓(xùn)練模式更具探索價(jià)值。

大模型的未來(lái)，不能完全押注在Scaling Law上

很多模型都在追隨OpenAI的路徑，一味增加模型腦容量（即“參數(shù)”），認(rèn)為這樣能讓模型更聰明。然而近期大量論文表明，大模型的聰明程度與腦容量并非成正比，甚至腦容量增加，聰明程度反而降低。

近期，傳神推出的“任度數(shù)推分離大模型”獨(dú)辟蹊徑，采用雙網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)數(shù)推分離，把推理網(wǎng)絡(luò)與數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)分開(kāi)?？蓪⑵淅斫鉃閮蓚€(gè)協(xié)同聯(lián)動(dòng)的大腦：一個(gè)是客戶(hù)數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)大腦，專(zhuān)注于數(shù)據(jù)的動(dòng)態(tài)管理與迭代訓(xùn)練，為模型持續(xù)注入知識(shí)；一個(gè)是推理網(wǎng)絡(luò)大腦，作為經(jīng)大量數(shù)據(jù)預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò)，有良好的推理和泛化能力。雙網(wǎng)絡(luò)通過(guò)共享嵌入層和中間表示層協(xié)同工作，形成類(lèi)似“主腦”與“輔腦”的高效配合模式，既支持獨(dú)立訓(xùn)練，也支持聯(lián)合推理。

憑借這一創(chuàng)新模式，傳神成為全球大模型領(lǐng)域第一家實(shí)現(xiàn)數(shù)推分離技術(shù)路線的人工智能企業(yè)，也是中國(guó)人工智能在行業(yè)內(nèi)的重大突破。

（一）打破上下文輸入長(zhǎng)度限制，實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)學(xué)習(xí)效果

數(shù)推分離的雙網(wǎng)絡(luò)架構(gòu)，能夠突破常規(guī)大模型數(shù)推混合一體技術(shù)架構(gòu)限制，使得推理大腦成熟后，數(shù)據(jù)大腦還可以持續(xù)不斷地學(xué)習(xí)接入的數(shù)據(jù)，并且不影響推理大腦的能力。因此，對(duì)于雙網(wǎng)絡(luò)架構(gòu)來(lái)講，上下文輸入長(zhǎng)度不再受限，可將類(lèi)似1億字?jǐn)?shù)據(jù)乃至更多數(shù)據(jù)壓縮到神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)深度知識(shí)理解。

任度大模型的技術(shù)架構(gòu)無(wú)需通過(guò)大量參數(shù)存儲(chǔ)數(shù)據(jù)來(lái)豐富知識(shí)，它可依靠數(shù)據(jù)大腦在客戶(hù)場(chǎng)景中實(shí)時(shí)學(xué)習(xí)數(shù)據(jù)。這樣能大幅降低參數(shù)規(guī)模，進(jìn)而減少訓(xùn)練和推理的硬件投入成本。

這種架構(gòu)能隨著客戶(hù)業(yè)務(wù)發(fā)展產(chǎn)生的新數(shù)據(jù)持續(xù)學(xué)習(xí)并提升完成數(shù)據(jù)壓縮。在數(shù)推分離模式下，更新數(shù)據(jù)的網(wǎng)絡(luò)壓縮對(duì)推理網(wǎng)絡(luò)影響極小，能廣泛適應(yīng)各種場(chǎng)景，靈活處理數(shù)據(jù)，訓(xùn)練時(shí)間可縮短至分鐘級(jí)。

（二）客戶(hù)本地即可完成數(shù)據(jù)學(xué)習(xí)訓(xùn)練，確保數(shù)據(jù)安全無(wú)憂(yōu)

雙網(wǎng)絡(luò)大模型架構(gòu)可以降低訓(xùn)練推理的算力和能耗成本，還能有效避免一體化大模型在客戶(hù)數(shù)據(jù)微調(diào)訓(xùn)練時(shí)出現(xiàn)的基座模型能力退化和泛化能力減弱問(wèn)題。而且，數(shù)據(jù)網(wǎng)絡(luò)學(xué)習(xí)客戶(hù)數(shù)據(jù)無(wú)增加算力和專(zhuān)業(yè)人員，數(shù)據(jù)可在客戶(hù)現(xiàn)場(chǎng)完成訓(xùn)練，學(xué)習(xí)企業(yè)歷史數(shù)據(jù)和新數(shù)據(jù)，消除企業(yè)的數(shù)據(jù)安全擔(dān)憂(yōu)。

任度的數(shù)推分離雙腦模式在應(yīng)用中，解決了客戶(hù)定制大模型的三大難題：客戶(hù)數(shù)據(jù)需離場(chǎng)、向量效果差、人才投入高，實(shí)現(xiàn)本地實(shí)時(shí)學(xué)習(xí)，讓客戶(hù)數(shù)據(jù)快速轉(zhuǎn)化為“專(zhuān)家”為客戶(hù)服務(wù)。重要的是，客戶(hù)數(shù)據(jù)本地訓(xùn)練不傳公有云，保障了數(shù)據(jù)隱私安全。

Scaling Law 不是萬(wàn)能的，性參比才是根本，本土企業(yè)需另辟蹊徑

在中國(guó)市場(chǎng)，大型語(yǔ)言模型尚未充分體現(xiàn) Scaling Law。在AGI 領(lǐng)域，Scaling Law 涉及算力、算法、數(shù)據(jù)三要素，其實(shí)現(xiàn)需大量資金支持。過(guò)去一段時(shí)間，甚至有國(guó)際大公司宣稱(chēng)在大數(shù)據(jù)、大算力背景下，算法一文不值。

傳神語(yǔ)聯(lián)創(chuàng)始人何恩培認(rèn)為，僅依賴(lài)Scaling Law的大模型路線已遇瓶頸，要真正突破需依靠算法與架構(gòu)。事實(shí)上，在不同算法與框架下，模型性能不總與參數(shù)規(guī)模成正比，采用創(chuàng)新架構(gòu)的小參數(shù)模型憑借高效算法設(shè)計(jì)，也能有強(qiáng)大性能，甚至在特定指標(biāo)上超越常規(guī)大參數(shù)模型。

目前，雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型已應(yīng)用于任度“雙腦”大模型一體機(jī)，其內(nèi)置的任度大模型有9B和2.1B兩種參數(shù)。在多項(xiàng)國(guó)內(nèi)外測(cè)評(píng)中，9B參數(shù)模型與數(shù)百億乃至千億參數(shù)大模型對(duì)比脫穎而出，以更少的參數(shù)實(shí)現(xiàn)領(lǐng)先性能。

事實(shí)上，過(guò)高的成本投入已使大模型開(kāi)發(fā)商和使用企業(yè)裹足不前。而最佳方案顯然是企業(yè)能以最低成本實(shí)現(xiàn)大模型應(yīng)用。相較于大參數(shù)模型，小參數(shù)模型降低了算力投入和資源消耗，更適合商業(yè)落地，且滿(mǎn)足通用場(chǎng)景應(yīng)用需求，是驗(yàn)證大模型落地可行性的便捷方式。所以，傳神語(yǔ)聯(lián)未來(lái)會(huì)加大在算法和架構(gòu)提升大模型能力方面的研發(fā)投入，持續(xù)迭代。

何恩培堅(jiān)信，“算法制勝”是具有中國(guó)特色的技術(shù)路徑之一，這符合中國(guó)人的聰明智慧，在以大模型為代表的AI時(shí)代尤為重要。相信中國(guó)有很多像傳神這樣的團(tuán)隊(duì)在默默耕耘，正在以獨(dú)特理念引領(lǐng)智能創(chuàng)新，只是他們現(xiàn)在還未走向臺(tái)前，但終將會(huì)成為中國(guó) AI 技術(shù)發(fā)展的重要力量。

上一篇: 2016年赤字大概率或突破3% 債務(wù)置換將不再分批
下一篇: 沒(méi)有了

黄色片一级免费,国产网址在线,亚洲午夜网站,黄色在线播放网址