HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    誰能做出中國版ChatGPT?怎么做?

    發(fā)布時(shí)間:2023-03-06 13:44:11     稿源: 互聯(lián)網(wǎng)    閱讀: 584        問大家

    機(jī)器之心轉(zhuǎn)載

    作者:符堯

    單位:University of Edinburgh & Allen Institute for AI

    聯(lián)系方式:yao.fu@ed.ac.uk

    在 2022 年一整年,本文作者符堯追蹤了從 GPT-3 到 GPT-3.5 的全部版本迭代(參見《ChatGPT 的各項(xiàng)超能力從哪兒來?萬字拆解追溯技術(shù)路線圖來了!》),親眼看到它一步步地從弱到強(qiáng)不斷演化。在過去的一個(gè)月,他又走訪了國內(nèi)各大高校、研究院、大廠、創(chuàng)業(yè)公司、風(fēng)投,將一些新的想法濃縮在這篇文章里。

    2022 年 12 月,ChatGPT 橫空出世。OpenAI 用一個(gè)核彈級的成果改變了科學(xué)研究和工程應(yīng)用的范式。在中國,ChatGPT 受到了廣泛的關(guān)注與深刻的討論。在過去的一個(gè)月里,我走訪各大高校,研究院,大廠,創(chuàng)業(yè)公司,風(fēng)投;從北京到上海到杭州到深圳,跟所有頭部的玩家們?nèi)苛牧艘槐?。The Game of Scale 在中國已然拉開,風(fēng)暴中心的玩家們,在已知國內(nèi)技術(shù)和生態(tài)與世界前沿的巨大鴻溝下,如何做成這件事?誰能做成這件事?

    秦失其鹿,天下共逐之。 ——— 《史記?淮陰侯列傳》

    目錄

    誰能做出中國版ChatGPT?怎么做?

    一、三種不同的答案

    我每接觸到一個(gè)創(chuàng)業(yè)公司,都會問同一個(gè)問題:“ChatGPT 在那里,你們想做什么?” 我大概能收到三種不同的答案。第一個(gè)答案很明確,要做中國的 ChatGPT。

    1.1 做中國的 ChatGPT

    因?yàn)樗驮谀抢?,所以想要?fù)現(xiàn),想要國產(chǎn)化。這是很經(jīng)典的產(chǎn)品導(dǎo)向中文互聯(lián)網(wǎng)思維。這種思路也是過去二十年,中文互聯(lián)網(wǎng)常見的商業(yè)模式:首先硅谷做出來一個(gè)東西,然后我們把它抄過來。

    但這里的問題是,首先,ChatGPT 可不像打車軟件,復(fù)現(xiàn)難度完全不可同日而語。光從人的角度看,GPT 的產(chǎn)生,是這個(gè)世界上最頂尖的科學(xué)家和工程師們從 2015 年開始就不斷研究的結(jié)果。OpenAI 的首席科學(xué)家, Ilya Sutskever[1],深刻地相信 AGI 一定能實(shí)現(xiàn)。作為圖靈獎(jiǎng)得主 Geoffery Hinton 的大弟子,從 2007 年就開始研究深度學(xué)習(xí)。他的 citation 有 37 萬,發(fā)過的文章精準(zhǔn)踩中了過去十年 Deep Learning 的所有關(guān)鍵節(jié)點(diǎn)。即使是如此強(qiáng)大的團(tuán)隊(duì),從 GPT 2 到 GPT 3.5 也花了四年的時(shí)間,它的科學(xué)與工程的難度可想而知。

    同時(shí),初代 ChatGPT,是 OpenAI 在 GPT 3.5 的基礎(chǔ)模型上,花了兩星期時(shí)間對著 dialog 做 finetuning 之后隨手扔出來的 demo。這里真正強(qiáng)的并不是 ChatGPT 這一個(gè)產(chǎn)品,而是底下的 GPT 3.5 基礎(chǔ)模型。這個(gè)模型還在不斷地演化,GPT 3.5 系列在 2022 年更新了三個(gè)大版本[2],每個(gè)大版本都顯著強(qiáng)于前一個(gè)版本;同樣地,ChatGPT 發(fā)布兩個(gè)月一共更新了四個(gè)小版本[3],每個(gè)小版本都在單個(gè)的維度上比前一個(gè)版本有著明顯的改進(jìn)。OpenAI 的所有模型都在持續(xù)不斷的演化,隨時(shí)間推移越來越強(qiáng)。

    這也就意味著,如果只盯著當(dāng)前 ChatGPT 這一個(gè)產(chǎn)品看,無異于刻舟求劍。當(dāng) ChatGPT 出現(xiàn)的時(shí)候,它對已有的語音助手們形成了降維打擊;如果看不到基礎(chǔ)模型的演化,即使花個(gè)一兩年辛辛苦苦做出一個(gè)類似的東西,那時(shí)候 OpenAI 的基礎(chǔ)模型也在繼續(xù)變強(qiáng),如果他們接著產(chǎn)品化,以新的更強(qiáng)的基礎(chǔ)模型 finetune 到一個(gè)更強(qiáng)的產(chǎn)品,難道要再被降維打擊一次嗎?

    刻舟求劍的做法是行不通的。

    1.2 做中國的 OpenAI

    第二種答案是,要做中國的 OpenAI。給出這個(gè)答案的玩家,跳出了經(jīng)典中文互聯(lián)網(wǎng)產(chǎn)品思維。他們不止看到單個(gè)產(chǎn)品,而且還看到了這個(gè)產(chǎn)品背后,基礎(chǔ)模型不斷演化的強(qiáng)大驅(qū)動(dòng)力,來源于尖端人才的密度和先進(jìn)的組織架構(gòu)。

    尖端人才的密度:不是一個(gè)人集資源帶隊(duì)然后把任務(wù)按層級打包分配給底下的人,而是一群頂級的集 science 和 engineering 于一身的人們共同協(xié)作。先進(jìn)的組織架構(gòu):Language 團(tuán)隊(duì)與 Alignment 的團(tuán)隊(duì)相互合作迭代,然后底下 scaling 團(tuán)隊(duì)和 data 團(tuán)隊(duì)幫忙提供基礎(chǔ)設(shè)施,每個(gè) team 都非常小,但目標(biāo)明確路徑清晰,高度集中資源,朝著 AGI 進(jìn)發(fā)

    所以,如果要做這件事情,不只要看到產(chǎn)品,還要看到它背后的人才團(tuán)隊(duì)和組織架構(gòu);按稀缺程度排名的話,人 >> 卡 >> 錢。

    但這里的問題是,不同的土壤對創(chuàng)新的鼓勵(lì)程度是不一樣的。在 OpenAI 剛創(chuàng)立的 2015 年,它的投資者們都相信 AGI ,即使當(dāng)時(shí)看不到什么盈利的點(diǎn)?,F(xiàn)在 GPT 做出來了,國內(nèi)的投資者們也都信了 AGI,但相信的點(diǎn)或許也不一樣:到底是信 AGI 能掙錢,還是信 AGI 能推動(dòng)人類發(fā)展?

    更進(jìn)一步地,即使 OpenAI 就產(chǎn)生在這里,明天就出現(xiàn),但他們跟微軟達(dá)成的 deal,能否跟國內(nèi)的云計(jì)算廠商達(dá)成呢?大模型的訓(xùn)練和推理都需要極大的成本,需要一個(gè)云計(jì)算引擎作為支撐。微軟可以傾盡所有,讓整個(gè) Azure 給 OpenAI 打下手[4],這個(gè)換到國內(nèi),阿里云有可能給一個(gè)創(chuàng)業(yè)公司打下手嗎?

    組織架構(gòu)很重要,只有尖端的人才和先進(jìn)的組織架構(gòu)才能推動(dòng)智能的不斷迭代與進(jìn)化;但它同樣需要跟所在的土壤做適配,尋找可以 flourish 的方法。

    1.3 探索智能的極限

    第三種答案是,要探索智能的極限。這是我聽到的最好的答案。它遠(yuǎn)超刻舟求劍式的經(jīng)典互聯(lián)網(wǎng)產(chǎn)品思維,也看到了組織架構(gòu)和尖端人才密度的重要性,并且更重要地是它看到了未來,看到了模型演化與產(chǎn)品迭代,思考著如何把最深刻,最困難的問題用最創(chuàng)新的方法來解決。

    這就涉及到了思考大模型的極限思維。

    二、極限思維

    觀察現(xiàn)在的 ChatGPT / GPT-3.5 ,它明顯是一個(gè)中間狀態(tài),它還有很多顯著可以加強(qiáng),并且馬上就能加強(qiáng)的點(diǎn),包括:

    更長的輸入框:開始的時(shí)候,GPT 3.5 的上下文最長到八千個(gè) token;現(xiàn)在的 ChatGPT 上下文建模的長度似乎已經(jīng)過萬。并且這個(gè)長度明顯可以接著增長,在融入 efficient attention[5] 和 recursive encoding[6] 的方法之后,context length 應(yīng)該可以接著 scale 到十萬,甚至百萬的長度更大的模型,更大的數(shù)據(jù):模型的大小還沒有到極限,MoE 可以接著把模型 scale 到 T 的量級[7];數(shù)據(jù)的大小還沒有到極限,人類反饋的數(shù)據(jù)每天都在增長多模態(tài):在增加了多模態(tài)數(shù)據(jù)(音頻,圖片),特別是視頻數(shù)據(jù)之后,總體與訓(xùn)練數(shù)據(jù)的大小可以再增大兩個(gè)量級,這個(gè)可以讓已知的能力接著按 scaling law 線性增加,同時(shí)還有可能繼續(xù)出現(xiàn)新的涌現(xiàn)能力。比如可能模型在看過各種幾何形狀的圖片,以及看過代數(shù)題之后,或許會自動(dòng)學(xué)會做解析幾何。專業(yè)化:現(xiàn)有的模型在文科上大概相當(dāng)于研究生水平,但在理科上相當(dāng)于高中或大一大二的學(xué)生水平;已有的工作已經(jīng)證明我們可以把模型的技能點(diǎn)從一個(gè)方向挪到另一個(gè)方向,這就意味著即使不做任何 scaling,我們依然可以在通過犧牲其他方面能力的情況下,把模型朝著目標(biāo)方向推進(jìn)。比如犧牲掉模型的理科能力,把它的文科能力從研究生推到專家教授的水準(zhǔn)。

    以上四點(diǎn)只是現(xiàn)階段可以看到的,馬上就可以加強(qiáng)但暫時(shí)還沒有加強(qiáng)的點(diǎn),隨著時(shí)間的推移和模型的演化,會有更多可以被 scale 的維度進(jìn)一步體現(xiàn)出來。這意味著我們需要有極限的思維,思考當(dāng)我們把能夠拉滿的維度全部拉滿的時(shí)候,模型會是什么樣子。

    2.1 能夠拉滿全部拉滿

    模型的輸入框可以接著加長,模型的大小可以繼續(xù)增大,模型的數(shù)據(jù)可以繼續(xù)增多,多模態(tài)的數(shù)據(jù)可以融合,模型的專業(yè)化程度可以繼續(xù)增高,所有這些維度可以繼續(xù)往上拉,模型還沒有到極限。極限是一個(gè)過程,在這個(gè)過程中模型的能力會怎樣發(fā)展呢?

    Log-linear 曲線:一部分能力的增長會遵循 log-linear 的曲線[8],比如說某項(xiàng)任務(wù)的 finetuning。隨著 finetune 數(shù)據(jù)的指數(shù)增長,模型所對應(yīng)的 finetune 的任務(wù)的能力會線性增長。這部分能力會可預(yù)測地變得更強(qiáng)Phase change 曲線:一部分能力會隨著 scaling 繼續(xù)涌現(xiàn)[9],比如說上文中的模型做解析幾何的例子。隨著可以被拉滿的維度被不斷拉滿,新的,難以預(yù)測的涌現(xiàn)能力會接著出現(xiàn)。多項(xiàng)式曲線?當(dāng)模型強(qiáng)到一定程度,與人類 align 到一定程度之后,或許一些能力的線性增長,所需要的數(shù)據(jù),會突破指數(shù)增長的封鎖,而降低到多項(xiàng)式的量級。也就是說,當(dāng)模型強(qiáng)到一定程度之后,它或許不需要指數(shù)級的數(shù)據(jù),而是只需要多項(xiàng)式級的數(shù)據(jù),就可以完成泛化。這可以從人類的專業(yè)學(xué)習(xí)中觀察到:當(dāng)一個(gè)人還不是領(lǐng)域?qū)<业臅r(shí)候,ta 需要指數(shù)級的數(shù)據(jù)來學(xué)習(xí)領(lǐng)域的知識;當(dāng)一個(gè)人已經(jīng)是領(lǐng)域?qū)<业臅r(shí)候了,ta 只需要很少量級的數(shù)據(jù)就自己迸發(fā)出新的靈感和知識。

    所以,在極限思維下,把所有能拉滿的維度全部拉滿,模型注定會越來越強(qiáng),出現(xiàn)越來越多的涌現(xiàn)能力。

    2.2 反推中間過程

    在思考清楚極限的過程之后,就可以從極限狀態(tài)往后反推中間過程。比如說,如果我們希望增長輸入框的大?。?/p>如果希望把模型的輸入框從千的量級增長到萬的量級,可能只需要增加顯卡數(shù)量,進(jìn)行顯存優(yōu)化就能實(shí)現(xiàn)。如果希望接著把輸入框從萬的量級增長到十萬的量級,可能需要linear attention[10]的方法,因?yàn)榇藭r(shí)加顯存應(yīng)該也架不住 attention 運(yùn)算量隨輸入框長度的二次增長。如果希望接著把輸入框從十萬的量級增長到百萬的量級,可能需要recursive encoding [11]的方法和增加long-term memory [12]的方法,因?yàn)榇藭r(shí) linear attention 可能也架不住顯存的增長。

    以這種方式,我們可以反推不同階段的 scaling 需要怎樣的技術(shù)。以上分析不止適用于輸入框的長度,也適用于其他因素的 scaling 的過程。

    這樣的話,我們可以得到清晰的從現(xiàn)階段的技術(shù)到 scaling 的極限的每個(gè)中間階段的技術(shù)路線圖。

    2.3 按模型演化進(jìn)程產(chǎn)品化

    模型在不斷演化,但產(chǎn)品化不需要等到最終那個(gè)模型完成 — 每當(dāng)模型迭代出來一個(gè)大的版本,都可以產(chǎn)品化。以 OpenAI 的產(chǎn)品化過程為例:

    2020 年,初代 GPT 3 訓(xùn)練完成,開放 OpenAI API[13]2021 年,初代 Codex 訓(xùn)練完成,開放 Github Copilot[14]2022 年,GPT-3.5 訓(xùn)練完成,以 dialog 數(shù)據(jù) finetune 成 ChatGPT 然后發(fā)布

    可以看到,在中間階段的每一個(gè)重要版本,模型的能力都會增強(qiáng),都存在產(chǎn)品化的機(jī)會。

    更加重要的是,按照模型演化進(jìn)程產(chǎn)品化,可以在產(chǎn)品化的階段適配市場。學(xué)習(xí) OpenAI 的組織架構(gòu)來推進(jìn)模型演化本身,但產(chǎn)品化可以按照本土市場的特征來。這種方式或許可以既學(xué)到 OpenAI 的先進(jìn)經(jīng)驗(yàn),又避免水土不服的問題。

    三、人工智能顯著超過人類的點(diǎn)

    到目前為止,我們討論了要用模型演化的視角來分析模型,要用極限的思維討論模型的演化歷程?,F(xiàn)階段馬上可以加強(qiáng)的點(diǎn)包括了輸入框的長度,更大的模型和數(shù)據(jù),多模態(tài)數(shù)據(jù),和模型的專業(yè)化程度。現(xiàn)在讓我們再把視野放得更長期些,思考在更大的時(shí)間和空間中,模型如何進(jìn)一步地往極限推。我們討論:

    并行感知:一個(gè)人類研究員一次順序地讀四五篇論文已經(jīng)是極限,但模型輸入框變長之后,可以在極短的時(shí)間內(nèi)并行閱讀一百篇論文。這意味著,模型對外部信息的感知能力遠(yuǎn)超人類一個(gè)數(shù)量級。記憶遺傳:人類的演化過程中,子代只繼承父代的基因,但不繼承父代的記憶,這意味著每一次生殖都需要重啟一次;在模型的演化過程中,子代可以繼承父代的記憶,并且這個(gè)繼承的程度可控:我們可以設(shè)置子代繼承 100%,50%,20% 的記憶,或清空記憶,這意味著父代的經(jīng)驗(yàn)和技能可以不斷累積加速時(shí)間:人類相互交流的速率是受到人類說話的物理速度限制的,而模型相互交流的速率可以遠(yuǎn)快于人類,這意味著模型可以通過相互交流來解決人類數(shù)據(jù)隨時(shí)間線性增長的問題;人類演化的過程受到物理時(shí)間的限制,模型的演化可以比人類的物理時(shí)間快上幾個(gè)數(shù)量級,這意味著模型的進(jìn)步速度可以遠(yuǎn)快于人類無限生命:一個(gè)人的生命有限,百年之后終歸塵土,但模型的權(quán)重只要不丟失,就可以不斷地演化

    從這些角度來說,人工智能超過人類并不是一件難以想象的事情。這就引發(fā)了下一個(gè)問題:如何駕馭遠(yuǎn)超人類的強(qiáng)人工智能?

    這個(gè)問題,是 Alignment 這項(xiàng)技術(shù)真正想要解決的問題。

    四、Alignment 對齊

    當(dāng)前階段,模型的能力,除了 AlphaGo 在圍棋上超過了最強(qiáng)人類之外,其他方面的 AI 并沒有超過最強(qiáng)的人類(但 ChatGPT 在文科上或許已經(jīng)超過了 95% 的人類,且它還在繼續(xù)增長)。在模型還沒超過人類的時(shí)候,Alignment 的任務(wù)是讓模型符合人類的價(jià)值觀和期望;但當(dāng)模型繼續(xù)演化到超過人類之后,Alignment 的任務(wù)就變成了尋找駕馭遠(yuǎn)超人類的智能體的方法。

    4.1 Alignment 作為駕馭遠(yuǎn)超人類的智能體的方法

    一個(gè)顯然的問題是,當(dāng) AI 超過人類之后,還可以通過人類反饋?zhàn)?ta 更強(qiáng) / 更受約束嗎?是不是這個(gè)時(shí)候就已經(jīng)管不了了?

    不一定,即使模型遠(yuǎn)超人類,我們依然又可能駕馭 ta,這里的一個(gè)例子是運(yùn)動(dòng)員和教練之間的關(guān)系:金牌運(yùn)動(dòng)員在 ta 的方向上已經(jīng)是最強(qiáng)的人類了,但這并不意味著教練就不能訓(xùn)練 ta。相反,即使教練不如運(yùn)動(dòng)員,ta 依然可以通過各種反饋機(jī)制讓運(yùn)動(dòng)員變得更強(qiáng)且更有紀(jì)律。

    類似地,人類和強(qiáng)人工智能的關(guān)系,在 AI 發(fā)展的中后期,可能會變成運(yùn)動(dòng)員和教練之間的關(guān)系。這個(gè)時(shí)候,人類需要的能力并不是完成一個(gè)目標(biāo),而是設(shè)定一個(gè)好的目標(biāo),然后衡量機(jī)器是否足夠好地完成了這個(gè)目標(biāo),并給出改進(jìn)意見。

    這個(gè)方向的研究還非常初步,這個(gè)新學(xué)科的名字,叫 Scalable Oversight[15].

    4.2 Alignment 與組織架構(gòu)

    在通往強(qiáng)人工智能的路上,不只是需要人類與 AI 對齊,人類與人類,也需要高度的對齊。從組織架構(gòu)的角度,alignment 涉及到:

    Pretraining 團(tuán)隊(duì)與 instruction tuning - alignment 團(tuán)隊(duì)之間的對齊:這兩者應(yīng)該是一個(gè)相互迭代的過程,pretraining 團(tuán)隊(duì)不斷地 scale 基礎(chǔ)模型,alignment 團(tuán)隊(duì)為基礎(chǔ)模型做 instruction tuning,同時(shí)用得到的結(jié)果反向指導(dǎo) pretraning 團(tuán)隊(duì)的方向。Pretraining / Alignment 團(tuán)隊(duì)與 Scaling / Data 團(tuán)隊(duì)的對齊:scaling 負(fù)責(zé)為 pretraining /alignment 做好基礎(chǔ)設(shè)施,data 做好高質(zhì)量數(shù)據(jù)與人類反饋數(shù)據(jù)。創(chuàng)業(yè)公司與 VC 的對齊:AGI 是一個(gè)困難的事情,需要長期的投入,這需要各個(gè)方面的人都有足夠的耐心和足夠高的視野。燒一趟熱錢后催產(chǎn)品化然后占滿市場的邏輯在大模型時(shí)代應(yīng)該已經(jīng)不復(fù)存在了。大模型的游戲要求 ta 的玩家們有足夠高的視野與格局,模型的演化會讓有足夠耐心的,踏實(shí)做事人們在長期得到豐厚的回報(bào),也會讓只看短期刻舟求劍的人們一次又一次被降維打擊。

    五、結(jié)語

    在 2017 年,我剛剛?cè)胄?NLP 的時(shí)候,花了很大的力氣做可控生成這件事情。那個(gè)時(shí)候所謂的 text style transfer 最多就是把句子情感分類改一改,把 good 改成 bad 就算是完成了 transfer。2018 年我花了大量的時(shí)間研究如何讓模型從句子結(jié)構(gòu)的角度修改句子的風(fēng)格,一度誤認(rèn)為風(fēng)格轉(zhuǎn)換是幾乎不可能完成的事情。而今 ChatGPT 做風(fēng)格轉(zhuǎn)換簡直信手拈來。那些曾經(jīng)看似不可能完成的任務(wù),曾經(jīng)極其困難的事情,今天大語言模型非常輕松地就能完成。在 2022 年一整年,我追蹤了從 GPT-3 到 GPT-3.5 的全部版本迭代[11],親眼看到它一步步地從弱到強(qiáng)不斷演化。這個(gè)演化速度并沒有變慢,反而正在加快。那些原先看來科幻的事情,現(xiàn)在已經(jīng)成為現(xiàn)實(shí)。誰會知道未來會怎樣呢?

    彼黍離離,彼稷之苗。行邁靡靡,中心搖搖。

    彼黍離離,彼稷之穗。行邁靡靡,中心如醉。

    ——— 《詩經(jīng)?黍離》


    推薦閱讀:

    誰能做出中國版ChatGPT?怎么做?

    品牌vi設(shè)計(jì)包括哪些內(nèi)容

    商標(biāo)是什么樣子圖片(商標(biāo)是什么樣子圖片)