正文

gpt訓練成本（gpt3 訓練成本）

發(fā)布時間：2023-03-12 18:40:29 稿源：創(chuàng)意嶺閱讀： 129 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于gpt訓練成本的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內(nèi)免費在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、gp7試用版區(qū)別
2、毫末布局大模型、智算中心自動駕駛新基建如何筑成？
3、GPT的auto-regressive語言模型架構(gòu)在信息表示方面有什么架構(gòu)上的缺陷？具體如何改進？
4、gpt2和cpm2哪個好

gpt訓練成本（gpt3 訓練成本）

一、gp7試用版區(qū)別

您好，GPT-7試用版與正式版的主要區(qū)別在于GPT-7試用版的訓練數(shù)據(jù)量較少，而正式版的訓練數(shù)據(jù)量則較多。GPT-7試用版的訓練數(shù)據(jù)量約為2.7TB，而正式版的訓練數(shù)據(jù)量則高達175TB。此外，GPT-7試用版的訓練時間也較短，只需要幾個小時，而正式版的訓練時間則需要幾天甚至幾周。此外，GPT-7試用版的準確率也較低，而正式版的準確率則較高?？傊?，GPT-7試用版與正式版的主要區(qū)別在于訓練數(shù)據(jù)量、訓練時間以及準確率方面。

二、毫末布局大模型、智算中心自動駕駛新基建如何筑成？

2023伊始，先是開年毫末智行舉辦HAOMOAIDAY，放出自動駕駛行業(yè)最大智算中心，再有

智算中心即智能計算中心，是基于人工智能理論，采用領(lǐng)先的AI計算架構(gòu)，提供人工智能應(yīng)用所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的公共算力新型基礎(chǔ)設(shè)施，換句話說，智算中心其實是一個算力的供應(yīng)和生產(chǎn)平臺。那為什么有了它“自動輔助駕駛”就可以變?yōu)椤白詣玉{駛”了？

“降服”自動駕駛邊際成本自動駕駛智算中心“專云專用”

有人說，智算中心是自動駕駛發(fā)展的助推器，因為自動駕駛算法模型訓練是機器學習的典型場景之一，其視覺檢測、軌跡預(yù)測與行車規(guī)劃等算法模型需要同時完成高并發(fā)的并行計算，對算力有著極高的需求，而智算為提高算法模型的成熟度提供了巨大的算力。

在自動駕駛領(lǐng)域，說起智算中心，還得先提

國內(nèi)方面，2022年8月，小鵬汽車和阿里云合建了當時國內(nèi)最大的自動駕駛智算中心“扶搖”，專門用于自動駕駛模型訓練，算力規(guī)模達600PFLOPS，相當于每秒可以完成60億億次浮點運算。不過這個記錄僅僅維持了4個多月。

今年1月，毫末智行聯(lián)合火山引擎，共同推出自動駕駛行業(yè)最大的智算中心MANA OASIS（雪湖·綠洲），每秒浮點運算達67億億次，存儲帶寬每秒2T，通信帶寬每秒800G。吉利也在1月28日上線了吉利星睿智算中心，目前已接入智能駕駛和車聯(lián)網(wǎng)實驗數(shù)據(jù)近百PB，在線車輛的并發(fā)計算支持達百萬輛。

從現(xiàn)有情形來看，成本和需求兩重因素，是智算中心的誘人之處。

成本層面，算力作為自動駕駛的基本要素，需要更高性能的智算中心來完成訓練、標注等工作。以毫末的MANA OASIS為例，通過部署Lego高性能算子庫、ByteCCL通信優(yōu)化能力，以及大模型訓練框架，軟硬一體，毫末把算力優(yōu)化到極致。在訓練效率方面，基于Sparse MoE，通過跨機共享，輕松完成千億參數(shù)大模型訓練，且百萬個clips（毫末視頻最小標注單位）訓練成本只需百卡周級別，訓練成本降低100倍。

搭建高效、低成本的數(shù)據(jù)智能體系是自動駕駛技術(shù)健康發(fā)展的基礎(chǔ)，也是自動駕駛系統(tǒng)能夠不斷迭代前行的重要環(huán)節(jié)，更是自動駕駛商業(yè)化閉環(huán)的關(guān)鍵所在。

小鵬汽車董事長何小鵬曾表態(tài)，“如果現(xiàn)在不以這樣的方式（智算中心）提前儲備算力，那么今后5年內(nèi)，企業(yè)算力成本會從億級，加到數(shù)十億級?！?/p>

如果持續(xù)使用公有云服務(wù)，邊際成本不斷上漲只是一方面，更重要的是，智算中心可以讓自動駕駛企業(yè)實現(xiàn)“專云專用”。自動駕駛的開發(fā)包括從數(shù)據(jù)采集到數(shù)據(jù)篩選、打標、模型訓練、回放性驗證、仿真測試等等環(huán)節(jié)。而云計算的本質(zhì)是租賃計算設(shè)備，云服務(wù)商的設(shè)備都是統(tǒng)一采購，為了獲得更多客戶，這些設(shè)備都具備很大的通用性，設(shè)備內(nèi)部使用的CPU、GPU/AI加速器、內(nèi)存的型號與規(guī)格都相對固定，很難與車企和自動駕駛公司的算法形成最佳匹配。并且，云服務(wù)廠商對自動駕駛算法的了解程度不高，不可避免的會在調(diào)度算力時出現(xiàn)損耗和效率不高的問題。所以，從需求的角度來看，智算中心似乎可以成為自動駕駛和車企的托底神器。

同樣以毫末為例，有了MANA OASIS的加持，毫末MANA五大模型全新亮相升級，車端感知架構(gòu)實現(xiàn)跨代升級，毫末的技術(shù)棧布局繼續(xù)保持完整領(lǐng)先的態(tài)勢，尤其在感知、認知等層面領(lǐng)跑行業(yè)，引領(lǐng)大模型、大算力、大數(shù)據(jù)發(fā)展方向，沖刺進入自動駕駛3.0時代。

拿數(shù)據(jù)采集、篩選和標注來說，自動駕駛系統(tǒng)在前期開發(fā)階段，需要采集大量的道路環(huán)境數(shù)據(jù)，以此讓車輛像人類駕駛員一樣快速準確地識別車道、行人、障礙物等駕駛環(huán)境中的關(guān)鍵信息。唯一的辦法是，通過在海量數(shù)據(jù)基礎(chǔ)上不斷的重復訓練與驗證，車輛對道路環(huán)境的認知水平逐漸趨近于真實情景，判斷的準確性在這一過程中不斷提升。

不僅如此，車企收集到的數(shù)據(jù)還需要進行模型訓練，算法通過在數(shù)據(jù)上進行運算產(chǎn)生模型，而智算中心將是驅(qū)動大模型和海量數(shù)據(jù)訓練的加速器。基于Sparse MoE，毫末根據(jù)計算特點，進行稀疏激活，提高計算效率，實現(xiàn)單機8卡就能訓練百億參數(shù)大模型的效果，實現(xiàn)跨機共享exper的方法，完成千億參數(shù)規(guī)模大模型的訓練，訓練成本降低到百卡周級別；毫末設(shè)計并實現(xiàn)了業(yè)界領(lǐng)先的多任務(wù)并行訓練系統(tǒng)，能同時處理圖片、點云、結(jié)構(gòu)化文本等多種模態(tài)的信息，既保證了模型的稀疏性、又提升了計算效率；MANA OASIS訓練效率提升了100倍。

毫末智行CEO顧維灝也在詳細闡釋了建設(shè)智算中心的底層邏輯：“自動駕駛對智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的AI工程師在這個練武場中能夠做出什么大模型，能訓練多少大模型?！?/p>

智能輔助駕駛“進城” MANA OASIS幫助毫末解決了哪些難題？

現(xiàn)在很多車企和自動駕駛技術(shù)企業(yè)已經(jīng)開始把打造智算中心當成下一階段競爭重點。今年1月的HAOMO AI DAY上，毫末智行董事長張凱給出了2023年自動駕駛行業(yè)趨勢的十大新預(yù)測，超算中心赫然位列其中，“超算中心會成為自動駕駛企業(yè)的入門配置?！?/p>

事實上，當下，隨著新能源汽車品牌普遍已經(jīng)把高速公路場景下的輔助駕駛列為標配，賽場已經(jīng)悄然從高速路轉(zhuǎn)向城市。與高速導航輔助駕駛相比，城市行車涉及了紅綠燈、十字路口、行人電動車、遮擋、固定障礙物、頻繁剎停起步等一系列難題，復雜度又提升了好幾個數(shù)量級。

如果僅用實測車輛去挑戰(zhàn)這些城市場景無法窮盡的Corner Case，成本、安全性、時間都將成為企業(yè)發(fā)展的壁壘。由此，虛擬仿真就成為了解決部分成本及場景多樣性的關(guān)鍵，其中，大規(guī)模的長尾場景需要數(shù)據(jù)中心提供充足的算力支持。同時，仿真場景對現(xiàn)實的回歸過程，同樣需要巨大的算力提供支持。

在MANA OASIS的加持下，毫末的數(shù)據(jù)智能體系MANA五大模型全新亮相升級。而在五大模型助力下，MANA最新的車端感知架構(gòu)，從過去分散的多個下游任務(wù)集成到了一起，形成一個更加端到端的架構(gòu)，包括通用障礙物識別、局部路網(wǎng)、行為預(yù)測等任務(wù)，毫末車端感知架構(gòu)實現(xiàn)了跨代升級。這也意味著毫末的感知能力更強，產(chǎn)品力更強，向全無人駕駛加速邁進。

首先是視覺自監(jiān)督大模型，讓毫末在中國首個實現(xiàn)4D Clip的自動標注。毫末利用海量videoclip，通過視頻自監(jiān)督方式，預(yù)訓練出一個大模型，用少量人工標注好的clip數(shù)據(jù)進行Finetune（微調(diào)），訓練檢測跟蹤模型，使得模型具備自動標注的能力；然后，將已經(jīng)標注好的千萬級單幀數(shù)據(jù)所對應(yīng)的原始視頻提取出來組織成clip，其中10%是標注幀，90%是未標注幀，再將這些clip輸入到模型，完成對90%未標注幀的自動標注，進而實現(xiàn)所有單幀標注向clip標注的100%的自動轉(zhuǎn)化，同時降低98%的clip標注成本。毫末視頻自監(jiān)督大模型的泛化性效果極佳，即使是在一些非常困難的場景，例如嚴重遮擋的騎行者，遠處的小目標，惡劣的天氣和光照，都能準確地完成自動標注。

其次是3D重建大模型，助力毫末做數(shù)據(jù)生成，用更低成本解決數(shù)據(jù)分布問題，提升感知效果。面對“完全從真實數(shù)據(jù)中積累corner case困難且昂貴”的行業(yè)難題，毫末將NeRF技術(shù)應(yīng)用在自動駕駛場景重建和數(shù)據(jù)生成中，它通過改變視角、光照、紋理材質(zhì)的方法，生成高真實感數(shù)據(jù)，實現(xiàn)以低成本獲取normal case，生成各種高成本corner case。3D重建大模型生成的數(shù)據(jù)，不僅比傳統(tǒng)的人工顯式建模再渲染紋理的方法效果更好、成本更低。增加NeRF生成的數(shù)據(jù)后，還可將感知的錯誤率降低30%以上，且數(shù)據(jù)生成可實現(xiàn)全程自動化，無需任何人工參與。

多模態(tài)互監(jiān)督大模型則可以完成通用障礙物的識別。毫末在成功實現(xiàn)車道線和常見障礙物的精準檢測后，針對城市多種異形障礙物的穩(wěn)定檢測問題，毫末正在思考和探索更加通用的解決方案。目前，毫末的多模態(tài)互監(jiān)督大模型，引入了激光雷達作為視覺監(jiān)督信號，直接使用視頻數(shù)據(jù)來推理場景的通用結(jié)構(gòu)表達。該通用結(jié)構(gòu)的檢測，可以很好地補充已有的語義障礙物檢測，有效提升自動駕駛系統(tǒng)在城市復雜工況下的通過率。

動態(tài)環(huán)境大模型，可以精準預(yù)測道路的拓撲關(guān)系，讓車輛始終行駛在正確的車道中。在重感知技術(shù)路線下，毫末為了將對高精地圖的依賴度降到最低，面臨著“道路拓撲結(jié)構(gòu)實時推斷”的挑戰(zhàn)。為此，毫末在BEV的feature map（特征圖）基礎(chǔ)上，以標精地圖作為引導信息，使用自回歸編解碼網(wǎng)絡(luò)，將BEV特征，解碼為結(jié)構(gòu)化的拓撲點序列，實現(xiàn)車道拓撲預(yù)測。讓毫末的感知能力，能像人類一樣在標準地圖的導航提示下，就可以實現(xiàn)對道路拓撲結(jié)構(gòu)的實時推斷。

毫末認為，解決了路口問題實際就解決了大部分城市NOH問題。目前在保定、

仿真測試能有效縮短技術(shù)和產(chǎn)品開發(fā)周期，降低研發(fā)成本。業(yè)內(nèi)典型的長尾場景問題不夠豐富，現(xiàn)實中可遇而不可求的極端場景，利用仿真平臺可以便捷生成。由于仿真測試中的模擬環(huán)境需要實現(xiàn)多模態(tài)融合，以支持傳感器模組的復雜性，因而也需要大算力的支持。

除了毫末，特斯拉超算中心擁有近2萬張GPU，對自動駕駛訓練效率產(chǎn)生立竿見影的效果，最大限度地提升了自動駕駛系統(tǒng)的開發(fā)效率；大陸集團的高算力集群，將開發(fā)周期從幾周縮短至幾個小時，使自動駕駛得以在中短期商業(yè)計劃中落實；機器學習時間的縮短加快了新科技進入市場的速度；“扶搖”支持小鵬自動駕駛核心模型的訓練時長從7天縮短至1小時內(nèi)，大幅提速近170倍……

當前，一個不爭的事實就是，在自動駕駛領(lǐng)域具有長期規(guī)劃的車企，無論是造車新勢力還是傳統(tǒng)品牌，或者技術(shù)供應(yīng)商，都在搭建自己的超算中心，以掌握穩(wěn)定的算力資源，縮短開發(fā)周期，加快自動駕駛產(chǎn)品的上市。相反，如果沒有超算中心，那么自動駕駛訓練速度將明顯放緩，自動駕駛企業(yè)間的差距也將愈發(fā)明顯。

用智算中心打造數(shù)據(jù)護城河數(shù)字新基建逐步成為發(fā)展“標配”

自動駕駛發(fā)展至今，業(yè)界發(fā)現(xiàn)乘用車智能輔助駕駛是最有可能大規(guī)模鋪開的商業(yè)場景。據(jù)高工智能汽車研究院數(shù)據(jù)顯示，2022年中國市場（不含進出口）乘用車前裝標配搭載L2級輔助駕駛的搭載率，已經(jīng)連續(xù)第二個月超過30%。智研咨詢數(shù)據(jù)顯示，預(yù)計到2025年，全球新車L2自動駕駛的滲透率可達53.99％。

今年，城市導航輔助駕駛也開啟了量產(chǎn)的征程。西部證券預(yù)測，2023～2025年，國內(nèi)市場上搭載城市導航輔助駕駛的車型將分別達到70萬、169萬和348萬輛，占比將分別達到17％、40％和70％。

在城市導航輔助駕駛落地加速的背景下，更容易復制、拓展的重感知的方案，受到了更多關(guān)注。在重感知技術(shù)路線下，面對“道路拓撲結(jié)構(gòu)實時推斷”的挑戰(zhàn)，毫末的選擇是在特征圖基礎(chǔ)上，以標精地圖作為引導信息，使用自回歸編解碼網(wǎng)絡(luò)，通過結(jié)構(gòu)化的拓撲點序列解碼，實現(xiàn)車道拓撲預(yù)測。由此不難看出，業(yè)界逐漸達成共識的重感知路線，相比高精地圖方案，更依賴算力加持。

人工智能是創(chuàng)新的加速器，智算中心則可以為各類技術(shù)創(chuàng)新提供支撐。一方面，智算中心可以為構(gòu)建安全可信、可復用的技術(shù)研發(fā)環(huán)境提供算力設(shè)施支撐，為各領(lǐng)域科技研發(fā)提供智能計算服務(wù)，加速科技研發(fā)的進程；另一方面，智算中心是新一代信息技術(shù)的集成應(yīng)用載體，智算中心的快速建設(shè)推廣與規(guī)?；瘧?yīng)用將推動通信服務(wù)網(wǎng)絡(luò)、大數(shù)據(jù)、人工智能等技術(shù)的快速迭代，從而促進技術(shù)創(chuàng)新。自動駕駛數(shù)據(jù)是片段式的，特點是小文件多，達到百億個，而且訓練需要交換的數(shù)據(jù)多，智算中心可以提供充足的帶寬，并且可以讓自動駕駛模型擁有更好的并行計算框架，在訓練的時候把硬件資源都利用起來。

2020年4月20日，國家發(fā)展改革委首次明確新型基礎(chǔ)設(shè)施的范圍，其中就包括以智能計算中心為代表的算力基礎(chǔ)設(shè)施。2023年1月10日，國家工業(yè)信息安全發(fā)展研究中心推出《智能計算中心2.0時代展望報告》，指出經(jīng)過5年多發(fā)展，智算中心正由1.0粗放擴張階段走向2.0精細規(guī)劃階段。

根據(jù)相關(guān)統(tǒng)計和測算，目前全國超過30個城市在建或籌建智算中心，未來5年我國智能算力規(guī)模年復合增長率將達52.3%。智算中心的創(chuàng)新發(fā)展，將進一步為人工智能夯實“算力底座”，成為帶動人工智能及相關(guān)產(chǎn)業(yè)快速發(fā)展的新引擎。

“我們測算，智算中心帶來的成本優(yōu)化是驚人的，將達到億元級別?！边@是今年1月，張凱提出的預(yù)測。從目前及未來的規(guī)劃量產(chǎn)規(guī)模來看，毫末自建智算中心可節(jié)約巨額成本；同時，其帶來的效率提升也非常明顯。

人工智能發(fā)展很快，新的算法層出不窮，需盡快引入新的技術(shù)和模型，與此同時，數(shù)據(jù)是智能化發(fā)展最大的驅(qū)動力，也占據(jù)了大量成本構(gòu)成。用自建智算中心來打造數(shù)據(jù)護城河，不僅能夠完善產(chǎn)業(yè)智能生態(tài)，更能讓企業(yè)在智能化方面占據(jù)先發(fā)優(yōu)勢，智算中心作為數(shù)字新基建，未來勢必將引領(lǐng)自動駕駛技術(shù)持續(xù)迭代升級。

【本文來自易車號作者車業(yè)視界，版權(quán)歸作者所有,任何形式轉(zhuǎn)載請聯(lián)系作者。內(nèi)容僅代表作者觀點，與易車無關(guān)】

三、GPT的auto-regressive語言模型架構(gòu)在信息表示方面有什么架構(gòu)上的缺陷？具體如何改進？

1） GPT

在Bert 之后，OpenAI 的 GPT-2 就是其中之一。它在文本生成上有著驚艷的表現(xiàn)，其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預(yù)期。僅從模型架構(gòu)而言，GPT-2 并沒有特別新穎的架構(gòu)，它和 transformer 的 Decoder 類似。相比較于GPT-1，GPT -2 使用了更大的預(yù)料，更大和更深的模型。

從transformer的decoder里移除了decoder對encoder的attention部分。也就是消除掉了seq2seq的過程。

GPT是一個語言模型，每一個時刻只能看見當前時刻前面時刻的信息，是一個auto regressive的過程。

GPT2，hidden state的大小有變化，根據(jù)層數(shù)的多少有small，medum，large，extra large的劃分。

GPT的訓練過程是交叉式的預(yù)測下一個單詞，測試的時候是輸入一個句子生成另外一個句子。

GPT的預(yù)訓練就是訓練一個語言模型。而bert的預(yù)訓練是masked language model和nsp的任務(wù)。

GPT由多個decocer block組成，每一個decoder block由masked self-attention和feed forward neural network組成。

一個timestamp的hidden state經(jīng)過線性層轉(zhuǎn)換為vocab size大小的embedding，然后經(jīng)過softmax，算出每個詞匯的概率，找出其中概率最大的詞作為預(yù)測輸出，然后下一個時刻的詞作為真實輸出，計算兩者的cross entropy來訓練模型。

每一個timestamp后面的位置都mask掉，設(shè)置一個負無群大的值，做softmax的時候，該位置的值就為0。

2）總結(jié)

transformer decoder的構(gòu)造
預(yù)訓練的時候做語言模型的訓練
GPT2用更多更深的block
BERT是做NLU，generation做不了
GPT天生就是語言模型，非常適合做generation的任務(wù)，在bert里能做的在gpt里也可以做

除了GPT-2 ，GPT-3依舊延續(xù)自己的單向語言模型訓練方式，只不過把模型尺寸增大到了1750億，并且使用45TB數(shù)據(jù)進行訓練

四、gpt2和cpm2哪個好

gpm2好。CPM2即大規(guī)模高效預(yù)訓練語言模型,CPM-2的高效預(yù)訓練框架圍繞三個部分進行,模型預(yù)訓練,模型微調(diào)和模型推理。CPM2是一個擁有110億參數(shù)的通用中英文雙語預(yù)訓練語言模型，基于encoder至decoder架構(gòu)。CPM2具有7種通用語言能力。

以上就是關(guān)于gpt訓練成本相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。