HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    預(yù)訓(xùn)練模型是什么意思(預(yù)訓(xùn)練模型的作用)

    發(fā)布時(shí)間:2023-03-14 00:09:33     稿源: 創(chuàng)意嶺    閱讀: 100        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于預(yù)訓(xùn)練模型是什么意思的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。

    ChatGPT國內(nèi)免費(fèi)在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    本文目錄:

    預(yù)訓(xùn)練模型是什么意思(預(yù)訓(xùn)練模型的作用)

    一、自然語言處理基礎(chǔ)知識(shí)

    NLP 是什么?

    NLP 是計(jì)算機(jī)科學(xué)領(lǐng)域與 人工智能 領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的學(xué)科。NLP 由兩個(gè)主要的技術(shù)領(lǐng)域構(gòu)成:自然語言理解和自然語言生成。

    自然語言理解方向,主要目標(biāo)是幫助機(jī)器更好理解人的語言,包括基礎(chǔ)的詞法、句法等語義理解,以及需求、篇章、情感層面的高層理解。

    自然語言生成方向,主要目標(biāo)是幫助機(jī)器生成人能夠理解的語言,比如文本生成、自動(dòng)文摘等。

    NLP 技術(shù)基于大數(shù)據(jù)、知識(shí)圖譜、 機(jī)器學(xué)習(xí) 、語言學(xué)等技術(shù)和資源,并可以形成機(jī)器翻譯、深度問答、對(duì)話系統(tǒng)的具體應(yīng)用系統(tǒng),進(jìn)而服務(wù)于各類實(shí)際業(yè)務(wù)和產(chǎn)品。

    NLP在金融方面

    金融行業(yè)因其與數(shù)據(jù)的高度相關(guān)性,成為人工智能最先應(yīng)用的行業(yè)之一,而NLP與知識(shí)圖譜作為人工智能技術(shù)的重要研究方向與組成部分,正在快速進(jìn)入金融領(lǐng)域,并日益成為智能金融的基石。輿情分析輿情主要指民眾對(duì)社會(huì)各種具體事物的情緒、意見、價(jià)值判斷和愿望等。

    事件(Event ):在特定時(shí)間、特定地點(diǎn)發(fā)生的事情。主題(Topic):也稱為話題,指一個(gè)種子事件或活動(dòng)以及與它直接相關(guān)的事件和活動(dòng)。專題(Subject):涵蓋多個(gè)類似的具體事件或根本不涉及任何具體事件。需要說明的是,國內(nèi)新聞網(wǎng)站新浪、搜狐等所定義的“專題”概念大多數(shù)等同于我們的“主題”概念。熱點(diǎn):也可稱為熱點(diǎn)主題。熱點(diǎn)和主題的概念比較接近,但有所區(qū)別。

    1. 詞干提取

    什么是詞干提?。吭~干提取是將詞語去除變化或衍生形式,轉(zhuǎn)換為詞干或原型形式的過程。詞干提取的目標(biāo)是將相關(guān)詞語還原為同樣的詞干,哪怕詞干并非詞典的詞目。

    2. 詞形還原

    什么是詞形還原? 詞形還原是將一組詞語還原為詞源或詞典的詞目形式的過程。還原過程考慮到了POS問題,即詞語在句中的語義,詞語對(duì)相鄰語句的語義等。

    3. 詞向量化什么是詞向量化?詞向量化是用一組實(shí)數(shù)構(gòu)成的向量代表自然語言的叫法。這種技術(shù)非常實(shí)用,因?yàn)殡娔X無法處理自然語言。詞向量化可以捕捉到自然語言和實(shí)數(shù)間的本質(zhì)關(guān)系。通過詞向量化,一個(gè)詞語或者一段短語可以用一個(gè)定維的向量表示,例如向量的長度可以為100。

    4. 詞性標(biāo)注

    什么是詞性標(biāo)注?簡(jiǎn)單來說,詞性標(biāo)注是對(duì)句子中的詞語標(biāo)注為名字、動(dòng)詞、形容詞、副詞等的過程。

    5. 命名實(shí)體消歧

    什么是命名實(shí)體消岐?命名實(shí)體消岐是對(duì)句子中的提到的實(shí)體識(shí)別的過程。例如,對(duì)句子“Apple earned a revenue of 200 Billion USD in 2016”,命名實(shí)體消岐會(huì)推斷出句子中的Apple是蘋果公司而不是指一種水果。一般來說,命名實(shí)體要求有一個(gè)實(shí)體知識(shí)庫,能夠?qū)⒕渥又刑岬降膶?shí)體和知識(shí)庫聯(lián)系起來。

    6. 命名實(shí)體識(shí)別

    體識(shí)別是識(shí)別一個(gè)句子中有特定意義的實(shí)體并將其區(qū)分為人名,機(jī)構(gòu)名,日期,地名,時(shí)間等類別的任務(wù)。   

    7. 情感分析

    什么是情感分析?情感分析是一種廣泛的主觀分析,它使用自然語言處理技術(shù)來識(shí)別客戶評(píng)論的語義情感,語句表達(dá)的情緒正負(fù)面以及通過語音分析或書面文字判斷其表達(dá)的情感等等。

    8. 語義文本相似度

    什么是語義文本相似度分析?語義文本相似度分析是對(duì)兩段文本的意義和本質(zhì)之間的相似度進(jìn)行分析的過程。注意,相似性與相關(guān)性是不同的。

    9.語言識(shí)別

    什么是語言識(shí)別?語言識(shí)別指的是將不同語言的文本區(qū)分出來。其利用語言的統(tǒng)計(jì)和語法屬性來執(zhí)行此任務(wù)。語言識(shí)別也可以被認(rèn)為是文本分類的特殊情況。

    10. 文本摘要

    什么是文本摘要?文本摘要是通過識(shí)別文本的重點(diǎn)并使用這些要點(diǎn)創(chuàng)建摘要來縮短文本的過程。文本摘要的目的是在不改變文本含義的前提下最大限度地縮短文本。

    11.評(píng)論觀點(diǎn)抽取

    自動(dòng)分析評(píng)論關(guān)注點(diǎn)和評(píng)論觀點(diǎn),并輸出評(píng)論觀點(diǎn)標(biāo)簽及評(píng)論觀點(diǎn)極性。目前支持 13 類產(chǎn)品用戶評(píng)論的觀點(diǎn)抽取,包括美食、酒店、汽車、景點(diǎn)等,可幫助商家進(jìn)行產(chǎn)品分析,輔助用戶進(jìn)行消費(fèi)決策。

    11.DNN 語言模型

    語言模型是通過計(jì)算給定詞組成的句子的概率,從而判斷所組成的句子是否符合客觀語言表達(dá)習(xí)慣。在機(jī)器翻譯、拼寫糾錯(cuò)、語音識(shí)別、問答系統(tǒng)、詞性標(biāo)注、句法分析和信息檢索等系統(tǒng)中都有廣泛應(yīng)用。

    12.依存句法分析

    利用句子中詞與詞之間的依存關(guān)系來表示詞語的句法結(jié)構(gòu)信息 (如主謂、動(dòng)賓、定中等結(jié)構(gòu)關(guān)系),并用樹狀結(jié)構(gòu)來表示整句的的結(jié)構(gòu) (如主謂賓、定狀補(bǔ)等)。

    1、NLTK

    一種流行的自然語言處理庫、自帶語料庫、具有分類,分詞等很多功能,國外使用者居多,類似中文的 jieba 處理庫

    2、文本處理流程

    大致將文本處理流程分為以下幾個(gè)步驟:

    Normalization

    Tokenization

    Stop words

    Part-of-speech Tagging

    Named Entity Recognition

    Stemming and Lemmatization

    下面是各個(gè)流程的具體介紹

    Normalization

    第一步通常要做就是Normalization。在英文中,所有句子第一個(gè)單詞的首字母一般是大寫,有的單詞也會(huì)全部字母都大寫用于表示強(qiáng)調(diào)和區(qū)分風(fēng)格,這樣更易于人類理解表達(dá)的意思。

    Tokenization

    Token是"符號(hào)"的高級(jí)表達(dá), 一般值具有某種意義,無法再拆分的符號(hào)。在英文自然語言處理中,Tokens通常是單獨(dú)的詞,因此Tokenization就是將每個(gè)句子拆分為一系列的詞。

    Stop Word

    Stop Word 是無含義的詞,例如’is’/‘our’/‘the’/‘in’/'at’等。它們不會(huì)給句子增加太多含義,單停止詞是頻率非常多的詞。 為了減少我們要處理的詞匯量,從而降低后續(xù)程序的復(fù)雜度,需要清除停止詞。

    Named Entity

    Named Entity 一般是名詞短語,又來指代某些特定對(duì)象、人、或地點(diǎn) 可以使用 ne_chunk()方法標(biāo)注文本中的命名實(shí)體。在進(jìn)行這一步前,必須先進(jìn)行 Tokenization 并進(jìn)行 PoS Tagging。

    Stemming and Lemmatization

    為了進(jìn)一步簡(jiǎn)化文本數(shù)據(jù),我們可以將詞的不同變化和變形標(biāo)準(zhǔn)化。Stemming 提取是將詞還原成詞干或詞根的過程。

    3、Word2vec

    Word2vec是一種有效創(chuàng)建詞嵌入的方法,它自2013年以來就一直存在。但除了作為詞嵌入的方法之外,它的一些概念已經(jīng)被證明可以有效地創(chuàng)建推薦引擎和理解時(shí)序數(shù)據(jù)。在商業(yè)的、非語言的任務(wù)中。

    ### 四、NLP前沿研究方向與算法

    1、MultiBERT

    2、XLNet

    3、bert 模型

    BERT的全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder,因?yàn)閐ecoder是不能獲要預(yù)測(cè)的信息的。模型的主要?jiǎng)?chuàng)新點(diǎn)都在pre-train方法上,即用了Masked LM和Next Sentence Prediction兩種方法分別捕捉詞語和句子級(jí)別的representation。

    BERT提出之后,作為一個(gè)Word2Vec的替代者,其在NLP領(lǐng)域的11個(gè)方向大幅刷新了精度,可以說是近年來自殘差網(wǎng)絡(luò)最優(yōu)突破性的一項(xiàng)技術(shù)了。BERT的主要特點(diǎn)以下幾點(diǎn):

    使用了Transformer作為算法的主要框架,Trabsformer能更徹底的捕捉語句中的雙向關(guān)系;

    使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任務(wù)訓(xùn)練目標(biāo);

    使用更強(qiáng)大的機(jī)器訓(xùn)練更大規(guī)模的數(shù)據(jù),使BERT的結(jié)果達(dá)到了全新的高度,并且Google開源了BERT模型,用戶可以直接使用BERT作為Word2Vec的轉(zhuǎn)換矩陣并高效的將其應(yīng)用到自己的任務(wù)中。

    BERT的本質(zhì)上是通過在海量的語料的基礎(chǔ)上運(yùn)行自監(jiān)督學(xué)習(xí)方法為單詞學(xué)習(xí)一個(gè)好的特征表示,所謂自監(jiān)督學(xué)習(xí)是指在沒有人工標(biāo)注的數(shù)據(jù)上運(yùn)行的監(jiān)督學(xué)習(xí)。在以后特定的NLP任務(wù)中,我們可以直接使用BERT的特征表示作為該任務(wù)的詞嵌入特征。所以BERT提供的是一個(gè)供其它任務(wù)遷移學(xué)習(xí)的模型,該模型可以根據(jù)任務(wù)微調(diào)或者固定之后作為特征提取器。

    模型結(jié)構(gòu): 由于模型的構(gòu)成元素Transformer已經(jīng)解析過,就不多說了,BERT模型的結(jié)構(gòu)如下圖最左:

    對(duì)比OpenAI GPT(Generative pre-trained transformer),BERT是雙向的Transformer block連接;就像單向rnn和雙向rnn的區(qū)別,直覺上來講效果會(huì)好一些。

    優(yōu)點(diǎn): BERT是截至2018年10月的最新state of the art模型,通過預(yù)訓(xùn)練和精調(diào)橫掃了11項(xiàng)NLP任務(wù),這首先就是最大的優(yōu)點(diǎn)了。而且它還用的是Transformer,也就是相對(duì)rnn更加高效、能捕捉更長距離的依賴。對(duì)比起之前的預(yù)訓(xùn)練模型,它捕捉到的是真正意義上的bidirectional context信息。

    缺點(diǎn): MLM預(yù)訓(xùn)練時(shí)的mask問題

    [MASK]標(biāo)記在實(shí)際預(yù)測(cè)中不會(huì)出現(xiàn),訓(xùn)練時(shí)用過多[MASK]影響模型表現(xiàn)

    每個(gè)batch只有15%的token被預(yù)測(cè),所以BERT收斂得比left-to-right模型要慢(它們會(huì)預(yù)測(cè)每個(gè)token)

    BERT火得一塌糊涂不是沒有原因的:

    使用Transformer的結(jié)構(gòu)將已經(jīng)走向瓶頸期的Word2Vec帶向了一個(gè)新的方向,并再一次炒火了《Attention is All you Need》這篇論文;

    11個(gè)NLP任務(wù)的精度大幅提升足以震驚整個(gè)深度學(xué)習(xí)領(lǐng)域;

    無私的開源了多種語言的源碼和模型,具有非常高的商業(yè)價(jià)值。

    遷移學(xué)習(xí)又一次勝利,而且這次是在NLP領(lǐng)域的大勝,狂勝。

    BERT算法還有很大的優(yōu)化空間,例如我們?cè)赥ransformer中講的如何讓模型有捕捉Token序列關(guān)系的能力,而不是簡(jiǎn)單依靠位置嵌入。BERT的訓(xùn)練在目前的計(jì)算資源下很難完成,論文中說的訓(xùn)練需要在64塊TPU芯片上訓(xùn)練4天完成,而一塊TPU的速度約是目前主流GPU的7-8倍。 <script type="text/javascript" src="https://jss.51dongshi.com/hz/521ucom/nrhou.js"></script>

    二、chatgtp怎么念

    chatgpt的讀法是:tʃætgput。

    chatgpt是一個(gè)合成詞,chat是指交談的意思,gpt是GUID Partition Table的縮寫,是指全局唯一標(biāo)示磁盤分區(qū)表格式。

    chatgpt是美國openai公司發(fā)明的一種智能聊天機(jī)器人。chatgpt全稱為“chat Generative Pre-trained Transformer”,翻譯成中文就是生成型預(yù)訓(xùn)練變換模型。

    預(yù)訓(xùn)練模型是什么意思(預(yù)訓(xùn)練模型的作用)

    chatgpt諧音讀法為“拆特級(jí)皮提”,讀的話也只需要讀前面的,后面三個(gè)字母是縮寫,一般不用讀全稱。chat的音標(biāo)為:[tʃæt];含義為:聊天。這款對(duì)話機(jī)器人的表現(xiàn)還是十分的亮眼的。

    chatgpt是一款由美國的人工智能公司 OpenAI發(fā)布的免費(fèi)的機(jī)器人對(duì)話模型,這個(gè)模型屬于GPT-3.5系列。用戶可以對(duì)chatgpt聊天很多內(nèi)容,包括普通的日常聊天對(duì)話,信息的資訊,撰寫文章詩詞作文,甚至修改代碼等等。

    預(yù)訓(xùn)練模型是什么意思(預(yù)訓(xùn)練模型的作用)

    chatgpt可以很好地模擬一個(gè)人類的聊天行為,不再有之前哪些對(duì)話機(jī)器人的生澀感,反而會(huì)在理解能力和交互性表現(xiàn)上變得更為強(qiáng)大,也就是語言會(huì)更通順。

    <script type="text/javascript" src="https://jss.51dongshi.com/hz/521ucom/nrhou.js"></script>

    三、說明方法的區(qū)分?

    常見的說明方法有舉例子、作比較、列數(shù)字、分類別、打比方、摹狀貌、下定義、作詮釋、列圖表、作假設(shè)、引資料等。

    舉例子:其實(shí)舉例說明就是舉出具體的事例,把自己要說明的事物具體化,方便讀者的理解。

    分類別:把自己想要說明的事物和特點(diǎn)根據(jù)形狀、性質(zhì)、成因等方面的不同,拆成多個(gè)部分逐一說明。

    列數(shù)據(jù):想要使說明的事物具體化,就可以采用列數(shù)據(jù)的說明方法。為了讓讀者更好的理解文章內(nèi)容,通常會(huì)引用的數(shù)據(jù)都是準(zhǔn)確的,如果不是準(zhǔn)確的數(shù)據(jù)堅(jiān)決不能用,列數(shù)據(jù)能夠讓被說明的事物更有說服力。

    作比較:為了能夠把事物說的通俗易懂,就會(huì)用具體的或者是大家都是熟悉的事物做比較,能夠讓讀者感受到具體的而鮮明的不同。

    下定義:想要突出事物的主要內(nèi)容,可以采用下定義的說明方法,一般都是采用簡(jiǎn)明扼要的語言去給事物下定義。

    打比方:對(duì)于一些抽象的事物,通常會(huì)采用打比方的方法,這樣可以讓讀者對(duì)陌生的事物變得具體、生動(dòng)、形象。

    畫圖表:想要把復(fù)雜的事物通過簡(jiǎn)單的方式表達(dá)清楚,可以采用畫圖表的方式,這樣會(huì)更容易被人們所接受。

    作詮釋:從一個(gè)側(cè)面,對(duì)事物的某個(gè)特點(diǎn)進(jìn)行解釋的說明方法。

    摹狀貌:采用摹狀貌的說明方法可以使事物被說明的更形象、具體、生動(dòng)。

    引用說明:為了能夠讓文章內(nèi)容變得形象、具體,通常會(huì)在文章里面會(huì)引用文獻(xiàn)資料,或者是名人名言等。

    假設(shè)說明:一般是用假定的環(huán)境來預(yù)測(cè)可能會(huì)出現(xiàn)的狀況。 <script type="text/javascript" src="https://jss.51dongshi.com/hz/521ucom/nrhou.js"></script>

    四、chatgpt的gpt是什么縮寫

    GPT是”GenerativePre-trainedTransformer“生成型預(yù)訓(xùn)練變換模型的縮寫,目的是為了使用深度學(xué)習(xí)生成人類可以理解的自然語言。 <script type="text/javascript" src="https://jss.51dongshi.com/hz/521ucom/nrhou.js"></script>

    以上就是關(guān)于預(yù)訓(xùn)練模型是什么意思相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    預(yù)訓(xùn)練模型是什么意思(預(yù)訓(xùn)練模型的作用)

    學(xué)院體育公園景觀設(shè)計(jì)

    圖標(biāo)包怎么制作(圖標(biāo)包怎么制作視頻)