正文

神經網(wǎng)絡基本結構（神經網(wǎng)絡基本結構包括）

發(fā)布時間：2023-04-17 19:58:39 稿源：創(chuàng)意嶺閱讀： 127

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于神經網(wǎng)絡基本結構的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關鍵詞，就能返回你想要的內容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè)，服務客戶遍布全球各地，如需了解SEO相關業(yè)務請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、神經網(wǎng)絡有哪些主要分類規(guī)則并如何分類？
2、幾種常見的循環(huán)神經網(wǎng)絡結構RNN、LSTM、GRU
3、
4、

神經網(wǎng)絡基本結構（神經網(wǎng)絡基本結構包括）

一、神經網(wǎng)絡有哪些主要分類規(guī)則并如何分類？

神經網(wǎng)絡模型的分類

人工神經網(wǎng)絡的模型很多，可以按照不同的方法進行分類。其中，常見的兩種分類方法是，按照網(wǎng)絡連接的拓樸結構分類和按照網(wǎng)絡內部的信息流向分類。

按照網(wǎng)絡拓樸結構分類

網(wǎng)絡的拓樸結構，即神經元之間的連接方式。按此劃分，可將神經網(wǎng)絡結構分為兩大類：層次型結構和互聯(lián)型結構。

層次型結構的神經網(wǎng)絡將神經元按功能和順序的不同分為輸出層、中間層（隱層）、輸出層。輸出層各神經元負責接收來自外界的輸入信息，并傳給中間各隱層神經元；隱層是神經網(wǎng)絡的內部信息處理層，負責信息變換。根據(jù)需要可設計為一層或多層；最后一個隱層將信息傳遞給輸出層神經元經進一步處理后向外界輸出信息處理結果。

而互連型網(wǎng)絡結構中，任意兩個節(jié)點之間都可能存在連接路徑，因此可以根據(jù)網(wǎng)絡中節(jié)點的連接程度將互連型網(wǎng)絡細分為三種情況：全互連型、局部互連型和稀疏連接型

按照網(wǎng)絡信息流向分類

從神經網(wǎng)絡內部信息傳遞方向來看，可以分為兩種類型：前饋型網(wǎng)絡和反饋型網(wǎng)絡。

單純前饋網(wǎng)絡的結構與分層網(wǎng)絡結構相同，前饋是因網(wǎng)絡信息處理的方向是從輸入層到各隱層再到輸出層逐層進行而得名的。前饋型網(wǎng)絡中前一層的輸出是下一層的輸入，信息的處理具有逐層傳遞進行的方向性，一般不存在反饋環(huán)路。因此這類網(wǎng)絡很容易串聯(lián)起來建立多層前饋網(wǎng)絡。

反饋型網(wǎng)絡的結構與單層全互連結構網(wǎng)絡相同。在反饋型網(wǎng)絡中的所有節(jié)點都具有信息處理功能，而且每個節(jié)點既可以從外界接受輸入，同時又可以向外界輸出。

二、幾種常見的循環(huán)神經網(wǎng)絡結構RNN、LSTM、GRU

傳統(tǒng)文本處理任務的方法中一般將TF-IDF向量作為特征輸入。顯而易見，這樣的表示實際上丟失了輸入的文本序列中每個單詞的順序。在神經網(wǎng)絡的建模過程中，一般的前饋神經網(wǎng)絡，如卷積神經網(wǎng)絡，通常接受一個定長的向量作為輸入。卷積神經網(wǎng)絡對文本數(shù)據(jù)建模時，輸入變長的字符串或者單詞串，然后通過滑動窗口加池化的方式將原先的輸入轉換成一個固定長度的向量表示，這樣做可以捕捉到原文本中的一些局部特征，但是兩個單詞之間的長距離依賴關系還是很難被學習到。

循環(huán)神經網(wǎng)絡卻能很好地處理文本數(shù)據(jù)變長并且有序的輸入序列。它模擬了人閱讀一篇文章的順序，從前到后閱讀文章中的每一個單詞，將前面閱讀到的有用信息編碼到狀態(tài)變量中去，從而擁有了一定的記憶能力，可以更好地理解之后的文本。

其網(wǎng)絡結構如下圖所示：

由圖可見，t是時刻，x是輸入層，s是隱藏層，o是輸出層，矩陣W就是隱藏層上一次的值作為這一次的輸入的權重。

如果反復把式 2 帶入到式 1，將得到：

其中f和g為激活函數(shù)，U為輸入層到隱含層的權重矩陣，W為隱含層從上一時刻到下一時刻狀態(tài)轉移的權重矩陣。在文本分類任務中，f可以選取Tanh函數(shù)或者ReLU函數(shù)，g可以采用Softmax函數(shù)。

通過最小化損失誤差（即輸出的y與真實類別之間的距離），我們可以不斷訓練網(wǎng)絡，使得得到的循環(huán)神經網(wǎng)絡可以準確地預測文本所屬的類別，達到分類目的。相比于卷積神經網(wǎng)絡等前饋神經網(wǎng)絡，循環(huán)神經網(wǎng)絡由于具備對序列順序信息的刻畫能力，往往能得到更準確的結果。

RNN的訓練算法為：BPTT

BPTT的基本原理和BP算法是一樣的，同樣是三步：

1.前向計算每個神經元的輸出值；

2.反向計算每個神經元的誤差項值，它是誤差函數(shù)E對神經元j的加權輸入的偏導數(shù)；

3.計算每個權重的梯度。

最后再用隨機梯度下降算法更新權重。

具體參考： https://www.jianshu.com/p/39a99c88a565

最后由鏈式法則得到下面以雅可比矩陣來表達的每個權重的梯度:

由于預測的誤差是沿著神經網(wǎng)絡的每一層反向傳播的，因此當雅克比矩陣的最大特征值大于1時，隨著離輸出越來越遠，每層的梯度大小會呈指數(shù)增長，導致梯度爆炸；反之，若雅克比矩陣的最大特征值小于1，梯度的大小會呈指數(shù)縮小，產生梯度消失。對于普通的前饋網(wǎng)絡來說，梯度消失意味著無法通過加深網(wǎng)絡層次來改善神經網(wǎng)絡的預測效果，因為無論如何加深網(wǎng)絡，只有靠近輸出的若干層才真正起到學習的作用。 這使得循環(huán)神經網(wǎng)絡模型很難學習到輸入序列中的長距離依賴關系 。

關于RNN梯度下降的詳細推導可以參考: https://zhuanlan.zhihu.com/p/44163528

梯度爆炸的問題可以通過梯度裁剪來緩解，即當梯度的范式大于某個給定值時，對梯度進行等比收縮。而梯度消失問題相對比較棘手，需要對模型本身進行改進。深度殘差網(wǎng)絡是對前饋神經網(wǎng)絡的改進，通過殘差學習的方式緩解了梯度消失的現(xiàn)象，從而使得我們能夠學習到更深層的網(wǎng)絡表示；而對于循環(huán)神經網(wǎng)絡來說，長短時記憶模型及其變種門控循環(huán)單元等模型通過加入門控機制，很大程度上彌補了梯度消失所帶來的損失。

LSTM的網(wǎng)絡機構圖如下所示：

與傳統(tǒng)的循環(huán)神經網(wǎng)絡相比，LSTM仍然是基于xt和ht−1來計算ht，只不過對內部的結構進行了更加精心的設計，加入了輸入門it 、遺忘門ft以及輸出門ot三個門和一個內部記憶單元ct。輸入門控制當前計算的新狀態(tài)以多大程度更新到記憶單元中；遺忘門控制前一步記憶單元中的信息有多大程度被遺忘掉；輸出門控制當前的輸出有多大程度上取決于當前的記憶單元。

在經典的LSTM模型中，第t層的更新計算公式為

其中it是通過輸入xt和上一步的隱含層輸出ht−1進行線性變換，再經過激活函數(shù)σ得到的。輸入門it的結果是向量，其中每個元素是0到1之間的實數(shù)，用于控制各維度流過閥門的信息量；Wi 、Ui兩個矩陣和向量bi為輸入門的參數(shù)，是在訓練過程中需要學習得到的。遺忘門ft和輸出門ot的計算方式與輸入門類似，它們有各自的參數(shù)W、U和b。與傳統(tǒng)的循環(huán)神經網(wǎng)絡不同的是，從上一個記憶單元的狀態(tài)ct−1到當前的狀態(tài)ct的轉移不一定完全取決于激活函數(shù)計算得到的狀態(tài)，還由輸入門和遺忘門來共同控制。

在一個訓練好的網(wǎng)絡中，當輸入的序列中沒有重要信息時，LSTM的遺忘門的值接近于1，輸入門的值接近于0，此時過去的記憶會被保存，從而實現(xiàn)了長期記憶功能；當輸入的序列中出現(xiàn)了重要的信息時，LSTM應當把其存入記憶中，此時其輸入門的值會接近于1；當輸入的序列中出現(xiàn)了重要信息，且該信息意味著之前的記憶不再重要時，輸入門的值接近1，而遺忘門的值接近于0，這樣舊的記憶被遺忘，新的重要信息被記憶。經過這樣的設計，整個網(wǎng)絡更容易學習到序列之間的長期依賴。

GRU是在LSTM上進行簡化而得到的，GRU的網(wǎng)絡結構如下所示：

Zt代表更新門，更新門的作用類似于LSTM中的遺忘門和輸入門，它能決定要丟棄哪些信息和要添加哪些新信息。

Rt代表重置門，重置門用于決定丟棄先前信息的程度。

要注意的是，h只是一個變量，因此在每個時刻，包括最后的線性組合，h都是在用以前的自己和當前的備選答案更新自己。舉例來說，這一個變量好比一杯酒，每次我們要把一部分酒倒出去，并把倒出去的酒和新加入的原料混合，然后在倒回來，這里的reset控制的就是要倒出去的，并且混合好之后再倒回來的酒的比例，而update控制的則是用多大的比例混合新原料和倒出來的之前調制好的酒。同理，也可以以此理解LSTM，LSTM的遺忘門功能上和reset相似，而輸入門與update相似，不同之處在于LSTM還控制了當前狀態(tài)的exposure，也就是輸出門的功能，這是GRU所沒有的。

1.百面機器學習

2. https://zhuanlan.zhihu.com/p/45649187

3. https://www.jianshu.com/p/39a99c88a565

三、

四、

以上就是關于神經網(wǎng)絡基本結構相關問題的回答。希望能幫到你，如有更多相關問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內容。