HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    圖神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的區(qū)別

    發(fā)布時間:2023-04-03 18:22:44     稿源: 創(chuàng)意嶺    閱讀: 60        當(dāng)前文章關(guān)鍵詞排名出租

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于圖神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的區(qū)別的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    圖神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的區(qū)別

    一、一文看懂四種基本的神經(jīng)網(wǎng)絡(luò)架構(gòu)

    原文鏈接:

    http://blackblog.tech/2018/02/23/Eight-Neural-Network/

    更多干貨就在我的個人博客 http://blackblog.tech 歡迎關(guān)注

    剛剛?cè)腴T神經(jīng)網(wǎng)絡(luò),往往會對眾多的神經(jīng)網(wǎng)絡(luò)架構(gòu)感到困惑,神經(jīng)網(wǎng)絡(luò)看起來復(fù)雜多樣,但是這么多架構(gòu)無非也就是三類,前饋神經(jīng)網(wǎng)絡(luò),循環(huán)網(wǎng)絡(luò),對稱連接網(wǎng)絡(luò),本文將介紹四種常見的神經(jīng)網(wǎng)絡(luò),分別是CNN,RNN,DBN,GAN。通過這四種基本的神經(jīng)網(wǎng)絡(luò)架構(gòu),我們來對神經(jīng)網(wǎng)絡(luò)進(jìn)行一定的了解。

    神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)中的一種模型,是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。

    一般來說,神經(jīng)網(wǎng)絡(luò)的架構(gòu)可以分為三類:

    前饋神經(jīng)網(wǎng)絡(luò):

    這是實際應(yīng)用中最常見的神經(jīng)網(wǎng)絡(luò)類型。第一層是輸入,最后一層是輸出。如果有多個隱藏層,我們稱之為“深度”神經(jīng)網(wǎng)絡(luò)。他們計算出一系列改變樣本相似性的變換。各層神經(jīng)元的活動是前一層活動的非線性函數(shù)。

    循環(huán)網(wǎng)絡(luò):

    循環(huán)網(wǎng)絡(luò)在他們的連接圖中定向了循環(huán),這意味著你可以按照箭頭回到你開始的地方。他們可以有復(fù)雜的動態(tài),使其很難訓(xùn)練。他們更具有生物真實性。

    循環(huán)網(wǎng)絡(luò)的目的使用來處理序列數(shù)據(jù)。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節(jié)點是無連接的。但是這種普通的神經(jīng)網(wǎng)絡(luò)對于很多問題卻無能無力。例如,你要預(yù)測句子的下一個單詞是什么,一般需要用到前面的單詞,因為一個句子中前后單詞并不是獨立的。

    循環(huán)神經(jīng)網(wǎng)路,即一個序列當(dāng)前的輸出與前面的輸出也有關(guān)。具體的表現(xiàn)形式為網(wǎng)絡(luò)會對前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計算中,即隱藏層之間的節(jié)點不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。

    對稱連接網(wǎng)絡(luò):

    對稱連接網(wǎng)絡(luò)有點像循環(huán)網(wǎng)絡(luò),但是單元之間的連接是對稱的(它們在兩個方向上權(quán)重相同)。比起循環(huán)網(wǎng)絡(luò),對稱連接網(wǎng)絡(luò)更容易分析。這個網(wǎng)絡(luò)中有更多的限制,因為它們遵守能量函數(shù)定律。沒有隱藏單元的對稱連接網(wǎng)絡(luò)被稱為“Hopfield 網(wǎng)絡(luò)”。有隱藏單元的對稱連接的網(wǎng)絡(luò)被稱為玻爾茲曼機。

    其實之前的帖子講過一些關(guān)于感知機的內(nèi)容,這里再復(fù)述一下。

    首先還是這張圖

    這是一個M-P神經(jīng)元

    一個神經(jīng)元有n個輸入,每一個輸入對應(yīng)一個權(quán)值w,神經(jīng)元內(nèi)會對輸入與權(quán)重做乘法后求和,求和的結(jié)果與偏置做差,最終將結(jié)果放入激活函數(shù)中,由激活函數(shù)給出最后的輸出,輸出往往是二進(jìn)制的,0 狀態(tài)代表抑制,1 狀態(tài)代表激活。

    可以把感知機看作是 n 維實例空間中的超平面決策面,對于超平面一側(cè)的樣本,感知器輸出 1,對于另一側(cè)的實例輸出 0,這個決策超平面方程是 w⋅x=0。 那些可以被某一個超平面分割的正反樣例集合稱為線性可分(linearly separable)樣例集合,它們就可以使用圖中的感知機表示。

    與、或、非問題都是線性可分的問題,使用一個有兩輸入的感知機能容易地表示,而異或并不是一個線性可分的問題,所以使用單層感知機是不行的,這時候就要使用多層感知機來解決疑惑問題了。

    如果我們要訓(xùn)練一個感知機,應(yīng)該怎么辦呢?

    我們會從隨機的權(quán)值開始,反復(fù)地應(yīng)用這個感知機到每個訓(xùn)練樣例,只要它誤分類樣例就修改感知機的權(quán)值。重復(fù)這個過程,直到感知機正確分類所有的樣例。每一步根據(jù)感知機訓(xùn)練法則來修改權(quán)值,也就是修改與輸入 xi 對應(yīng)的權(quán) wi,法則如下:

    這里 t 是當(dāng)前訓(xùn)練樣例的目標(biāo)輸出,o 是感知機的輸出,η 是一個正的常數(shù)稱為學(xué)習(xí)速率。學(xué)習(xí)速率的作用是緩和每一步調(diào)整權(quán)的程度,它通常被設(shè)為一個小的數(shù)值(例如 0.1),而且有時會使其隨著權(quán)調(diào)整次數(shù)的增加而衰減。

    多層感知機,或者說是多層神經(jīng)網(wǎng)絡(luò)無非就是在輸入層與輸出層之間加了多個隱藏層而已,后續(xù)的CNN,DBN等神經(jīng)網(wǎng)絡(luò)只不過是將重新設(shè)計了每一層的類型。感知機可以說是神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),后續(xù)更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)都離不開最簡單的感知機的模型,

    談到機器學(xué)習(xí),我們往往還會跟上一個詞語,叫做模式識別,但是真實環(huán)境中的模式識別往往會出現(xiàn)各種問題。比如:

    圖像分割:真實場景中總是摻雜著其它物體。很難判斷哪些部分屬于同一個對象。對象的某些部分可以隱藏在其他對象的后面。

    物體光照:像素的強度被光照強烈影響。

    圖像變形:物體可以以各種非仿射方式變形。例如,手寫也可以有一個大的圓圈或只是一個尖頭。

    情景支持:物體所屬類別通常由它們的使用方式來定義。例如,椅子是為了讓人們坐在上面而設(shè)計的,因此它們具有各種各樣的物理形狀。

    卷積神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)的區(qū)別在于,卷積神經(jīng)網(wǎng)絡(luò)包含了一個由卷積層和子采樣層構(gòu)成的特征抽取器。在卷積神經(jīng)網(wǎng)絡(luò)的卷積層中,一個神經(jīng)元只與部分鄰層神經(jīng)元連接。在CNN的一個卷積層中,通常包含若干個特征平面(featureMap),每個特征平面由一些矩形排列的的神經(jīng)元組成,同一特征平面的神經(jīng)元共享權(quán)值,這里共享的權(quán)值就是卷積核。卷積核一般以隨機小數(shù)矩陣的形式初始化,在網(wǎng)絡(luò)的訓(xùn)練過程中卷積核將學(xué)習(xí)得到合理的權(quán)值。共享權(quán)值(卷積核)帶來的直接好處是減少網(wǎng)絡(luò)各層之間的連接,同時又降低了過擬合的風(fēng)險。子采樣也叫做池化(pooling),通常有均值子采樣(mean pooling)和最大值子采樣(max pooling)兩種形式。子采樣可以看作一種特殊的卷積過程。卷積和子采樣大大簡化了模型復(fù)雜度,減少了模型的參數(shù)。

    卷積神經(jīng)網(wǎng)絡(luò)由三部分構(gòu)成。第一部分是輸入層。第二部分由n個卷積層和池化層的組合組成。第三部分由一個全連結(jié)的多層感知機分類器構(gòu)成。

    這里舉AlexNet為例:

    ·輸入:224×224大小的圖片,3通道

    ·第一層卷積:11×11大小的卷積核96個,每個GPU上48個。

    ·第一層max-pooling:2×2的核。

    ·第二層卷積:5×5卷積核256個,每個GPU上128個。

    ·第二層max-pooling:2×2的核。

    ·第三層卷積:與上一層是全連接,3*3的卷積核384個。分到兩個GPU上個192個。

    ·第四層卷積:3×3的卷積核384個,兩個GPU各192個。該層與上一層連接沒有經(jīng)過pooling層。

    ·第五層卷積:3×3的卷積核256個,兩個GPU上個128個。

    ·第五層max-pooling:2×2的核。

    ·第一層全連接:4096維,將第五層max-pooling的輸出連接成為一個一維向量,作為該層的輸入。

    ·第二層全連接:4096維

    ·Softmax層:輸出為1000,輸出的每一維都是圖片屬于該類別的概率。

    卷積神經(jīng)網(wǎng)絡(luò)在模式識別領(lǐng)域有著重要應(yīng)用,當(dāng)然這里只是對卷積神經(jīng)網(wǎng)絡(luò)做了最簡單的講解,卷積神經(jīng)網(wǎng)絡(luò)中仍然有很多知識,比如局部感受野,權(quán)值共享,多卷積核等內(nèi)容,后續(xù)有機會再進(jìn)行講解。

    傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)對于很多問題難以處理,比如你要預(yù)測句子的下一個單詞是什么,一般需要用到前面的單詞,因為一個句子中前后單詞并不是獨立的。RNN之所以稱為循環(huán)神經(jīng)網(wǎng)路,即一個序列當(dāng)前的輸出與前面的輸出也有關(guān)。具體的表現(xiàn)形式為網(wǎng)絡(luò)會對前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計算中,即隱藏層之間的節(jié)點不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上,RNN能夠?qū)θ魏伍L度的序列數(shù)據(jù)進(jìn)行處理。

    這是一個簡單的RNN的結(jié)構(gòu),可以看到隱藏層自己是可以跟自己進(jìn)行連接的。

    那么RNN為什么隱藏層能夠看到上一刻的隱藏層的輸出呢,其實我們把這個網(wǎng)絡(luò)展開來開就很清晰了。

    從上面的公式我們可以看出,循環(huán)層和全連接層的區(qū)別就是循環(huán)層多了一個權(quán)重矩陣 W。

    如果反復(fù)把式2帶入到式1,我們將得到:

    在講DBN之前,我們需要對DBN的基本組成單位有一定的了解,那就是RBM,受限玻爾茲曼機。

    首先什么是玻爾茲曼機?

    [圖片上傳失敗...(image-d36b31-1519636788074)]

    如圖所示為一個玻爾茲曼機,其藍(lán)色節(jié)點為隱層,白色節(jié)點為輸入層。

    玻爾茲曼機和遞歸神經(jīng)網(wǎng)絡(luò)相比,區(qū)別體現(xiàn)在以下幾點:

    1、遞歸神經(jīng)網(wǎng)絡(luò)本質(zhì)是學(xué)習(xí)一個函數(shù),因此有輸入和輸出層的概念,而玻爾茲曼機的用處在于學(xué)習(xí)一組數(shù)據(jù)的“內(nèi)在表示”,因此其沒有輸出層的概念。

    2、遞歸神經(jīng)網(wǎng)絡(luò)各節(jié)點鏈接為有向環(huán),而玻爾茲曼機各節(jié)點連接成無向完全圖。

    而受限玻爾茲曼機是什么呢?

    最簡單的來說就是加入了限制,這個限制就是將完全圖變成了二分圖。即由一個顯層和一個隱層構(gòu)成,顯層與隱層的神經(jīng)元之間為雙向全連接。

    h表示隱藏層,v表示顯層

    在RBM中,任意兩個相連的神經(jīng)元之間有一個權(quán)值w表示其連接強度,每個神經(jīng)元自身有一個偏置系數(shù)b(對顯層神經(jīng)元)和c(對隱層神經(jīng)元)來表示其自身權(quán)重。

    具體的公式推導(dǎo)在這里就不展示了

    DBN是一個概率生成模型,與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對,生成模型是建立一個觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布,對P(Observation|Label)和 P(Label|Observation)都做了評估,而判別模型僅僅而已評估了后者,也就是P(Label|Observation)。

    DBN由多個限制玻爾茲曼機(Restricted Boltzmann Machines)層組成,一個典型的神經(jīng)網(wǎng)絡(luò)類型如圖所示。這些網(wǎng)絡(luò)被“限制”為一個可視層和一個隱層,層間存在連接,但層內(nèi)的單元間不存在連接。隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出來的高階數(shù)據(jù)的相關(guān)性。

    生成對抗網(wǎng)絡(luò)其實在之前的帖子中做過講解,這里在說明一下。

    生成對抗網(wǎng)絡(luò)的目標(biāo)在于生成,我們傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)往往都是判別模型,即判斷一個樣本的真實性。而生成模型能夠根據(jù)所提供的樣本生成類似的新樣本,注意這些樣本是由計算機學(xué)習(xí)而來的。

    GAN一般由兩個網(wǎng)絡(luò)組成,生成模型網(wǎng)絡(luò),判別模型網(wǎng)絡(luò)。

    生成模型 G 捕捉樣本數(shù)據(jù)的分布,用服從某一分布(均勻分布,高斯分布等)的噪聲 z 生成一個類似真實訓(xùn)練數(shù)據(jù)的樣本,追求效果是越像真實樣本越好;判別模型 D 是一個二分類器,估計一個樣本來自于訓(xùn)練數(shù)據(jù)(而非生成數(shù)據(jù))的概率,如果樣本來自于真實的訓(xùn)練數(shù)據(jù),D 輸出大概率,否則,D 輸出小概率。

    舉個例子:生成網(wǎng)絡(luò) G 好比假幣制造團伙,專門制造假幣,判別網(wǎng)絡(luò) D 好比警察,專門檢測使用的貨幣是真幣還是假幣,G 的目標(biāo)是想方設(shè)法生成和真幣一樣的貨幣,使得 D 判別不出來,D 的目標(biāo)是想方設(shè)法檢測出來 G 生成的假幣。

    傳統(tǒng)的判別網(wǎng)絡(luò):

    生成對抗網(wǎng)絡(luò):

    下面展示一個cDCGAN的例子(前面帖子中寫過的)

    生成網(wǎng)絡(luò)

    判別網(wǎng)絡(luò)

    最終結(jié)果,使用MNIST作為初始樣本,通過學(xué)習(xí)后生成的數(shù)字,可以看到學(xué)習(xí)的效果還是不錯的。

    本文非常簡單的介紹了四種神經(jīng)網(wǎng)絡(luò)的架構(gòu),CNN,RNN,DBN,GAN。當(dāng)然也僅僅是簡單的介紹,并沒有深層次講解其內(nèi)涵。這四種神經(jīng)網(wǎng)絡(luò)的架構(gòu)十分常見,應(yīng)用也十分廣泛。當(dāng)然關(guān)于神經(jīng)網(wǎng)絡(luò)的知識,不可能幾篇帖子就講解完,這里知識講解一些基礎(chǔ)知識,幫助大家快速入(zhuang)門(bi)。后面的帖子將對深度自動編碼器,Hopfield 網(wǎng)絡(luò)長短期記憶網(wǎng)絡(luò)(LSTM)進(jìn)行講解。

    二、GNN(一) 圖神經(jīng)網(wǎng)絡(luò)基本知識

    圖是由點和邊構(gòu)成的,它可以分為兩種表示方法分別是: 1. 有向圖 2. 無向圖

    圖像的度分為兩種:1. 有向圖的度 2. 無向圖的度

    ①度 可以理解為點之間的連接線 ②入度指向當(dāng)前節(jié)點的連線, 出度當(dāng)前節(jié)點連出去的連線

    子圖表示某張圖的子集

    對于一個無向圖,如果任意的節(jié)點i能夠通過一些邊達(dá)到節(jié)點j,則稱之為連通圖

    其中對于圖中任意兩點都可以 相互 到達(dá),我們稱之為強連通圖,反之稱為弱連通圖。

    可以理解為所有的連通在一起的圖算一個連通分量。如上圖左邊連通分量是1, 右邊連通分量是2。

    圖中的兩個節(jié)點所能達(dá)到的最短路徑。

    圖中的兩兩節(jié)點最短路徑最大的值稱之為圖直徑。

    在圖論和網(wǎng)絡(luò)分析中,中心性(Centrality)是判斷網(wǎng)絡(luò)中節(jié)點重要性/影響力的指標(biāo)。在社會網(wǎng)絡(luò)分析中,一項基本的任務(wù)就是鑒定一群人中哪些人比其他人更有影響力,從而幫助我們理解他們在網(wǎng)絡(luò)中扮演的角色。

    公式:

    重要的節(jié)點就是擁有許多連接的節(jié)點, 你的社會關(guān)系越多, 你的影響力就越強

    思想就是與你連接的人越重要,你也就越重要

    公式:

    中間成員對路徑兩端的成員具有“更大的人際關(guān)系影響”。

    接近中心性高的節(jié)點一般扮演的是八婆的角色(gossiper)。他們不一定是名人,但是樂于在不同的人群之間傳遞消息。

    指出去的為hub, 被指的為authority

    三、神經(jīng)網(wǎng)絡(luò)如何外推:從前饋網(wǎng)絡(luò)到圖網(wǎng)絡(luò)

    How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks

    ICLR2021最高分論文            https://arxiv.org/abs/2009.11848

    52頁論文,正文占9頁,主要都是附錄,不過附錄里很多圖片(一頁就一兩張圖),排除這些一頁一圖的,只有40頁

    我們研究用梯度下降法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)如何外推,也就是說,它們在訓(xùn)練分布的支持之外學(xué)習(xí)什么。以前的工作報告了使用神經(jīng)網(wǎng)絡(luò)進(jìn)行外推時混合的實證結(jié)果:雖然前饋神經(jīng)網(wǎng)絡(luò),即多層感知器(MLP)在某些簡單任務(wù)中外推效果不好,但圖形神經(jīng)網(wǎng)絡(luò)(GNN)——帶有MLP模塊的結(jié)構(gòu)化網(wǎng)絡(luò)——在更復(fù)雜的任務(wù)中取得了一些成功。為了得到理論解釋,我們確定了MLPs和GNNs外推良好的條件。首先,我們量化了ReLU-MLPs從原點沿任意方向快速收斂到線性函數(shù)的觀測結(jié)果,這意味著ReLU-MLPs不能外推大多數(shù)非線性函數(shù)。但是,當(dāng)訓(xùn)練分布足夠“多樣化”時,他們可以證明學(xué)習(xí)線性目標(biāo)函數(shù)。其次,在分析GNNs的成功和局限性時,這些結(jié)果提出了一個假設(shè),我們提供了理論和經(jīng)驗證據(jù):GNNs在將算法任務(wù)外推到新數(shù)據(jù)(例如。,較大的圖或邊權(quán)重)依賴于編碼體系結(jié)構(gòu)或特征中特定于任務(wù)的非線性。我們的理論分析建立在過度參數(shù)化網(wǎng)絡(luò)與神經(jīng)切線核的聯(lián)系上。根據(jù)經(jīng)驗,我們的理論適用于不同的培訓(xùn)環(huán)境

    1簡介

    人類在許多任務(wù)中推斷得很好。例如,我們可以對任意大的數(shù)應(yīng)用算術(shù)。人們可能想知道,神經(jīng)網(wǎng)絡(luò)是否也能做到這一點,并將其推廣到任意遠(yuǎn)離訓(xùn)練數(shù)據(jù)的示例中(Lake et al.,2017)。奇怪的是,以前的工作報告混合外推結(jié)果與神經(jīng)網(wǎng)絡(luò)。早期的工作表明,前饋神經(jīng)網(wǎng)絡(luò),又稱多層感知器(MLPs),在學(xué)習(xí)簡單多項式函數(shù)時不能很好地進(jìn)行外推(Barnard&Wessels,1992;Haley&Soloway,1992年)。然而,最近的研究表明,圖神經(jīng)網(wǎng)絡(luò)(GNNs)(Scarselli et al.,2009)是一類具有MLP構(gòu)建塊的結(jié)構(gòu)化網(wǎng)絡(luò),在具有挑戰(zhàn)性的算法任務(wù)中,如預(yù)測物理系統(tǒng)的時間演化(Battaglia et al.,2016),可以推廣到比訓(xùn)練圖大得多的圖,學(xué)習(xí)圖形算法(Velickovic et al.,2020),求解數(shù)學(xué)方程(Lample&Charton,2020)。

    為了解釋這個難題,我們正式研究了梯度下降(GD)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是如何外推的,即它們在訓(xùn)練分布的支持之外學(xué)習(xí)什么。我們說,如果一個神經(jīng)網(wǎng)絡(luò)在訓(xùn)練分布之外學(xué)習(xí)了一個任務(wù),它就能很好地進(jìn)行外推。乍一看,似乎神經(jīng)網(wǎng)絡(luò)可以在訓(xùn)練分布之外任意行為,因為它們具有高容量(Zhang et al.,2017),并且是通用逼近器(Cybenko,1989;Funahashi,1989年;Hornik等人,1989年;庫爾科娃,1992年)。然而,神經(jīng)網(wǎng)絡(luò)受到梯度下降訓(xùn)練的限制(Hardt等人,2016;Soudry等人,2018年)。在我們的分析中,我們通過類比過參數(shù)化神經(jīng)網(wǎng)絡(luò)的訓(xùn)練動態(tài)和通過神經(jīng)切線核(NTK)的核回歸,明確考慮了這種隱式偏差(Jacot等人,2018)。

    從前饋網(wǎng)絡(luò)、最簡單的神經(jīng)網(wǎng)絡(luò)和更復(fù)雜的體系結(jié)構(gòu)(如GNNs)的構(gòu)建塊開始,我們建立了由GD訓(xùn)練的具有ReLU激活的過參數(shù)mlp的預(yù)測從原點沿任意方向收斂到線性函數(shù)。我們證明了兩層網(wǎng)絡(luò)的收斂速度,并從經(jīng)驗上觀察到收斂經(jīng)常發(fā)生在訓(xùn)練數(shù)據(jù)附近(圖1),這表明ReLU-MLPs不能很好地外推大多數(shù)非線性任務(wù)。我們強調(diào),我們的結(jié)果并不是基于ReLU網(wǎng)絡(luò)具有有限多個線性區(qū)域的事實(Arora et al.,2018;Hanin&Rolnick,2019年;Hein等人,2019年)。雖然有有限多個線性區(qū)域意味著ReLU MLPs最終會變?yōu)榫€性,但MLPs是否會學(xué)習(xí)到接近訓(xùn)練分布的正確目標(biāo)函數(shù)并沒有說明。相比之下,我們的結(jié)果是非漸近的,并且量化了MLPs將學(xué)習(xí)什么樣的函數(shù)接近于訓(xùn)練分布。其次,我們確定了mlp外推良好的條件:任務(wù)是線性的,訓(xùn)練分布的幾何結(jié)構(gòu)是充分“多樣化”的。據(jù)我們所知,我們的結(jié)果是這種前饋神經(jīng)網(wǎng)絡(luò)的第一個外推結(jié)果。

    然后,我們將我們對前饋神經(jīng)網(wǎng)絡(luò)的見解與GNNs聯(lián)系起來,以解釋GNNs在某些算法任務(wù)中外推得好的原因。先前的工作報告了可以通過動態(tài)規(guī)劃(DP)解決的任務(wù)的成功外推(Bellman,1966),其計算結(jié)構(gòu)與GNNs一致(Xu等人,2020)。DP更新通??梢苑纸鉃榉蔷€性和線性步驟。因此,我們假設(shè)GD訓(xùn)練的GNN可以在DP任務(wù)中很好地外推,如果我們在架構(gòu)和輸入表示中編碼適當(dāng)?shù)姆蔷€性(圖2)。重要的是,編碼非線性可能不需要GNNs插值,因為MLP模塊可以很容易地學(xué)習(xí)訓(xùn)練分布中的許多非線性函數(shù)(Cybenko,1989;Hornik等人,1989年;Xu等人,2020),但GNNs正確外推至關(guān)重要。我們使用圖NTK(Du等人,2019b)證明了簡化情況下的這一假設(shè)。在經(jīng)驗上,我們驗證了三個DP任務(wù)的假設(shè):最大度、最短路徑和n體問題。我們證明了具有適當(dāng)結(jié)構(gòu)、輸入表示和訓(xùn)練分布的GNNs可以很好地預(yù)測具有未知大小、結(jié)構(gòu)、邊權(quán)值和節(jié)點特征的圖。我們的理論解釋了以往工作的經(jīng)驗成功,并指出了它們的局限性:成功的外推依賴于編碼任務(wù)特定的非線性,這需要領(lǐng)域知識或廣泛的模型搜索。從更廣泛的角度來看,我們的見解超越了GNNs,并廣泛應(yīng)用于其他神經(jīng)網(wǎng)絡(luò)。

    總之,我們研究神經(jīng)網(wǎng)絡(luò)如何外推。首先,由GD訓(xùn)練的ReLU-mlp以O(shè)(1/t)的速率沿原點方向收斂為線性函數(shù)。其次,為了解釋為什么GNNs在一些算法任務(wù)中可以很好地外推,我們證明了ReLU-MLPs在線性任務(wù)中可以很好地外推,從而引出一個假設(shè):當(dāng)適當(dāng)?shù)姆蔷€性被編碼到結(jié)構(gòu)和特征中時,神經(jīng)網(wǎng)絡(luò)可以很好地外推。我們用一個簡化的例子證明了這個假設(shè),并為更一般的情況提供了經(jīng)驗支持。

    1.1相關(guān)工作

    早期的工作顯示了MLP不能很好地外推的示例任務(wù),例如學(xué)習(xí)簡單多項式(Barnard&Wessels,1992;Haley&Soloway,1992年)。相反,我們展示了ReLU MLPs如何外推的一般模式,并確定MLPs外推良好的條件。最近的工作研究了在NTK和平均場兩種情況下,梯度下降對MLP產(chǎn)生的隱性偏差(Bietti和Mairal,2019;Chizat&Bach,2018年;Song等人,2018年)。與我們的結(jié)果相關(guān),一些工作表明MLP預(yù)測收斂于“簡單”分段線性函數(shù),例如,具有很少的線性區(qū)域(Hanin&Rolnick,2019;Maennel等人,2018年;Savarese等人,2019年;威廉姆斯等人,2019年)。我們的工作不同之處在于,這些工作都沒有明確研究外推法,有些只關(guān)注一維輸入。最近的研究還表明,在NTK區(qū)域的高維環(huán)境中,MLP在某些標(biāo)度極限下至多是一個漸近線性預(yù)測因子(Ba等人,2020;Ghorbani等人,2019年)。我們研究不同的設(shè)置(外推),我們的分析是非漸近性質(zhì),不依賴于隨機矩陣?yán)碚摗?/p>

    先前的工作通過在較大的圖上進(jìn)行測試來探索GNN外推(Battaglia et al.,2018;Santoro等人,2018年;薩克斯頓等人,2019年;Velickovic等人,2020年)。我們是第一個從理論上研究GNN外推法的人,我們完成了外推法的概念,包括看不見的特征和結(jié)構(gòu)。

    2準(zhǔn)備工作

    3前饋神經(jīng)網(wǎng)絡(luò)如何外推

    前饋網(wǎng)絡(luò)是最簡單的神經(jīng)網(wǎng)絡(luò)和更復(fù)雜的體系結(jié)構(gòu)(如GNNs)的構(gòu)建塊,因此我們首先研究它們在GD訓(xùn)練時是如何外推的。在本文中,我們假設(shè)ReLU激活。第3.3節(jié)包含其他激活的初步結(jié)果。

    3.1 RELU MLP的線性外推行為

    通過架構(gòu),ReLU網(wǎng)絡(luò)學(xué)習(xí)分段線性函數(shù),但是在訓(xùn)練數(shù)據(jù)的支持之外,這些區(qū)域究竟是什么樣的呢?圖1舉例說明了當(dāng)GD對各種非線性函數(shù)進(jìn)行訓(xùn)練時,ReLU MLP如何進(jìn)行外推。這些例子表明,在訓(xùn)練支持之外,預(yù)測很快就會沿著原點的方向線性化。我們通過線性回歸對MLPs的預(yù)測進(jìn)行了系統(tǒng)的驗證:決定系數(shù)(R2)總是大于0.99(附錄C.2)。也就是說,ReLU MLPs幾乎立即在訓(xùn)練數(shù)據(jù)范圍之外“線性化”。

    我們使用GD通過神經(jīng)切線核(NTK)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的隱式偏差來形式化這個觀察:GD訓(xùn)練的過參數(shù)化網(wǎng)絡(luò)的優(yōu)化軌跡等價于具有特定神經(jīng)切線核的核回歸的軌跡,在一系列被稱為“NTK制度”的假設(shè)下(Jacot等人,2018年)。我們在這里提供了一個非正式的定義;更多詳情,請參閱Jacot等人(2018)和附錄A。

    定義2。

    (非正式)在NTK區(qū)域訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是無限寬的,以一定的比例隨機初始化,并且由GD以無窮小的步長訓(xùn)練。

    先前的工作通過NTK分析過參數(shù)化神經(jīng)網(wǎng)絡(luò)的優(yōu)化和分布泛化(Allen-Zhu等人,2019a;b類;Arora等人,2019a;b類;曹顧,2019;杜等人,2019c;一個;李亮,2018;日田和鈴木,2021年)。相反,我們分析外推。

    定理1將我們從圖1中觀察到的結(jié)果形式化:在訓(xùn)練數(shù)據(jù)范圍之外,沿著原點的任何方向tv,兩層ReLU MLP的預(yù)測迅速收斂為速率為O(1/t)的線性函數(shù)。線性系數(shù)β收斂速度中的常數(shù)項依賴于訓(xùn)練數(shù)據(jù)和方向v。證據(jù)見附錄B.1

    定理1

    ReLU網(wǎng)絡(luò)具有有限多個線性區(qū)域(Arora等人,2018;漢寧和羅爾尼克,2019),因此他們的預(yù)測最終成為線性。相反,定理1是一個更細(xì)粒度的分析MLP如何外推,并提供了收斂速度。雖然定理1假設(shè)兩層網(wǎng)絡(luò)處于NTK狀態(tài),但實驗證實,線性外推行為發(fā)生在具有不同深度、寬度、學(xué)習(xí)速率和批量大小的網(wǎng)絡(luò)上(附錄C.1和C.2)。我們的證明技術(shù)也可能擴展到更深層次的網(wǎng)絡(luò)。

    圖4a提供了一個更積極的結(jié)果:MLP在許多不同的超參數(shù)上很好地外推了線性目標(biāo)函數(shù)。雖然學(xué)習(xí)線性函數(shù)一開始似乎非常有限,但在第4節(jié)中,這一見解將有助于解釋GNN在非線性實際任務(wù)中的外推特性。在此之前,我們首先從理論上分析了MLPs外推的好時機。

    3.2當(dāng)RELU MLPS可證明外推井

    圖4a顯示,當(dāng)目標(biāo)函數(shù)為線性時,MLP可以很好地外推。然而,這并不總是正確的。在本節(jié)中,我們展示了成功的外推依賴于訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)。直觀地說,訓(xùn)練分布必須足夠“多樣化”,以便進(jìn)行正確的推斷

    我們提供了兩個條件,將訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)與外推聯(lián)系起來。引理1指出,過參數(shù)化的mlp只需二維例子就可以學(xué)習(xí)線性目標(biāo)函數(shù)。

    實驗:訓(xùn)練數(shù)據(jù)的幾何結(jié)構(gòu)影響外推。

    定理2中的條件形式化了一種直覺,即訓(xùn)練分布必須是“多樣的”,才能成功地進(jìn)行外推,例如,D包括所有方向。從經(jīng)驗上講,當(dāng)滿足定理2的條件時(圖4b中的“all”),外推誤差確實很小。相反,當(dāng)訓(xùn)練示例僅限于某些方向時,外推誤差要大得多(圖4b和圖3)。

    與之前的工作相關(guān),定理2提出了為什么虛假相關(guān)性可能會損害外推,補充了因果關(guān)系論點(Arjovsky et al.,2019;Peters等人,2016年;Rojas Carulla等人,2018年)。當(dāng)訓(xùn)練數(shù)據(jù)具有虛假相關(guān)性時,某些特征組合丟失;e、 例如,駱駝可能只出現(xiàn)在沙漠中的圖像收集。因此,定理2的條件不再成立,模型可能外推錯誤。定理2也類似于線性模型的可辨識條件,但更為嚴(yán)格。如果訓(xùn)練數(shù)據(jù)具有全(特征)秩,我們可以唯一地識別一個線性函數(shù)。mlp更具表現(xiàn)力,因此識別線性目標(biāo)函數(shù)需要附加約束。

    綜上所述,我們分析了ReLU-MLPs是如何外推的,并提供了兩個啟示:(1)MLPs由于其線性外推而不能外推大多數(shù)非線性任務(wù)(定理1);當(dāng)目標(biāo)函數(shù)是線性函數(shù)時,如果訓(xùn)練分布是“多樣的”(定理2),mlp可以很好地外推。在下一節(jié)中,這些結(jié)果將幫助我們理解更復(fù)雜的網(wǎng)絡(luò)是如何外推的。

    3.3具有其他激活功能的MLPS

    在繼續(xù)討論GNNs之前,我們通過對其他激活函數(shù)tanh的實驗來完成MLPs的描述σ(x) =tanh(x),余弦σ(x) =cos(x)(Lapedes&Farber,1987年;McCaughan,1997年;Sopena和Alquezar,1994),和σ(x) =x2(杜和李,2018;Livni等人,2014年)。詳情見附錄C.4。當(dāng)激活函數(shù)和目標(biāo)函數(shù)相似時,MLPs外推效果較好;e、 例如,當(dāng)學(xué)習(xí)tanh時,tanh激活可以很好地推斷,但不能推斷其他功能(圖5)。而且,每個激活函數(shù)都有不同的局限性。要用tanh激活外推tanh函數(shù),訓(xùn)練數(shù)據(jù)范圍必須足夠?qū)?。?dāng)學(xué)習(xí)具有二次激活的二次函數(shù)時,只有兩層網(wǎng)絡(luò)可以很好地進(jìn)行外推,而更多的層可以得到更高階的多項式。對于高維數(shù)據(jù),余弦激活很難優(yōu)化,因此我們只考慮一維/二維余弦目標(biāo)函數(shù)。

    4圖形神經(jīng)網(wǎng)絡(luò)如何外推

    上面,我們看到非線性任務(wù)中的外推對于MLP來說是困難的。盡管存在這一局限性,GNNs在一些非線性算法任務(wù)中表現(xiàn)出了很好的外推能力,如直觀物理(Battaglia et al.,2016;Janner等人,2019),圖算法(Battaglia等人,2018;Velickovic等人,2020)和符號數(shù)學(xué)(Lample&Charton,2020)。為了解決這個差異,我們建立在MLP結(jié)果的基礎(chǔ)上,研究GD訓(xùn)練的GNNs是如何外推的。

    4.1假設(shè):線性算法對齊有助于外推

    我們從一個例子開始:訓(xùn)練GNNs來解決最短路徑問題。對于這項任務(wù),先前的工作觀察到,具有最小聚集的改進(jìn)GNN架構(gòu)可以推廣到比訓(xùn)練集中的圖更大的圖(Battaglia et al.,2018;Velickovic等人,2020):

    我們首先提供一個直觀的解釋(圖2a)。最短路徑可通過Bellman-Ford(BF)算法(Bellman,1958)求解,并進(jìn)行以下更新

    其中w(v,u)是邊(v,u)的權(quán)重,d[k][u]是k步內(nèi)到節(jié)點u的最短距離。這兩個方程可以很容易地對齊:如果GNNs的MLP模塊學(xué)習(xí)一個線性函數(shù)d[k],那么它將模擬BF算法−1] [v]+w(v,u)。由于mlp可以外推線性任務(wù),這種“對齊”可以解釋為什么GNNs可以在這個任務(wù)中很好地外推。

    為了進(jìn)行比較,我們可以解釋為什么我們不希望GNN使用更常用的和聚合(Eqn。1) 在這項任務(wù)中推斷得很好。對于和聚合,MLP模塊需要學(xué)習(xí)一個非線性函數(shù)來模擬BF算法,但定理1表明,它們不會在訓(xùn)練支持之外外推大多數(shù)非線性函數(shù)。

    我們可以將上述直覺推廣到其他算法任務(wù)。許多GNNs外推良好的任務(wù)可以通過動態(tài)規(guī)劃(DP)來解決(Bellman,1966),這是一種具有類似GNNs(Eqn)的遞歸結(jié)構(gòu)的算法范式。1) (Xu等人,2020年)。

    定義3。動態(tài)規(guī)劃(DP)是一個帶有更新的遞歸過程

    其中答案[k][s]是迭代k和狀態(tài)s索引的子問題的解決方案,DP Update是一個任務(wù)特定的更新函數(shù),它基于上一次迭代解決子問題。從更廣泛的角度出發(fā),我們假設(shè):如果我們將適當(dāng)?shù)姆蔷€性編碼到模型結(jié)構(gòu)和輸入表示中,使MLP模塊只需要學(xué)習(xí)接近線性的步驟,那么所得到的神經(jīng)網(wǎng)絡(luò)就可以很好地外推。

    假設(shè)1。

    我們的假設(shè)建立在(Xu等人,2020)的算法對齊框架之上,該框架指出,如果模塊“對齊”以便于學(xué)習(xí)(可能是非線性)函數(shù),則神經(jīng)網(wǎng)絡(luò)插值良好。成功的外推更難:模塊需要與線性函數(shù)對齊。

    線性算法對準(zhǔn)的應(yīng)用。

    一般來說,線性算法對準(zhǔn)不局限于GNN,廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)。為了滿足這種情況,我們可以在結(jié)構(gòu)或輸入表示中編碼適當(dāng)?shù)姆蔷€性操作(圖2)。使用GNNs學(xué)習(xí)DP算法是在體系結(jié)構(gòu)中編碼非線性的一個例子(Battaglia等人,2018;Corso等人,2020年)。另一個例子是對體系結(jié)構(gòu)中的日志和exp變換進(jìn)行編碼,以幫助外推算術(shù)任務(wù)中的乘法(Trask等人,2018;Madsen&Johansen,2020年)。神經(jīng)符號程序進(jìn)一步發(fā)展,并對符號操作庫進(jìn)行編碼,以幫助推斷(Johnson等人,2017年;Mao等人,2019年;易等,2018年)。

    對于某些任務(wù),更改輸入表示可能更容易(圖2b)。有時,我們可以將目標(biāo)函數(shù)f分解為f=g◦ 將h嵌入特征嵌入h和一個簡單的目標(biāo)函數(shù)g中,我們的模型可以很好地推斷。我們可以通過使用領(lǐng)域知識通過專門的特征或特征轉(zhuǎn)換獲得h(Lample&Charton,2020;Webb等人,2020年),或通過X\D中未標(biāo)記的未標(biāo)記的未標(biāo)記的分發(fā)數(shù)據(jù)的表示學(xué)習(xí)(例如,BERT)(Chen等人,2020年);Devlin等人,2019年;胡等,2020;Mikolov等人,2013b;Peters等人,2018年)。這為表示如何幫助在不同應(yīng)用領(lǐng)域進(jìn)行外推提供了新的視角。例如,在自然語言處理中,預(yù)處理表示(Mikolov等人,2013a;Wu&Dredze,2019)和使用領(lǐng)域知識進(jìn)行特征轉(zhuǎn)換(袁等,2020年;Zhang等人,2019)幫助模型在語言之間進(jìn)行概括,這是一種特殊的外推。在定量金融中,確定正確的“因素”或特征對于深入學(xué)習(xí)模型至關(guān)重要,因為金融市場可能經(jīng)常處于外推制度中(Banz,1981;法蘭西,1993年;羅斯,1976)。

    線性算法對齊解釋了文獻(xiàn)中成功的外推,并指出外推一般更難:編碼適當(dāng)?shù)姆蔷€性通常需要領(lǐng)域?qū)<一蚰P退阉?。其次,我們?yōu)槲覀兊募僭O(shè)提供理論和實證支持。

    4.2理論和經(jīng)驗支持

    我們驗證了我們對三個DP任務(wù)的假設(shè):最大度、最短路徑和n-體問題,并證明了最大度假設(shè)。我們強調(diào)了圖結(jié)構(gòu)在外推中的作用。

    理論分析。

    我們從一個簡單而基本的任務(wù)開始:學(xué)習(xí)一個圖的最大度,一個DP的特例。作為定理1的推論,常用的基于和的GNN(Eqn。1) 無法很好地推斷(證據(jù)見附錄B.4)。

    推論1。

    具有和聚集和和和讀出的GNNs在最大程度上不能很好地外推。為了實現(xiàn)線性算法對齊,我們可以對讀出器中唯一的非線性max函數(shù)進(jìn)行編碼。定理3證實了具有最大讀數(shù)的GNN在這個任務(wù)中可以很好地外推。

    定理3并不是緊跟定理2,因為GNNs中的MLP模塊只接受間接的監(jiān)視。我們分析圖NTK(Du等人,2019b)來證明附錄B.5中的定理3。雖然定理3假設(shè)相同的節(jié)點特征,但我們在經(jīng)驗上觀察到相同和不相同特征的相似結(jié)果(附錄中的圖16)。

    條件的解釋。

    定理3中的條件類似于定理2中的條件。這兩個定理都需要不同的訓(xùn)練數(shù)據(jù),用定理3中的圖結(jié)構(gòu)或定理2中的方向來度量。在定理3中,如果所有訓(xùn)練圖都具有相同的最大或最小節(jié)點度,例如,當(dāng)訓(xùn)練數(shù)據(jù)來自以下族之一時,違反了該條件:路徑、C-正則圖(具有C度的正則圖)、圈和階梯。

    實驗:有助于推斷的架構(gòu)。

    我們用兩個DP任務(wù)來驗證我們的理論分析:最大度和最短路徑(詳見附錄C.5和C.6)。而以前的工作只測試不同大小的圖(Battaglia et al.,2018;Velickovic等人,2020),我們還測試了具有不可見結(jié)構(gòu)、邊權(quán)重和節(jié)點特征的圖。結(jié)果支持了我們的理論。對于最大度,具有最大讀數(shù)的GNNs優(yōu)于具有和讀數(shù)的GNNs(圖6a),證實了推論1和定理3。對于最短路徑,具有最小讀數(shù)和最小聚集的GNN優(yōu)于具有和讀數(shù)的GNN(圖6a)。

    實驗證實了訓(xùn)練圖結(jié)構(gòu)的重要性(圖7)。有趣的是,這兩個任務(wù)支持不同的圖結(jié)構(gòu)。對于最大度,如定理3所預(yù)測的,當(dāng)訓(xùn)練在樹、完全圖、擴張圖和一般圖上時,GNNs外推效果很好,當(dāng)訓(xùn)練在4-正則圖、圈圖或梯形圖上時,外推誤差更大。對于最短路徑,當(dāng)我們改變訓(xùn)練圖的稀疏性時,外推誤差遵循U形曲線(附錄中的圖7b和圖18)。直覺上,在稀疏或稠密圖上訓(xùn)練的模型可能學(xué)習(xí)退化解。

    實驗:有助于推斷的表征。

    最后,我們展示了一個很好的輸入表示幫助外推。我們研究了n體問題(Battaglia等人,2016;Watters等人,2017年)(附錄C.7),即預(yù)測重力系統(tǒng)中n個物體的時間演化。根據(jù)之前的工作,輸入是一個完整的圖形,其中節(jié)點是對象(Battaglia等人,2016)。

    5與其他分布外設(shè)置的連接

    我們討論幾個相關(guān)的設(shè)置。直觀地說,從我們上述結(jié)果的觀點來看,相關(guān)設(shè)置中的方法可以通過1)學(xué)習(xí)超出訓(xùn)練數(shù)據(jù)范圍的有用非線性和2)將相關(guān)測試數(shù)據(jù)映射到訓(xùn)練數(shù)據(jù)范圍來改進(jìn)外推。

    領(lǐng)域適應(yīng)研究對特定目標(biāo)領(lǐng)域的泛化(Ben-David等人,2010;Blitzer等人,2008年;Mansour等人,2009年)。典型的策略會調(diào)整訓(xùn)練過程:例如,使用來自目標(biāo)域的未標(biāo)記樣本來對齊目標(biāo)和源分布(Ganin等人,2016;趙等,2018)。在訓(xùn)練期間使用目標(biāo)域數(shù)據(jù)可能會導(dǎo)致有用的非線性,并可能通過匹配目標(biāo)和源分布來減輕外推,盡管學(xué)習(xí)映射的正確性取決于標(biāo)簽分布(Zhao等人,2019)。

    對大量未標(biāo)記數(shù)據(jù)的自監(jiān)督學(xué)習(xí)可以學(xué)習(xí)超出標(biāo)記訓(xùn)練數(shù)據(jù)范圍的有用非線性(Chen et al.,2020;Devlin等人,2019年;He等人,2020年;Peters等人,2018年)。因此,我們的結(jié)果提出了一個解釋,為什么像BERT這樣的預(yù)訓(xùn)練表示可以提高分布外魯棒性(Hendrycks et al.,2020)。此外,自監(jiān)督學(xué)習(xí)可以將語義相似的數(shù)據(jù)映射到相似的表示,因此映射后的一些域外實例可能會落入訓(xùn)練分布中。

    不變模型旨在學(xué)習(xí)在多個訓(xùn)練分布中尊重特定不變性的特征(Arjovsky et al.,2019;Rojas Carulla等人,2018年;周等人,2021)。如果模型真的學(xué)習(xí)到了這些不變性,這可能發(fā)生在線性情況下,當(dāng)存在混雜或反因果變量時(Ahuja等人,2021;Rosenfeld等人,2021),這可能從本質(zhì)上增加了訓(xùn)練數(shù)據(jù)范圍,因為模型可以忽略不變特征的變化。

    分布魯棒性考慮了數(shù)據(jù)分布的小干擾,并確保模型在這些干擾下表現(xiàn)良好(Goh&Sim,2010;Sagawa等人,2020年;Sinha等人,2018年;Staib&Jegelka,2019年)。相反,我們看的是更多的全局?jǐn)_動。盡管如此,人們還是希望,有助于外推的修改通常也能提高對局部擾動的魯棒性。

    6結(jié)論

    本文是一個初步的步驟,正式了解如何神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度下降外推。我們確定了MLPs和GNNs按期望外推的條件。我們還提出了一種解釋,說明GNNs在復(fù)雜的算法任務(wù)中是如何能夠很好地進(jìn)行外推的:在架構(gòu)和特性中編碼適當(dāng)?shù)姆蔷€性可以幫助外推。我們的結(jié)果和假設(shè)與本文和文獻(xiàn)中的實證結(jié)果一致

    四、RBF神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)有什么區(qū)別

    1.RBF 的泛化能力在多個方面都優(yōu)于BP 網(wǎng)絡(luò), 但是在解決具有相同精度要求的問題時, BP網(wǎng)絡(luò)的結(jié)構(gòu)要比RBF 網(wǎng)絡(luò)簡單。

    2. RBF 網(wǎng)絡(luò)的逼近精度要明顯高于BP 網(wǎng)絡(luò),它幾乎能實現(xiàn)完全逼近, 而且設(shè)計起來極其方便, 網(wǎng)絡(luò)可以自動增加神經(jīng)元直到滿足精度要求為止。但是在訓(xùn)練樣本增多時, RBF 網(wǎng)絡(luò)的隱層神經(jīng)元數(shù)遠(yuǎn)遠(yuǎn)高于前者, 使得RBF 網(wǎng)絡(luò)的復(fù)雜度大增加, 結(jié)構(gòu)過于龐大, 從而運算量也有所增加。

    3. RBF神經(jīng)網(wǎng)絡(luò)是一種性能優(yōu)良的前饋型神經(jīng)網(wǎng)絡(luò),RBF網(wǎng)絡(luò)可以任意精度逼近任意的非線性函數(shù),且具有全局逼近能力,從根本上解決了BP網(wǎng)絡(luò)的局部最優(yōu)問題,而且拓?fù)浣Y(jié)構(gòu)緊湊,結(jié)構(gòu)參數(shù)可實現(xiàn)分離學(xué)習(xí),收斂速度快。

    4. 他們的結(jié)構(gòu)是完全不一樣的。BP是通過不斷的調(diào)整神經(jīng)元的權(quán)值來逼近最小誤差的。其方法一般是梯度下降。RBF是一種前饋型的神經(jīng)網(wǎng)絡(luò),也就是說他不是通過不停的調(diào)整權(quán)值來逼近最小誤差的,的激勵函數(shù)是一般是高斯函數(shù)和BP的S型函數(shù)不一樣,高斯函數(shù)是通過對輸入與函數(shù)中心點的距離來算權(quán)重的。

    5. bp神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速率是固定的,因此網(wǎng)絡(luò)的收斂速度慢,需要較長的訓(xùn)練時間。對于一些復(fù)雜問題,BP算法需要的訓(xùn)練時間可能非常長,這主要是由于學(xué)習(xí)速率太小造成的。而rbf神經(jīng)網(wǎng)絡(luò)是種高效的前饋式網(wǎng)絡(luò),它具有其他前向網(wǎng)絡(luò)所不具有的最佳逼近性能和全局最優(yōu)特性,并且結(jié)構(gòu)簡單,訓(xùn)練速度快。

    以上就是關(guān)于圖神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的區(qū)別相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    作圖神器(免費作圖工具)

    免費作圖神器(免費作圖神器下載)

    免費作圖神器(免費作圖神器制作醫(yī)院診斷)

    我的巨富生涯(弄潮1990從廠長開始)

    綠色主題景觀設(shè)計案例(綠色主題景觀設(shè)計案例分享)