-
當前位置:首頁 > 創(chuàng)意學院 > 十大排名 > 專題列表 > 正文
gan論文十大排名(論文排行榜)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于gan論文十大排名的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端
本文目錄:
一、推薦系統(tǒng)論文閱讀(二十九)-美團:利用歷史交互數據改進對話推薦系統(tǒng)
論文:
題目:《Leveraging Historical Interaction Data for Improving Conversational Recommender System 》
地址: https://dl.acm.org/doi/pdf/10.1145/3340531.3412098
這是我第一次將美團發(fā)表的論文寫在這上面,該論文是人大跟美團這邊合作在CIKM上面的一篇短論文,研究的是如何利用歷史交互的數據來進行對話式的推薦。
最近,對話推薦系統(tǒng)(CRS)已成為一個新興且實用的研究主題。 現有的大多數CRS方法都專注于僅從對話數據中為用戶學習有效的偏好表示。 然而,本論文從新的視角來利用歷史交互數據來改善CRS。 為此,這篇論文提出了一種新穎的預訓練方法,以通過預訓練方法集成基于物品的偏好序列(來自歷史交互數據)和基于屬性的偏好序列(來自對話數據)。
隨著電子商務平臺中智能代理的快速發(fā)展,對話推薦系統(tǒng)(CRS)已成為尋求通過對話向用戶提供高質量推薦的新興研究主題。 通常,CRS由對話模塊和推薦模塊組成。 對話模塊側重于通過多回合互動獲取用戶的偏好,推薦模塊側重于如何利用推斷出的偏好信息為用戶推薦合適的商品。
現有的大多數CRS都以“系統(tǒng)要求用戶響應”模式設計的。在每輪對話中,CRS都會發(fā)出有關用戶偏愛的問題,并且用戶會使用個性化反饋對系統(tǒng)進行回復。通常,系統(tǒng)會根據商品的某些屬性(例如,你最喜歡的電影類型是什么)來生成系統(tǒng)查詢,并且用戶反饋會反映用戶對該屬性的特定偏愛(例如,我喜歡動作電影)。主流方法是構造一種跟蹤模塊,該模塊可以從這種多輪對話中推斷出用戶的基于屬性的偏好。以此方式,可以將所推斷的偏好呈現為所推斷屬性的序列(例如,電影CRS中的“流派=動作→導演=詹姆斯·卡梅隆”。有了這個序列后,我們就可以用一些方法來進行推薦來,比如可以采用知識圖譜來進行推薦。
但是,這些現有的CRS研究存在兩個主要問題。首先,對話本身的信息非常有限。許多CRS得到了進一步優(yōu)化,以減少系統(tǒng)與用戶交互的回合數。因此,在基于屬性的推斷偏好中,可能會丟失一些有用的屬性。其次,僅利用基于屬性的偏好來進行推薦可能還不夠。例如,即使在過濾了幾個屬性之后,候選項目集仍可能很大。
現在要解決以上提到的兩個問題,我們就需要把基于item的方式和基于屬性的方式進行結合。其中,基于歷史交互item的方式反映的是用戶的長期興趣,基于會話屬性的方式反映的是用戶當前的興趣,也就是短期興趣,這是一個典型的長短期興趣結合的任務。
A:之前說了,在CRS系統(tǒng)中,一個用戶進行多輪對話后,會有一個item屬性的集合,A就是這個集合
= ,其中 屬于A,是item的屬性,n是屬性序列的長度
,其中 是用戶在對話前第k步與之交互的item
:我們進一步假設每個項目ik也與一組屬性值相關聯,用Aik表示,它是整個屬性集A的子集。
任務的定義:根據CRS模塊,首先收集到基于屬性的序列 ,然后利用點擊序列 進行推薦。關于這個任務的定義,深入理解應該是這樣:我們是先有屬性序列,然后主要根據點擊序列進行推薦,屬性序列的建模是子模塊任務,序列推薦是主任務,序列推薦任務在屬性序列更新后可以反復利用這個信息,只要屬性序列更新。
論文的base model是用Transformer做的,輸入部分是embedding層,這部分除了有item id的embedding矩陣,還有屬性的embedding矩陣,輸入還有個P,這個就不說了,位置向量。
中間的運算就是Transformer的過程了,self-attention 跟ffn,這里不懂transformer結構的可以看一下論文。
輸出部分是預測候選item i的概率:
其中ei是i的原始embedding向量,W是映射矩陣,兩個s是item和屬性經過transformer結構出來的最后一個向量。
熟悉bert的都知道m(xù)ask language model,把item序列中的item 用mask替代,然后預測這些被mask掉的item。
其中fik是item transformer結構出來的位置k出來的向量,SA是熟悉結構出來的Aik的位置出來的向量,W是映射矩陣,eik是原始的item embedding。
為了更好的讓item based的信息跟attribute based的信息進行融合,論文也采取了一種另類的mask方法,用隨機負采樣的屬性來替代Aik,
其中fik是被替換的那個item經過trm出來的向量,W是映射矩陣,faj是屬性trm出來的向量,預測的概率是aj是否是被替換過。
在LTR里面,如果采用的是pairwise的優(yōu)化方式,那么負采樣的技術就至為關鍵了,而且優(yōu)化了正樣本的概率大于負樣本的能力,所以需要選取一種負采樣的方法來給我們整個模型的優(yōu)化帶來提升。
MIP里面負采樣的方式用的是 IR-GAN 和 ELECT這兩篇論文所采用的方式。
改論文選擇了SASRec作為第一個階段的pairwise ranking的模型,這個模型也是論文中用來sample 負樣本的模型。負采樣是這么做的:我們先用pairwise ranking的方式訓練一個模型作為生成器,得到了候選item的概率分布,有了這個概率分布我們就可以拿來負采樣了,因為排序高的items跟真實的很接近。至于為什么選擇這個模型,論文里面說是因為這個論文在序列推薦任務中的表示特別好,也就是它作為ranking的模型效果還不錯。請注意,盡管可以像標準GAN中那樣更新生成器,但是我們只訓練它的參數一次。 根據經驗,我們發(fā)現迭代更新帶來的改進是有限的。
整個訓練分成兩個階段,第一個是預訓練階段,就是訓練兩個表示學習模型,第二個是微調階段,學習的是rank loss:
二、論文研讀:WGAN
Wasserstain-GAN 是 GAN 中非常重要的一個工作 ,文章:
已有的一些距離,定義 為 compact metrix set (隨機變量), 是 的波萊爾子集(?), 是所有定義在 上的分布的空間,對于兩個分布 有以下的距離的定義:
這四種距離:
文章作者舉了例子來闡述了EM距離在連續(xù)性上的優(yōu)越性:
令 , 是 二維隨機變量的分布,而 是二維隨機變量 的隨機分布族,其中 是超參數。
可以發(fā)現,當且僅當 時, 和 是同一分布 ,而當 時, 和 是完全沒有交集的兩個分布 ,下面我們可以分情況計算這四種距離:
比較這四種距離,發(fā)現只有EM距離對于 是連續(xù)的, 只有EM距離可以使得當 時,分布族 收斂到 ,而且當兩個分布完全不相交時,其他距離對于 的導數是0,使得無法通過梯度下降學習。
EM距離中的 計算是非常困難的,作者使用了Kantorovich-Rubinstein對偶,將距離變成了另一個公式:
上式的意思是,對所有滿足 1-Lipschitz 的函數 , 的上確界。
將 1-Lipschitz 條件替換為 K-Lipschitz 條件( 為任意常數),如果我們有滿足 K-Lipschitz 條件的函數族 ( ),把求解 變成求最優(yōu)值的問題:
這里就可以引入函數的萬能近似器NN了,將其中的 和 替換,最終得到的WGAN的優(yōu)化目標為:
其中 表示滿足Lipschitz-1條件的函數族。
WGAN的訓練過程如下圖所述:
不難看出D訓練地越好,越能反應真實的Wasserstain距離,所以作者也提出可以 將損失函數的值作為Wasserstain距離的近似,衡量WGAN學習的好壞。
總結的上圖的要點有:
一點經驗之談:
WGAN使得訓練GAN更加容易,至于Mode Collapse,作者只是提到在實驗中并沒有發(fā)現這一現象。
Lipschitz條件的定義:
直觀上看,就是函數 任意兩點連線斜率小于 。
滿足上述條件的函數也稱Lipschitz連續(xù),比起連續(xù)的函數,滿足Lipschitz連續(xù)的函數更加光滑,而且它對函數的變化做了要求: 函數在任意區(qū)間的變化不能超過線性的變化 , 線性變化的大小不超過Lipschitz常數 。
在非凸優(yōu)化中,Lipschitz條件對函數定義了一類邊界。
文章是為了方便自己理解而寫,所以難免有不清楚或錯誤之處、或者自創(chuàng)的方便理解的術語,如有錯誤,歡迎指正。
三、GAN的理解
生成器(Generator,G)即假鈔制造者,辨別器(Discriminator,D)的任務是識別假鈔,前者想要盡力蒙混過關,而后者則是努力識別出是真鈔(來自于原樣本)還是假鈔(生成器生成的樣本)。兩者左右博弈,最后達到一種平衡:生成器能夠以假亂真(或者說生成的與原樣本再也沒差),而判別器以1/2概率來瞎猜。
GAN的主要結構包括一個生成器G(Generator)和一個判別器D(Discriminator)。
我們舉手寫字的例子來進行進一步窺探GAN的結構。
我們現在擁有大量的手寫數字的數據集,我們希望通過GAN生成一些能夠以假亂真的手寫字圖片。主要由如下兩個部分組成:
目標函數的理解:
其中判別器D的任務是最大化右邊這個函數,而生成器G的任務是最小化右邊函數。
首先分解一下式子,主要包含:D(x)、(1-D(G(z))。
D(x)就是判別器D認為樣本來自于原分布的概率,而D(G(z))就是判別器D誤把來自于生成器G造的假樣本判別成真的概率。那么D的任務是最大化D(x)同時最小化D(G(z))(即最大化1-D(G(z))),所以綜合一下就是最大化D(x)(1-D(G(z)),為了方便取log,增減性不變,所以就成了logD(x)+log(1-D(G(z))。
而G想讓 和 足夠像,也就是D(G(z))足夠大;而logD(x)并不對它本身有影響,所以他的衡量函數可以只是min{log(1-D(z))},也可以加一個對他來說的常數后變?yōu)?
目標函數的推導、由來
判別器在這里是一種分類器,用于區(qū)分樣本的真?zhèn)?,因此我們常常使用交叉熵(cross entropy)來進行判別分布的相似性,交叉熵公式如下:
公式中 和 為真實的樣本分布和生成器的生成分布。 關于交叉熵的內容
在當前模型的情況下,判別器為一個二分類問題,因此可以對基本交叉熵進行更具體地展開如下:
為正確樣本分布,那么對應的( )就是生成樣本的分布。 D 表示判別器,則 表示判別樣本為正確的概率, 則對應著判別為錯誤樣本的概率。
將上式推廣到N個樣本后,將N個樣本相加得到對應的公式如下:
到目前為止還是基本的二分類,下面加入GAN中特殊的地方。
對于GAN中的樣本點 ,對應于兩個出處,要么來自于真實樣本,要么來自于生成器生成的樣本 ~ ( 這里的 是服從于投到生成器中噪聲的分布)。
其中,對于來自于真實的樣本,我們要判別為正確的分布 。來自于生成的樣本我們要判別其為錯誤分布( )。將上面式子進一步使用概率分布的期望形式寫出(為了表達無限的樣本情況,相當于無限樣本求和情況),并且讓 為 1/2 且使用 表示生成樣本可以得到如下:
與原式 其實是同樣的式子
若給定一個樣本數據的分布 和生成的數據分布 那么 GAN 希望能找到一組參數 使分布 和 之間的距離最短,也就是找到一組生成器參數而使得生成器能生成十分逼真的圖片。
現在我們可以從訓練集抽取一組真實圖片來訓練 分布中的參數 使其能逼近于真實分布。因此,現在從 中抽取 個真實樣本 { },對于每一個真實樣本,我們可以計算 ,即在由 確定的生成分布中, 樣本所出現的概率。因此,我們就可以構建似然函數:
從該似然函數可知,我們抽取的 個真實樣本在 分布中全部出現的概率值可以表達為 L。又因為若 分布和 分布相似,那么真實數據很可能就會出現在 分布中,因此 個樣本都出現在 分布中的概率就會十分大。
下面我們就可以最大化似然函數 L 而求得離真實分布最近的生成分布(即最優(yōu)的參數θ):
在上面的推導中,我們希望最大化似然函數 L。若對似然函數取對數,那么累乘 ∏ 就能轉化為累加 ∑ ,并且這一過程并不會改變最優(yōu)化的結果。因此我們可以將極大似然估計化為求令 期望最大化的θ,而期望 可以展開為在 x 上的積分形式: 。又因為該最優(yōu)化過程是針對θ的,所以我們添加一項不含θ的積分并不影響最優(yōu)化效果,即可添加 。添加該積分后,我們可以合并這兩個積分并構建類似 KL 散度的形式。該過程如下:
這一個積分就是 KL 散度的積分形式,因此,如果我們需要求令生成分布 盡可能靠近真實分布 的參數 θ,那么我們只需要求令 KL 散度最小的參數θ。若取得最優(yōu)參數θ,那么生成器生成的圖像將顯得非常真實。
下面,我們必須證明該最優(yōu)化問題有唯一解 G*,并且該唯一解滿足 。不過在開始推導最優(yōu)判別器和最優(yōu)生成器之前,我們需要了解 Scott Rome 對原論文推導的觀點,他認為原論文忽略了可逆條件,因此最優(yōu)解的推導不夠完美。
在 GAN 原論文中,有一個思想和其它很多方法都不同,即生成器 G 不需要滿足可逆條件。Scott Rome 認為這一點非常重要,因為實踐中 G 就是不可逆的。而很多證明筆記都忽略了這一點,他們在證明時錯誤地使用了積分換元公式,而積分換元卻又恰好基于 G 的可逆條件。Scott 認為證明只能基于以下等式的成立性:
該等式來源于測度論中的 Radon-Nikodym 定理,它展示在原論文的命題 1 中,并且表達為以下等式:
我們看到該講義使用了積分換元公式,但進行積分換元就必須計算 ,而 G 的逆卻并沒有假定為存在。并且在神經網絡的實踐中,它也并不存在??赡苓@個方法在機器學習和統(tǒng)計學文獻中太常見了,因此我們忽略了它。
在極小極大博弈的第一步中,給定生成器 G,最大化 V(D,G) 而得出最優(yōu)判別器 D。其中,最大化 V(D,G) 評估了 P_G 和 P_data 之間的差異或距離。因為在原論文中價值函數可寫為在 x 上的積分,即將數學期望展開為積分形式:
其實求積分的最大值可以轉化為求被積函數的最大值。而求被積函數的最大值是為了求得最優(yōu)判別器 D,因此不涉及判別器的項都可以看作為常數項。如下所示,P_data(x) 和 P_G(x) 都為標量,因此被積函數可表示為 a D(x)+b log(1-D(x))。
若令判別器 D(x) 等于 y,那么被積函數可以寫為:
為了找到最優(yōu)的極值點,如果 a+b≠0,我們可以用以下一階導求解:
如果我們繼續(xù)求表達式 f(y) 在駐點的二階導:
其中 a,b∈(0,1)。因為一階導等于零、二階導小于零,所以我們知道 a/(a+b) 為極大值。若將 a=P_data(x)、b=P_G(x) 代入該極值,那么最優(yōu)判別器 D(x)=P_data(x)/(P_data(x)+P_G(x))。
最后我們可以將價值函數表達式寫為:
如果我們令 D(x)=P_data/(P_data+p_G),那么我們就可以令價值函數 V(G,D) 取極大值。因為 f(y) 在定義域內有唯一的極大值,最優(yōu) D 也是唯一的,并且沒有其它的 D 能實現極大值。
其實該最優(yōu)的 D 在實踐中并不是可計算的,但在數學上十分重要。我們并不知道先驗的 P_data(x),所以我們在訓練中永遠不會用到它。另一方面,它的存在令我們可以證明最優(yōu)的 G 是存在的,并且在訓練中我們只需要逼近 D。
當然 GAN 過程的目標是令 P_G=P_data。這對最優(yōu)的 D 意味著什么呢?我們可以將這一等式代入 D_G*的表達式中:
這意味著判別器已經完全困惑了,它完全分辨不出 P_data 和 P_G 的區(qū)別,即判斷樣本來自 P_data 和 P_G 的概率都為 1/2?;谶@一觀點,GAN 作者證明了 G 就是極小極大博弈的解。該定理如下:
「當且僅當 P_G=P_data,訓練標準 C(G)=maxV(G,D) 的全局最小點可以達到?!?span style="display:none">2Jt創(chuàng)意嶺 - 安心托付、值得信賴的品牌設計、營銷策劃公司
以上定理即極大極小博弈的第二步,求令 V(G,D ) 最小的生成器 G(其中 G 代表最優(yōu)的判別器)。之所以當 P_G(x)=P_data(x) 可以令價值函數最小化,是因為這時候兩個分布的 JS 散度 [JSD(P_data(x) || P_G(x))] 等于零,這一過程的詳細解釋如下。
原論文中的這一定理是「當且僅當」聲明,所以我們需要從兩個方向證明。首先我們先從反向逼近并證明 C(G) 的取值,然后再利用由反向獲得的新知識從正向證明。設 P_G=P_data(反向指預先知道最優(yōu)條件并做推導),我們可以反向推出:
該值是全局最小值的候選,因為它只有在 P_G=P_data 的時候才出現。我們現在需要從正向證明這一個值常常為最小值,也就是同時滿足「當」和「僅當」的條件?,F在放棄 P_G=P_data 的假設,對任意一個 G,我們可以將上一步求出的最優(yōu)判別器 D* 代入到 C(G)=maxV(G,D) 中:
因為已知 -log4 為全局最小候選值,所以我們希望構造某個值以使方程式中出現 log2。因此我們可以在每個積分中加上或減去 log2,并乘上概率密度。這是一個十分常見并且不會改變等式的數學證明技巧,因為本質上我們只是在方程加上了 0。
采用該技巧主要是希望能夠構建成含 log2 和 JS 散度的形式,上式化簡后可以得到以下表達式:
因為概率密度的定義,P_G 和 P_data 在它們積分域上的積分等于 1,即:
此外,根據對數的定義,我們有:
因此代入該等式,我們可以寫為:
現在,如果讀者閱讀了前文的 KL 散度(Kullback-Leibler divergence),那么我們就會發(fā)現每一個積分正好就是它。具體來說:
KL 散度是非負的,所以我們馬上就能看出來-log4 為 C(G) 的全局最小值。
如果我們進一步證明只有一個 G 能達到這一個值,因為 P_G=P_data 將會成為令 C(G)=−log4 的唯一點,所以整個證明就能完成了。
從前文可知 KL 散度是非對稱的,所以 C(G) 中的 KL(P_data || (P_data+P_G)/2) 左右兩項是不能交換的,但如果同時加上另一項 KL(P_G || (P_data+P_G)/2),它們的和就能變成對稱項。這兩項 KL 散度的和即可以表示為 JS 散度(Jenson-Shannon divergence):
假設存在兩個分布 P 和 Q,且這兩個分布的平均分布 M=(P+Q)/2,那么這兩個分布之間的 JS 散度為 P 與 M 之間的 KL 散度加上 Q 與 M 之間的 KL 散度再除以 2。
JS 散度的取值為 0 到 log2。若兩個分布完全沒有交集,那么 JS 散度取最大值 log2;若兩個分布完全一樣,那么 JS 散度取最小值 0。
因此 C(G) 可以根據 JS 散度的定義改寫為:
這一散度其實就是 Jenson-Shannon 距離度量的平方。根據它的屬性:當 P_G=P_data 時,JSD(P_data||P_G) 為 0。綜上所述,生成分布當且僅當等于真實數據分布式時,我們可以取得最優(yōu)生成器。
前面我們已經證明 P_G=P_data 為 minV(G,D) 的最優(yōu)點。此外,原論文還有額外的證明白表示:給定足夠的訓練數據和正確的環(huán)境,訓練過程將收斂到最優(yōu) G。
證明:將V(G,D)=U(pg,D)視作pg的函數,則U為pg的凸函數,其上確界的次導數一定包括該函數最大值處的導數,所以給定D時,通過梯度下降算法更新pg從而優(yōu)化G時,pg一定會收斂到最優(yōu)值。而之前又證明了目標函數只有唯一的全局最優(yōu)解,所以pg會收斂到pdata。
實際上優(yōu)化G時是更新θg而不是pg。
參考鏈接:
Generative Adversarial Nets
通俗理解生成對抗網絡GAN - 陳誠的文章 - 知乎
機器之心GitHub項目:GAN完整理論推導與實現,Perfect!
論文閱讀之Generative Adversarial Nets
四、[GAN筆記] CycleGAN
論文鏈接: https://arxiv.org/abs/1703.10593
1. 介紹
圖像翻譯是指將圖片內容從一個域轉換到另一個域。這類任務一般都需要兩個域中具有相同內容的成對圖片作為訓練數據。比如在pix2pix中,要將白天的圖片轉換成夜晚的圖片(圖 1),那么就需要將同一個地方的白天和夜晚的圖片作為一對訓練數據對模型進行訓練。但是這種成對的訓練數據很難獲得。
2. 方法
3. 效果
論文先將CycleGAN 跟當時的一些圖像風格轉換的方法在具有成對圖像的數據集上進行比較。在這里,用完全監(jiān)督的方法pix2pix作為上界??梢钥吹剑珻ycleGAN 生成的圖片對于除pix2pix以外的方法來說效果好很多。而相對于pix2pix,CycleGAN 生成的圖片雖然不夠清晰,但基本接近。
4.總結
CycleGAN 解決了pix2pix 必須使用成對數據進行訓練的問題,原理比較簡單,但非常有效。只需要不同域的一系列圖片即可進行訓練。類似的工作還有DualGAN,DiscoGAN。三者的想法和模型基本一樣,發(fā)在了不同的地方。。
以上就是關于gan論文十大排名相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀:
外國人看gai公演(外國人看gai公演烈火戰(zhàn)馬)