HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    bagging算法原理(Bagging算法原理)

    發(fā)布時(shí)間:2023-04-07 17:18:22     稿源: 創(chuàng)意嶺    閱讀: 69        

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于bagging算法原理的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    bagging算法原理(Bagging算法原理)

    一、機(jī)器學(xué)習(xí)中Bagging和Boosting的區(qū)別

    【機(jī)器學(xué)習(xí)】Boosting和Bagging的差別

    boosting和bagging的差別:

    bagging中的模型是強(qiáng)模型,偏差低,方差高。目標(biāo)是降低方差。在bagging中,每個(gè)模型的bias和variance近似相同,但是互相相關(guān)性不太高,因此一般不能降低Bias,而一定程度上能降低variance。典型的bagging是random forest。

    boosting中每個(gè)模型是弱模型,偏差高,方差低。目標(biāo)是通過(guò)平均降低偏差。boosting的基本思想就是用貪心法最小化損失函數(shù),顯然能降低偏差,但是通常模型的相關(guān)性很強(qiáng),因此不能顯著降低variance。典型的Boosting是adaboost,另外一個(gè)常用的并行Boosting算法是GBDT(gradient boosting decision tree)。這一類算法通常不容易出現(xiàn)過(guò)擬合。

    過(guò)擬合的模型,通常variance比較大,這時(shí)應(yīng)該用bagging對(duì)其進(jìn)行修正。

    欠擬合的模型,通常Bias比較大,這時(shí)應(yīng)該可以用boosting進(jìn)行修正。使用boosting時(shí), 每一個(gè)模型可以簡(jiǎn)單一些。

    金融常見(jiàn)的問(wèn)題,是只用linear regression,這樣一般來(lái)講是欠擬合的,因此需要引入一些非線性的特征,欠擬合的模型可以先使用boosting嘗試一下,如果效果不好,再使用其他的方法。過(guò)擬合的方法,通常使用bagging是會(huì)有一定的作用的。

    二、Bagging與Boosting最大的不同在哪里?它們對(duì)模型性能最大的貢獻(xiàn)在哪里?

    兩種不同的集成算法,Bagging采用重復(fù)取樣:boostrap 每個(gè)個(gè)體分類器所采用的訓(xùn)練樣本都是從訓(xùn)練集中按等概率抽取的,因此Bagging的各子網(wǎng)能夠很好的覆蓋訓(xùn)練樣本空間,從而有著良好的穩(wěn)定性。

    而B(niǎo)oosting注重分類錯(cuò)誤的樣本,將個(gè)體子網(wǎng)分類錯(cuò)誤的訓(xùn)練樣本的權(quán)重提高,降低分類錯(cuò)誤的樣本權(quán)重,并依據(jù)修改后的樣本權(quán)重來(lái)生成新的訓(xùn)練樣本空間并用來(lái)訓(xùn)練下一個(gè)個(gè)體分類器。然而,由于Boosting算法可能會(huì)將噪聲樣本或分類邊界樣本的權(quán)重過(guò)分累積,因此Boosting很不穩(wěn)定,但其在通常情況下,其泛化能力是最理想的集成算法之一。

    你得自己去查文獻(xiàn),別來(lái)這問(wèn),這沒(méi)人做學(xué)術(shù)的,我也是偶爾看到你的提問(wèn)。

    三、分類算法 - adaboost

    Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。

    Adaboost算法已被證明是一種有效而實(shí)用的Boosting算法。該算法是Freund和Schapire于1995年對(duì)Boosting算法的改進(jìn)得到的,其算法原理是通過(guò)調(diào)整樣本權(quán)重和弱分類器權(quán)值,從訓(xùn)練出的弱分類器中篩選出權(quán)值系數(shù)最小的弱分類器組合成一個(gè)最終強(qiáng)分類器。基于訓(xùn)練集訓(xùn)練弱分類器,每次下一個(gè)弱分類器都是在樣本的不同權(quán)值集上訓(xùn)練獲得的。每個(gè)樣本被分類的難易度決定權(quán)重,而分類的難易度是經(jīng)過(guò)前面步驟中的分類器的輸出估計(jì)得到的。

    Adaboost算法在樣本訓(xùn)練集使用過(guò)程中,對(duì)其中的關(guān)鍵分類特征集進(jìn)行多次挑選,逐步訓(xùn)練分量弱分類器,用適當(dāng)?shù)拈撝颠x擇最佳弱分類器,最后將每次迭代訓(xùn)練選出的最佳弱分類器構(gòu)建為強(qiáng)分類器。其中,級(jí)聯(lián)分類器的設(shè)計(jì)模式為在盡量保證感興趣圖像輸出率的同時(shí),減少非感興趣圖像的輸出率,隨著迭代次數(shù)不斷增加,所有的非感興趣圖像樣本都不能通過(guò),而感興趣樣本始終保持盡可能通過(guò)為止。

    1. 先通過(guò)對(duì)N個(gè)訓(xùn)練樣本的學(xué)習(xí)得到第一個(gè)弱分類器

    2. 將分錯(cuò)的樣本和其他的新數(shù)據(jù)一起構(gòu)成一個(gè)新的N個(gè)的訓(xùn)練樣本,通過(guò)對(duì)這個(gè)樣本的學(xué)習(xí)得到第二個(gè)弱分類器

    3. 將1和2都分錯(cuò)了的樣本加上其他的新樣本構(gòu)成另一個(gè)新的N個(gè)的訓(xùn)練樣本,通過(guò)對(duì)這個(gè)樣本的學(xué)習(xí)得到第三個(gè)弱分類器

    4. 最終經(jīng)過(guò)提升的強(qiáng)分類器。即某個(gè)數(shù)據(jù)被分為哪一類要由各分類器權(quán)值決定

    由Adaboost算法的描述過(guò)程可知,該算法在實(shí)現(xiàn)過(guò)程中根據(jù)訓(xùn)練集的大小初始化樣本權(quán)值,使其滿足均勻分布,在后續(xù)操作中通過(guò)公式來(lái)改變和規(guī)范化算法迭代后樣本的權(quán)值。樣本被錯(cuò)誤分類導(dǎo)致權(quán)值增大,反之權(quán)值相應(yīng)減小,這表示被錯(cuò)分的訓(xùn)練樣本集包括一個(gè)更高的權(quán)重。這就會(huì)使在下輪時(shí)訓(xùn)練樣本集更注重于難以識(shí)別的樣本,針對(duì)被錯(cuò)分樣本的進(jìn)一步學(xué)習(xí)來(lái)得到下一個(gè)弱分類器,直到樣本被正確分類。在達(dá)到規(guī)定的迭代次數(shù)或者預(yù)期的誤差率時(shí),則強(qiáng)分類器構(gòu)建完成。

    (1)很好的利用了弱分類器進(jìn)行級(jí)聯(lián)

    (2)可以將不同的分類算法作為弱分類器

    (3)AdaBoost具有很高的精度

    (4)相對(duì)于bagging算法和Random Forest算法,AdaBoost充分考慮的每個(gè)分類器的權(quán)重

    (1)AdaBoost迭代次數(shù)也就是弱分類器數(shù)目不太好設(shè)定,可以使用交叉驗(yàn)證來(lái)進(jìn)行確定

    (2)數(shù)據(jù)不平衡導(dǎo)致分類精度下降

    (3)訓(xùn)練比較耗時(shí),每次重新選擇當(dāng)前分類器最好切分點(diǎn)

    看到這個(gè)算法你是不是似曾相識(shí)?對(duì),他們都是由多個(gè)弱算法組合成一個(gè)強(qiáng)算法的原理。印證了“三個(gè)臭皮匠賽過(guò)諸葛亮”。但是其實(shí)他們棣屬于不同的算法框架:

    1)Bagging + 決策樹(shù) = 隨機(jī)森林

    2)AdaBoost + 決策樹(shù) = 提升樹(shù)

    那么bagging和boosting分別是什么呢?

    Bagging和Boosting都是將已有的分類或回歸算法通過(guò)一定方式組合起來(lái),形成一個(gè)性能更加強(qiáng)大的分類器,更準(zhǔn)確的說(shuō)這是一種分類算法的組裝方法。即將弱分類器組裝成強(qiáng)分類器的方法。

    A)從原始樣本集中抽取訓(xùn)練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個(gè)訓(xùn)練樣本(在訓(xùn)練集中,有些樣本可能被多次抽取到,而有些樣本可能一次都沒(méi)有被抽中)。共進(jìn)行k輪抽取,得到k個(gè)訓(xùn)練集。(k個(gè)訓(xùn)練集之間是相互獨(dú)立的)

    B)每次使用一個(gè)訓(xùn)練集得到一個(gè)模型,k個(gè)訓(xùn)練集共得到k個(gè)模型。(注:這里并沒(méi)有具體的分類算法或回歸方法,我們可以根據(jù)具體問(wèn)題采用不同的分類或回歸方法,如決策樹(shù)、感知器等)

    C)對(duì)分類問(wèn)題:將上步得到的k個(gè)模型采用投票的方式得到分類結(jié)果;對(duì)回歸問(wèn)題,計(jì)算上述模型的均值作為最后的結(jié)果。(所有模型的重要性相同)

    其主要思想是將弱分類器組裝成一個(gè)強(qiáng)分類器。在PAC(概率近似正確)學(xué)習(xí)框架下,則一定可以將弱分類器組裝成一個(gè)強(qiáng)分類器。關(guān)于Boosting的兩個(gè)核心問(wèn)題:

    通過(guò)提高那些在前一輪被弱分類器分錯(cuò)樣例的權(quán)值,減小前一輪分對(duì)樣例的權(quán)值,來(lái)使得分類器對(duì)誤分的數(shù)據(jù)有較好的效果。

    通過(guò)加法模型將弱分類器進(jìn)行線性組合,比如AdaBoost通過(guò)加權(quán)多數(shù)表決的方式,即增大錯(cuò)誤率小的分類器的權(quán)值,同時(shí)減小錯(cuò)誤率較大的分類器的權(quán)值。而提升樹(shù)通過(guò)擬合殘差的方式逐步減小殘差,將每一步生成的模型疊加得到最終模型。

    Bagging:訓(xùn)練集是在原始集中有放回選取的,從原始集中選出的各輪訓(xùn)練集之間是獨(dú)立的。

    Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個(gè)樣例在分類器中的權(quán)重發(fā)生變化。而權(quán)值是根據(jù)上一輪的分類結(jié)果進(jìn)行調(diào)整。

    Bagging:使用均勻取樣,每個(gè)樣例的權(quán)重相等

    Boosting:根據(jù)錯(cuò)誤率不斷調(diào)整樣例的權(quán)值,錯(cuò)誤率越大則權(quán)重越大。

    Bagging:所有預(yù)測(cè)函數(shù)的權(quán)重相等。

    Boosting:每個(gè)弱分類器都有相應(yīng)的權(quán)重,對(duì)于分類誤差小的分類器會(huì)有更大的權(quán)重。

    Bagging:各個(gè)預(yù)測(cè)函數(shù)可以并行生成

    Boosting:各個(gè)預(yù)測(cè)函數(shù)只能順序生成,因?yàn)楹笠粋€(gè)模型參數(shù)需要前一輪模型的結(jié)果。

    這兩種方法都是把若干個(gè)分類器整合為一個(gè)分類器的方法,只是整合的方式不一樣,最終得到不一樣的效果,將不同的分類算法套入到此類算法框架中一定程度上會(huì)提高了原單一分類器的分類效果,但是也增大了計(jì)算量。

    四、隨機(jī)森林算法是什么?

    隨機(jī)森林算法是以決策樹(shù)為基學(xué)習(xí)器構(gòu)建bagging的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入隨機(jī)屬性的算法。

    在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類器, 并且其輸出的類別是由個(gè)別樹(shù)輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機(jī)森林的算法。

    而 "Random Forests" 是他們的商標(biāo)。 這個(gè)術(shù)語(yǔ)是1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho所提出的隨機(jī)決策森林(random decision forests)而來(lái)的。這個(gè)方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造決策樹(shù)的集合。

    bagging算法原理(Bagging算法原理)

    隨機(jī)森林算法之根據(jù)下列算法而建造每棵樹(shù):

    用N來(lái)表示訓(xùn)練用例(樣本)的個(gè)數(shù),M表示特征數(shù)目。

    輸入特征數(shù)目m,用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)的決策結(jié)果;其中m應(yīng)遠(yuǎn)小于M。

    從N個(gè)訓(xùn)練用例(樣本)中以有放回抽樣的方式,取樣N次,形成一個(gè)訓(xùn)練集(即bootstrap取樣),并用未抽到的用例(樣本)作預(yù)測(cè),評(píng)估其誤差。

    對(duì)于每一個(gè)節(jié)點(diǎn),隨機(jī)選擇m個(gè)特征,決策樹(shù)上每個(gè)節(jié)點(diǎn)的決定都是基于這些特征確定的。根據(jù)這m個(gè)特征,計(jì)算其最佳的分裂方式。

    每棵樹(shù)都會(huì)完整成長(zhǎng)而不會(huì)剪枝,這有可能在建完一棵正常樹(shù)狀分類器后會(huì)被采用)。

    以上就是關(guān)于bagging算法原理相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    bard和chatGPT區(qū)別(bargain和cheap的區(qū)別)

    nba三分排行榜(nba排行榜)

    nba薪金排行榜2016(nba總薪金榜歷史排名)

    婺源三雕(江西婺源三雕)

    小紅書(shū)個(gè)人主頁(yè)網(wǎng)址(小紅書(shū)個(gè)人主頁(yè)網(wǎng)址是多少)