-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
百度ai模型訓(xùn)練(百度ai模型訓(xùn)練軟件)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于百度ai模型訓(xùn)練的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
2023新版文章智能生成器,能給你生成想要的原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
你只需要給出你的關(guān)鍵詞,它就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端,官網(wǎng):https://ai.de1919.com
本文目錄:
一、AI人工智能-目標(biāo)檢測(cè)模型一覽
目標(biāo)檢測(cè)是人工智能的一個(gè)重要應(yīng)用,就是在圖片中要將里面的物體識(shí)別出來,并標(biāo)出物體的位置,一般需要經(jīng)過兩個(gè)步驟:
1、分類,識(shí)別物體是什么
2、定位,找出物體在哪里
除了對(duì)單個(gè)物體進(jìn)行檢測(cè),還要能支持對(duì)多個(gè)物體進(jìn)行檢測(cè),如下圖所示:
這個(gè)問題并不是那么容易解決,由于物體的尺寸變化范圍很大、擺放角度多變、姿態(tài)不定,而且物體有很多種類別,可以在圖片中出現(xiàn)多種物體、出現(xiàn)在任意位置。因此,目標(biāo)檢測(cè)是一個(gè)比較復(fù)雜的問題。
最直接的方法便是構(gòu)建一個(gè)深度神經(jīng)網(wǎng)絡(luò),將圖像和標(biāo)注位置作為樣本輸入,然后經(jīng)過CNN網(wǎng)絡(luò),再通過一個(gè)分類頭(Classification head)的全連接層識(shí)別是什么物體,通過一個(gè)回歸頭(Regression head)的全連接層回歸計(jì)算位置,如下圖所示:
但“回歸”不好做,計(jì)算量太大、收斂時(shí)間太長(zhǎng),應(yīng)該想辦法轉(zhuǎn)為“分類”,這時(shí)容易想到套框的思路,即取不同大小的“框”,讓框出現(xiàn)在不同的位置,計(jì)算出這個(gè)框的得分,然后取得分最高的那個(gè)框作為預(yù)測(cè)結(jié)果,如下圖所示:
根據(jù)上面比較出來的得分高低,選擇了右下角的黑框作為目標(biāo)位置的預(yù)測(cè)。
但問題是:框要取多大才合適?太小,物體識(shí)別不完整;太大,識(shí)別結(jié)果多了很多其它信息。那怎么辦?那就各種大小的框都取來計(jì)算吧。
如下圖所示(要識(shí)別一只熊),用各種大小的框在圖片中進(jìn)行反復(fù)截取,輸入到CNN中識(shí)別計(jì)算得分,最終確定出目標(biāo)類別和位置。
這種方法效率很低,實(shí)在太耗時(shí)了。那有沒有高效的目標(biāo)檢測(cè)方法呢?
一、R-CNN 橫空出世
R-CNN(Region CNN,區(qū)域卷積神經(jīng)網(wǎng)絡(luò))可以說是利用深度學(xué)習(xí)進(jìn)行目標(biāo)檢測(cè)的開山之作,作者Ross Girshick多次在PASCAL VOC的目標(biāo)檢測(cè)競(jìng)賽中折桂,2010年更是帶領(lǐng)團(tuán)隊(duì)獲得了終身成就獎(jiǎng),如今就職于Facebook的人工智能實(shí)驗(yàn)室(FAIR)。
R-CNN算法的流程如下
1、輸入圖像
2、每張圖像生成1K~2K個(gè)候選區(qū)域
3、對(duì)每個(gè)候選區(qū)域,使用深度網(wǎng)絡(luò)提取特征(AlextNet、VGG等CNN都可以)
4、將特征送入每一類的SVM 分類器,判別是否屬于該類
5、使用回歸器精細(xì)修正候選框位置
下面展開進(jìn)行介紹
1、生成候選區(qū)域
使用Selective Search(選擇性搜索)方法對(duì)一張圖像生成約2000-3000個(gè)候選區(qū)域,基本思路如下:
(1)使用一種過分割手段,將圖像分割成小區(qū)域
(2)查看現(xiàn)有小區(qū)域,合并可能性最高的兩個(gè)區(qū)域,重復(fù)直到整張圖像合并成一個(gè)區(qū)域位置。優(yōu)先合并以下區(qū)域:
3、類別判斷
對(duì)每一類目標(biāo),使用一個(gè)線性SVM二類分類器進(jìn)行判別。輸入為深度網(wǎng)絡(luò)(如上圖的AlexNet)輸出的4096維特征,輸出是否屬于此類。
4、位置精修
目標(biāo)檢測(cè)的衡量標(biāo)準(zhǔn)是重疊面積:許多看似準(zhǔn)確的檢測(cè)結(jié)果,往往因?yàn)楹蜻x框不夠準(zhǔn)確,重疊面積很小,故需要一個(gè)位置精修步驟,對(duì)于每一個(gè)類,訓(xùn)練一個(gè)線性回歸模型去判定這個(gè)框是否框得完美,如下圖:
R-CNN將深度學(xué)習(xí)引入檢測(cè)領(lǐng)域后,一舉將PASCAL VOC上的檢測(cè)率從35.1%提升到53.7%。
二、Fast R-CNN大幅提速
繼2014年的R-CNN推出之后,Ross Girshick在2015年推出Fast R-CNN,構(gòu)思精巧,流程更為緊湊,大幅提升了目標(biāo)檢測(cè)的速度。
Fast R-CNN和R-CNN相比,訓(xùn)練時(shí)間從84小時(shí)減少到9.5小時(shí),測(cè)試時(shí)間從47秒減少到0.32秒,并且在PASCAL VOC 2007上測(cè)試的準(zhǔn)確率相差無幾,約在66%-67%之間。
Fast R-CNN主要解決R-CNN的以下問題:
1、訓(xùn)練、測(cè)試時(shí)速度慢
R-CNN的一張圖像內(nèi)候選框之間存在大量重疊,提取特征操作冗余。而Fast R-CNN將整張圖像歸一化后直接送入深度網(wǎng)絡(luò),緊接著送入從這幅圖像上提取出的候選區(qū)域。這些候選區(qū)域的前幾層特征不需要再重復(fù)計(jì)算。
2、訓(xùn)練所需空間大
R-CNN中獨(dú)立的分類器和回歸器需要大量特征作為訓(xùn)練樣本。Fast R-CNN把類別判斷和位置精調(diào)統(tǒng)一用深度網(wǎng)絡(luò)實(shí)現(xiàn),不再需要額外存儲(chǔ)。
下面進(jìn)行詳細(xì)介紹
1、在特征提取階段, 通過CNN(如AlexNet)中的conv、pooling、relu等操作都不需要固定大小尺寸的輸入,因此,在原始圖片上執(zhí)行這些操作后,輸入圖片尺寸不同將會(huì)導(dǎo)致得到的feature map(特征圖)尺寸也不同,這樣就不能直接接到一個(gè)全連接層進(jìn)行分類。
在Fast R-CNN中,作者提出了一個(gè)叫做ROI Pooling的網(wǎng)絡(luò)層,這個(gè)網(wǎng)絡(luò)層可以把不同大小的輸入映射到一個(gè)固定尺度的特征向量。ROI Pooling層將每個(gè)候選區(qū)域均勻分成M×N塊,對(duì)每塊進(jìn)行max pooling。將特征圖上大小不一的候選區(qū)域轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的數(shù)據(jù),送入下一層。這樣雖然輸入的圖片尺寸不同,得到的feature map(特征圖)尺寸也不同,但是可以加入這個(gè)神奇的ROI Pooling層,對(duì)每個(gè)region都提取一個(gè)固定維度的特征表示,就可再通過正常的softmax進(jìn)行類型識(shí)別。
2、在分類回歸階段, 在R-CNN中,先生成候選框,然后再通過CNN提取特征,之后再用SVM分類,最后再做回歸得到具體位置(bbox regression)。而在Fast R-CNN中,作者巧妙的把最后的bbox regression也放進(jìn)了神經(jīng)網(wǎng)絡(luò)內(nèi)部,與區(qū)域分類合并成為了一個(gè)multi-task模型,如下圖所示:
實(shí)驗(yàn)表明,這兩個(gè)任務(wù)能夠共享卷積特征,并且相互促進(jìn)。
Fast R-CNN很重要的一個(gè)貢獻(xiàn)是成功地讓人們看到了Region Proposal+CNN(候選區(qū)域+卷積神經(jīng)網(wǎng)絡(luò))這一框架實(shí)時(shí)檢測(cè)的希望,原來多類檢測(cè)真的可以在保證準(zhǔn)確率的同時(shí)提升處理速度。
三、Faster R-CNN更快更強(qiáng)
繼2014年推出R-CNN,2015年推出Fast R-CNN之后,目標(biāo)檢測(cè)界的領(lǐng)軍人物Ross Girshick團(tuán)隊(duì)在2015年又推出一力作:Faster R-CNN,使簡(jiǎn)單網(wǎng)絡(luò)目標(biāo)檢測(cè)速度達(dá)到17fps,在PASCAL VOC上準(zhǔn)確率為59.9%,復(fù)雜網(wǎng)絡(luò)達(dá)到5fps,準(zhǔn)確率78.8%。
在Fast R-CNN還存在著瓶頸問題:Selective Search(選擇性搜索)。要找出所有的候選框,這個(gè)也非常耗時(shí)。那我們有沒有一個(gè)更加高效的方法來求出這些候選框呢?
在Faster R-CNN中加入一個(gè)提取邊緣的神經(jīng)網(wǎng)絡(luò),也就說找候選框的工作也交給神經(jīng)網(wǎng)絡(luò)來做了。這樣,目標(biāo)檢測(cè)的四個(gè)基本步驟(候選區(qū)域生成,特征提取,分類,位置精修)終于被統(tǒng)一到一個(gè)深度網(wǎng)絡(luò)框架之內(nèi)。如下圖所示:
Faster R-CNN可以簡(jiǎn)單地看成是“區(qū)域生成網(wǎng)絡(luò)+Fast R-CNN”的模型,用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,簡(jiǎn)稱RPN)來代替Fast R-CNN中的Selective Search(選擇性搜索)方法。
如下圖
RPN如下圖:
RPN的工作步驟如下:
Faster R-CNN設(shè)計(jì)了提取候選區(qū)域的網(wǎng)絡(luò)RPN,代替了費(fèi)時(shí)的Selective Search(選擇性搜索),使得檢測(cè)速度大幅提升,下表對(duì)比了R-CNN、Fast R-CNN、Faster R-CNN的檢測(cè)速度:
總結(jié)
R-CNN、Fast R-CNN、Faster R-CNN一路走來,基于深度學(xué)習(xí)目標(biāo)檢測(cè)的流程變得越來越精簡(jiǎn)、精度越來越高、速度也越來越快?;趓egion proposal(候選區(qū)域)的R-CNN系列目標(biāo)檢測(cè)方法是目標(biāo)檢測(cè)技術(shù)領(lǐng)域中的最主要分支之一。
為了更加精確地識(shí)別目標(biāo),實(shí)現(xiàn)在像素級(jí)場(chǎng)景中識(shí)別不同目標(biāo),利用“圖像分割”技術(shù)定位每個(gè)目標(biāo)的精確像素,如下圖所示(精確分割出人、汽車、紅綠燈等):
Mask R-CNN便是這種“圖像分割”的重要模型。
Mask R-CNN的思路很簡(jiǎn)潔,既然Faster R-CNN目標(biāo)檢測(cè)的效果非常好,每個(gè)候選區(qū)域能輸出種類標(biāo)簽和定位信息,那么就在Faster R-CNN的基礎(chǔ)上再添加一個(gè)分支從而增加一個(gè)輸出,即物體掩膜(object mask),也即由原來的兩個(gè)任務(wù)(分類+回歸)變?yōu)榱巳齻€(gè)任務(wù)(分類+回歸+分割)。如下圖所示,Mask R-CNN由兩條分支組成:
Mask R-CNN的這兩個(gè)分支是并行的,因此訓(xùn)練簡(jiǎn)單,僅比Faster R-CNN多了一點(diǎn)計(jì)算開銷。
如下圖所示,Mask R-CNN在Faster R-CNN中添加了一個(gè)全卷積網(wǎng)絡(luò)的分支(圖中白色部分),用于輸出二進(jìn)制mask,以說明給定像素是否是目標(biāo)的一部分。所謂二進(jìn)制mask,就是當(dāng)像素屬于目標(biāo)的所有位置上時(shí)標(biāo)識(shí)為1,其它位置標(biāo)識(shí)為 0
從上圖可以看出,二進(jìn)制mask是基于特征圖輸出的,而原始圖像經(jīng)過一系列的卷積、池化之后,尺寸大小已發(fā)生了多次變化,如果直接使用特征圖輸出的二進(jìn)制mask來分割圖像,那肯定是不準(zhǔn)的。這時(shí)就需要進(jìn)行了修正,也即使用RoIAlign替換RoIPooling
如上圖所示,原始圖像尺寸大小是128x128,經(jīng)過卷積網(wǎng)絡(luò)之后的特征圖變?yōu)槌叽绱笮∽優(yōu)?25x25。這時(shí),如果想要圈出與原始圖像中左上方15x15像素對(duì)應(yīng)的區(qū)域,那么如何在特征圖中選擇相對(duì)應(yīng)的像素呢?
從上面兩張圖可以看出,原始圖像中的每個(gè)像素對(duì)應(yīng)于特征圖的25/128像素,因此,要從原始圖像中選擇15x15像素,則只需在特征圖中選擇2.93x2.93像素(15x25/128=2.93),在RoIAlign中會(huì)使用雙線性插值法準(zhǔn)確得到2.93像素的內(nèi)容,這樣就能很大程度上,避免了錯(cuò)位問題。
修改后的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示(黑色部分為原來的Faster R-CNN,紅色部分為Mask R-CNN修改的部分)
從上圖可以看出損失函數(shù)變?yōu)?/p>
損失函數(shù)為分類誤差+檢測(cè)誤差+分割誤差,分類誤差和檢測(cè)(回歸)誤差是Faster R-CNN中的,分割誤差為Mask R-CNN中新加的。
對(duì)于每個(gè)MxM大小的ROI區(qū)域,mask分支有KxMxM維的輸出(K是指類別數(shù)量)。對(duì)于每一個(gè)像素,都是用sigmod函數(shù)求二值交叉熵,也即對(duì)每個(gè)像素都進(jìn)行邏輯回歸,得到平均的二值交叉熵誤差Lmask。通過引入預(yù)測(cè)K個(gè)輸出的機(jī)制,允許每個(gè)類都生成獨(dú)立的mask,以避免類間競(jìng)爭(zhēng),這樣就能解耦mask和種類預(yù)測(cè)。
對(duì)于每一個(gè)ROI區(qū)域,如果檢測(cè)得到屬于哪一個(gè)分類,就只使用該類的交叉熵誤差進(jìn)行計(jì)算,也即對(duì)于一個(gè)ROI區(qū)域中KxMxM的輸出,真正有用的只是某個(gè)類別的MxM的輸出。如下圖所示:
例如目前有3個(gè)分類:貓、狗、人,檢測(cè)得到當(dāng)前ROI屬于“人”這一類,那么所使用的Lmask為“人”這一分支的mask。
Mask R-CNN將這些二進(jìn)制mask與來自Faster R-CNN的分類和邊界框組合,便產(chǎn)生了驚人的圖像精確分割,如下圖所示:
Mask R-CNN是一個(gè)小巧、靈活的通用對(duì)象實(shí)例分割框架,它不僅可以對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè),還可以對(duì)每一個(gè)目標(biāo)輸出一個(gè)高質(zhì)量的分割結(jié)果。另外,Mask R-CNN還易于泛化到其他任務(wù),比如人物關(guān)鍵點(diǎn)檢測(cè),如下圖所示:
從R-CNN、Fast R-CNN、Faster R-CNN到Mask R-CNN,每次進(jìn)步不一定是跨越式的發(fā)展,這些進(jìn)步實(shí)際上是直觀的且漸進(jìn)的改進(jìn)之路,但是它們的總和卻帶來了非常顯著的效果。
最后,總結(jié)一下目標(biāo)檢測(cè)算法模型的發(fā)展歷程,如下圖所示:
二、ai訓(xùn)練時(shí)間包括什么
數(shù)據(jù)分析。
在ai人工智能包括數(shù)據(jù)分析強(qiáng)化學(xué)習(xí)。監(jiān)督式學(xué)習(xí)。、非監(jiān)督式學(xué)習(xí),半監(jiān)督式學(xué)習(xí)在監(jiān)督式學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù),每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果,如對(duì)防垃圾郵件系統(tǒng)中垃圾郵件非垃圾郵件,對(duì)手寫數(shù)字識(shí)別中。
在建立預(yù)測(cè)模型的時(shí)候,監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過程,將預(yù)測(cè)結(jié)果與訓(xùn)練數(shù)據(jù)的實(shí)際結(jié)果進(jìn)行比較,不斷的調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。應(yīng)用場(chǎng)景包括分類和回歸,算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模,在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
三、ai學(xué)習(xí)的原理
Q: ai學(xué)習(xí)的原理 : AI學(xué)習(xí)的原理是模仿人類的學(xué)習(xí)過程,通過大量的數(shù)據(jù)和算法訓(xùn)練來提高自身的學(xué)習(xí)能力和預(yù)測(cè)能力。具體來說,AI學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三種方式。
監(jiān)督學(xué)習(xí)是通過給算法提供已知的輸入和輸出數(shù)據(jù),讓算法自動(dòng)學(xué)習(xí)輸入和輸出之間的關(guān)系。比如,讓算法學(xué)習(xí)識(shí)別圖像中的物體或者預(yù)測(cè)股票價(jià)格等。
無監(jiān)督學(xué)習(xí)則是不提供輸出數(shù)據(jù),讓算法自行發(fā)現(xiàn)數(shù)據(jù)之間的規(guī)律和特征。比如,讓算法自動(dòng)分析一組數(shù)據(jù)的分類和聚類等。
強(qiáng)化學(xué)習(xí)則是通過試錯(cuò)來學(xué)習(xí),在每個(gè)步驟中,算法會(huì)根據(jù)當(dāng)前狀態(tài)和之前的經(jīng)驗(yàn)來選擇一個(gè)行動(dòng),然后根據(jù)行動(dòng)的結(jié)果來調(diào)整策略,以獲得更好的結(jié)果。比如,讓算法學(xué)習(xí)下棋或者玩游戲等。
總的來說,AI學(xué)習(xí)的本質(zhì)是通過大量的數(shù)據(jù)和算法訓(xùn)練來提高自身的學(xué)習(xí)能力和預(yù)測(cè)能力,從而實(shí)現(xiàn)人工智能的應(yīng)用。
四、高效模型ai系統(tǒng)怎么樣
好。
1、用途廣泛。高效模型ai系統(tǒng)全功能AI開發(fā)平臺(tái)BML,面向企業(yè)和個(gè)人開發(fā)者的機(jī)器學(xué)習(xí)集成開發(fā)環(huán)境。
2、快捷方便。高效模型ai系統(tǒng)幫助用戶更快構(gòu)建,訓(xùn)練和部署AI模型,助力企業(yè)快速構(gòu)建高精度AI。
以上就是關(guān)于百度ai模型訓(xùn)練相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
“LOGO設(shè)計(jì)”關(guān)鍵詞上百度首頁
工科什么專業(yè)就業(yè)前景好(工科什么專業(yè)就業(yè)前景好知乎)
久久文化傳媒有限責(zé)任公司(久久文化傳媒有限責(zé)任公司怎么樣)