-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 短視頻 > 專題列表 > 正文
分類算法有哪些(有監(jiān)督分類算法有哪些)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于分類算法有哪些的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀企業(yè),服務(wù)客戶遍布全國(guó),網(wǎng)絡(luò)營(yíng)銷相關(guān)業(yè)務(wù)請(qǐng)撥打175-8598-2043,或微信:1454722008
本文目錄:
一、用于數(shù)據(jù)挖掘的分類算法有哪些,各有何優(yōu)劣
常見的機(jī)器學(xué)習(xí)分類算法就有,不常見的更是數(shù)不勝數(shù),那么我們針對(duì)某個(gè)分類問題怎么來選擇比較好的分類算法呢?下面介紹一些算法的優(yōu)缺點(diǎn):
1. 樸素貝葉斯
比較簡(jiǎn)單的算法,所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感。如果條件獨(dú)立性假設(shè)成立,即各特征之間相互獨(dú)立,樸素貝葉斯分類器將會(huì)比判別模型,如邏輯回歸收斂得更快,因此只需要較少的訓(xùn)練數(shù)據(jù)。就算該假設(shè)不成立,樸素貝葉斯分類器在實(shí)踐中仍然有著不俗的表現(xiàn)。如果你需要的是快速簡(jiǎn)單并且表現(xiàn)出色,這將是個(gè)不錯(cuò)的選擇。其主要缺點(diǎn)現(xiàn)實(shí)生活中特征之間相互獨(dú)立的條件比較難以實(shí)現(xiàn)。
2. 邏輯回歸
模型訓(xùn)練時(shí),正則化方法較多,而且你不必像在用樸素貝葉斯那樣擔(dān)心你的特征是否相關(guān)。與決策樹與支持向量機(jī)相比,邏輯回歸模型還會(huì)得到一個(gè)不錯(cuò)的概率解釋,你甚至可以輕松地利用新數(shù)據(jù)來更新模型(使用在線梯度下降算法)。如果你需要一個(gè)概率架構(gòu)(比如簡(jiǎn)單地調(diào)節(jié)分類閾值,指明不確定性,獲得置信區(qū)間),或者你以后想將更多的訓(xùn)練數(shù)據(jù)快速整合到模型中去,邏輯回歸是一個(gè)不錯(cuò)的選擇。
3. 決策樹
決策樹的分類過程易于解釋說明。它可以毫無壓力地處理特征間的交互關(guān)系并且是非參數(shù)化的,因此你不必?fù)?dān)心異常值或者數(shù)據(jù)是否線性可分。它的一個(gè)缺點(diǎn)就是不支持在線學(xué)習(xí),于是在新樣本到來后,決策樹需要全部重建。另一個(gè)缺點(diǎn)是容易過擬合,但這也就是諸如隨機(jī)森林(或提升樹)之類的集成方法的切入點(diǎn)。另外,隨機(jī)森林經(jīng)常是多分類問題的贏家(通常比支持向量機(jī)好上那么一點(diǎn)),它快速并且可調(diào),同時(shí)你無須擔(dān)心要像支持向量機(jī)那樣調(diào)一大堆參數(shù),所以隨機(jī)森林相當(dāng)受歡迎。
4. 支持向量機(jī)
高準(zhǔn)確率,為避免過擬合提供了很好的理論保證,而且就算數(shù)據(jù)在原特征空間線性不可分,只要給個(gè)合適的核函數(shù),它就能運(yùn)行得很好。在超高維的文本分類問題中特別受歡迎。可惜內(nèi)存消耗大,難以解釋,運(yùn)行和調(diào)參也有些煩人,所以我認(rèn)為隨機(jī)森林要開始取而代之了。
但是,好的數(shù)據(jù)卻要優(yōu)于好的算法,設(shè)計(jì)優(yōu)良特征比優(yōu)良的算法好很多。假如你有一個(gè)超大數(shù)據(jù)集,那么無論你使用哪種算法可能對(duì)分類性能都沒太大影響(此時(shí)就根據(jù)速度和易用性來進(jìn)行抉擇)。
如果你真心在乎準(zhǔn)確率,你一定得嘗試多種多樣的分類器,并且通過交叉驗(yàn)證選擇最優(yōu)。
二、常見決策樹分類算法都有哪些?
在機(jī)器學(xué)習(xí)中,有一個(gè)體系叫做決策樹,決策樹能夠解決很多問題。在決策樹中,也有很多需要我們?nèi)W(xué)習(xí)的算法,要知道,在決策樹中,每一個(gè)算法都是實(shí)用的算法,所以了解決策樹中的算法對(duì)我們是有很大的幫助的。在這篇文章中我們就給大家介紹一下關(guān)于決策樹分類的算法,希望能夠幫助大家更好地去理解決策樹。
1.C4.5算法
C4.5算法就是基于ID3算法的改進(jìn),這種算法主要包括的內(nèi)容就是使用信息增益率替換了信息增益下降度作為屬性選擇的標(biāo)準(zhǔn);在決策樹構(gòu)造的同時(shí)進(jìn)行剪枝操作;避免了樹的過度擬合情況;可以對(duì)不完整屬性和連續(xù)型數(shù)據(jù)進(jìn)行處理;使用k交叉驗(yàn)證降低了計(jì)算復(fù)雜度;針對(duì)數(shù)據(jù)構(gòu)成形式,提升了算法的普適性等內(nèi)容,這種算法是一個(gè)十分使用的算法。
2.CLS算法
CLS算法就是最原始的決策樹分類算法,基本流程是,從一棵空數(shù)出發(fā),不斷的從決策表選取屬性加入數(shù)的生長(zhǎng)過程中,直到?jīng)Q策樹可以滿足分類要求為止。CLS算法存在的主要問題是在新增屬性選取時(shí)有很大的隨機(jī)性。
3.ID3算法
ID3算法就是對(duì)CLS算法的最大改進(jìn)是摒棄了屬性選擇的隨機(jī)性,利用信息熵的下降速度作為屬性選擇的度量。ID3是一種基于信息熵的決策樹分類學(xué)習(xí)算法,以信息增益和信息熵,作為對(duì)象分類的衡量標(biāo)準(zhǔn)。ID3算法結(jié)構(gòu)簡(jiǎn)單、學(xué)習(xí)能力強(qiáng)、分類速度快適合大規(guī)模數(shù)據(jù)分類。但同時(shí)由于信息增益的不穩(wěn)定性,容易傾向于眾數(shù)屬性導(dǎo)致過度擬合,算法抗干擾能力差。
3.1.ID3算法的優(yōu)缺點(diǎn)
ID3算法的優(yōu)點(diǎn)就是方法簡(jiǎn)單、計(jì)算量小、理論清晰、學(xué)習(xí)能力較強(qiáng)、比較適用于處理規(guī)模較大的學(xué)習(xí)問題。缺點(diǎn)就是傾向于選擇那些屬性取值比較多的屬性,在實(shí)際的應(yīng)用中往往取值比較多的屬性對(duì)分類沒有太大價(jià)值、不能對(duì)連續(xù)屬性進(jìn)行處理、對(duì)噪聲數(shù)據(jù)比較敏感、需計(jì)算每一個(gè)屬性的信息增益值、計(jì)算代價(jià)較高。
3.2.ID3算法的核心思想
根據(jù)樣本子集屬性取值的信息增益值的大小來選擇決策屬性,并根據(jù)該屬性的不同取值生成決策樹的分支,再對(duì)子集進(jìn)行遞歸調(diào)用該方法,當(dāng)所有子集的數(shù)據(jù)都只包含于同一個(gè)類別時(shí)結(jié)束。最后,根據(jù)生成的決策樹模型,對(duì)新的、未知類別的數(shù)據(jù)對(duì)象進(jìn)行分類。
在這篇文章中我們給大家介紹了決策樹分類算法的具體內(nèi)容,包括有很多種算法。從中我們不難發(fā)現(xiàn)決策樹的算法都是經(jīng)過不不斷的改造趨于成熟的。所以說,機(jī)器學(xué)習(xí)的發(fā)展在某種程度上就是由于這些算法的進(jìn)步而來的。
三、
四、用于數(shù)據(jù)挖掘的分類算法有哪些,各有何優(yōu)劣
1、樸素貝葉斯(Naive Bayes, NB)
簡(jiǎn)單,就像做一些數(shù)數(shù)的工作。
如果條件獨(dú)立假設(shè)成立的話,NB將比鑒別模型(如Logistic回歸)收斂的更快,所以你只需要少量的訓(xùn)練數(shù)據(jù)。
如果你想做類似半監(jiān)督學(xué)習(xí),或者是既要模型簡(jiǎn)單又要性能好,NB值得嘗試.
2. Logistic回歸(Logistic Regression, LR)
LR有很多方法來對(duì)模型正則化。比起NB的條件獨(dú)立性假設(shè),LR不需要考慮樣本是否是相關(guān)的。
如果你想要一些概率信息(如,為了更容易的調(diào)整分類閾值,得到分類的不確定性,得到置信區(qū)間),或者希望將來有更多數(shù)據(jù)時(shí)能方便的更新改進(jìn)模型,LR是值得使用的.
3.決策樹(Decision Tree, DT)
DT是非參數(shù)的,所以你不需要擔(dān)心野點(diǎn)(或離群點(diǎn))和數(shù)據(jù)是否線性可分的問題(例如,DT可以輕松的處理這種情況:屬于A類的樣本的特征x取值往往非常小或者非常大,而屬于B類的樣本的特征x取值在中間范圍)。
DT的主要缺點(diǎn)是容易過擬合,這也正是隨機(jī)森林(Random Forest, RF)(或者Boosted樹)等集成學(xué)習(xí)算法被提出來的原因。
此外,RF在很多分類問題中經(jīng)常表現(xiàn)得最好,且速度快可擴(kuò)展,也不像SVM那樣需要調(diào)整大量的參數(shù),所以最近RF是一個(gè)非常流行的算法.
4.支持向量機(jī)(Support Vector Machine, SVM)
很高的分類正確率,對(duì)過擬合有很好的理論保證,選取合適的核函數(shù),面對(duì)特征線性不可分的問題也可以表現(xiàn)得很好。
SVM在維數(shù)通常很高的文本分類中非常的流行。由于較大的內(nèi)存需求和繁瑣的調(diào)參,我認(rèn)為RF已經(jīng)開始威脅其地位了.
以上就是關(guān)于分類算法有哪些相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
網(wǎng)絡(luò)營(yíng)銷分類方法(網(wǎng)絡(luò)營(yíng)銷分類方法包括)
山東本地景觀設(shè)計(jì)用途分類(山東本地景觀設(shè)計(jì)用途分類有哪些)
內(nèi)容營(yíng)銷分類有(內(nèi)容營(yíng)銷分類有哪些類型)
直通車關(guān)鍵詞越多越好嗎(直通車關(guān)鍵詞越多會(huì)有影響嗎)