HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    數(shù)據(jù)集劃分比例(數(shù)據(jù)集劃分比例對實(shí)驗(yàn)結(jié)果的影響)

    發(fā)布時(shí)間:2023-04-13 16:20:13     稿源: 創(chuàng)意嶺    閱讀: 81        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于數(shù)據(jù)集劃分比例的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    數(shù)據(jù)集劃分比例(數(shù)據(jù)集劃分比例對實(shí)驗(yàn)結(jié)果的影響)

    一、第二章 模型評估與選擇

    上一章,簡略地介紹了機(jī)器學(xué)習(xí),以及 數(shù)據(jù)集、數(shù)據(jù)集、測試集、假設(shè)空間、版本空間等等的相關(guān)概念 。這一章就開始講模型評估與選擇了,因?yàn)闀鲜且浴皩W(xué)習(xí)器”來稱呼模型的,所以下面我也用學(xué)習(xí)器來進(jìn)行說明總結(jié)。

    什么是經(jīng)驗(yàn)誤差?

    在分類樣本時(shí)會(huì)出現(xiàn)分類錯(cuò)誤,我們把分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例稱為 “錯(cuò)誤率” , 精度 即正確率,自然是1-錯(cuò)誤率了。學(xué)習(xí)器的 實(shí)際預(yù)測輸出 與樣本 實(shí)際輸出 之間的 差異 就稱為 “誤差” ,于 訓(xùn)練集 就是 “經(jīng)驗(yàn)誤差” ,于 新樣本 就是 “泛化誤差” 。

    什么是過擬合?

    我們希望學(xué)習(xí)器能在新樣本的預(yù)測中有更好的效果,即泛化性能最大化。但 在學(xué)習(xí)過程中 ,往往會(huì)把訓(xùn)練集中的樣本學(xué)得過多,使得泛化降低,就是說 學(xué)到了 訓(xùn)練樣本個(gè)體的特點(diǎn)而不是總體樣本的特點(diǎn),或者說學(xué)了這個(gè)訓(xùn)練集的特殊點(diǎn), 相對于所有潛在的樣本來說的特點(diǎn) 。這就是 “過擬合” ,那么與過擬合相對的就是 “欠擬合” ,反而思之,便是學(xué)得不到位,樣本的一般性質(zhì)都掌握不了!

    因?yàn)檫^擬合無法避免,所以我們想要去減少它的風(fēng)險(xiǎn)。 其實(shí)就是 對模型的泛化誤差進(jìn)行評估,然后選擇泛化誤差最小那個(gè)。

    對多種學(xué)習(xí)算法、參數(shù)配置進(jìn)行選擇即模型選擇:

    一個(gè)學(xué)習(xí)算法→不同參數(shù)配置→不同模型

    在實(shí)驗(yàn)測試中,只有數(shù)據(jù)集可用,為了對學(xué)習(xí)器的泛化誤差進(jìn)行評估,只能 從數(shù)據(jù)集(驗(yàn)證集)中分離出訓(xùn)練集與測試集 ,測試集用于測試學(xué)習(xí)器對新樣本的判別能力, 將測試集上的“測試誤差”作為泛化誤差的近似 。故 測試集要盡可能與訓(xùn)練集互斥 。

    直接將數(shù)據(jù)集劃分兩個(gè)互斥的集合,一個(gè)作訓(xùn)練集,一個(gè)作測試集。訓(xùn)練集、測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布一致性。即 保持訓(xùn)練集和測試集中樣本類別比例相差不大,否則會(huì)產(chǎn)生偏差 。一般確定訓(xùn)練集與測試集的樣本比例之后,對于數(shù)據(jù)集的樣本劃分的方法也有很多, 不同劃分方法造成模型評估結(jié)果也不同,所以就要進(jìn)行多次留出法,隨機(jī)劃分重復(fù)評估再取平均值作為評估結(jié)果 。對于留出法,其劃分樣本于訓(xùn)練集與測試集的比例要適當(dāng),若是訓(xùn)練集含有大多數(shù)樣本,那么其模型結(jié)果便與數(shù)據(jù)集訓(xùn)練出來的模型接近,但是由于測試集樣本過少,其評估結(jié)果就不那么準(zhǔn)確,反之也是一樣的道理。 故常常采取2/3~4/5的樣本作為訓(xùn)練集,其余作為測試集。

    將數(shù)據(jù)集劃分為k個(gè)大小相似的互斥子集,即互不包含。 每個(gè)子集盡可能保持?jǐn)?shù)據(jù)分布的一致性,即通過 分層采樣 得到。 這k個(gè)子集又分出k-1個(gè)作為訓(xùn)練集,剩下一個(gè)作為測試集,可以分k次,進(jìn)行k次訓(xùn)練和測試 ,最終也是求其 結(jié)果的均值 。同留出法, 交叉驗(yàn)證法要隨機(jī)使用不同的劃分重復(fù)多次 ,最終結(jié)果是多次k折交叉驗(yàn)證結(jié)果的均值。比如“10次10折交叉驗(yàn)證”就會(huì)有100次訓(xùn)練,有100個(gè)訓(xùn)練結(jié)果(模型)。

    交叉驗(yàn)證法有一個(gè)特例,其名為 留一法 ,就是數(shù)據(jù)集 有多少個(gè)樣本,就劃分成多少個(gè)子集 ,即每個(gè)子集一個(gè)樣本,于是隨機(jī)劃分只會(huì)產(chǎn)生一種結(jié)果, 所以這種方法被實(shí)際評估的模型與期望評估的用數(shù)據(jù)集訓(xùn)練出來的模型很相似。 其缺點(diǎn)是當(dāng)數(shù)據(jù)集很大的時(shí)候,用它就需要龐大的計(jì)算量(還未考慮調(diào)參)。

    上面兩種方法是需要將數(shù)據(jù)集劃分的,這樣自然會(huì)讓 用訓(xùn)練集訓(xùn)練出的模型 用數(shù)據(jù)集訓(xùn)練出來的模型 有一定的 估計(jì)偏差 。如此,自助法以自助采樣法為基礎(chǔ),簡單地講就是重復(fù)隨機(jī)抽樣, 從數(shù)據(jù)集D中進(jìn)行重復(fù)隨機(jī)抽樣m次,便會(huì)得到一個(gè)含有m個(gè)樣本的數(shù)據(jù)集D 1 ,這就是自助采樣的結(jié)果。

    對于 樣本在m次不被采集到 的概率:

    這說明了,D中大概有36.8%的樣本沒有出現(xiàn)在D 1 中。于是我們可以 把D 1 作為訓(xùn)練集 ,把那約 36.8%的樣本作為測試集 。其優(yōu)點(diǎn)是對于 數(shù)據(jù)集較小、難以有效劃分訓(xùn)練 時(shí)很有用,其缺點(diǎn)就是改變了初始數(shù)據(jù)集的劃分,這可能會(huì)引入估計(jì)偏差。

    什么是調(diào)參?

    上面粗略地提到過參數(shù)的調(diào)整,我們 在進(jìn)行模型的評估和選擇時(shí),不僅要對學(xué)習(xí)算法進(jìn)行選擇,還要對算法參數(shù)進(jìn)行設(shè)定 ,這便是調(diào)參。

    梳理一下:

    參閱自: 機(jī)器學(xué)習(xí)為什么需要訓(xùn)練,訓(xùn)練出來的模型具體又是什么?

    回到調(diào)參,對于每種參數(shù)都訓(xùn)練出模型是不現(xiàn)實(shí)的,我們應(yīng) 對每個(gè)參數(shù)選定一個(gè)范圍和步長 ,選出的參數(shù)即為 候選參數(shù)值(一般10個(gè)以內(nèi)) ,最終從這些候選參數(shù)值中產(chǎn)生 選定值 。這是一種折中的結(jié)果,是為了使學(xué)習(xí)過程成為可能。

    然鵝,盡管我們得到了這個(gè)模型,但這不是最終提交給用戶的模型,我們 需要對數(shù)據(jù)集重新訓(xùn)練 ,使用全部樣本以訓(xùn)練出的模型,才是最終模型。

    習(xí)得模型在實(shí)際遇到的數(shù)據(jù)稱為測試數(shù)據(jù);模型評估與選擇中用于評估測試的數(shù)據(jù)稱為"驗(yàn)證集"。 例如:在研究對比不同算法的泛化性能時(shí),用測試集上的判別效果來評估模型在實(shí)際使用中的泛化性能,而把訓(xùn)練數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集,基于驗(yàn)證集上的性能來進(jìn)行模型選擇和調(diào)參。

    是衡量模型泛化能力的評價(jià)標(biāo)準(zhǔn)。 其反映了 任務(wù)需求 。對于給定的樣例集D={(x 1 ,y 1 ),(x 2 ,y 2 ),...,(x m ,y m )},其中的y是x的真實(shí)標(biāo)記,現(xiàn)在要評估學(xué)習(xí)器f的性能,于是把f的結(jié)果與y進(jìn)行比較。

    回歸任務(wù)——性能度量——“均方誤差”

    一般的,對于數(shù)據(jù)分布 和概率密度函數(shù)p(·),均方誤差可以表示為:

    下面主要介紹 分類任務(wù)中常用的性能度量 。

    上面這兩種就是分類任務(wù)中常用的性能度量啦!對于樣例集D,分類錯(cuò)誤率定義如下:

    【注:Ⅱ(·)是指示函數(shù)。若·( 即對括號內(nèi)進(jìn)行邏輯判斷 )為 則取值為 1 , 則取 0

    精度定義:

    一般的:

    對于真實(shí)類別與學(xué)習(xí)器預(yù)測類別的異同,我們可以分為真正例、假反例、假正例、真反例,分別稱為TP、FN、FP、TN(T=True,F(xiàn)=False,P=Positive,N=Negative)。這里的 真假是針對學(xué)習(xí)器預(yù)測結(jié)果 來說的。

    于是查準(zhǔn)率P與查全率R定義如下:

    兩個(gè)性能度量是矛盾的,呈負(fù)相關(guān) 。

    我們常常根據(jù)學(xué)習(xí)器的預(yù)測結(jié)果對樣例進(jìn)行排序, 把“最可能”是正例的放在前面 。按這個(gè)順序,逐個(gè)把樣本作為正例進(jìn)行預(yù)測,每次都可以計(jì)算出當(dāng)前的查準(zhǔn)率與查全率,然后以查準(zhǔn)率為縱軸,查全率為橫軸,作P-R圖如西瓜書p 31 。

    若一個(gè)學(xué)習(xí)器的P-R圖完全包含了另一個(gè),則說明前者性能更優(yōu)于后者。

    但往往會(huì)出現(xiàn)不完全包含, 出現(xiàn)交叉的情況 ,那么我們 一般用F1 來對比衡量。

    在說F1度量之前,先說一下平衡點(diǎn)。

    平衡點(diǎn)(BEF) 是綜合考慮查準(zhǔn)率與查全率的性能度量。是 “查準(zhǔn)率 = 查全率” 時(shí)的取值。是一種簡單的度量。

    F1度量:

    一般形式:

    其中 >0 度量了查全率對查準(zhǔn)率的 相對重要性 。 >1時(shí),查全率有更大的影響, <1時(shí),查準(zhǔn)率有更大的影響。

    上面提及到的性能度量的 平均值 (在各 混淆矩陣 (其實(shí)就是上面真假正反例的矩陣)上分別計(jì)算出查準(zhǔn)率與查全率,再計(jì)算平均值)稱為 “宏查準(zhǔn)率”(macro—P)、“宏查全率”(macro—R)以及"宏F1"(macro—F1) ,前兩個(gè)均值就是算術(shù)平均的計(jì)算方式,相加除以n,最后一個(gè)則是根據(jù)前兩個(gè)計(jì)算得來,參考上面F1的定義。

    上面是一種做法,也可以把混淆矩陣的真假正反例進(jìn)行平均,則有 、 、 、 ,于是可求出 “微查準(zhǔn)率”(micro—P)、“微查全率”、“微F1”。 然后你懂的,參考上面寫的相關(guān)公式,代入即可。

    ROC全稱是“受試者工作特征曲線”,根據(jù)預(yù)測結(jié)果對樣例進(jìn)行排序,然后按順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測,以每次計(jì)算出的“真正例率”(TPR)作為縱軸,“假正例率”(FPR)作為橫軸。兩者定義如下:

    ROC曲線下的面積即為AUC ,是用來比較當(dāng)兩個(gè)學(xué)習(xí)器的ROC曲線相交不完全包含,要進(jìn)行性能比較時(shí),則使用AUC。 AUC的估算

    其與排序誤差有緊密聯(lián)系,于是給定 個(gè)反例, 個(gè)正例,令 和 分別表示反例、正例的集合。則 排序損失 定義為:

    對應(yīng)的是 ROC曲線之上的面積 ,由此有: .

    為何引入代價(jià)?

    因?yàn)?......你這樣做是要付出代價(jià)的!即為所造成結(jié)果的超額處理。引入代價(jià)是為了 衡量不同類型錯(cuò)誤所造成不同的損失 ,可為錯(cuò)誤賦予 “非均等代價(jià)” .

    代價(jià)矩陣

    其中 表示將第i類樣本預(yù)測為第j類樣本的代價(jià)。 例如上矩陣中,損失程度相差越大, 與 值的差別越大,比較一般是以 代價(jià)比值 而非絕對值。(即倍數(shù)關(guān)系)

    從前面提到的性能度量, 均是在假設(shè)均等代價(jià)前提下 進(jìn)行計(jì)算的,如今引入了非均等代價(jià),便要對其考慮在內(nèi)。

    于是將上面代價(jià)矩陣中的第0類作正例,第1類作反例,而 與 分別表示正例子集和反例子集,則以錯(cuò)誤率為例子,“代價(jià)敏感”錯(cuò)誤率為:

    除此之外,若令 中的 不限取0和1,則可定義出多分類任務(wù)的代價(jià)敏感性能度量。

    那么在非均等代價(jià)下,ROC曲線無法直接反映學(xué)習(xí)器的期望總代價(jià),于是我們引入“代價(jià)曲線”,其橫軸是取值為[0,1]的正例概率代價(jià):

    其中p是樣例為正例的概率,縱軸是取值為[0,1]的 歸一化 代價(jià):

    其中FNR=1-TRP。ROC曲線上的每一點(diǎn)對應(yīng)代價(jià)平面上的一條線段,若ROC曲線上一點(diǎn)為(FPR,TPR)則對應(yīng)一條從(0,F(xiàn)PR)到(1,F(xiàn)NR)的線段,于是 所有線段的下界圍成的面積即為在所有條件下學(xué)習(xí)器的期望總體代價(jià)。

    有了實(shí)驗(yàn)評估方法和性能度量之后,便是對學(xué)習(xí)器的泛化性能進(jìn)行比較。此時(shí)為了對學(xué)習(xí)器進(jìn)行適當(dāng)?shù)谋容^,統(tǒng)計(jì)假設(shè)檢驗(yàn)為我們進(jìn)行學(xué)習(xí)器性能比較提供了重要依據(jù)。該節(jié)默認(rèn)以錯(cuò)誤率為性能度量。

    1. 二項(xiàng)檢驗(yàn)

    2. t檢驗(yàn)

    二、機(jī)器學(xué)習(xí)中常用的數(shù)據(jù)集處理方法

    機(jī)器學(xué)習(xí)中常用的數(shù)據(jù)集處理方法

    1.離散值的處理: 因?yàn)殡x散值的差值是沒有實(shí)際意義的。比如如果用0,1,2代表紅黃藍(lán),1-0的差值代表黃-紅,是沒有意義的。因此,我們往往會(huì)把擁有d個(gè)取值的離散值變?yōu)閐個(gè)取值為0,1的離散值或者將

    其映射為多維向量。

    2.屬性歸一化: 歸一化的目標(biāo)是把各位屬性的取值范圍放縮到差不多的區(qū)間,例如[-0.5,0.5]。這里我們使用一種很常見的操作方法:減掉均值,然

    后除以原取值范圍。 做歸一化至少有以下3個(gè)理由: - 過大或過小的數(shù)值范圍會(huì)導(dǎo)致計(jì)算時(shí)的浮點(diǎn)上溢或下溢。 - 不同的數(shù)值范圍會(huì)導(dǎo)致不同屬性對模型的重要性不同(至少在訓(xùn)練的初始階段如此),而這個(gè)隱含的假設(shè)常常是不合理的。這會(huì)對優(yōu)化的過程造成困難,使訓(xùn)練時(shí)間大大的加長。 - 很多的機(jī)器學(xué)習(xí)技巧/模型(例如L1,L2正則項(xiàng),向量空間模型-Vector Space Model)都基于這樣的假設(shè):所有的屬性取值都差不多是以0為均值

    且取值范圍相近的

    。 3.分割數(shù)據(jù)集 一般把數(shù)據(jù)集分為兩部分,一部分為訓(xùn)練集,用于訓(xùn)練數(shù)據(jù),一部分為測試集,用于測試訓(xùn)練的數(shù)據(jù),測試集不應(yīng)過多或過少,數(shù)據(jù)較少時(shí)訓(xùn)練集:測試集可以為8:2,較多時(shí)比

    例可以達(dá)到9:1 。

    三、分析數(shù)據(jù)集{20,6,1,9,11,15,26,32},哪些指標(biāo)可以測度數(shù)據(jù)的集中趨勢。

    可以使用下面幾種指標(biāo)來測度數(shù)據(jù)集的集中趨勢:

    均值(mean): 將所有數(shù)據(jù)的總和除以數(shù)據(jù)的個(gè)數(shù), 即可得到均值

    中位數(shù)(median): 一個(gè)數(shù)據(jù)集中的中間值,將數(shù)據(jù)集按照大小排序后的中間值

    眾數(shù)(mode): 一個(gè)數(shù)據(jù)集中出現(xiàn)次數(shù)最多的數(shù)值

    四分位數(shù)(quartile): 將數(shù)據(jù)集劃分為四個(gè)部分, 每一部分的最大值或最小值稱為四分位數(shù)

    四分位差(Interquartile range):Q3-Q1

    標(biāo)準(zhǔn)差(standard deviation): 衡量數(shù)據(jù)集分散程度的一種指標(biāo), 越小說明數(shù)據(jù)越集中

    變異系數(shù)(coefficient of variation):衡量數(shù)據(jù)集離散程度的指標(biāo),值越小說明數(shù)據(jù)越集中。

    注意:中位數(shù)和四分位數(shù)對異常值魯棒性較好。

    數(shù)據(jù)集劃分比例(數(shù)據(jù)集劃分比例對實(shí)驗(yàn)結(jié)果的影響)

    四、10折交叉驗(yàn)證后取哪個(gè)模型

    先直接回答:首先要知道在在一個(gè)10折交叉驗(yàn)證中,在一個(gè)10折交叉驗(yàn)證中,所有模型的超參數(shù)(注意這里是超參數(shù))是一致的,但是由于每個(gè)模型用到的訓(xùn)練數(shù)據(jù)有差異,所以每個(gè)模型訓(xùn)練出來的結(jié)果是不一樣的,所以是不同的模型(每個(gè)模型訓(xùn)練出來的參數(shù)是不一樣的)。

    注意的是,需要區(qū)分清楚超參數(shù)和參數(shù)。上面說的超參數(shù)是指可以是不同的模型算法(例如svm,C5.0),也可以是某個(gè)模型算法的不同超參數(shù),例如svm中的懲罰因子)。

    回答這個(gè)問題后,如果想明確理解交叉驗(yàn)證,我們可以分為3個(gè)維度去闡述這個(gè)問題:

    (1)訓(xùn)練集、驗(yàn)證集以及測試集的區(qū)分

    (2)交叉驗(yàn)證:直接用于模型評估

    (3)交叉驗(yàn)證:用于超參數(shù)選擇

    如果關(guān)于模型評估,希望有更深入的認(rèn)識(shí)可以看之前的這個(gè)文章:

    張浩彬:機(jī)器學(xué)習(xí)中模型評估的詳細(xì)剖析(擬合問題、交叉驗(yàn)證,評估指標(biāo))

    1訓(xùn)練集、驗(yàn)證集及測試集

    綜合來說,為了能準(zhǔn)確評估模型性能,我們可以把整個(gè)數(shù)據(jù)集集分成兩個(gè)部分,一部分用于訓(xùn)練模型,得到估計(jì)參數(shù)(訓(xùn)練集);另一部分用于評估模型誤差,得到準(zhǔn)確率(測試集)

    更進(jìn)一步,在有些實(shí)踐當(dāng)中,如在分類問題上,我們往往在事先不知道那種算法是最優(yōu)的,并且不同的算法里面也包含大量的需要人為設(shè)定的超參數(shù)。在這些情況下,我們往往需要再劃分多一個(gè)驗(yàn)證集,用于選擇具體超參數(shù),因此也可以把數(shù)據(jù)集劃分為訓(xùn)練集,驗(yàn)證集以及測試集。

    只有訓(xùn)練集和測試機(jī)的情況比較簡單,這里不再累述,我們討論有訓(xùn)練集、驗(yàn)證集以及測試機(jī)的情況:

    步驟:

    (1)首先按照一定比例劃分為廣義訓(xùn)練集A以及測試集T;

    (2)由于我們還需要一個(gè)驗(yàn)證集,所以我們再從廣義訓(xùn)練集A再按比例劃分訓(xùn)練集S以及驗(yàn)證集V;

    (3)我們在訓(xùn)練集S上分別采用不同的算法/參數(shù)得出模型,再利用驗(yàn)證集V評估各個(gè)模型的性能。經(jīng)過這一步,我們已經(jīng)得到了最優(yōu)的算法/參數(shù)配置;

    (4)根據(jù)得到的最優(yōu)配置,我們在廣義訓(xùn)練集A上(即S+V)重新構(gòu)建模型,得到最終模型;

    (5)把最終模型用于測試集T檢驗(yàn)結(jié)果,進(jìn)行評估測試。

    綜合來說,為了能準(zhǔn)確評估模型性能,我們可以把整個(gè)數(shù)據(jù)集集分成兩個(gè)部分,一部分用于訓(xùn)練模型,得到估計(jì)參數(shù)(訓(xùn)練集);另一部分用于評估模型誤差,得到準(zhǔn)確率(測試集)

    這樣直接劃分訓(xùn)練集、測試集的方法,我們稱之為留出法。

    留出法的意思就是直接將總數(shù)據(jù)D劃分為兩個(gè)對立集

    以上就是關(guān)于數(shù)據(jù)集劃分比例相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    個(gè)人大數(shù)據(jù)官網(wǎng)(個(gè)人大數(shù)據(jù)平臺(tái))

    抖音如何看數(shù)據(jù)分析(抖音數(shù)據(jù)從哪里看 怎么分析)

    登帳號顯示數(shù)據(jù)解析異常什么意思(登帳號顯示數(shù)據(jù)解析異常什么意思呀)

    景觀設(shè)計(jì)常用小圖標(biāo)有哪些(景觀設(shè)計(jì)常用小圖標(biāo)有哪些類型)

    跨境電商人才有什么要求(跨境電商人才有什么要求和條件)