HOME 首頁
SERVICE 服務產品
XINMEITI 新媒體代運營
CASE 服務案例
NEWS 熱點資訊
ABOUT 關于我們
CONTACT 聯系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    回歸分析算法(回歸分析算法原理)

    發(fā)布時間:2023-04-13 11:42:43     稿源: 創(chuàng)意嶺    閱讀: 75        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于回歸分析算法的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端

    官網:https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    回歸分析算法(回歸分析算法原理)

    一、回歸分析二階三階都有顯著性嗎

    我覺得,第一階段不用很顯著,但是模型整體的擬合度要很高吧,因為要計算出“自選擇”的概率,這樣第二階段的逆米爾斯比率才更準確(我也是初學者,個人這么理解的,希望多討論哈(´-ω-`))

    這正是回歸分析所追求的目標。它是最常用的預測建模技術之一,有助于在重要情況下做出更明智的決策。在本文中,我們將討論什么是回歸分析,它是如何工作的。

    1

    什么是回歸分析?

    回歸分析是作為數據科學家需要掌握的第一個算法。它是數據分析中最常用的預測建模技術之一。即使在今天,大多數公司都使用回歸技術來實現大規(guī)模決策。

    要回答“什么是回歸分析”這個問題,我們需要深入了解基本面。簡單的回歸分析定義是一種用于基于一個或多個獨立變量(X)預測因變量(Y)的技術。

    經典的回歸方程看起來像這樣:

    回歸方程

    回歸分析源DataAspirant.com

    在上面的等式中,hθ(x)是因變量Y,X是自變量,θ0是常數,并且θ1是回歸系數。

    2

    回歸分析的應用

    回歸分析用于在許多業(yè)務情況下做出決策。回歸分析有三個主要應用:

    解釋他們理解困難的事情。例如,為什么客戶服務電子郵件在上一季度有所下降。

    預測重要的商業(yè)趨勢。例如,明年會要求他們的產品看起來像什么?

    選擇不同的替代方案。例如,我們應該進行PPC(按點擊付費)還是內容營銷活動?

    3

    什么是不同類型的回歸分析技術?

    由于存在許多不同的回歸分析技術,因此很難找到非常狹窄的回歸分析定義。大多數人傾向于將兩種常見的線性或邏輯回歸中的任何一種應用于幾乎每個回歸問題。

    但是,有許多可用的回歸技術,不同的技術更適合于不同的問題?;貧w分析技術的類型基于:

    自變量的數量(1,2或更多)

    因變量的類型(分類,連續(xù)等)

    回歸線的形狀

    回歸分析技術

    4

    主要類型的回歸分析

    1. 線性回歸

    線性回歸是最常用的回歸技術。線性回歸的目的是找到一個稱為Y的連續(xù)響應變量的方程,它將是一個或多個變量(X)的函數。

    因此,線性回歸可以在僅知道X時預測Y的值。它不依賴于任何其他因素。

    Y被稱為標準變量,而X被稱為預測變量。線性回歸的目的是通過點找到稱為回歸線的最佳擬合線。這就是數學線性回歸公式 /等式的樣子:

    線性回歸公式

    在上面的等式中,hθ(x)是標準變量Y,X是預測變量,θ0是常數,并且θ1是回歸系數

    線性回歸可以進一步分為多元回歸分析和簡單回歸分析。在簡單線性回歸中,僅使用一個獨立變量X來預測因變量Y的值。

    另一方面,在多元回歸分析中,使用多個自變量來預測Y,當然,在這兩種情況下,只有一個變量Y,唯一的區(qū)別在于自變量的數量。

    例如,如果我們僅根據平方英尺來預測公寓的租金,那么這是一個簡單的線性回歸。

    另一方面,如果我們根據許多因素預測租金; 平方英尺,房產的位置和建筑物的年齡,然后它成為多元回歸分析的一個例子。

    2. Logistic回歸

    要理解什么是邏輯回歸,我們必須首先理解它與線性回歸的不同之處。為了理解線性回歸和邏輯回歸之間的差異,我們需要首先理解連續(xù)變量和分類變量之間的區(qū)別。

    連續(xù)變量是數值。它們在任何兩個給定值之間具有無限數量的值。示例包括視頻的長度或收到付款的時間或城市的人口。

    另一方面,分類變量具有不同的組或類別。它們可能有也可能沒有邏輯順序。示例包括性別,付款方式,年齡段等。

    在線性回歸中,因變量Y始終是連續(xù)變量。如果變量Y是分類變量,則不能應用線性回歸。

    如果Y是只有2個類的分類變量,則可以使用邏輯回歸來克服此問題。這些問題也稱為二元分類問題。

    理解標準邏輯回歸只能用于二元分類問題也很重要。如果Y具有多于2個類,則它變?yōu)槎囝惙诸?,并且不能應用標準邏輯回歸。

    邏輯回歸分析的最大優(yōu)點之一是它可以計算事件的預測概率分數。這使其成為數據分析的寶貴預測建模技術。

    3. 多項式回歸

    如果自變量(X)的冪大于1,那么它被稱為多項式回歸。這是多項式回歸方程的樣子:y = a + b * x ^ 3

    與線性回歸不同,最佳擬合線是直線,在多項式回歸中,它是適合不同數據點的曲線。這是多項式回歸方程的圖形:

    多項式回歸

    對于多項式方程,人們傾向于擬合更高次多項式,因為它導致更低的錯誤率。但是,這可能會導致過度擬合。確保曲線真正符合問題的本質非常重要。

    檢查曲線朝向兩端并確保形狀和趨勢落實到位尤為重要。多項式越高,它在解釋過程中產生奇怪結果的可能性就越大。

    4. 逐步回歸

    當存在多個獨立變量時,使用逐步回歸。逐步回歸的一個特點是自動選擇自變量,而不涉及人的主觀性。

    像R-square和t-stats這樣的統計值用于識別正確的自變量。當數據集具有高維度時,通常使用逐步回歸。這是因為其目標是使用最少數量的變量最大化模型的預測能力。

    逐步回歸基于預定義的條件一次增加或減少一個共變量。它一直這樣做,直到適合回歸模型。

    5. 嶺回歸

    當自變量高度相關(多重共線性)時,使用嶺回歸。當自變量高度相關時,最小二乘估計的方差非常大。

    結果,觀察值與實際值有很大差異。嶺回歸通過在回歸估計中增加一定程度的偏差來解決這個問題。這是嶺回歸方程式的樣子:

    在上面的等式中,收縮參數λ(λ)用于解決多重共線性的問題。

    6. 套索回歸

    就像嶺回歸一樣,Lasso回歸也使用收縮參數來解決多重共線性問題。它還通過提高準確性來幫助線性回歸模型。

    它與嶺回歸的不同之處在于懲罰函數使用絕對值而不是正方形。這是Lasso回歸方程:

    7. 彈性網絡回歸

    ElasticNet回歸方法線性地組合了Ridge和Lasso方法的L1和L2懲罰。以下是ElasticNet回歸方程的樣子:

    8、顯著性

    假設檢驗

    我們要討論的第一個概念是假設檢驗(hypothesis testing),這是一種使用數據評估理論的方法。“假設”是指研究人員在進行研究之前對情況的初始信念。這個初始信念被稱為備擇假設(alternative hypothesis),而相反的被稱為零假設(null hypothesis)(也叫原假設)。具體到例子中就是:

    備擇假設:本校學生的平均睡眠時間低于大學生的全國平均水平。

    零假設:本校學生的平均睡眠事件不低于大學生的全國平均水平。

    需要注意的是,我們必須要謹慎用語:因為我們要檢驗一個非常具體的效應,所以需要在假設中規(guī)范用語,才能在事后說明我們確實驗證了假設而非其他。

    假設檢驗是統計學的基礎之一,用于評估大多數研究的結果。適用范圍覆蓋了從評估藥物有效性的醫(yī)學試驗到評估運動計劃的觀察性研究等各種研究。

    這些研究的共同點是,他們關注兩組之間或樣本與整體之間進行比較。例如,在醫(yī)學中,我們可以比較服用兩種不同藥物的群體之間得以恢復的平均時間。而在我們的問題中,需要比較本校學生和本國所有大學生之間的睡眠時間。

    有了假設檢驗,我們就可以使用證據來決定是零假設還是備擇假設。假設檢驗有很多種,這里我們將使用z檢驗。但是,在我們開始測試數據之前,還需要解釋另外兩個更重要的概念。

    正態(tài)分布

    第二個概念是正態(tài)分布(normal distribution),也稱為高斯(Gaussian)或鐘形曲線(Bell curve)。正態(tài)分布是利用平均數和標準差來定義的數據分布形態(tài),其中平均數用希臘字母μ (mu)表示,決定了分布的位置,標準差用σ (sigma)表示,決定了分布的幅度。

    正態(tài)分布,平均數μ和標準差σ

    正態(tài)分布的應用原理是根據標準差來評估觀測值。我們可以根據與平均值的標準偏差數來確定觀測值的異常程度。正態(tài)分布具有以下屬性:

    68%的數據與平均值相差±1標準差

    95%的數據與平均值相差±2標準差

    99.7%的數據與平均值相差±3個標準差

    如果我們統計量呈正態(tài)分布,我們就可以根據與均值的標準偏差來表征任意觀測點。例如,美國女性的平均身高是65英寸(5英尺5英寸),標準差為4英寸。如果我們新認識了73英寸高的女性,那么我們可以說她比平均身高高出兩個標準差,屬于2.5%的最高身高的女性(其中有2.5%的女性要矮于μ-2σ(57英寸),2.5%要高于μ+2σ)。

    在統計學中,我們不直接說我們的數據與平均值相差兩個標準差,而是用z分數來評估,z分數表示觀測值與平均值之間的標準差的數量。我們需要利用公式將數據轉化為z分數:觀測值減去平均值,除以標準差(見下圖)。在身高的示例中,我們可以得到朋友的身高的z分數為2。如果我們對所有觀測值進行z分數轉化,就會得到一個新的分布——標準正態(tài)分布,其平均值為0,標準差為1,如圖所示:

    從正態(tài)分布(右)到標準正態(tài)分布(左)的轉換。

    每次我們進行假設檢驗時,都需要假定一個檢驗統計量,在我們的例子中是學生的平均睡眠時間。在z檢驗中,我們通常假定統計檢驗量的分布近似正態(tài)分布。因為,根據中心極限定理(central limit theorem),從總體數據中獲得越多的數據值,這些數據值的平均數則越接近于正態(tài)分布。

    然而,這始終是一個估計,因為真實世界的數據永遠不會完全遵循正態(tài)分布。假設正態(tài)分布能夠讓我們確定在研究中觀察到的結果有多少意義,我們可以觀察z分數,z分數越高或越低,結果越不可能是偶然發(fā)生,也就越具有意義。為了量化結果的意義,我們需要使用另一個概念。

    P值和α是個啥!

    最后的核心概念是p值。p值是當零假設為真時所得觀察到的結果,或是更為極端的結果出現的概念。這有點令人費解,所以讓我們來看一個例子。

    假設我們要比較美國佛羅里達州和華盛頓州人民的平均智商。我們的零假設是華盛頓的平均智商不高于佛羅里達的平均智商。

    通過研究發(fā)現,華盛頓州的人民智商比佛羅里達州人民智商高2.2,其p值為0.346(大于顯著性水平)。這意味著,零假設“華盛頓的平均智商不高于佛羅里達的平均智商”為真,也就是說,華盛頓的智商實際上并沒有更高,但是由于隨機噪聲的影響,仍然有34.6%的概率我們會測量到其智商分數會高出2.2分。之后隨著p值降低,結果就更有意義,因為噪聲的影響也會越來越小。

    這個結果是否具有統計意義取決于我們在實驗開始之前設定的顯著性水平——alpha。如果觀察到的p值小于α,則結果在統計學上具有意義。我們需要在實驗前選擇alpha,因為如果等到實驗結束再選擇的話,我們就可以根據我們的結果選一個數字來證明結果是顯著的,卻不管數據真正顯示了什么,這是一種數據欺騙的行為。

    α的選擇取決于實際情況和研究領域,但最常用的值是0.05,相當于有5%的可能性結果是隨機發(fā)生的。在我的實驗中,從0.1到0.001之間都是比較常用的數值。也有較為極端的例子,發(fā)現希格斯玻色子(Higgs Boson particle)的物理學家使用的p值為0.0000003,即350萬分之一的概率結果由偶然因素造成。(現代統計學之父R.A.Fischer不知為什么,隨便選擇了0.05為p值,很多統計學家極其不想承認這一點,并且這個值現在讓許多統計學家非常困擾與擔憂)!

    要從z值得到p值,我們需要使用像R這樣的表格統計軟件,它們會在結果中將顯示z值低于計算值的概率。例如,z值為2,p值為0.977,這意味著我們隨機觀察到z值高于2的概率只有2.3%。

    正態(tài)分布下z值低于2的概率為97.7%

    總結應用

    我們做個總結,截止到目前提到了三個概念

    1.假設檢驗:用來檢驗理論的方法。

    2.正態(tài)分布:假設檢驗中對數據分布形態(tài)的近似表示。

    3.P值:當零假設為真時觀察到的或是出現更為極端結果的概率。

    現在讓我們把這些概念帶入到我們的例子中:

    根據國家睡眠基金會(the National Sleep Foundation)的數據,全國學生平均每晚睡眠時間為7.02小時。

    針對本校202名學生進行的一項調查發(fā)現,本校學生的平均每晚睡眠時間為6.90小時,標準差為0.84小時。

    我們的備擇假設是,本校學生的平均睡眠時間少于全國大學生的平均睡眠時間。

    我們將選取0.05為α值,這意味著當p值低于0.05時,結果是顯著的。

    首先,我們需要把測量值轉換成z分數,用測量值減去平均值(全國大學生平均睡眠時間),除以標準差與樣本量平方根的商(如下圖)。另外,隨樣本量的增加,標準差亦隨之減少,這一點可以用標準差除以樣本量的平方根來解釋。

    二、gbase8a支持什么分類算法?

    目前支持兩種分類算法:

    1、Logistic回歸算法,Logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數據挖掘、疾病自動診斷和經濟預測等領域。

    2、支持向量機算法,

    支持向量機是一種二分類模型,它的基本模型是定義在特征空間上的間隔最大的線性分類器。

    說的通俗一點就是就是在特征空間里面用某條線或某塊面將訓練數據集分成兩類,而依據的原則就是間隔最大化,這里的間隔最大化是指特征空間里面距離分離線或面最近的點到這條線或面的間隔(距離)最大。

    三、spss簡單線性回歸分析 需要多少組數據

    沒有具體數據要求,一般來說,數據越多越好。

    通過線性回歸算法,我們可能會得到很多的線性回歸模型,但是不同的模型對于數據的擬合或者是描述能力是不一樣的。我們的目的最終是需要找到一個能夠最精確地描述數據之間關系的線性回歸模型。這是就需要用到代價函數。

    回歸分析算法(回歸分析算法原理)

    代價函數就是用來描述線性回歸模型與正式數據之前的差異。如果完全沒有差異,則說明此線性回歸模型完全描述數據之前的關系。

    一條趨勢線代表著時間序列數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期內增長或下降。雖然我們可以用肉眼觀察數據點在坐標系的位置大體畫出趨勢線,更恰當的方法是利用線性回歸計算出趨勢線的位置和斜率。

    四、k近鄰算法如何做回歸分析?

    有兩類不同的樣本數據,分別用藍色的小正方形和紅色的小三角形表示,而圖正中間的那個綠色的圓所標示的數據則是待分類的數據。也就是說,現在, 我們不知道中間那個綠色的數據是從屬于哪一類(藍色小正方形or紅色小三角形),下面,我們就要解決這個問題:給這個綠色的圓分類。我們常說,物以類聚,人以群分,判別一個人是一個什么樣品質特征的人,常??梢詮乃?#47;她身邊的朋友入手,所謂觀其友,而識其人。我們不是要判別上圖中那個綠色的圓是屬于哪一類數據么,好說,從它的鄰居下手。但一次性看多少個鄰居呢?從上圖中,你還能看到:

    如果K=3,綠色圓點的最近的3個鄰居是2個紅色小三角形和1個藍色小正方形,少數從屬于多數,基于統計的方法,判定綠色的這個待分類點屬于紅色的三角形一類。 如果K=5,綠色圓點的最近的5個鄰居是2個紅色三角形和3個藍色的正方形,還是少數從屬于多數,基于統計的方法,判定綠色的這個待分類點屬于藍色的正方形一類。 于此我們看到,當無法判定當前待分類點是從屬于已知分類中的哪一類時,我們可以依據統計學的理論看它所處的位置特征,衡量它周圍鄰居的權重,而把它歸為(或分配)到權重更大的那一類。這就是K近鄰算法的核心思想。

    KNN算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

    KNN 算法本身簡單有效,它是一種 lazy-learning 算法,分類器不需要使用訓練集進行訓練,訓練時間復雜度為0。KNN 分類的計算復雜度和訓練集中的文檔數目成正比,也就是說,如果訓練集中文檔總數為 n,那么 KNN 的分類時間復雜度為O(n)。

    KNN方法雖然從原理上也依賴于極限定理,但在類別決策時,只與極少量的相鄰樣本有關。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。

    K 近鄰算法使用的模型實際上對應于對特征空間的劃分。K 值的選擇,距離度量和分類決策規(guī)則是該算法的三個基本要素: K 值的選擇會對算法的結果產生重大影響。K值較小意味著只有與輸入實例較近的訓練實例才會對預測結果起作用,但容易發(fā)生過擬合;如果 K 值較大,優(yōu)點是可以減少學習的估計誤差,但缺點是學習的近似誤差增大,這時與輸入實例較遠的訓練實例也會對預測起作用,是預測發(fā)生錯誤。在實際應用中,K 值一般選擇一個較小的數值,通常采用交叉驗證的方法來選擇最優(yōu)的 K 值。隨著訓練實例數目趨向于無窮和 K=1 時,誤差率不會超過貝葉斯誤差率的2倍,如果K也趨向于無窮,則誤差率趨向于貝葉斯誤差率。 該算法中的分類決策規(guī)則往往是多數表決,即由輸入實例的 K 個最臨近的訓練實例中的多數類決定輸入實例的類別 距離度量一般采用 Lp 距離,當p=2時,即為歐氏距離,在度量之前,應該將每個屬性的值規(guī)范化,這樣有助于防止具有較大初始值域的屬性比具有較小初始值域的屬性的權重過大。 KNN算法不僅可以用于分類,還可以用于回歸。通過找出一個樣本的k個最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對該樣本產生的影響給予不同的權值(weight),如權值與距離成反比。 該算法在分類時有個主要的不足是,當樣本不平衡時,如一個類的樣本容量很大,而其他類樣本容量很小時,有可能導致當輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占多數。 該算法只計算“最近的”鄰居樣本,某一類的樣本數量很大,那么或者這類樣本并不接近目標樣本,或者這類樣本很靠近目標樣本。無論怎樣,數量并不能影響運行結果??梢圆捎脵嘀档姆椒ǎê驮摌颖揪嚯x小的鄰居權值大)來改進。

    該方法的另一個不足之處是計算量較大,因為對每一個待分類的文本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點。目前常用的解決方法是事先對已知樣本點進行剪輯,事先去除對分類作用不大的樣本。該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產生誤分。

    實現 K 近鄰算法時,主要考慮的問題是如何對訓練數據進行快速 K 近鄰搜索,這在特征空間維數大及訓練數據容量大時非常必要。

    以上就是關于回歸分析算法相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。


    推薦閱讀:

    回歸營銷基本層面讀后感(銷售的常識-回歸銷售的本質,重構你的銷售思維下載)

    北回歸線公園景觀設計(北回歸線主題公園)

    杭州樓市回暖了嗎(杭州樓市能否回歸理性)

    mac抹掉后進不去了(m1芯片mac抹掉重裝系統)

    眾的商標圖片(眾字的商標怎么設計)