cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
Choose Language Hide Translation Bar
如何用JMP做多元線性迴歸分析?

什麼是多元線性迴歸?

 多元線性迴歸是用來探討多個自變數和依變數之間的關係,並且用來模擬反映變數及兩個以上的依變數之間的關係。

 

使用JMP進行多元線性迴歸

以圖1的數據為例,探索軀體健康評分的可能影響因子。

 

Michelle_Wu_0-1660017360044.png

圖1

 

在JMP中依次點擊「分析」菜單→擬合模型」(圖2),在彈出的對話框中將軀體健康評分導入「Y,將預計要進行多因子分析的變數導入「構造模型效應」中(圖3)。

 

Michelle_Wu_1-1660017360062.png

圖2

 

Michelle_Wu_2-1660017360071.png

圖3擬合模型」的操作示意圖第二步

 

圖3中我們可以看到,對話框的右側上方有兩個選項框,分別為「特質」和「重點」。

 

  • 當依變數為連續變數(此時變數名左側顯示為藍色三角形狀)時,「特質」自動設置為「標準最小二乘法」,即採用線性迴歸方法

 

  • 重點默認為效應杠杆率,可以選擇其它,對結果並不影響,只是結果中的展示內容不同,有的展示多一些,有的展示少一些,而且都可以在結果中自行調整擬展示的內容,因此「重點」這一選項默認即可。

Michelle_Wu_3-1660017360088.png

 

02輸入結果解讀

線性迴歸默認輸出結果包括幾個不同部分的結果,接下來僅對重要結果部分進行介紹。

 

Part 1 槓桿圖

第一部分為槓桿圖,槓桿圖也稱為偏迴歸殘差槓桿圖,或增加變數圖,它反映的是扣除了其他因子影響後某個自變數與依變數的關係。

 

本例中多因子分析納入了6個自變數,因此結果中分別呈現了6個自變數在校正了其他5個自變數後與結局的偏殘差圖。由於篇幅有限,本文僅呈現前3個自變數的槓桿圖(圖4)。

 

Michelle_Wu_4-1660017360099.png

圖4 槓桿圖結果(部分展示)

 

連續變數和分類變數的槓桿圖並不相同。

  • 連續變數容易理解,如年齡的槓桿圖顯示,在校正其它因子後,與軀體健康評分呈負相關;
  • 分類變數的結果可通過「最小二乘均值」來觀察兩類或多類的差異情況。如飲酒的表中顯示,在校正其它因子後,飲酒和不飲酒的軀體健康評分的最小二乘均值分別為48.1和45.4,這一均值不等同於常規均值。

 

Part 2 預測值-實際值

第二部分為「預測值-實際值」圖(圖5),該圖反映的是模型預測值與實際觀測值的吻合程度,橫坐標是預測值,縱坐標是實際值,二者越接近45度線,越說明模型擬合效果好。

 

本例中R2=0.42,在醫學領域中可以認為是擬合不錯的迴歸模型了。

Michelle_Wu_5-1660017360109.png

圖5預測值-實際值」圖

 

Part 3 效應匯總結果

第三部分為效應匯總結果(圖6),該部分反映的是各自變數的貢獻值大小,主要通過LogWorth值來反映,LogWorth值等於 -log10P

 

從圖6中可以看出,6個自變數中貢獻最大的是心功能分級和呼吸困難,而年齡、BMI、飲酒和吸煙的影響較小。該結果可以直觀反映出自變數的貢獻大小,也可以作為後續進一步進行變數篩選的參考依據。

 

Michelle_Wu_6-1660017360121.png

圖6 效應匯總

 

Part 4 預測值-殘差

第四部分為「預測值-殘差」圖(圖7),該圖是以依變數預測值為橫坐標,以殘差為縱坐標繪製的散點圖。

 

殘差圖可以提示模型擬合是否合理,如果殘差隨機分佈在y=0的上下兩側,提示模型擬合較好,如果是非隨機分佈(如呈現某種特定的變化趨勢),則說明模型可能存在問題,需要重新考慮模型構建的前提條件是否滿足。

 

本例結果顯示,殘差分佈較為均勻,並未發現明顯的變化趨勢,可以認為模型對數據的擬合效果較好。

 

Michelle_Wu_7-1660017360129.png

圖7 預測值-殘差」圖

 

Part 5  參數估計值

第五部分為參數估計值(圖8),這部分往往是我們較為關心的結果,給出了每一自變數對應的參數估計值、標準誤差、t值和P值(即結果中的概率>|t|」

 

對於連續變數而言,其參數估計值僅為1行結果;對於分類變數而言,其呈現的結果行數為類別數-1,顯示了與參照類相比的結果,如「心功能分級」是4分類,因此顯示4-1=3行結果,分別為心功能分級1、2、3級與4級(結果中未出現的類別)比較的結果。

 

Michelle_Wu_9-1660017360148.png

圖8 參數估計值

 

不過要注意的是,JMP中默認的分類變數中的參數估計值是「效應編碼」,而不是虛擬變數編碼。在一般情況下,我們在看分類變數,預期會看到虛擬變數編碼,在這個例子中則是相反。

效應編碼與虛擬變數編碼兩者的差別在於:虛擬變數反映的是其它類分別與參照類的差值;效應編碼反映的是每一類與均值的差值。所以當自變數中有分類變數時,不要採用參數估計值結果,而要選擇指標參數化估計值的結果。

 

為了輸出我們更為習慣的虛擬變數編碼,需要在響應「軀體健康評分」左側的紅色向下箭頭點擊「估計值」→指標參數化估計值」(圖9)

 

Michelle_Wu_10-1660017360164.png

圖9 指標參數化估計值「操作步驟

 

此時結果會給出指標函數參數化的結果,此時分類變數對應的參數估計結果才是我們真正希望得到的結果(圖10)。

 

Michelle_Wu_11-1660017360194.png

圖10 指標參數化估計值

 

圖10的指標函數參數化結果顯示(以心功能分級為例),與心功能分級4(結果中未顯示的類別為參照類)相比,心功能分級1比心功能分級4的軀體健康評分平均高36.29,心功能分級2比心功能分級4平均高22.22,心功能分級3比心功能分級4平均高11.54。

 

對比圖10和圖8結果,可以看出,兩個結果的連續變數相同,分類變數不同。因此再次強調,如果自變數有分類變數,必須選擇指標函數參數化結果。以上就是今天分享的如何使用JMP進行線性迴歸的多因子分析。

 

>>>觀看多元線性迴歸教學影片<<<

 

原文:https://mp.weixin.qq.com/s/cfFuM9zrTgB_yr0pmgvoBQ

 

Michelle_Wu_12-1660017360200.png

 

推薦閱讀:

如何在JMP中進行相關分析(Correlation Analysis)

7Table整理工具,無須使用Excel就能完成數據清洗

樣本數愈多愈好嗎?樣本數與power值的計算

認識卡方檢定:分類資料組間比較的分析神器

Last Modified: Sep 5, 2022 10:15 PM