統計學基本觀念與簡單線性迴歸分析

這篇文章會介紹統計學中幾個重要的觀念:屬量資料與類別資料該如何建模;OLS與MLE的介紹;如何評估點估計量的表現; 信賴區間與型一錯誤的介紹;簡單回歸的假設以及分析等等,幫助數據分析新手們降低統計學門檻。

Gary Chen
25 min readApr 10, 2024

資料概述

在我大三修習計量經濟學的一次作業中,教授要求我們使用SAS軟體進行線性迴歸分析。吸菸數據來源為當時的計量經濟學課本 :Basic Econometrics.(Gujarati)

以上吸菸數據顯示:美國的25個不同職業中,吸菸指數(Smoking Index)與肺癌致死率指數(Lung Cancer Mortality Index)的關係。指數的平均值皆為100。

例如皮革師傅(Leather Workers)吸菸指數為88,肺癌致死率指數為104,代表這個職業的吸菸頻率低於平均值,而肺癌致死率略高於平均值。

由於習題給定的自變數與反應變數都是屬量資料,所以我們採用簡單線性迴歸模型。但實務上會更常碰到類別資料。利如:有 vs.沒有、男 vs.女、A品牌 vs. B品牌等等。

統計方法: 當x為屬量資料 y為類別資料

若x(自變數)為屬量資料,y(反應變數)為類別資料,則必須採用線性機率模型或羅吉斯迴歸。

線性機率模型(Linear Probability Model, LPM)

線性機率模型的設定上,自變數為屬量資料,例如吸菸頻率我們定義為一個月抽了幾根菸。而反應變數為類別資料,若有肺癌計為1,沒有肺癌計為0。這條迴歸線體現的是得肺癌的機率(計為Pi)有多少,吸菸頻率愈高,得肺癌的機率(Pi)也會提高。

線性機率模型在實務上有其缺點。若使用最小平方法估計量,會產生異質變異數問題,必須採用加權最小平方法(Weighted Least Squares, WLS)估計迴歸係數。做法是必須將迴歸式同乘((1 — Pi) Pi ) ^ -1/2 才能重現同質變異數。

另外當自變數過大(例如每個月抽400根菸)或過小(例如每個月抽2根菸)時,反應變數會超出 [1, 0] 的範圍(如下圖圈起處),這樣會導致得肺癌的機率會大於1或小於0,必須再乘一個權數值做轉換才能解決該問題。而使用羅吉斯回歸就可以免除以上問題。

羅吉斯迴歸(Logistic Regression)

如上圖,羅吉斯迴歸呈現的是平滑的曲線,是一個乙狀函數(sigmoid function)。若反應變數事件( Yi )成功計為1,失敗計為0。Yi 的期望值:E (Yi) 代表的是事件成功機率:P(Yi)的多寡,不論自變數無窮大(會趨近於1)或無窮小(會趨近於0),反應變數都維持在[1, 0] 的範圍內,不會大於1或小於0。

這個平滑的曲線是來自於羅吉斯分配(Logistic Distribution)的累積分配函數。而累積分配函數正是由機率密度函數積分而來。

以下是羅吉斯分配的機率密度函數(Probability Density Function, PDF),不同的期望值與標準差會使得分配有肥尾或瘦尾(用不同顏色區分),但不論高矮胖瘦,曲線下的面積加總都必為1,也就是說機率累積起來必為1。

以下則是羅吉斯分配的累積分配函數(Cumulative Distribution Function, CDF),是由機率密度函數積分得來,反之對累積分配函數微分則是機率密度函數。

例如紫色這個分配若對每一個點都微分,可以得到每一個點的斜率,我們會發現在期望值 = 2時斜率最陡峭,而期望值 等於 2 時對應上圖的機率密度函數發現是最高峰,代表期望值 等於 2 時「瞬間」累積的機率最大。

羅吉斯回歸正是利用羅吉斯分配的累積分配函數(CDF)建構而成。

P (X)是事件成功的機率,以鐵達尼號事件為例,P (X)是乘客生還的機率。反之 1-P (X)是事件失敗的機率,例如乘客死亡的機率。P (X) 表達如下:

仔細觀察上式,若 X 為無窮大時分子和分母皆為1 ,代表當 X 為無窮大時,事件成功機率機率會趨近於1。反之若 X 為負無窮大時分母會趨近於無窮大 ,代表當 X 為負無窮大時,事件成功機率會趨近於0。

當然 事件失敗機率1-P (X) 就是 1減去上面這一坨囉! 將P (X)、1-P (X)兩者相除為勝算比(Odd Ratio),即事件成功機率與失敗機率的比值。兩者相除取 ln後,便可以導出羅吉斯回歸:

以下代入數字進去會更好理解。以鐵達尼號事件為例,我想知道票價的高低是否影響生存的機率,已算出 β0 = -0.927778 ,β = 0.013108,我想計算票價為3英鎊的乘客,則令 X = 3帶入 f(X) 即可,可算出生還的機率為 0.291:

我想計算票價為512英鎊的乘客,則令 X = 512帶入 f(X) 即可,可算出生還的機率為 0.997 :

β = 0.013108 的意義在於,若每多花一英鎊在票價上,生還的勝算值(即生還的機率/死亡機率的比值)會增加 e ^ β 倍,即 e ^0.013108 = 1.013085 倍。

統計方法: 當x為類別資料 y為屬量資料

相反,若自變數為類別資料,反應變數為屬量資料,則有三種常見的統計方法:

一、迴歸模型中導入虛擬變數(Dummy Variable)

虛擬變數的原理就是在自變數 Xi 上設定若有抽菸 D = 1,沒抽菸 D = 0,這樣就能區別兩者。至於是截距上的差別還是斜率上的差別,或甚至兩者都有(如上圖),就得要依靠自身的經驗去針對該資料集來判斷,這並無對錯。

檢定的方法就如同簡單迴歸分析一樣,去對 Xi 做係數顯著T-ratio檢定即可,若虛擬變數顯著異於0,則我們可以下結論:抽菸與沒抽菸的兩種人在得到肺癌的機率統計上顯著不同。

二、兩獨立母體期望值T檢定

兩獨立母體期望值T檢定的原理就是看兩個服從常態分配的母體的平均數是否有顯著差異(如上圖)。作T檢定前必須先做F檢定來判斷是同質還是異質變異數。假設其變異數為同質變異數,則檢定統計量公式如下:

另外如何判斷資料是常態呢? 常見以Shapiro-Wilk test進行常態分配檢定。

若資料是常態分配,再以Levene Test檢定同質變異數。若兩群體皆為同質變異數,一般的t-test即可。若兩群體為異質變異數,則要使用Welch t-est(公式如下)。若算出來的樣本觀察值落於拒絕區內,則我們可以判斷這兩個母體(有抽菸和沒抽菸)的平均數是有顯著差異的。

若資料不是常態分配,則要進行無母數分析(nonparametric statistics)或拔靴法(Bootstrapping)。關於無母數與拔靴法詳見我的文章:手遊9萬筆真實數據之A/B Testing分析

三、ANOVA (The Analysis Of Variance, 變異數分析)

ANOVA雖稱為變異數分析,但其應用是在比較兩個以上的母體之間的平均數有無顯著差異,並且將總變異拆解成組間變異與組內變異。

那為何不使用上述的兩獨立母體期望值T檢定就好了呢? 因為要是需要比較多群體時,兩兩做T檢定是非常耗時無效的。假設10個群體要比較,就必須做C10取2次,即45次T檢定。

更嚴重的後果是會大幅提高型一錯誤的發生機率。例如做三次t檢定,
那麼犯型一的機率會變成 1- (不犯型一錯誤的機率)^3, 也就是:

(1-(1-α)³)=1–0.95³=0.14,這會遠大於0.05。因此才必須導入ANOVA來分析。

若資料的總變異絕大部分都來自於組間變異(就是該組樣本平均數與總平均數的差)而非組內變異(資料與自身樣本平均數的差),那我就可以下判斷這兩個母體(有抽菸vs. 無抽菸)得到肺癌的機率是有顯著上的差異。假設檢定如下:

如上圖,若兩組獨立母體有顯著差異,他們的資料本身不會重疊到太多,反之下圖,兩組獨立母體其實並沒有顯著差異時,兩者就會互相重疊。這相當直覺易懂。

以實際資料為例,以下是三個不同的花品種,花萼的寬度分配。可以看到這三種花的花萼平均寬度都差不多。

以下是三個不同的花品種,花瓣的寬度分配。可以看到這三種花的花瓣平均寬度有明顯差距,F值算出來高達960,要犯型一錯誤的機率非常非常低,所以這三種花的花瓣寬度在統計上是非常顯著地不同。

相關性(Correlation)

在線性迴歸分析前,必須先將兩者資料以散佈圖標示出來,藉由散佈圖我們能快速判斷資料的相關性。

相關係數公式如下,若資料隨處分散,分母會變得非常大,使得相關係數往0靠近。反之若資料是集中趨勢,則相關係數會接近負1(完全負相關)或正1(完全正相關)。

這筆資料經計算後,相關係數( Correlation Coefficient )為0.6886,說明兩者相關性很強,因此迴歸直線有分析的價值。否則,任一隨處散佈的資料都可以畫出迴歸直線,但這條直線沒有能用來分析及預測的價值。

而非線性相關(Non-Linear Correlation)則是例外,例如資料呈現拋物線分佈時,相關係數會非常低(如下圖,相關係數接近0)。不能用直線去表示,而是用曲線或者曲面去表示資料的關係,在此不討論。

從樣本推論母體──點估計量

上述已經得知相關係數是高的,那我們就可以進行迴歸分析了。在迴歸分析前必須先了解推論統計學中核心的概念:從樣本推論母體。

以本次吸菸指數為例,這僅僅是從母體(假設為全美國三億人口)當中抽出來的25筆樣本資料。我們不可能耗費大量時間與成本去對這三億人口普查然後求得母體迴歸線,因此只能從母體中隨機抽樣,從這25筆樣本中得到樣本迴歸線,再對這條迴歸線作顯著性檢定。

若檢定結果判斷母體回歸斜率為0的機率很小,我們就能下結論:統計上自變數是能顯著地解釋反應變數的,也就是說當自變數變動時,反應變數也會有所變動。

除非經過普查,否則我們不可能得知母體的真實參數例如母體平均數、母體變異數、母體比例、母體迴歸斜率與截距等等。因此只能從母體中隨機抽樣,再從樣本中組裝出合適的點估計量,用這個點估計量來估計母體參數。

在簡迴歸模型中,主要有兩大方法可以求得點估計量:一、最大概似法 二、最小平方法。

最大概似估計量(Maximum Likelihood Estimator, MLE)

最大概似法的核心觀念是:θ 是我們要估計的母體參數,我們要找到一個 θ 使得抽到這組隨機樣本 X1, X2, …….., Xn 的機率最大。

以平均數為例,例如我們從母體(假設為某間高中的學生)當中隨機抽了13人為樣本(下圖當中的紅色點點),得到樣本的身高平均數為172.08公分,而在母體平均身高為162公分時(下圖的常態分配)能抽到這組樣本的機率是非常低的。

若我們一步步從母體平均身高162公分往右推移,會發現抽到這組樣本的機率(下圖灰色點點)會開始變高,在身高170.5公分時會最大,然後在身高大於170.5公分時機率又會開始下降,所以我們可以推論母體平均身高170.5公分時會抽到這組樣本的機率最大,這就是最大概似法的核心概念。

讓我們再回到迴歸模型,這次我們要從樣本迴歸的斜率,推論母體迴歸的斜率。令 θ 為母體迴歸斜率,則概似函數如下:

假設 X 軸為讀書時間,Y 軸為考試成績。下圖可以看到 θ (母體迴歸斜率) 分別在 θ = 0.5 ,θ = 1.2,θ = 2.2 時的表現,會發現母體迴歸斜率為1.2時抽到這組樣本(圖中的黑色點點)的機率最大,其次是 0.5 ,最後才是2.2。

用機率的方式表達如下:

以下令 θ 為母體迴歸斜率。我們抽到的所有樣本對上常態分配機率密度函數時都會得到各別的機率,而所有的機率相乘起來最大時,這個 θ 是最有可能抽到這組樣本的。這解釋了概似函數會有連乘符號的原因。

因為常態分配的機率密度函數有點醜,有指數的話微分會不好做,取對數不會對式子有影響且微分很方便,所以兩邊取對數再微分,這個技巧在個體經濟學當中也很常使用:

再稍加整理後,概似函數可以寫成:

我們的目標就是要使概似函數值最大,只要令函數一階微分為0即可求得極值:

最後可以求導迴歸斜率的最大概似估計量為:

最小平方估計量(Least Squares Estimator)

最小平方法簡單說就是在資料點中找出一條直線,使得所有資料點與這條直線的距離最短。以下說明最小平方法是如何將這條線找出來的:

以上是從母體中抽樣的5個資料點。

我們想找到一條最能代表 X Y 之間關係的直線,這條線必須與這5個資料點與這條直線的距離加總起來最小(以綠色線表示),亦即殘差(Residual)加總最小。

直接將殘差加總會產生一個問題:由於資料點分布在這條線的兩側,會正負抵銷。而距離可以用絕對值表達,但還要另外取絕對值,計算起來麻煩,也不好處理。

為了解決這個問題,統計學家想到一個方法:將殘差平方後再加總。以幾何學的角度來看,一條線的平方就是一塊正方形,而我們的目標就是讓這些綠色正方形的面積加總起來最小

這條線都在資料點的上方,可看到正方形的面積都非常大,代表這條線根本就偏離了這5個資料點,很顯然不是這條線,再找找看其他條吧!

試了幾條線後發現,這條線使得正方形面積最小,亦即殘差的平方和(SSE, The Sum of Squares due to Error)最小,因此這條線就是最能代表 X Y的迴歸直線(Regression Line),又稱配適線(Fitted Line)。

當然這只是為了視覺化好理解才這樣慢慢找,最精準的方法還是必須用數學推導,求出一個通用的公式,推導如下。

我們希望找到一條直線,使得資料點與這條直線的距離能夠最短。亦即模型不能夠解釋的誤差部分越小越好,所以我們希望 b0 (截距)與 b1(斜率) 的估計值能夠使誤差越小越好,如下:

Q(b0, b1) 對 b0 與 b1 的偏微分必須為 0:

以下我畫了一張圖來解釋為何偏微分要等於0。藍色拋物線是SSE(殘差平方和),我們想找SSE的最小值,就是當SSE對 b0 與 b1 的偏微分為 0的時候。此時橘色這條直線的斜率是0,是條水平線,代表它切中的是拋物線的最小值。反之,如果斜率不等於0,也就是我畫在兩側的黑線,它們切中的都不是SSE的最小值。

在此省略中間的計算過程,結果如下。往後只要將數字代入就可以求出迴歸直線:

評估點估計量的表現

點估計量估出來後,我們當然希望點估量是精準的,那如何評估點估計量的表現呢? 必須滿足以下條件:不偏性、有效性、充分性(此處不討論)、一致性。

不偏性(Unbiasedness)

θ 為我們要估計的母體參數,而 為 θ hatθ 的點估計量,若滿足以下等式,則稱 θ hat θ 的不偏估計量:

以下用打靶的圖形會更好理解這個概念。「不偏」簡單說就是:射出的子彈當中,平均而言會射中紅心,代表準確度高 (見下排兩張圖);反之「偏誤」是指射出的子彈都偏離了紅心,代表準確度很低(見上排兩張圖)。

有效性(Efficiency)

然而光是追求準確度高仍不夠,這個點估計量的精確度(Precision)必須要高。我們希望每次抽樣時所得到的估計量都不要偏離太遠,才能確保不會有極端值產生,也就是說點估計量的變異數 Var(θ hat) 越小越好。

以上面的靶圖為例,下排的兩張靶圖都具有不偏性,但左邊明顯較集中,而變異數較小的點估計量,即是較具有效性的點估計量。

一致性(Consistency)

根據大樣本性質,如果我們在抽樣時抽出的樣本數越多,則估計值等於欲估計的母體參數的機率會提高。而在抽出的樣本趨近無限多的情況下,估計值等於母體參數的機率等於一,以打靶為例,代表此時每一發子彈都能正中紅心,此性質為一致性。

另外補充高斯馬可夫定理(Gauss-Markov theorem),意即在簡單線性迴歸中,b0b1的最小平方估計量是最佳線性不偏估計量(Best Linear Unbiased estimator, BLUE)。

「不偏」的概念已經在上面打靶圖解釋過,代表其準確度高,平均而言會命中紅心。但何謂「最佳」呢? 意思是指所有不偏估計量當中,變異數(或說分散程度)最小的。

以打靶為例,代表其準確度高以外,精確度也非常高,是一個很優秀的估計量。幾乎沒有其他估計量的表現可以比最小平方估計量還準確與精確。以下我畫了一張圖能更好理解:

BE為Biased Estimator(偏誤估計量),UE 指的是Unbiased Estimator(不偏估計量),LE為Linear Estimator (線性估計量),而UE(紅色圈圈)和LE(綠色圈圈)的交集則為 Linear Unbiased Estimator(線性不偏估計量)

在線性不偏估計量當中又是變異程度最小的則為最佳線性不偏估計量(Best Linear Unbiased Estimator, BLUE)。

信賴區間(Confidence Interval)

以上提到點估計量在估計母數時,點估計量擁有諸多優美的性質:不偏性、一致性、有效性、充分性,但我們仍然不知道該估計值離真實的的母數「有多遠」。因此若能以一個範圍或區間來估計母數會是一個不錯的想法。信賴區間(Confidence Interval)就是這樣的概念。

信賴區間是指:隨機抽樣後組裝出的點估計展開適當尾點所形成的無限組區間當中,會有 1 — α 的機率(又稱信心水準, Confidence Level)包含真實母數。換句話說,這麼多區間當中會有α的機率不會包含真實母數。

我們當然希望區間愈窄愈好,信心水準愈高愈好,但遺憾的是這並無法同時達成。

想要信心水準高,相對的信賴區間也會變寬。比如說我抽樣來估計明年七月飲料銷售量,如果我跟CEO報告說「我有99%的信心,明年七月飲料銷售量會落在0到1000杯之間」,CEO只會覺得這是廢話吧?

但是若信賴區間窄,信心水準低也無法讓人信服,請見下圖:

Seeing Theory, Brown University

以上是 1 — α = 30%的信賴區間視覺化(綠色的區間有包含真實母數,紅色的區間則無),意即在這麼多的信賴區間當中有70%的機率不會包含真實母數。

如果我向CEO報告「我有30%的信心,明年七月的飲料銷售量會落在480杯到502杯之中」,CEO可能會覺得不太可靠。因此 α 的設定也是一門藝術。

在統計學當中的常見作法是設定 1 — α = 95%的信賴區間(見下圖),有足夠的信心可以包含真實母數,區間又不會太寬。

Seeing Theory, Brown University

值得注意的是,我們在算出信賴區間後,我們不能說「真實的母數落在該區間的機率有95%」,因為該信賴區間只有包含和不包含兩種結果,並沒有機率存在。我們應該要說「我有95%的信心,該區間是屬於會包含母數的」。

模型診斷

在看回歸結果前,我們要先檢查簡單回歸模型的假設是否成立(廖崇智, 2019):

1. E(Ei) = 0。即誤差項的加總會正負抵銷,因此誤差項的期望值為0。

2.同質變異數(homoscedasticity)假設。即無論解釋變數 Xi之數值為何,誤差的變異數都會相同。

3.序列獨立(serial independence)假設:誤差項之間互相獨立。

4.誤差項呈常態分配。

跑回歸前必須要做模型診斷,看是否有無違反假設的地方,如果有就要採取相對應的方法處理它,否則跑出來的結果會有偏差。

SAS跑出來的圖表左上角有一個殘差圖,我們可以看到殘差的分配是如何。圖中殘差分配的很平均,可判斷是為同質變異數(Homoscedasticity)。

反之則為異質變異數(Heteroscedasticity),如下圖可以看到殘差的分配在不同自變數下非常不平均,一下子很集中,一下子卻很分散。

異質變異數(Heteroscedasticity)

以上圖為例,假設x是讀書時間,y是考試成績,可以看到x1(每週讀2小時)大家的考試成績不會相差太多,大約落在20~30分;但是到了x3(每週讀10小時),每個人的讀書效率有差,考試成績可以小至20分,大至80分。這樣的資料分佈在實務上非常常見,必須小心處理之。

若異質變異數不去處理而直接以最小平方法估計母數時,樣本係數仍是不偏與一致估計量但並非變異程度最小,所以並非BLUE。另外在做係數顯著性t檢定時會失效而導致誤判。

該如何處理呢? 一般我們使用懷特異質變異數下一致性標準誤 (Heteroskedasticity-consistent standard errors, HCEs),簡稱穩健標準誤。

其中diag()是原回歸跑OLS後得到的殘差平方放在對角線上,並且所有非對角線上的元素都為零的對角矩陣。實務上的使用方法可以看我的文章: 影響個人醫療支出的因素─多元線性回歸分析與機器學習預測(R語言)

序列相關(serial correlation)

通常只探討時間序列資料是否有干擾項序列相關的問題。若是橫斷面資料,除非可以用有意義的方式加以排序,否則探討序列相關是沒有意義的。

我們能從時間序列殘差圖看出是否違反序列獨立假設,若殘差的分配如下圖(a)則為一階自我正相關,反之(b)一階自我負相關。除了目視以下殘差圖來判斷外,Durbin Watson Test是更嚴謹的檢定法。

簡單回歸分析結果

做完模型診斷就能開始分析結果了。為了回答「統計上,抽菸頻率是否對肺癌致死率有影響?」這個問題,我們必須對β1(斜率)進行假設檢定。

假設檢定

在顯著水準5%下,令虛無假設:β1等於零;對立假設:β1不等於零。

為何檢定β1是否為0? 讓我們回憶抽樣分配的章節。因為我們沒辦法對母體直接普查,所以我們必須抽樣,用樣本統計量來推論母體參數。在此,樣本統計量是β1 hat(樣本回歸斜率),母體參數是β1(母體回歸斜率)。

以下是母體回歸斜率非0的樣子,代表X與Y之間可以用一條回歸式來表達兩者的關係。

以下是母體回歸斜率為0的樣子,可以看到當X變動時,Y完全不會有任何變動,代表兩者相關性是0,沒有做回歸的價值。因此檢定β1是否為0實際上就是判斷y能不能被x來解釋。

我們每一次對全美國人抽樣25人都會得到不同的樣本回歸斜率,而樣本回歸斜率呈現的是期望值為0,變異數為1的student t分配。

這次抽樣得到的樣本回歸斜率是1.11185,代表每提高1單位的吸菸指數,則會提高1.11185的肺癌指數。

我們想知道1.11185距離0有多遠,必須檢定T-ratio。除以樣本回歸斜率標準誤(為0.24413)後,發現距離0高達4.55個標準誤,遠大於信賴區間所張開的距離2.069個標準誤,落在拒絕區內(下圖紅色區塊)。

因此拒絕「β1等於零」的虛無假設,接受「β1不等於零」的對立假設。我們有信心真實的母體回歸斜率非0,有足夠證據顯示「抽菸頻率」與「肺癌致死率」有顯著關係。

但會不會我們只是剛好抽到一個極端值,導致我們誤判了兩者是有相關性的? 答案是會的。這就要提到另一個重要概念:型一錯誤與型二錯誤。

型一錯誤(Type I error)與型二錯誤(Type II error)

型一錯誤是指虛無假設為真時,卻錯誤地拒絕了虛無假設。例如在此的虛無假設是「β1等於零」,明明這個虛無假設是正確的,但只因為我們剛好抽到一個落在拒絕區的樣本回歸斜率,而下了錯誤判斷說「β1不等於零」。

發生型一錯誤的機率是根據主試者設定的顯著水準大小而決定,假設顯著水準5%,那我們犯型一錯誤的機率就會是5%。(下圖藍色區塊)

那我們設定顯著水準1%不就解決問題了嗎? 當然不是。這就要提到型二錯誤了。型二錯誤是指對立假設為真時,卻錯誤地接受了虛無假設。例如在此的對立假設是「β1不等於零」,但卻因為我們剛好抽到一個落在接受區的樣本回歸斜率,而下了錯誤判斷說「β1等於零」。

發生型二錯誤的機率是β(上圖紅色區塊),我們不得而知,因為我們不知道另一個分配的期望值與變異數 (反之 1-β 為檢定力,即對立假設為真時,正確地拒絕了虛無假設)。因此實際上我們能掌握的只有型一錯誤的機率(上圖藍色區塊)。

當藍色區塊下降時,可以看到紅色區塊會大大提升。因此無法同時降低型一、型二錯誤的機率,只能盡量讓樣本數變大,根據中央極限定理,當樣本數變大時,樣本統計量的分配會愈來愈集中,換句話說就是分配會變得更「尖」一些,這樣就能同時降低型一、型二錯誤的機率。

假設檢定的實務應用

另外,檢設檢定並不只是能檢定斜率為0,任何你懷疑的事情都可以用假設檢定的方法來解決。

我曾讀過牛頓雜誌《統計的威力》篇,文中提到,法國的數學家龐加萊懷疑自己買到的法國麵包更輕,並非麵包店宣稱的1000g。因此虛無假設是「麵包平均重量為1000g」,而對立假設則是「麵包平均重量小於1000g」,透過每日記下麵包重量,蒐集一定樣本後,發現重量呈現頂點在950g的常態分佈(如下圖),因此揪出麵包店偷工減料,是非常精采的故事。

假設檢定也能應用在當今的商業實務。若PM宣稱user每個月花在Amazon上的平均費用是$50,對此你感到懷疑,認為應該更高才是。因此我的虛無假設是「user的平均花費為$50」,對立假設是「user的平均花費大於$50」。

我抽了100個樣本,發現平均費用是$85。經計算Z統計量為17.5,P值遠遠小於萬分之一,也就是說犯下型一錯誤(剛好抽到極端值)的機率非常低,因此我拒絕「user的平均花費為$50」的虛無假設,代表PM宣稱「user每個月花在Amazon上的平均費用是$50」並非正確。

簡單回歸預測區間

迴歸分析除了可以讓我們知道自變數與應變數兩者有無相關性外,接下來我們進行迴歸分析中另一個步驟:「預測」。

應變數(Y)─肺癌致死率 與 自變數(X)─吸菸指數,可用以下迴歸方程式來表示兩者關係:

用圖形表示如下,粗深藍線即為迴歸直線:

若某人的吸菸指數(Xi)有95,代入以上方程式,可得知他的肺癌致死率(Yi)約落在101.12,略高於平均值,會建議他即早就醫進行檢查。

在簡單回歸的基礎上搞懂了,那麼接下來的多元回歸、邏輯斯回歸、機器學習、時間序列模型(time series model)、追蹤資料模型(panel data model)等等更進階的應用也能更加上手,因此務必打好基礎。

關於邏輯斯回歸與機器學習,歡迎詳見我的文章 : 「基於機器學習模型預測甲狀腺癌之復發(python)

關於時間序列模型,歡迎詳見我的期末論文 : 「臺灣貨幣需求函數實證研究─共整合與向量誤差修正模型之應用

關於追蹤資料模型,歡迎詳見我的碩士論文 : 「研發、要素投入與產出:基於動態追蹤資料模型之臺灣實證研究」。

參考文獻:

  1. 廖崇智(2019),「提綱挈領學統計(第八版)」
  2. 陳強(2014),「高級計量經濟學及 Stata 應用」
  3. Seeing Theory — Brown University
  4. StatQuest with Josh Starmer - Maximum Likelihood, clearly explained

--

--