加載中........
×

統計分析前,要做哪些數據準備工作?

2019-12-15 作者:高樂   來源:醫咖會 我要評論0
Tags: 統計分析  

提到數據分析,首先會想到的可能是t檢驗、回歸分析等各種具體的分析方法,但對於經曆過完整數據分析的同學來說,最複雜、最耗費時間的步驟往往是數據的清理,也就是將數據整理成為能夠進行上述統計分析的格式。因此,本節內容我們將對數據的準備進行簡要介紹,重點介紹數據審核,其次會用少量篇幅簡單介紹數據在進行分析時的適用性。

在數據審核方麵,主要考慮的是數據的完整性和合理性,也就是對缺失數據和離群值進行識別和處理。

對缺失值的處理

在很多情況下,研究中所收集的數據會出現缺失情況,缺失的類型大致可以分為以下三種:

① 完全隨機缺失(Missing completely at random,MCAR),數據缺失隨機發生,與自身及其他變量均無關,任何變量的每一條記錄發生缺失的概率相同。例如由於設備故障、樣品運輸丟失等導致的數據缺失,可視為MCAR[1]。這是最理想的情況,但在許多領域中這種情況並不合理;

② 隨機缺失(Missing at random,MAR),是一種較為合理的情況。缺失值與自身變量無關,但與其他研究變量相關。假設老師的職稱越高,提供其工資信息的可能性越低,那麽每個職稱分組中可認為老師工資信息缺失是隨機發生的,可以通過加權的方法進行解決;

③ 非隨機缺失(Missing not at random,MNAR),即缺失值與自身變量有關。例如一項研究中對受教育程度情況進行了調查,受教育程度較低的個體可能存在該變量的缺失,這就是非隨機缺失。

對缺失值最好的處理方法是預防缺失的發生,即通過合理的研究設計、預試驗的開展、調查員培訓等方法盡量保證數據的完整性。但當缺失值不可避免時,就需要通過一些統計學方法對其進行處理:

① 缺失值刪除

(a) 刪除缺失數據行,適用於MCAR數據的處理,在大樣本量且缺失較少的情況下很有效。該方法不會影響結果估計的準確性,但樣本量會因此減小,從而影響結果的精確性;

(b) 刪除缺失變量,適用於存在另一個無缺失的變量能夠代替有缺失變量的情況,通常不建議采用這種方法,因為“保留數據總比刪除數據好”;

(c) 選擇性刪除,在研究不同組合變量的相關關係時,可選擇該組合內所有可用的數據進行估計,但由於模型不同部分的樣本量可能不同,會導致研究結果的解釋存在一定困難。

② 缺失值填補

(a) 均值、中位數和眾數填補:根據數據分布,選擇使用樣本均值、中位數或眾數對缺失值進行填補,沒有考慮時序特征及變量間關係。該方法較為簡單,但有明顯缺陷,例如降低了數據方差;

(b) 多重填補:基於貝葉斯方法,創建多個填補數據集,即根據現有觀測數據為每個缺失數據生成若幹個可供填補的數值,結合填補後不同的結果,得出平均估計結果並考察缺失數據的不確定性[2];

(c) 回歸填補:包括線性回歸和Logistic回歸。首先識別缺失變量的預測變量,其次使用無缺失記錄生成預測方程,對缺失值進行預測:

(d) 虛擬變量設置:將是否缺失設置為虛擬變量,這是處理分類變量缺失較為簡單的一種方法,但估計精度會下降;

(e) 線性內插法[3]:若缺失值與未缺失值間存在線性關係,根據缺失值的前一個和後一個觀測值對缺失值進行計算;

(f) 臨床試驗中常用方法[4]:末次觀察前推法(Last observation carried forward,LOCF),前次觀察值後推法(Next observation carried backward,NOCB),基線值後推法(Baseline observation carried forward,BOCF),最差觀測值推進法(Worst observation carried forward,WOCF)和將缺失值視為治療失敗法(Missing value treated as failure,MVTF)等。



圖1 缺失值處理方法的選擇

(來源:https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4)

對於完全隨機缺失,簡單的刪除缺失數據行就可得到無偏的估計結果;對於隨機缺失,一些複雜的統計方法可能會得到無偏估計結果;而對於非隨機缺失,無法得到無偏估計結果,隻能通過複雜的統計方法減小估計值的偏倚。

對離散值的處理

在數據檢查與整理時,通常會發現一些完全偏離其他數據的數值,稱之為離群值,產生的原因可能是數據錯誤(測量或記錄錯誤)或真正離群值,主要分為單變量離群值和多變量離群值。離群值的識別沒有精確的、能夠稱之為金標準的方法,通常經過一些統計學方法進行識別。

對單變量離群值的識別,主要的方法為直方圖(落在直方圖兩端較遠距離數據)和箱式圖(距離第25百分位數Q1或第75百分位數Q3的距離是四分位數間距IQR的1.5-3倍為輕度離群值,距離Q1或Q3的距離大於IQR的3倍為極端離群值)[5]。

對多變量離群值的識別,可通過馬氏距離進行判斷,首先計算一個點到某一數據分布之間的距離,隨後根據卡方分布確定臨界值,若某個個體的馬氏距離大於該臨界值,則可認為是離群值[6]。

對於離群值的處理,有以下幾種方法:

① 數據檢查:檢查是否為客觀失誤造成的數值異常,如果存在數據收集或錄入錯誤,要及時更正;

② 轉換變量:如果能夠確定某一離群值是正確且真實的,為避免數據分布嚴重傾斜,可以對數據進行轉換,這樣不會改變原有數值間的相對大小,但會使數據分布更為集中;

③ 刪除數據行:適用於某一個案例出現了多個變量異常的情況,或含有異常值的個體所占比例很小,可以考慮刪除整條信息;

④ 刪除變量:若多個案例的某一變量均發現異常,可以根據實際情況考慮刪除該變量;

⑤ 將離群值視為缺失數據處理,可以進行數據填補等操作;

⑥ 改變數值:若想對離群值進行保留,可以對其數值進行調整使之更接近均值,也就是說可以設定一個百分位閾值,將超過該百分位範圍的數據替換為該百分位數值。

數據適用性

不同的統計分析方法對數據有不同的要求,例如正態分布及方差齊性假設等,因此在分析前,需要對數據進行檢查,來判斷是否符合相應假設,這些假設見下表所示:

表1 數據假設的使用情境及檢驗方法

數據假設

使用情境

檢驗方法

正態性

t檢驗,方差分析,Person相關性,線性回歸,其它參數檢驗 [7]

SPSS教程:判斷數據正態分布的超多方法!

方差

同質性

方差分析ANOVA(t 檢驗 and F 檢驗)[8]

Bartlett’s檢驗,Levene’s檢驗,Brown-Forsythe檢驗 [9]

方差齊性

相關和回歸分析

Breusch-Pagan檢驗 [10]

方差/協方差矩陣的同質性

多元方差分析MANOVA,判別函數分析,多變量回歸 [11]

Box’s M檢驗

球行檢驗

重複測量的ANOVA

Mauchly's檢驗

回歸

同質性

協方差分析ANCOVA

因變量與協變量散點圖,自變量與協變量交互分析(廣義線性模型)

線性相關

線性回歸分析

散點圖

此外,在進行回歸分析時,還需要對變量之間的多重共線性進行判斷。當模型中的一個變量可以被其他變量或其他變量的線性組合較好的預測時,就會出現該情況。

多重共線性一般由容忍度和方差膨脹因子(VIF)進行判斷。一般認為如果容忍度<0.2或VIF>5,則提示變量之間存在多重共線性。一般解決方法有剔除模型中一個或多個預測變量,將模型中多個預測變量整合為一個複合變量,采用逐步回歸的方法進行變量篩選,或進行主成分分析。

通常,收集到的數據都會存在各種各樣的問題,為了得到“幹淨”且適合分析的數據,通常需要經過很多步驟,來達到最終的目的。因此我們要掌握並選擇最適合自己數據的處理方法,來得到更精確的分析結果。

[1] Kang, H. (2013). The prevention and handling of the missing data. Korean journal of anesthesiology, 64(5), 402.

[2] Sterne, J. A., White, I. R., Carlin, J. B., Spratt, M., Royston, P., Kenward, M. G., ... & Carpenter, J. R. (2009). Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ, 338, b2393.

[3] Available at https://www.lexjansen.com/nesug/nesug01/ps/ps8026.pdf.

[4] Available at http://onbiosestatistics.blogspot.com/2010/08/locf-bocf-wocf-and-mvtf.html.

[5] Available at http://www.psychwiki.com/wiki/Detecting_Outliers_-_Univariate.

[6] Available at https://en.wikiversity.org/wiki/Multivariate_outlier.

[7] Ghasemi, A., & Zahediasl, S. (2012). Normality tests for statistical analysis: a guide for non-statisticians. International journal of endocrinology and metabolism, 10(2), 486.

[8] Available at https://methods.sagepub.com/reference/encyc-of-research-design/n179.xml.

[9] Available at http://www.math.montana.edu/jobo/st541/sec2e.pdf.

[10] Available at https://en.wikipedia.org/wiki/Homoscedasticity.

[11] Available at http://www.introspective-mode.org/data-assumption-homogeneity-of-variance-covariance/.



小提示:78%用戶已下載梅斯醫學APP,更方便閱讀和交流,請掃描二維碼直接下載APP

隻有APP中用戶,且經認證才能發表評論!馬上下載