㈠ 醫學科研中常用的統計學方法有哪些
秋風送爽,也給我們送來了劉嶺教授的統計說說第五期。這一期的統計學方法之選擇大家一定要認真學起來,說不定馬上你就會用到了。
編者語
針對常用的基本統計學方法,一般而言說的就是t檢驗、單因素方差分析和卡方檢驗,這也是大家在寫論文、閱讀論文時經常遇到的統計學方法(幾乎每篇文章都會涉及這一種或幾種方法),那到底該採用何種統計學方法呢?今天我們就此來聊聊。
一、拿到數據開始分析之前,一定要進行數據類型的劃分(圖1),因為不同數據類型資料,描述的方式不一樣,統計學方法也不一樣。
圖1 統計資料的類型
舉個例子(表1):
表1 某地2002年735例65歲以上老年人健康檢查記錄
二、各種類型資料的統計分析(描述與統計推斷)
1.計量資料
特點:每個觀察單位的觀察值之間有量的區別,有單位;
描述形式:最常見採用「X±S」(一般文獻中經常見到),用算數均數描述其平均水平,用標准差描述其離散程度。如果遇到數據「特別變態」(特別是標准差大於算數均數),就採用Md(P25,P75)(Md為中位數,P25和P75為四分位數)(表2)。正態分布檢驗請大家復習:醫學科研課堂丨統計說說(三):你所應該了解的正態、方差齊性檢驗
表2 計量資料常用統計指標的特點及其應用場合
統計推斷方法:一般分為單因素和多因素兩種。
單因素分析方法分析要點:一是劃清數據類型(計量資料);二是明確試驗設計類型(完全隨機設計?幾組樣本?);三是注意所用方法的應用條件;四是滿足正態方差齊性時採用t檢驗(注意t檢驗有三種形式哦!)或單因素方差分析,不滿足時採用秩和檢驗(圖2)。
圖2 計量資料統計方法的正確選擇
提醒兩點:
① 如果樣本數據不服從正態分布的話,那就只能用非參數檢驗(秩和檢驗),但其檢驗效能低於參數檢驗(t檢驗或方差分析)。所謂檢驗效能低就是本身有差異,卻沒有能力發現其差異。
② 如果是兩組以上樣本的數據時,不能採用t檢驗(會導致假陽性錯誤概率增加),應該採用方差分析。若方差分析的P<0.05,需再進一步兩兩比較,常用的方法為LSD法或SNK法(注意依舊不能採用t檢驗)。
在上兩講內容中我們已經學過t檢驗(醫學科研課堂丨統計說說(二):你的t檢驗做對了嗎?)和方差分析(醫學科研課堂丨統計說說(四):統計學方法之靈魂—方差分析)了,至於秩和檢驗,我們以後會逐步介紹滴。
多因素分析一般採用回歸分析,主要是線性回歸分析,以後會給大家介紹此方法。
2.計數資料
特點:無序分類,同類別中各觀察單位之間沒有量的差別,但各類別間有質的不同,各類別互不相容。其中二分類一定是計數資料(例如性別只有男/女之分,是否繼發某種疾病只有繼發/未繼發之分),而多分類滿足分類在性質上沒有程度等級上的差別,即為計數資料(例如婚姻狀況包括未婚、已婚、離異、喪偶,就屬於多分類,但各分類沒有程度等級差別,因此為計數資料,尿糖定性檢測結果包括-、+、++、+++、++++,屬於具有程度等級差別的多分類資料,就不屬於計數資料,屬於等級資料了)。
描述形式:最常見採用「例數(%)」(一般文獻中經常見到),主要要分清構成比(結構相對數)和率(強度相對數)的差別(表3)。而且在應用時,分母(就是樣本量啦)一般不宜過小,分母太小不足以反映數據的客觀事實,也不穩定。
表3 計數資料常用統計指標的特點及其應用場合
比如說:
1.某地肺癌患者中男性A例,女性B例,則當地肺癌患者的性別比為A/B就是「比」。
2.某次研究共檢出了致病菌3種,總株數為A+B+C,其中一種致病菌檢出株數為A,那麼A/(A+B+C)就是構成比,即該種致病菌占總致病菌的比重或分布。
3.某研究對患者(總例數為B)進行治療,結果治癒的患者例數為A,則A/B即為率(可以理解為治癒率)。
統計推斷方法:一般分為單因素和多因素兩種。
單因素分析方法分析要點:一是劃清數據類型(計數資料);二是明確試驗設計類型(完全隨機設計?幾組樣本?);三是注意所用方法的應用條件;四是多樣本率比較,若卡方檢驗的P<0.05,需再進一步兩兩比較,並進行Bonferroni校正,以控制假陽性(圖3)。
圖3 計數資料統計方法的正確選擇
提醒兩點:
① 構成比是以100作為基數,各構成部分所佔的比重之和必須為100%,故某組成部分所佔比重的增減必影響其它組成部分的比重;
② 構成比和率在實際應用時容易混淆,主要區別在分母上,所以應正確選擇分母。
多因素分析一般採用回歸分析,主要是Logistic回歸分析,以後會給大家介紹此方法。
3.等級資料
特點:屬於多分類資料,滿足多分類在性質上有程度等級上的差別,各分類屬性按一定順序排列(有序),即為等級資料。
描述形式:最常見採用「例數(%)」(一般文獻中經常見到),這和計數資料的描述大體相同,主要區別在於多個分類排列時一定要按照順序進行(從小到大或從弱到強)。
統計推斷方法:等級資料的統計分析方法在單因素分析中採用非參數檢驗(秩和檢驗),當然對於雙向有序R×C資料,也就說分組變數和結局變數都是有序(等級)的情況,構成比的比較採用卡方檢驗,程度的比較採用秩和檢驗,趨勢關聯性的比較用秩相關(也稱等級相關)。多因素分析中採用有序Logistic回歸。
注意:分類變數(計數資料和等級資料)在軟體分析操作時,要適當數量化處理(賦值),賦值情況會直接影響統計分析結果的解釋。
最後用下面這張圖來總結基本統計學方法的選擇(圖4)。
圖4 常用基本統計學方法的正確選擇
今天的內容就到這里,同學們多多復習,有什麼問題和不懂的可以在下面留言,我們會請劉嶺教授一一解答。好了,讓我們期待下一期吧!
撰稿:劉嶺 約稿編輯:劉芹
排版:畢麗 審核:王東
專家簡介
劉嶺:陸軍軍醫大學衛生統計學教研室副教授,主要從事衛生統計學教學、科研工作。擔任中華衛生信息學會第八屆統計理論與方法專業委員會委員,重慶市預防醫學衛生統計專業委員會副主任委員,並擔任《第三軍醫大學學報》等多家雜志的編委、統計審稿專家。
歷史推薦
醫學科研課堂丨統計說說(四):統計學方法之靈魂—方差分析
醫學科研課堂丨統計說說(三):你所應該了解的正態、方差齊性檢驗
醫學科研課堂丨統計說說(二):你的t檢驗做對了嗎?
醫學科研課堂丨統計說說(一):樣本量估算是個什麼東東?
㈡ 第三講 原始數據收集(描述統計分析)
一,調查方式
A,隨機抽樣調查
概念:一種非全面調查。在全部被調查的總體中 隨機地抽選 (樣本單位的抽取不受主觀因素及其他系統性因素的影響, 每個總體單位都有均等的被抽中的機會 )一部分單位進行觀察,並根據樣本數據來 推斷總體 的數量特徵。
注意:如果抽樣調查不遵守隨機原則選樣,從樣本推斷總體特徵的調查目的就不可能達到。因此,如何保證抽樣的隨機性是進行抽樣調查的第一要務。
條件:以 概率理論 為基礎的抽樣推斷,不僅可以估計出抽樣推斷誤差的大小,而且可以通過一定方法控制這些誤差。
隨機抽樣調查的適用范圍:
1,無法進行全面調查的現象。例如:一些具有破壞性的產品質量檢查。
2,由於工作量和工作難度太大,難於進行全面調查,而又必須取得總體數據的現象。例如:對我國每一戶居民家庭收支情況的了解。
3,對普查資料做修正和補充。
優點:省時省力,降低成本,可靠有效(可以用科學方法控制誤差)。
a,簡單抽樣(時點)
前提:事先就知道總體數量。
概念:最基本的抽樣方式。按照總體原有的狀況依次編號後,不加任何限制地抽取樣本。如抽簽、摸球、搖色子、excel的隨機函數 =int(rand()*x+1) ,x表示總體個數。
抽樣誤差:樣本單位差異越小,抽出的樣本代表性就越高,抽樣誤差也就越低。
缺點:當總體很大或無限大時,編號工作量很大,甚至是不可能的。
b,等距抽樣(時點、時段)
辦法1前提:事先能把握總體數量。
辦法2前提:事先就知道總體狀況。
首先將總體單位進行排序。
辦法1:按照與抽樣調查內容無關的標志排序,如調查人口的收入時,按姓氏筆畫排序。
辦法2:按照與抽樣調查內容有關的標志排序。如調查人口的收入時,按收入多少排序。
抽樣誤差:排序標志與調查內容的關系越密切,順序越一致,抽樣誤差就越小。
忌用:當總體的排序呈現出某種周期性時,特別是周期性節奏與抽樣間隔一致時,會引起系統性誤差,從而影響樣本的代表性。
↓
依次編號後,抽取第一個樣本單位。
辦法1:在規定的間隔之內,用簡單抽樣的辦法抽取第一個樣本單位。(間隔內的樣本單位差異越小,抽出的樣本代表性就越高,抽樣誤差也就越低)
辦法2:在規定的間隔之內,抽取處於正中間位置上的樣本單位(代表第一段的中間水平,最具代表性,從而可以得到較有代表性的樣本)。
↓
再從第一個樣本單位開始按規定的間隔抽取其他樣本單位。
優點:比簡單隨機抽樣更簡便,更節省費用,選取的樣本代表性也越高。
c,類型抽樣(時點、時段)
辦法1前提:事前能把握總體數量。
辦法2前提:事先就知道各群組占總體的比例,以及各群組內的狀況。
選擇分組標志:
每一個分組標志都代表著調查目的在某一方面的反應情況,只有選擇最恰當的分組標志才能使分組的結果正確反應現象的本質。
復合分組:按兩個或兩個以上的標志層疊分組。優點是有利於分析得全面深入具體,缺點是組數太多不僅增大工作量而且容易沖淡主要的調查目的,因此要先按主要標志分組,再輔以次要標志。
↓
確定分組組別:
把總體在同一個標志下按特徵的不同分為各個組( 前提:知道特徵的范圍,有的可以參考國家的統計分組體系 ),組之間要具有互斥性(任何一個總體單位都只能適合一個群組)、完備性(任何一個總體單位都在某一個組中)、相似性(組之間具有可比性)。如:農產品調查時,按地形分為山地、丘陵、平原,人口調查時,按年齡分為1~18(少年)、19~30(青年)、31~50(中年)、51~100(老年)。
抽樣誤差:抽樣選擇的分組標志與調查目的關系越密切,定性定量越細,每組內的差別就越小,從中選取樣本單位就越具有代表性,抽樣誤差就越小。
↓
確定各組中應抽取的樣本數目:
方法1:根據各種組內部變異程度大小,變異程度越大,抽取樣本單位數目越多,變異程度越小,抽取樣本單位數目越少。(時段)
方法2:按該組單位數目占總體單位數目的比例大小抽取同樣比例的樣本單位數目,即類型比例抽樣;(時點)
↓
將組單位進行排序。
辦法1:按照與抽樣調查目的無關的標志排序,如調查人口的收入時,按姓氏筆畫排序。
辦法2:按照與抽樣調查目的有關的標志排序。如調查人口的收入時,按收入多少排序。
抽樣誤差:排序標志與調查目的的關系越密切,順序越一致,抽樣誤差就越小。
↓
各組內依次編號後,抽取第一個樣本單位。
辦法1:在規定的間隔之內,用簡單抽樣的辦法抽取第一個樣本單位。(間隔內的樣本單位差異越小,抽出的樣本代表性就越高,抽樣誤差也就越低)
辦法2:在規定的間隔之內,抽取處於正中間位置上的樣本單位(代表第一段的中間水平,最具代表性,從而可以得到較有代表性的樣本)。
↓
再從第一個樣本單位開始按規定的間隔抽取其他樣本單位。
優點:由於從每一類中都要抽選樣本單位,就又保證樣本中各個類型都包括到了,因此類型抽樣會使樣本的代表性大大提高。
d,整群抽樣(時點)
前提:事先就知道總體數量。
概念:先將總體分為許多屬性特徵相同的群組,依次編號後,從中隨機的抽取若干群組作為樣本。
抽樣誤差:群組之間屬性的相似度越高,總體單位分布越均勻,樣本的代表性就越高,抽樣誤差就越小。
優點:當總體數目很多,各單位在時空上分布又很分散時,用此方法可以節省人力物力,降低成本。
缺點:抽出的樣本往往不夠均勻,代表性比較低。慎用。
B,非隨機抽樣調查
概念:一種非全面調查。不按照概率均等的原則,而是根據人的主觀判斷或其他條件來抽取樣本。
隨機抽樣調查的適用范圍:
1,有些情況下,嚴格的隨機抽樣幾乎無法進行,如調查對象的總體邊界不清楚而無法製作抽樣框。
2,有些研究為了符合研究的目的,不得不按照需要從總體中抽取少數有代表性的個體作為樣本。
3,隨機抽樣的操作過程要求嚴格,實施起來比較麻煩,費時費力,因此如果調查的目的僅是對問題的初步探索,獲得研究的線索和提出假設,而不是由樣本推論總體,就不一定需要採用隨機抽樣。
優點:非隨機抽樣操作時省時省力,如果 研究者對調查總體和調查對象有較好的了解 ,也可獲得較准確的結果。
缺點:因為是主觀決策,所以不能保證樣本是否重現了總體的分布結構,樣本代表性較小,誤差很大且無法估計,用這樣的樣本推論總體極不可靠。
ba,典型調查
在被調查的總體中,有意挑選出個別或少數 具有代表性 的單位進行調查。
挑選典型的方法:分類選點。
bb,重點調查
在被調查的總體中,選出一部分重點單位進行調查,重點單位雖然只是總體中的一小部分,但它們 在所調查的數量標志方面佔有很大比重 。
優點:省時省力,降低成本,而且樣本代表性高,從而推斷總體比較可靠。
bc,就近抽樣
以自己方便的形式在總體中抽取 偶然遇到 的單位作為樣本。
bd,目標式和判斷式抽樣
根據主觀判斷選取代表性高的單位作為樣本。
抽樣誤差:研究者對總體越了解,抽樣誤差越小。
be,滾雪球抽樣
當我們無法了解總體情況時,可以先從總體中的少數單位開始收集樣本,通過轉介紹或其他方式找到越來越多的樣本單位。
優點:研究少數群體時適用。
bf,配額抽樣
前提:事先就知道總體數量,及各群組占總體的比例。
確定樣本的數量,根據總體中各類別數量所佔的比例確定樣本中各類別數量所佔的比例(用樣本模擬出一個總體),最後按比例進行取樣。
C,定期統計報表
概念:自上而下地布置統一的報表,然後自下而上的逐級上報匯總報表資料的調查方式。
優點:1資料的全面性和連續性;2資料的統一性和及時性;3資料的來源和准確性比較可靠。
缺點:1資料受利益影響會參雜虛假數據;2報表過多會增加基層的負擔,甚至會引起混亂。
報告周期越短,內容越簡明,報送時間越緊;
報告周期越長,內容越詳盡,報送時間越寬松。
D,普查
概念:專門組織的一次性全面調查。
調查的內容可以是一定時點下的現象(如人口狀況、固定資產的存量等),也可以是一定時期的過程性現象(如一年的生產量、銷售量)。
調查的目的主要是 收集一些不能夠或不適合定期統計報表的數據資料 ,以搞清重要的公司總體情況和某些重要的經濟現象的全面情況。
優點:資料最全面、最系統、最詳盡。
缺點:花費較多人力、物力、財力和時間(調查登記的時間雖不長,但復雜細微的准備工作和數量巨大的數據處理工作卻需要很長時間),容易產生登記誤差。
二,調查方案
調查目的:
搞清楚調查要解決什麼問題,有了目的才知道應該收集什麼樣的資料。
↓
調查對象:
被調查的或被推斷的總體。總體中的個體叫調查單位(全部或部分)。
↓
報告單位:
負責提交調查資料的單位。
↓
調查內容:
1內容應當是滿足調查目的所必需的,可有可無或者備而不用的內容不必列入。
2內容應當只包括能得到確切答案的標志。
3內容的提法要確切具體,不可模稜兩可,使填報人能有一致的理解。
問卷調查法:(略)
↓
調查表:
1,表頭:包括調查表名稱(中間),報告單位的名稱、地址、隸屬關系(左上角),表號、製表單位、批准備案文號(右上角)。
2,表體:調查表的主體,表現為表格形式,調查內容列於表格內。
3,表腳:包括調查人員或填報人員的姓名、簽章,及單位負責人的姓名、簽章。
調查表的形式包括一覽表、單一表和特殊表。
1,在研究樣本的時候用一覽表。
2,在調查樣本單位的時候用單一表。
3,對於不同的調查標志,就需要用到特殊表。
↓
調查時間:
調查資料所屬的時間,分為時段和時點。
↓
調查方式
↓
調查期限:
提交調查報告的時間,目的是為了及時取得資料。
↓
調查地點:
如果樣本單位處於流動狀態或分布在不同位置,就應該明確地作出規定和註明。
↓
調查的組織實施計劃:
包括確定調查活動的組織機構、人員培訓安排、文件准備、經費預算、調查方式方法、資料報送方法、是否要進行試差等問題。
↓
調查數據的錄入:
任何捏造、改動數據的做法都是有悖於統計學精神和思想的嚴重錯誤行為,對於錯誤的信息在錄入時要堅決舍棄。
三,原始數據(一手數據):
概念:通過直接來源得到的數據。如,觀察、試驗、問卷調查等。
四,次級數據(二手數據)的收集:
概念:通過間接來源得到的數據。
如:各類出版物,已發表的匯編資料, 網上資料 等。
引用時需要註明來源出處,一是尊重別人的勞動成果,二是證實其可靠性。