1. 論文數據分析方法有哪些
論文數據方法有多選題研究、聚類分析和權重研究三種。
1、多選題研究:多選題分析可分為四種類型包括:多選題、單選-多選、多選-單選、多選-多選。
拓展資料:
一、回歸分析
在實際問題中,經常會遇到需要同時考慮幾個變數的情況,比如人的身高與體重,血壓與年齡的關系,他們之間的關系錯綜復雜無法精確研究,以致於他們的關系無法用函數形式表達出來。為研究這類變數的關系,就需要通過大量實驗觀測獲得數據,用統計方法去尋找他們之間的關系,這種關系反映了變數間的統計規律。而統計方法之一就是回歸分析。
最簡單的就是一元線性回歸,只考慮一個因變數y和一個自變數x之間的關系。例如,我們想研究人的身高與體重的關系,需要搜集大量不同人的身高和體重數據,然後建立一個一元線性模型。接下來,需要對未知的參數進行估計,這里可以採用最小二乘法。最後,要對回歸方程進行顯著性檢驗,來驗證y是否隨著x線性變化。這里,我們通常採用t檢驗。
二、方差分析
在實際工作中,影響一件事的因素有很多,人們希望通過實驗來觀察各種因素對實驗結果的影響。方差分析是研究一種或多種因素的變化對實驗結果的觀測值是否有顯著影響,從而找出較優的實驗條件或生產條件的一種數理統計方法。
人們在實驗中所觀察到的數量指標稱為觀測值,影響觀測值的條件稱為因素,因素的不同狀態稱為水平,一個因素可能有多種水平。
在一項實驗中,可以得到一系列不同的觀測值,有的是處理方式不同或條件不同引起的,稱為因素效應。有的是誤差引起的,稱做實驗誤差。方差分析的主要工作是將測量數據的總變異按照變異原因的不同分解為因素效應和試驗誤差,並對其作出數量分析,比較各種原因在總變異中所佔的重要程度,作為統計推斷的依據。
例如,我們有四種不同配方下生產的元件,想判斷他們的使用壽命有無顯著差異。在這里,配方是影響元件使用壽命的因素,四種不同的配方成為四種水平。可以利用方差分析來判斷。
三、判別分析
判別分析是用來進行分類的統計方法。我來舉一個判別分析的例子,想要對一個人是否有心臟病進行判斷,可以取一批沒有心臟病的病人,測其一些指標的數據,然後再取一批有心臟病的病人,測量其同樣指標的數據,利用這些數據建立一個判別函數,並求出相應的臨界值。
這時候,對於需要判別的病人,還是測量相同指標的數據,將其帶入判別函數,求得判別得分和臨界值,即可判別此人是否屬於有心臟病的群體。
四、聚類分析
聚類分析同樣是用於分類的統計方法,它可以用來對樣品進行分類,也可以用來對變數進行分類。我們常用的是系統聚類法。首先,將n個樣品看成n類,然後將距離最近的兩類合並成一個新類,我們得到n-1類,再找出最接近的兩類加以合並變成n-2類,如此下去,最後所有的樣品均在一類,將上述過程畫成一張圖。在圖中可以看出分成幾類時候每類各有什麼樣品。
比如,對中國31個省份的經濟發展情況進行分類,可以通過收集各地區的經濟指標,例如GDP,人均收入,物價水平等等,並進行聚類分析,就能夠得到不同類別數量下是如何分類的。
五、主成分分析
主成分分析是對數據做降維處理的統計分析方法,它能夠從數據中提取某些公共部分,然後對這些公共部分進行分析和處理。
在用統計分析方法研究多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。
主成分分析是對於原先提出的所有變數,將重復的變數(關系緊密的變數)刪去多餘,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。
如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
六、因子分析
因子分析是主成分分析的推廣和發展,它也是多元統計分析中降維的一種方法。因子分析將多個變數綜合為少數幾個因子,以再現原始變數與因子之間的相關關系。
在主成分分析中,每個原始變數在主成分中都佔有一定的分量,這些分量(載荷)之間的大小分布沒有清晰的分界線,這就造成無法明確表述哪個主成分代表哪些原始變數,也就是說提取出來的主成分無法清晰的解釋其代表的含義。
因子分析解決主成分分析解釋障礙的方法是通過因子軸旋轉。因子軸旋轉可以使原始變數在公因子(主成分)上的載荷重新分布,從而使原始變數在公因子上的載荷兩級分化,這樣公因子(主成分)就能夠用哪些載荷大的原始變數來解釋。以上過程就解決了主成分分析的現實含義解釋障礙。
例如,為了了解學生的學習能力,觀測了許多學生數學,語文,英語,物理,化學,生物,政治,歷史,地理九個科目的成績。為了解決這個問題,可以建立一個因子模型,用幾個互不相關的公共因子來代表原始變數。我們還可以根據公共因子在原始變數上的載荷,給公共因子命名。
例如,一個公共因子在英語,政治,歷史變數上的載荷較大,由於這些課程需要記憶的內容很多,我們可以將它命名為記憶因子。以此類推,我們可以得到幾個能評價學生學習能力的因子,假設有記憶因子,數學推導因子,計算能力因子等。
接下來,可以計算每個學生的各個公共因子得分,並且根據每個公共因子的方差貢獻率,計算出因子總得分。通過因子分析,能夠對學生各方面的學習能力有一個直觀的認識。
七、典型相關分析
典型相關分析同樣是用於數據降維處理,它用來研究兩組變數之間的關系。它分別對兩組變數提取主成分。從同一組內部提取的主成分之間互不相關。用從兩組之間分別提取的主成分的相關性來描述兩組變數整體的線性相關關系。
2. 醫學科研中常用的統計學方法有哪些
秋風送爽,也給我們送來了劉嶺教授的統計說說第五期。這一期的統計學方法之選擇大家一定要認真學起來,說不定馬上你就會用到了。
編者語
針對常用的基本統計學方法,一般而言說的就是t檢驗、單因素方差分析和卡方檢驗,這也是大家在寫論文、閱讀論文時經常遇到的統計學方法(幾乎每篇文章都會涉及這一種或幾種方法),那到底該採用何種統計學方法呢?今天我們就此來聊聊。
一、拿到數據開始分析之前,一定要進行數據類型的劃分(圖1),因為不同數據類型資料,描述的方式不一樣,統計學方法也不一樣。
圖1 統計資料的類型
舉個例子(表1):
表1 某地2002年735例65歲以上老年人健康檢查記錄
二、各種類型資料的統計分析(描述與統計推斷)
1.計量資料
特點:每個觀察單位的觀察值之間有量的區別,有單位;
描述形式:最常見採用「X±S」(一般文獻中經常見到),用算數均數描述其平均水平,用標准差描述其離散程度。如果遇到數據「特別變態」(特別是標准差大於算數均數),就採用Md(P25,P75)(Md為中位數,P25和P75為四分位數)(表2)。正態分布檢驗請大家復習:醫學科研課堂丨統計說說(三):你所應該了解的正態、方差齊性檢驗
表2 計量資料常用統計指標的特點及其應用場合
統計推斷方法:一般分為單因素和多因素兩種。
單因素分析方法分析要點:一是劃清數據類型(計量資料);二是明確試驗設計類型(完全隨機設計?幾組樣本?);三是注意所用方法的應用條件;四是滿足正態方差齊性時採用t檢驗(注意t檢驗有三種形式哦!)或單因素方差分析,不滿足時採用秩和檢驗(圖2)。
圖2 計量資料統計方法的正確選擇
提醒兩點:
① 如果樣本數據不服從正態分布的話,那就只能用非參數檢驗(秩和檢驗),但其檢驗效能低於參數檢驗(t檢驗或方差分析)。所謂檢驗效能低就是本身有差異,卻沒有能力發現其差異。
② 如果是兩組以上樣本的數據時,不能採用t檢驗(會導致假陽性錯誤概率增加),應該採用方差分析。若方差分析的P<0.05,需再進一步兩兩比較,常用的方法為LSD法或SNK法(注意依舊不能採用t檢驗)。
在上兩講內容中我們已經學過t檢驗(醫學科研課堂丨統計說說(二):你的t檢驗做對了嗎?)和方差分析(醫學科研課堂丨統計說說(四):統計學方法之靈魂—方差分析)了,至於秩和檢驗,我們以後會逐步介紹滴。
多因素分析一般採用回歸分析,主要是線性回歸分析,以後會給大家介紹此方法。
2.計數資料
特點:無序分類,同類別中各觀察單位之間沒有量的差別,但各類別間有質的不同,各類別互不相容。其中二分類一定是計數資料(例如性別只有男/女之分,是否繼發某種疾病只有繼發/未繼發之分),而多分類滿足分類在性質上沒有程度等級上的差別,即為計數資料(例如婚姻狀況包括未婚、已婚、離異、喪偶,就屬於多分類,但各分類沒有程度等級差別,因此為計數資料,尿糖定性檢測結果包括-、+、++、+++、++++,屬於具有程度等級差別的多分類資料,就不屬於計數資料,屬於等級資料了)。
描述形式:最常見採用「例數(%)」(一般文獻中經常見到),主要要分清構成比(結構相對數)和率(強度相對數)的差別(表3)。而且在應用時,分母(就是樣本量啦)一般不宜過小,分母太小不足以反映數據的客觀事實,也不穩定。
表3 計數資料常用統計指標的特點及其應用場合
比如說:
1.某地肺癌患者中男性A例,女性B例,則當地肺癌患者的性別比為A/B就是「比」。
2.某次研究共檢出了致病菌3種,總株數為A+B+C,其中一種致病菌檢出株數為A,那麼A/(A+B+C)就是構成比,即該種致病菌占總致病菌的比重或分布。
3.某研究對患者(總例數為B)進行治療,結果治癒的患者例數為A,則A/B即為率(可以理解為治癒率)。
統計推斷方法:一般分為單因素和多因素兩種。
單因素分析方法分析要點:一是劃清數據類型(計數資料);二是明確試驗設計類型(完全隨機設計?幾組樣本?);三是注意所用方法的應用條件;四是多樣本率比較,若卡方檢驗的P<0.05,需再進一步兩兩比較,並進行Bonferroni校正,以控制假陽性(圖3)。
圖3 計數資料統計方法的正確選擇
提醒兩點:
① 構成比是以100作為基數,各構成部分所佔的比重之和必須為100%,故某組成部分所佔比重的增減必影響其它組成部分的比重;
② 構成比和率在實際應用時容易混淆,主要區別在分母上,所以應正確選擇分母。
多因素分析一般採用回歸分析,主要是Logistic回歸分析,以後會給大家介紹此方法。
3.等級資料
特點:屬於多分類資料,滿足多分類在性質上有程度等級上的差別,各分類屬性按一定順序排列(有序),即為等級資料。
描述形式:最常見採用「例數(%)」(一般文獻中經常見到),這和計數資料的描述大體相同,主要區別在於多個分類排列時一定要按照順序進行(從小到大或從弱到強)。
統計推斷方法:等級資料的統計分析方法在單因素分析中採用非參數檢驗(秩和檢驗),當然對於雙向有序R×C資料,也就說分組變數和結局變數都是有序(等級)的情況,構成比的比較採用卡方檢驗,程度的比較採用秩和檢驗,趨勢關聯性的比較用秩相關(也稱等級相關)。多因素分析中採用有序Logistic回歸。
注意:分類變數(計數資料和等級資料)在軟體分析操作時,要適當數量化處理(賦值),賦值情況會直接影響統計分析結果的解釋。
最後用下面這張圖來總結基本統計學方法的選擇(圖4)。
圖4 常用基本統計學方法的正確選擇
今天的內容就到這里,同學們多多復習,有什麼問題和不懂的可以在下面留言,我們會請劉嶺教授一一解答。好了,讓我們期待下一期吧!
撰稿:劉嶺 約稿編輯:劉芹
排版:畢麗 審核:王東
專家簡介
劉嶺:陸軍軍醫大學衛生統計學教研室副教授,主要從事衛生統計學教學、科研工作。擔任中華衛生信息學會第八屆統計理論與方法專業委員會委員,重慶市預防醫學衛生統計專業委員會副主任委員,並擔任《第三軍醫大學學報》等多家雜志的編委、統計審稿專家。
歷史推薦
醫學科研課堂丨統計說說(四):統計學方法之靈魂—方差分析
醫學科研課堂丨統計說說(三):你所應該了解的正態、方差齊性檢驗
醫學科研課堂丨統計說說(二):你的t檢驗做對了嗎?
醫學科研課堂丨統計說說(一):樣本量估算是個什麼東東?