『壹』 作為運營:我們為什麼要「讓數據說話」
簡潔地前言: 本文通過從傳統行業營銷轉入電商運營感悟中,嘗試回答運營的價值在哪裡?它是在哪裡對用戶施加影響的(從用戶運營的角度)等問題,希望能加深您對運營的認知。
隨著職場中對運營的期望越來越高,運營幾乎變成了萬能葯。公司成立了運營部,然後招聘幾個「新媒體運營」「用戶運營」「產品運營」的達人就能像加了特技一樣,第一個月就用戶倍增,第二個月銷售翻倍,第三個月公司上市。運營好像突然變得那麼地高端大氣上檔次,好不習慣哦。
而運營人最最常掛在嘴邊的一句話就是「讓數據說話」。
剛剛入職的時候,一下子就陷入了數據海洋中。有一堆表格需要維護,要從後台求技術部門導出很多地數據,整合編制運營報表。每天忙得都自覺加班再加班,周圍同事都在說,讓數據說話! 但是從來沒有人跟我解釋為什麼要「讓數據說話」。 如同「讓數據說話」已經是一個被證明無數遍的真理,每個人都應該能秒懂。當時我網路了很久也沒有一個令我滿意的答案,只好壓下疑問加班再加班。
額,抱歉忘介紹我自己了。我這幾年跳了幾次槽,行業從貴金屬投資—— 稅務軟體營銷 —— 線上電商運營,崗位性質變化比較大的,但核心沒有變: 讓用戶使用我們的產品 ;再提煉一下,我做的事情,就是 讓用戶認可我們的產品,並留下用戶 。
貴金屬投資&稅務軟體的營銷方式都比較老套,都會有固定的工作習慣和作息時間,有墨守成規的套路,有各種可以轉移問題的借口。項目做得好了,理由無處不在,做得不好,也有各種不靠譜的分析和推策。而在這之中,產品人員或營銷人員的價值無法體現得很充分,因為人人都可以成為事後諸葛亮。真心不知道項目為什麼能火,有的產品為什麼就是賣不動,是某個想法或運作起了作用,還是僅僅只是撞了幾次好運而已。
當時一個業務在某個門市部蹲點或者接電話,一天接待過百個用戶。公司要求用心服務巴拉巴拉一堆,潛規則「教會就可以,能用就行「」。當時一個區域經理管著四五家店,手下管著20多人,每月做一周的培訓。公司市場部一年就做那麼一兩個項目。
業務上一手交錢,一手交貨,包教包會,錢貨兩清。後續產品的口碑,全靠產品本身的產品屬性以及質量。後期公司要求提交客戶反饋,我們只好捕風捉影地去了解客戶對我們產品的看法。一般就只有好用和不好用,好用在哪裡,不好用在哪裡?客戶說不出來也沒有意願替你去想。畢竟公司與客戶之間只是錢貨兩清的關系。當評價滿天飛的時候,一般已經惡評如潮了。
但互聯網不是,首先客戶為了購買我們的產品必須在我們的平台上注冊。雖然獲取用戶的門檻更高,但是客戶就成了我們的用戶,某程度上就是自己人了。通過多維度地數據分析,公司能與與用戶之間產生更深刻的聯系。通過運營後台導出數據,接著做數據分析。你可以看到各種數據真實的反饋,產品的價值真實體現,在哪幾個維度上最起作用,哪些維度無關緊要,哪個產品標題點擊量最大,哪個產品屬性導致了用戶的購買行為,一切基於用戶需求而產生的動作,讓人興奮不已。
通過跟蹤用戶的使用記錄,我們能知道用戶的偏好&習慣,那麼我們就能描繪用戶畫像;研究用戶有沒有再次登陸,買了什麼,那麼我們就能知道平台上的用戶的活躍度、留存率、流失率;接著通過用戶的活躍度、留存率、流失率,結合平台上的一些業務節點,我們就能分析用戶流失原因......
互聯網就是這樣的平台,運營人員一天要接觸非常多的數據反饋,要受到產品形態的多種變化反饋,要面對幾萬、幾十萬、上百萬或上千萬的用戶和流量的反饋信息,需要不斷考慮產品、用戶之間的匹配關系,一切基於用戶的需求出發。 面對的是無法迴避的問題,最直接和最真實的數據放在眼前,你沒有任何借口。 一個產品,質量很好,也很實用,但就是沒有大賣,為什麼呢?其實答案你完全可以自己找到了。
但是以上的情景都是基於網路平台上的數據,作為分析基礎的。那麼如果「斷網」了呢?我們運營就無法「讓數據說話」了嗎?其實並不然。
假設我們在運營一家牛排連鎖專門店,我們知道了每家連鎖店每種牛排的出貨量。接著我們可以調查每個連鎖店的地段是住宅區還是寫字樓,附近的消費人群是住戶還是前來上班的員工、通過不同維度地對比數據,我們可以得出某種結論。我們可以把各次前來消費不可預測的個體,具現為某個特定消費人群的表象。如同我們無法預知某次硬幣掉落的結果,但是在大量重復試驗中的數據告訴我們,多次實驗後總的正/反面朝上的頻率應當接近50%。我們無法預知某位消費者某次會購買那個產品,但是我們可以通過收集數據得知某個特定消費人群會傾向於消費哪個產品,然後再進行改進。在我的理解中,運營的「讓數據說話」不僅僅只是一種工作技巧或者方法,它是研究個體和整體之間關系的方法論。
一個項目,除了產品本身的屬性有否符合用戶的需求/痛點,用戶運營是不可忽視的一環。 用戶運營一頭在產品,另一頭在用戶。用數據講話,不斷迭代產品和用戶需要的匹配度。在這兩頭上下功夫,總是會獲得豐厚地回報的。
這就是我理解的為什麼要「讓數據說話」。希望我這篇短短的文章能幫助到您,補上您對運營認知中的小小地一環。
嘮嘮叨叨的後記:
為什麼我要寫這篇文章,死磕「讓數據說話」這一個好像是已經被反復論證,簡單得就好像1+1等於二的題目呢?
我高中的時候,有那麼一位數學老師。她在數學領域是當之無愧的大牛,任何難題對她來說都好像是小菜一碟。我們一致覺得她當數學老師是屈才了。但是她作為老師有個很大地缺點。例如一道題解題應有ABCD四步,其中C項不計分。考生可直接得出結果,卻是解題思路中銜接的一環。考試後這位大牛講解都是直接ABD,高材生們都連連點頭,學渣又不敢問只好作蒙娜麗莎狀。一到考試,學渣死得乾乾凈凈。
C項雖然不起眼,但是重要銜接的一環。有時候少了它,理解事物起來感覺就像加了特技一樣。
『貳』 職場必備技能:用數據說話
成功的溝通應該是「我說了,你懂了」。但是因為文化背景的差異或者個人閱歷的不同,即使我們講得是同樣的語言,仍然可能出現「我說了,你卻不懂」或者「我說了A,你卻理解成了B」的情況,這時候沒有比用數據來講話更直接且有效的方法了。舉個簡單的例子,醫生常常告誡我們要保持充足睡眠,因為睡眠不足對身體傷害很大。對於這樣的告誡絕大多數人都會左耳進右耳出,因為對醫生所說的「傷害很大」並沒有什麼概念。但是如果醫生說得是,研究指出:每晚睡眠不足4小時的成年人,其死亡率比每晚能睡七八個小時的人要高180%,而且睡不夠的人衰老速度是正常人的2.5-3倍。你是不是瞬間就能明白睡眠不足的傷害有多慘烈了?!
相較於語言,數據的存在更客觀且可視,所以往往會更有說服力,但是我們學會用數據說話的意義絕不僅限於如何更有說服力地去和我們客戶或者上司溝通。隨著網路的發展,數據開始變得泛濫,也變得如此唾手可及。如何將這些數據分類,找出其中含義和內在關聯,從而更好地做出決策或者為客戶提供更有價值的產品和服務才是我們職場力的重中之重。在此推薦托馬斯.達文波特和金鎮浩共著的《成為數據分析師》,雖然書名看起來很專業高深的樣子,其實是一本非常入門的書。書中內容的重點不是教你如何去分析某些具體的數據,而是教你怎樣像分析師一樣思考和利用數據解決問題。
書中提到,根據分析採用的方法以及收集和分析的數據類型可以將分析分為定性分析和定量分析。定性分析主要是深度了解某種特殊現象出現的根本原因和誘因,而定量分析則是通過統計、數學或計算的方法對現象進行系統的實證研究。簡單點來說,定性分析是從特殊案例中收集數據,然後分析這個特殊案例產生的原因;定量分析是從大量案例中收集數據,去進行統計分析,發現某些數據之間的關聯,然後再基於這些關聯去預測另一種現象出現的可能性(更簡單點說,定量分析就是基於過去的數據去預測未來)。
不管是定性分析還是定量分析,都可以分為3個階段,6個步驟。
階段一:構建問題
醫生治病,講得是對症下葯。其實職場人的工作也是一樣,想要解決一個問題,首先要做的就是弄清楚這個問題到底是什麼(也就是識別問題),之後你才能去對的地方收集數據,才有可能做出正確分析和提出正確解決方案。在識別問題的這個步驟中,作者提到一個很重要的點 ---注意利益相關者 。俗話說,一千個讀者,一千個哈姆雷特。同一個問題,站在不同的角度去看,很可能也會看出不一樣的結果。所以從一開始你就應該和這個問題的利益相關者站在同樣的角度去識別問題,這樣才能確保你最終得出的結果能夠被他們所接受。
另外,在確定了問題是什麼之後,不要馬上著手去解決問題,而是應該先回顧一下之前的發現。因為那些我們認為很特殊的問題,也有可能早有人已經遇到過並且解決過,那麼我們也就沒有必要再去做重復的工作了。
階段二:解決問題
這個階段要做的工作主要分為三步:1.構建模型或確定變數(是定性分析還是定量分析?定量分析的話要去分析的變數又是什麼?)2.收集數據 3.分析數據
很多數學不好的人到了這個階段可能就會開始發慫,然而正如作者所言,「數據並不是定量性思維的關鍵,將信息分類的方法才是」。當然,如果你真得覺得你拿不下這個階段,不如就直接找專業的數據分析師一起合作吧。術業有專攻,沒有必要把時間和精力過多地耗在自己不擅長的事情。但是你仍然需要清楚這個階段的操作流程,這樣你才能檢驗你的數據分析師給出的數據是否符合邏輯,才能在必要的時刻針對他們給出的數據提出進一步的問題。
階段三:傳達結果並採取行動
曾有人說,不被使用的技能,都不算你真得擁有的技能,就像你會讀書而不讀書一樣,會不會讀其實沒有區別。你千辛萬苦地得出了一個正確的結果,如果不能成功地傳達給對方,那這個結果正不正確其實也沒有什麼意義了。所以,在這一階段也切莫掉以輕心,而是要和前兩個階段一樣的努力去完成哦。就像文章開頭說的一樣,我說了,你也真的懂了。
『叄』 怎麼才能用數據說話
學會用數據說話
前段時間,應邀參加了一個企業的月度生產經營分析會。在會上,我明顯的感受到該企業的管理幹部對數據極端不敏感。在將近兩個小時的會議中,我基本上沒有聽到幾個關於生產經營方面的數據,而大部分幹部的總結發言都是類似於該企業質量部經理的發言:8月份,在公司領導的正確帶領下,在各車間主任的共同努力下,我們在產品質量方面取得了很大進步,產品合格率比上月有很大提高,質量事故有所下降,客戶對我們的服務基本滿意,認為我們的產品質量比較穩定……
會議將要結束的時候,該企業領導請我對這次生產經營會進行點評。我說:在座的各位好象都是學文科出身的,都喜歡用形容詞來表述我們的管理問題。但是這些話語顯然只適合外交辭令,對於我們搞企業管理的來說卻只有百害而無一利!……
其實,這種情況在國內很多的民營中小企業都普遍存在。很多企業的管理工作還停留在感性認識上,企業管理也還處於粗放式管理階段。表現在管理過程中的一個特徵就是喜歡用形容詞,就象上面的那位質量部經理的發言——我們在產品質量方面取得了很大進步,產品合格率比上月有很大提高,質量事故有所下降,客戶對我們的服務基本滿意——用的都是諸如:不錯啊,有提高,有下降,有進步,基本滿意,良好等等之類的詞語。
這些話,說沒有講嘛,也講了;說講了嘛,又什麼也沒講到。反正聽的人肯定是一頭霧水!因為這些對於搞管理的來說全都是廢話!
如果企業還停留在這個階段,必然會導致管理工作停留在「感性」層面上,致使大量的問題沒有得到及時、准確的暴露,當然也就不會得到及時、有效的解決了。久而久之,就會使企業潛在的問題越來越多,最終導致積重難返。
要改變這種局面,我們必須學會用數據來說話。所謂用數據說話,就是在管理過程中使用諸如:合格率,增長率,百分比,同比,利潤率,完成率,銷售額等等數學詞語。比如說我們用數據來表述上面的那位質量部經理的發言:本月質量合格率是84.7%,比上月提高了5.3%;本月質量事故2起,比上月下降了30%;客戶對我們的滿意度為84%,比上月提升了3%……
我們會發現用數據來表述比用形容詞來描繪更清晰、更直觀。從管理的角度來講,就很容易發現問題和暴露問題,而這正是解決問題的良好開端!
重視數據,運用數據是企業邁向精細化管理的第一步!很多企業的幹部在以前的粗放式管理模式下都習慣了用形容詞,現在到了該改變的時候了。
(馬駿七)
『肆』 實事求是,堅持以數據來說話,如何接話
在考察期間,多次聽到當地幹部稱贊他們的市委書記,說他推行「特事特辦、馬上就辦」,通過轉變政府職能吸引了大批台資企業,帶動了福州經濟發展,令我們印象深刻。(8月6日,人民日報)
當前,隨著信息技術的迅猛發展,以工業互聯網、大數據、雲計算、人工智慧為代表的前沿技術發展日益成熟,人們正從傳統以人為中心的世界觀走向以數據為中心的世界觀。大數據時代,已經到來。大數據所蘊藏的巨大潛力和能量,正等待著人們去窺探和挖掘。數據之生活——其實生活中的大數據無處不在,比如就我們的衣食住行……都離不開大數據的統計。擁有數據、分析數據、數據思維,面向未來如何構建事業核心競爭力,相當的有啟發。畢竟現在時代在飛速變革,唯有抓住機遇,才能得到自己想要的生活,所以就更應該了解這個我們所處的時代——大數據時代。
大數據時代是大勢所趨,黨員幹部要敢於面對大數據帶來的機遇與挑戰。黨員幹部是服務群眾的主力軍,要善於改變思維,運用大數據推動各項事業的發展和改革創新,要學會利用大數據推進各項工作,提高對大數據發展規律的把握能力,全面樹立「大數據思維」。作家梁曉聲曾把現今的中國分為三個中國:數字中國,網路中國,身邊的中國。而美國也有一句諺語:「除了上帝,任何人都必須用數據來說話。」。數據,已走進並深刻地了我們的生活,數據成為了我們度量科學、衡量生活的標准。
新時代、新氣象、新作為,幹部需要新本領。讓數據說話,就是擺事實,用事實說明一切,而不是空洞的文字,事實是最有說服力的,而數字一般都是來自於事實。中國共產黨代表著中國先進生產力的發展要求,代表中國先進文化的前進方向,代表著中國最廣大人民的根本利益。「百舸爭流,千帆競發。」黨的先進性要求每個黨員幹部需在這信息科技與大數據時代浪潮中,轉變觀念、積極適應、主動融入大數據時代,在引領大數據工作建設發展中做到敢於擔當、奮發有為。各項工作數據、民生資金大數據信息平台統一監管正是善於運用大數據資源的表現,不僅有效提高了工作效率,而且精準高效地監管了各類資金流向,是新時期黨員幹部善擔當會作為的表現。
新時代,我們會發現用數據來表述比用形容詞來描繪更清晰、更直觀。從管理的角度來講,就很容易發現問題和暴露問題,而這正是解決問題的良好開端。重視數據,運用數據是企業邁向精細化管理的第一步,也是我們黨邁向世界之首的必要方式!很多基層幹部在以前的粗放式管理模式下都習慣了用「形容詞」,現在到了該改變的時候了。只有實事求是,才能經得起數據的推敲,才能真正為民務實。只有讓數據多跑路、讓群眾少跑腿,百姓辦事才更方便,我們的全心全意為人民服務的宗旨才更高效的實現。
『伍』 用數據說話:數據分析的基本思想是什麼
用數據說話:數據分析的基本思想是什麼
今天分享一下數據分析的一些基本思想,我給它起了個名字叫做用數據說話。內容都是個人的一些心得,比較膚淺!如有不足之處,希望大家諒解!廢話不說了,現在咱正式開始。
用數據說話,就是用真實的數據說真實的話!真實也可以理解為求真務實。那麼,數據分析就是不斷地求真,進而持續地務實的過程!用一句話表達就是用數據說話,用真實的數據說話,說真話、說實話、說管用的話。
1.用數據說話
數據本不會說話,但是面對不同的人時,就會發出不同的聲音。現在我們以《荒島售鞋》這個老故事為引例,從數據分析的角度來解讀,看看能不能開出新花?為防止大家案例疲勞,我盡量用新的表達方式把故事羅嗦一下!
話說郭靖和楊康,被成吉思汗派去美麗的桃花島進行射鵰牌運動鞋的市場拓展。郭靖和楊康一上桃花島就驚訝地發現這里的居民全部赤腳,沒有一個穿鞋的,不論男女還是老少,莫不如此。楊康一看,倒吸了一口涼氣,說:唉!完了,沒啥市場!郭靖卻不這么認為,馬上掏出了新買的IPHONE4G給鐵木真打了個長途加漫遊的匯報電話。面對桃花島這個空白的市場,郭靖電話里這么說:「桃花島人口眾多,但信息閉塞。現在全島居民,全部赤腳。在運動鞋市場上沒有任何競爭對手,茫茫藍海,市場將為我獨霸!可喜,可喜啊!」這個時候,咱現場做個調查,假如你是成吉思汗,你會怎麼抉擇?(投資Y1人,不投資的N1人。)
這個時候楊康聽不下去了,馬上搶過電話,說到「大汗,別聽郭靖瞎嚷嚷!市場雖然沒有競爭,但並不就一定是藍海。在全球化競爭的大背景下,這么輕而易舉的就讓我們找到了藍海,您覺得可能嗎?難道阿迪、耐克、彪馬、銳步這些國際巨頭都是棒槌,會發現不了?我看肯定是島上幾百年不穿鞋的生活習慣,短期內無法改變,所以各路群雄,都只能望而止步!可惜,可惜啊!」聽了楊康的論述,鐵木真又該如何選擇呢?請大家舉手錶態。(願意投資Y2人,不願意投資的N2人。)薑是老的辣!成吉思汗比較理性,他只說了一句:「繼續調研,要用數據說話!」就把電話掛了!
一個星期之後,楊康率先給BOSS匯報了。不過他沒有選擇打電話,而是改發E—MAIL。原因有三:一是全球通資費太高了,錢要省著點花;二是楊康有點小人,他擔心郭靖聽了他的表述後,剽竊他的思想;三是他寫了一份詳細的調研報告,電話里三言兩語說不清。楊康的調查報告里詳細地記錄了他與島內精心選取的200位居民的談話內容,以及他抽取居民樣本時科學合理的甄別條件,最後的結論就是:島內居民全部(100%)以捕魚為生,腳一年四季泡在水裡,根本就不需要鞋!聽到這個消息,成吉思汗怎麼辦呢?請大家繼續舉手錶態!(願意投資Y3人,不願意投資的N3人。)
成吉思汗有自己的想法。這個時候,他沒有做決策,而是繼續等。等什麼呢?等郭靖的結論!又過了兩天郭靖終於打來了電話。電話里說了3句話:「這個市場可以做!原因是島上的居民每周都要上山砍柴,並且十有八九會被劃破腳!更可喜的是,這兩天他用美男計泡到了島主的女兒黃蓉,而且黃蓉答應給射鵰牌運動鞋作形象代言!」故事發生到這個階段,我請大家做最後一次表態。(願意投資Y4人,不願意投資的N4人。)
好!數據在變,我們的決策也在變。不過,成吉思汗比我們理性的多。回答還是一句話,不過比第一次多了幾個字:「繼續深入調研,用詳實數據論證。」為什麼呢?難道這些數據還不夠詳實嗎?是的!因為在成吉思汗腦袋裡還存在有很多疑問。比如:
1) 難道競爭對手真的沒來過?還是對方論證後真的不可行?
2) 山上不會開個伐木廠吧?如果有了伐木廠,居民就不會上山砍柴了,到時候送柴上門,鞋還有個屁用啊!
3) 為什麼一周才上一次山?該不會主要使用的是太陽能吧?
4) 運動鞋的運輸成本、營銷成本、銷售成本是多少?投資收益率有多高?
5) ……
聽完這個案例,我想問大家一個問題!從數據分析的角度看,你受到了什麼啟示?請注意這里說的數據分析的角度,如果你得到的啟示是:鐵木真領導的郭靖與楊康不是1個老男人+2個帥小伙的Gourp,而是教練型的Team。那麼,抱歉!這不是我們今天討論的范圍。好,在座的各位誰來表達一下自己的看法呢?提示性的啟示有:
面對同一個數據,不同的人會說不同的話。
真實的數據並不一定能推導出正確的結論。
正確的決策需要有充分的數據去論證。
……
說完了啟示,咱把這頁PPT總結一下。這個案例涉及數據的搜集、分析、匯報以及用於決策的整個過程。在這個過程里,無論那個細節出了問題,最終做出的決策都將是致命的!所以說質量是數據的生命,在數據用於決策的整個過程,都必須保證真實有效!
2.用真實的數據說話
所謂用真實的數據說話,就是指在說話之前,先審核數據的真實性!現實生活中,拿著錯誤的數據還能大言不慚的可以說比比皆是。其中有兩位傑出的代表:一個是傳說中偉大的中國統計局,另一個就是動不動就要封殺這個封殺那個的CCTV。我不是瞎說,因為有數據支撐!
2010年1月20日,國家統計局公布了2009年全國房地產市場數據,全年房價平均每平方米上漲813元。夠雷人吧!雷聲還沒過,霹靂緊跟著又來了!2月25日國家統計局發布了《2009年國民經濟和社會發展統計公報》,數據顯示,70個大中城市房屋銷售價格上漲1.5%。真可是天雷滾滾!難怪網友把統計局票選成大天朝的娛樂至尊!
此話一出,央視不答應了!真所謂中國統計,娛樂至尊;央視不出,誰與爭鋒?那我們仔細推敲一下央視的數據。2010年2月15日,CCTV發布了虎年春晚的滿意度報告,結果顯示滿意度為83.6%。幾乎同一天,新浪的公布的調查結果是14.55%;後來沒幾天,騰訊也發布了滿意度數據,結果是10.48%。數據一出,網友們罵聲不斷,此起彼伏,一浪高過一浪。但是人家央視就是央視,大有敵軍圍困萬千重,我自巋然不動的定力。更誇張的是央視不但能裝作視而不見,充耳不聞,而且還繼續恬不知恥地在自己家的那幾個頻道里賣弄數據,自娛自樂。到底央視的數據錯在哪裡?我們先審視一下央視的調查方法。
央視的調查結果,來自央視——索福瑞媒介研究有限公司。索福瑞號稱他們電視觀眾滿意度調查的樣本覆蓋了全國30個城市,抽樣框總人數有30,000人,央視春晚滿意度的調查就是從這3萬人中隨機抽取了2122人進行調查。這樣看,嚴格意義上講所謂83.6%的滿意度只能代表3萬人的看法。當然,如果我拿這個說法與央視理論,對方肯定能拿出3萬代表全國的理論證據。具體就是先從2千推斷3萬,再用3萬推及到30個城市,然後從30個城市推及至全國所有城市,最後再推及至全國。這里用到了簡單隨機抽樣、分層抽樣、典型抽樣,總起來還是個多階段抽樣,多麼冠冕堂皇的理論依據!但是,縱然每一步都能保證90%的可靠程度,四次推及下來理論的可靠程度也只有65%。可遺憾的是,最後一步用城市推及全國的做法在理論上還有一道坎,因為我們不知道如何用45%的城鎮居民來代表55%的農村人口?
說完了代表性的問題,我們再看看調查方法。索福瑞採用的是電話調查,而且時段選擇在春晚直播的那幾個小時內。據說調查是從晚上8:30開始,一直持續到春晚結束。巨汗!8:30貌似90%的節目還沒有上演,又怎麼能調查到觀眾對整個春晚的滿意度呢?
央視的數據是經不住推敲的!那麼,新浪和騰訊的一定對嗎?不一定,這兩個數據也只能代表新浪用戶和騰訊用戶的春晚滿意度,最多能夠代表一下4億網友,要想替13億的中國人民表達心聲,也恐怕是鞭長莫及。
欣賞了統計局和CCTV送給我們的兩個開年笑話之後,我們自己也應該反思,咱們日常工作中,在從數據的搜集、提取、整理到分析、發布、使用的這一連串過程中,數據有沒有失真?是不是數據自始自終都很齊全、很准確,而且統計口徑與分析目的保持著高度的一致呢?這個問題留到日常工作中供大家思考。
3.說真話說實話
拿著錯誤的數據,肯定得不出正確的結論。那麼面對真實的數據,就一定能得出正確的結論嗎?未必!給大家看個小笑話。
問:你只有10平米的蝸居,鄰居家從90m2換到190m2,你的居住面積有沒有增加?
答:沒有。
解:錯,你們兩家的平均居住面積是100m2,你的居住面積被神不知鬼不覺地增加了!
這個神不知鬼不覺是誰呢?無敵的平均數!仔細想想,這個均值算錯了嗎?沒有!那麼,問題出在哪裡?單一的統計量存在片面性,所以要想反映數據的真實面貌,就得使用一系列統計量。
我再杜撰一個氣候的例子,說明一下在結構嚴重失衡的情況下,使用平均數的可怕之處。我們的大中國啊,960萬平方公里,同一時間里有的刮風,有的下雨,還有的高溫酷暑。從去年冬天到今年的春天,北方一直暴雪連天,南方則遭遇百年旱情;而最近這段時間,南方多個省市河水決堤,沿河兩岸,村莊淪陷,而北方則是烈日當頭,乾旱焦人,酷暑難耐。如果我們計算全年或者是全國降雨量的平均值,算出來的結果肯定是神州大地風調雨順,國泰民安,而實際卻是華夏民族飽經風霜,多災多難!
還好,統計學家不只給了我們平均數,同時還設計了許多其他的統計量,大家看看下面這個表。
衡量數據的集中趨勢,基本有三個統計量,均值、中位數和眾數。均值是數值平均數,它容易受極端值的影響。也就是說如果數據的跨度或者說是極差不大的話,用均值可以很好的反映真實情況。但是,如果數據的差異比較大,單一使用平均數就會搞出新的笑話了。中位數和眾數屬於位置平均數,中位數是把數據從小到大排序,正好處於中間位置的那個數,眾數是說出現的頻次最多的那個數。
數據除了有集中趨勢,還有離散趨勢。反映離散趨勢的統計量主要有方差、標准差、極差、變異系數等。方差就是觀測值與均值差的平方和除以自由度,自由度一般是n或n-1。總體數據就用n,抽樣數據就用n-1。標准差就是方差的正平方根,它的意義是消除了量綱的影響。極差是最大值與最小值的差,反映的是觀測值的跨度范圍。還有一個比較重要也是比較常用的就是變異系數,它是標准差與均值的比,目的是消除數量級的影響。
此外,還有一些是描述數據分布的統計量,比如分位數,有四分位、八分位、十分位等等,二分位就是中位數,它們反映一系列數據某幾個關鍵位置的數值。頻率分布,就是對數據分組或者是分類後,各組或各類的百分比。偏度是用於衡量分布的不對稱程度或偏斜程度,峰度是用於衡量分布的集中程度或分布曲線的尖峭程度的指標。
如果想再深入一些的話,就會用到相關系數、置信水平、統計指數等等。相關系數是反映變數之間線性相關程度的指標,取值范圍是【-1,1】,大於0為正相關,小於0為負相關,等於0表示不相關。置信水平是指總體參數值落在樣本統計值某一區內的概率。統計指數就是將不能直接比較的一些指標通過同度量因素的作用使得能夠比較,常見的物價指數、上證指數等等。
有了這些基本的統計量,我們在實際工作中只要稍微用心選擇一下,就可以比較准確的描述數據的真實情況。
4.說管用的話
說管用的話是指深入分析數據的實質,挖掘數據的內涵,而不是停留在數據的表層,說些大話、空話或者套話。這就要求在數據分析時,首先明確分析的目的,其次是選擇恰當的方法,最後得出有用的結論。通俗地說,說管用的話,就是不說屁話,少說廢話!
4.1明確分析目的
這里我們舉個例子。我想這個例子的時候正好是7月7號,N年前的那個時候,正好是在座的各位高考的日子,所以就杜撰了一個高考的數據。
我們這個班級,雖然成績很爛,800分的總分,平均成績只有486分,但是人才輩出,名字一個比一個響,人氣一個比一個旺。大家先認識一下,有飽讀四書五經,滿腹經綸的關東秀才呂輕侯;有籃球場上進攻犀利,防守嚴密的小飛俠科比;還有足球場上無論是邊路傳中還是搶點射門都有非常出色的C羅納爾多;有喜歡煙熏妝、藍絲襪加高跟鞋出鏡的偽娘劉著,有被億萬網友燒香膜拜的春哥黨教主李宇春,還有經常抱著吉他哼著綿羊音的90後MM曾軼可;以及自稱冰清玉潔、妖媚性感、擅長爆發性舞蹈動作的芙蓉姐姐和非清華北大經濟學碩士不嫁、奧巴馬也可的重慶籍奇女子羅玉鳳!
基於學生的考試成績,不同的人會關注不同的方面,高考的判卷老師會關心試卷的雷同程度,命題人會測試考卷的信度和效度,研究文理分科的專家會計算文理成績的相關程度。但是對於普通中學,通常只會關心兩個方面。一是學生成績,計算升學率;二是教學水平,給優秀教師發獎金。如果高中的教學科在這里研究文理相關就屬於廢話,如果還要把問卷的信效檢驗也扯出來就是屁話了。
關於學生:
呂秀才:總分722分,班級第一,平均成績超過90分,如果將其他同學的水平比作三層小樓的話,呂秀才應該是站在賽格頂上!奇才,上清華北大沒有問題。
科比和C羅:總分550左右,平均不到70分!屬於班級2號、3號人物,但成績確實不咋地,不過在該班級中也算鶴立雞群了。
劉著、李宇春、曾軼可:成績較差,上學肯定不是她們的出路!基於平時性情怪異,男的像女,女的像男,還有一個像綿羊,建議別走高考這條尋常路,還是去湖南衛視選秀吧。
鳳姐、芙蓉:這成績,就是個腦殘,估計腦袋不是被門擠過,就是被驢踢過!
關於老師:
衡量教師的優劣需要剔除異常值,呂秀才就是!呂秀才屬於成績異常出眾,個人素質極高,所以他的成績不應該成為衡量老師優劣的樣本。
語文均值高,變異系數小!由此看出語文老師真是好老師!該發獎金!
同理,歷史老師也不錯!也應該適當獎勵。至於物理老師,太差,得趕快換掉,絕對不能讓他繼續誤人子弟了!
存在疑問的就是英語老師。英語成績的均值較高,但變異系數大。這說明數據里可能存在極端值。可能的異常值是科比與C羅。科比美國人,外語自然好!C羅葡萄牙人,但從2003年到2009年一直在英國留學,6年啊,英語好也是應該的!所以,科比與C羅的英語成績不能算是英語老師的栽培,所以科比和C羅是異常值,應該剔除。那麼,剔除異常後就會發現英語的均值只有47分!說明英語老師並不能算做好老師,所以只能與獎金無緣了!
4.2選擇恰當的方法
接上面的案例。如果我們是研究高中該不該進行文理分科的有關部門,那麼我們該如何分析文理成績之間的相關性?
舉例1:如何計算文理科之間的相關性。
目前基本有三種方法,一是簡單相關分析,二是典型相關分析,三是潛變數相關分析。
簡單相關分析就是通過加總,分別計算出文科成績總和、理科成績總和,然後計算兩者的簡單相關系數。
典型相關分析主要用於衡量兩組變數之間的相關性。它的基本原理是:為了從總體上把握兩組指標之間的相關關系,分別在兩組變數中提取是的相關系數最大的一系列典型變數,然後通過計算各對典型變數之間的相關性,來反映變數間的相關程度。
潛變數相關就是計算潛變數之間的相關系數。所謂潛變數是相對於顯變數或者測量變數而言的。潛變數是實際工作中無法直接測量到的變數,包括比較抽象的概念和由於種種原因不能准確測量的變數。一個潛變數往往可以有多個顯變數,潛變數是可以看做是其對應顯變數的抽象和概括,顯變數則可視為特定潛變數的測量指標。在文理科相關性的分析中,我們可以將文科、理科看成潛變數,將語文、外語、政治、歷史這四個顯變數看成文科的測量指標,將數學、物理、化學、生物這四個顯變數看成是理科的測量指標,那麼求文理成績之間的相關問題就轉化成潛變數之間相關的問題。
那麼。我們究竟該選用哪種方法呢?或者假如說我們同時使用了上面三種方法,求出相關系數,該選擇哪一個呢?比如我們計算的結果分別是0.35(簡單相關)、0.85(最大典型變數)、-0.65(潛變數相關),這個時候我們到底該相信哪個數據呢?
其實,我更願意相信簡單相關計算的結果。原因如下:
1、簡單相關,既簡單又易理解。
2、典型相關的取值范圍是【0,1】,它計算出的結果沒有正負,只有大小。與我們實際研究目的有悖。我們想知道學生是否在文理課程上均衡發展,所謂均衡就是正相關,所謂不均衡就是負相關。而典型相關做不到。
3、潛變數相關雖然取值范圍是【-1.1】,但是它多數是採用主成分的方法擬合潛變數,而依據方差提取最大主成分的過程與我們的分析貌似不甚吻合。
4、最重要的是,其實簡單加總與典型相關、主成分相關擁有同一個思想,就是先把多個變數擬合成一個變數(或幾個),然後分析這個擬合出來的變數之間的相關性。其實,在量綱、數量級相同的情況下,而且權重也容易計算的情況下,最簡單有效的擬合就是加總!所以我認為簡單加總後計算出的相關系數是最有效。而潛變數、典型變數是在量綱或數量級不等的情況下,衡量多個變數之間相關關系的有效方法。
舉例2:計算硬幣正反概率
最後,再給大家做道選擇題。
問題:如果一枚硬幣連拋10次都是正面,問第11次出現正面的概率是多少?
選項:A. 接近0% B.50% C.接近100% D. 以上答案都不對
一個硬幣連拋10次都出現正面的概率是0.510,絕對的小概率事件。在一次實驗中,小概率事件發生,那麼我們就應該拒絕原假設。原假設是什麼?硬幣出現正反的概率是0.5。所以,我們可以大膽地推斷,硬幣本身就是一個兩面都是正面的硬幣,所以說第11次出現正面的概率是100%,或者接近100%。大家是不是有異議呢?
樹上10隻鳥,獵槍一槍打死1隻,樹上還剩0隻的結論大家都應該同意吧。因為我們考慮的是實際問題,不是10-1=?的數學算式。所以大家在幼兒園的時候就知道槍聲響過,樹上一隻鳥都不會剩。試想,你和你的朋友打賭投硬幣猜正反,如果10次之後朋友投出來的都是正面,你會怎麼想?兄弟你出千了吧,硬幣肯定有問題吧!相信用不了10次,你就會提出這樣的質疑了。如果說計算概率,0.5沒有錯,獨立事件發生的概率不因之前的情況而改變。但是,如果用假設檢驗的思想,100%的結論就更合理了。之所以說0.5的結果不對,不是說你的計算出錯了,而是在解決實際問題的時候,你太教條了,太書本了,從而選錯方法了。
5.最後總結
我的分享結束了,大家也聽了也笑了,但是笑過之後務必記住我啰嗦了一個小時的這句話:用數據說話就是用真實的數據說話,說真話、說實話、說管用的話!最後說一句廢話:希望剛剛過去的1個小時沒有浪費大家的時間。