㈠ 如何計算兩組數據的匹配性
方式非常多得,這里解釋2個最簡單得辦法
比較最重要得條件是,2個表一定有一個唯一得關鍵列,可以區分數據(如果沒有,就用透視表先把相同得處理下,再比較)
(一)VLOOKUP
我有2個表得數據,如上圖所示:
把兩個表得款號復制到一起並去重復
這么做得是為了防止會遺漏兩個表差異得款號
然後外面用VLOOKUP函數分別把兩個表得數據引用過來
C列公式:=IFERROR(VLOOKUP(B3,表1!B:C,2,0),0)
這里注意IFERROR函數如果找不到就返回一個0
D列公式:=IFERROR(VLOOKUP(B3,表2!B:C,2,0),0)
然後簡單得一個相減就算出了差異數據
(二)合並計算
「數據」選項卡—>合並計算—>選擇2個表要計算得范圍,添加進去(這里要注意得是,關鍵列標題名要一樣,這里都是款號,計算列標題名字要區分出來,這里分別叫表1數據和表2數據,不要叫一樣得名字否則會直接合計計算)
然後注意勾選首行和最左列,具體見下圖:
(三)總結
1,兩個數據之間比較,一定要有一個不重復得關鍵列,否則人都看不出區別
2,VLOOKUP得方法,一定要先把兩個表關鍵列復制到一起去重復保證拿到全部數據,再用公式引用,比較
3,合並計算得方法,就相對簡單,但是要注意欄位名字需要合並得一定要相同,需要區分計算得一定要起不同得名字
㈡ 如何獲取微觀數據
如果你想成為一名優秀的學者,而非完成學期作業的本科生,那麼請繼續往下看。
最好的方法,是自己擁有獨有的數據集。包括但不限於自己安排田野調查、電子化沒人用過的歷史方誌年鑒、爬蟲獲得網路上的數據等。
次好的方法,對學生來說,是進入一個好學校,找到一個好老闆,從老闆那裡拿數據;對已經入行的人來說,可以找到有數據的人並與他們合作。
花時間申請公開數據,在已經被做濫的數據里翻找別人沒做過的問題,或者是在別人已經研究過的問題上用新的數據做一點邊際上的貢獻,是最沒效率的辦法。
如果你想要做出能發表在 一流期刊上的研究,那最好別指望CHNS、CHIPs、CFPS、CHFS、CGSS、CHARLs……這一類公開可得的數據能被你挖掘出什麼東西來了,98到07的微觀企業資料庫也別報太大希望,淘寶上都有人賣呢。
用那些數據寫一點簡單的報告,或者在知乎上答答題,估計是沒問題,但如果要沖刺頂尖刊物,還是用一些別的數據吧,比如05、10人口普查全樣本,歷年全國流動人口動態監測,85年到09年甚至12年城調隊數據全樣本,96到10農村固定觀察點全樣本,04年08年經濟普查、歷年海關數據以及他們的合並數據。這些數據分布在國內各大院校手中,每一個數據我都至少能隨口說出兩三個擁有他的人。這些非公開可得的數據並不是遙不可及的,只要有心,有足夠的行動力,就一定能拿到。
如果手裡實在只有那些大眾數據,那最好去找一些國外數據來做些基準,至少提高下門檻吧。比如美國的PSID、CPS、SCF、NSFG,歐洲的HFCS,都很容易申請。如果做貿易,就別用nber公布的那50年comtrade了,自己把comtrade下載下來再按照feenstra的文章整理成nber那樣,一點都不難。如果手裡只有00年人口普查,那至少可以去ipums找點82和90的普查做縱向比較,或者也可以找點別的國家做橫向比較啊。
如果這些都不願意,就不要做實證研究了。