㈠ 如何计算两组数据的匹配性
方式非常多得,这里解释2个最简单得办法
比较最重要得条件是,2个表一定有一个唯一得关键列,可以区分数据(如果没有,就用透视表先把相同得处理下,再比较)
(一)VLOOKUP
我有2个表得数据,如上图所示:
把两个表得款号复制到一起并去重复
这么做得是为了防止会遗漏两个表差异得款号
然后外面用VLOOKUP函数分别把两个表得数据引用过来
C列公式:=IFERROR(VLOOKUP(B3,表1!B:C,2,0),0)
这里注意IFERROR函数如果找不到就返回一个0
D列公式:=IFERROR(VLOOKUP(B3,表2!B:C,2,0),0)
然后简单得一个相减就算出了差异数据
(二)合并计算
“数据”选项卡—>合并计算—>选择2个表要计算得范围,添加进去(这里要注意得是,关键列标题名要一样,这里都是款号,计算列标题名字要区分出来,这里分别叫表1数据和表2数据,不要叫一样得名字否则会直接合计计算)
然后注意勾选首行和最左列,具体见下图:
(三)总结
1,两个数据之间比较,一定要有一个不重复得关键列,否则人都看不出区别
2,VLOOKUP得方法,一定要先把两个表关键列复制到一起去重复保证拿到全部数据,再用公式引用,比较
3,合并计算得方法,就相对简单,但是要注意字段名字需要合并得一定要相同,需要区分计算得一定要起不同得名字
㈡ 如何获取微观数据
如果你想成为一名优秀的学者,而非完成学期作业的本科生,那么请继续往下看。
最好的方法,是自己拥有独有的数据集。包括但不限于自己安排田野调查、电子化没人用过的历史方志年鉴、爬虫获得网络上的数据等。
次好的方法,对学生来说,是进入一个好学校,找到一个好老板,从老板那里拿数据;对已经入行的人来说,可以找到有数据的人并与他们合作。
花时间申请公开数据,在已经被做滥的数据里翻找别人没做过的问题,或者是在别人已经研究过的问题上用新的数据做一点边际上的贡献,是最没效率的办法。
如果你想要做出能发表在 一流期刊上的研究,那最好别指望CHNS、CHIPs、CFPS、CHFS、CGSS、CHARLs……这一类公开可得的数据能被你挖掘出什么东西来了,98到07的微观企业数据库也别报太大希望,淘宝上都有人卖呢。
用那些数据写一点简单的报告,或者在知乎上答答题,估计是没问题,但如果要冲刺顶尖刊物,还是用一些别的数据吧,比如05、10人口普查全样本,历年全国流动人口动态监测,85年到09年甚至12年城调队数据全样本,96到10农村固定观察点全样本,04年08年经济普查、历年海关数据以及他们的合并数据。这些数据分布在国内各大院校手中,每一个数据我都至少能随口说出两三个拥有他的人。这些非公开可得的数据并不是遥不可及的,只要有心,有足够的行动力,就一定能拿到。
如果手里实在只有那些大众数据,那最好去找一些国外数据来做些基准,至少提高下门槛吧。比如美国的PSID、CPS、SCF、NSFG,欧洲的HFCS,都很容易申请。如果做贸易,就别用nber公布的那50年comtrade了,自己把comtrade下载下来再按照feenstra的文章整理成nber那样,一点都不难。如果手里只有00年人口普查,那至少可以去ipums找点82和90的普查做纵向比较,或者也可以找点别的国家做横向比较啊。
如果这些都不愿意,就不要做实证研究了。