导航:首页 > 数据处理 > 在分析数据时应该注意哪些参数

在分析数据时应该注意哪些参数

发布时间:2024-10-23 13:53:09

⑴ 全面教你如何建立数据分析的思维框架

全面教你如何建立数据分析的思维框架
目前,还有一些人不会建立数据分析的思维框架,那么今天课课家,就一步一步的教大家怎么建立,大神路过还请绕道,当然还可以交流一下。有需要的小伙伴,可以参考一下。
曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则:
不是我觉得,而是数据证明。
这是一道分水岭,“我觉得”是一种直觉化经验化的思维,工作不可能处处依赖自己的直觉,公司发展更不可能依赖于此。数据证明则是数据分析的最直接体现,它依托于数据导向型的思维,而不是技巧,前者是指导,后者只是应用。
作为个人,应该如何建立数据分析思维呢?
一、建立你的指标体系
在我们谈论指标之前,先将时间倒推几十年,现代管理学之父彼得·德鲁克说过一句很经典的话:
如果你不能衡量它,那么你就不能有效增长它。
所谓衡量,就是需要统一标准来定义和评价业务。这个标准就是指标。假设隔壁老王开了一家水果铺子,你问他每天生意怎么样,他可以回答卖的不错,很好,最近不景气。这些都是很虚的词,因为他认为卖的不错也许是卖了50个,而你认为的卖的不错,是卖了100。
这就是“我觉得”造成的认知陷阱。将案例放到公司时,会遇到更多的问题:若有一位运营和你说,产品表现不错,因为每天都有很多人评价和称赞,还给你看了几个截图。而另外一位运营说,产品有些问题,推的活动商品卖的不好,你应该相信谁呢?
其实谁都很难相信,这些众口异词的判断都是因为缺乏数据分析思维造成的。
老王想要描述生意,他应该使用销量,这就是他的指标,互联网想要描述产品,也应该使用活跃率、使用率、转化率等指标。
如果你不能用指标描述业务,那么你就不能有效增长它。
了解和使用指标是数据分析思维的第一步,接下来你需要建立指标体系,孤立的指标发挥不出数据的价值。和分析思维一样,指标也能结构化,也应该用结构化。
我们看一下互联网的产品,一个用户从开始使用到离开,都会经历这些环节步骤。电商app还是内容平台,都是雷同的。想一想,你会需要用到哪些指标?
而下面这张图,解释了什么是指标化,这就是有无数据分析思维的差异,也是典型的数据化运营,有空可以再深入讲这块。
标体系没有放之四海而皆准的模板,不同业务形态有不同的指标体系。移动APP和网站不一样,SaaS和电子商务不一样,低频消费和高频消费不一样。好比一款婚庆相关的APP,不需要考虑复购率指标;互联网金融,必须要风控指标;电子商务,卖家和买家的指标各不一样。
这些需要不同行业经验和业务知识去学习掌握,那有没有通用的技巧和注意事项呢?
二、明确好指标与坏指标
不是所有的指标都是好的。这是初出茅庐者常犯的错误。我们继续回到老王的水果铺子,来思考一下,销量这个指标究竟是不是好的?
最近物价上涨,老王顺应调高了水果价格,又不敢涨的提高,虽然水果销量没有大变化,但老王发现一个月下来没赚多少,私房钱都不够存。
老王这个月的各类水果销量有2000,但最后还是亏本了,仔细研究后发现,虽然销量高,但是水果库存也高,每个月都有几百单位的水果滞销最后过期亏本。
这两个例子都能说明只看销量是一件多不靠谱的事情。销量是一个衡量指标,但不是好指标。老王这种个体经营户,应该以水果铺子的利润为核心要素。
好指标应该是核心驱动指标。虽然指标很重要,但是有些指标需要更重要。就像销量和利润,用户数和活跃用户数,后者都比前者重要。
核心指标不只是写在周报的数字,而是整个运营团队、产品团队乃至研发团队都统一努力的目标。
核心驱动指标和公司发展关联,是公司在一个阶段内的重点方向。记住是一个阶段,不同时期的核心驱动指标不一样。不同业务的核心驱动指标也不一样。
互联网公司常见的核心指标是用户数和活跃率,用户数代表市场的体量和占有,活跃率代表产品的健康度,但这是发展阶段的核心指标。在产品1.0期间,我们应把注意力放到打磨产品上,在大推广前提高产品质量,这时留存率是一个核心指标。而在有一定用户基数的产品后期,商业化比活跃重要,我们会关注钱相关的指标,比如广告点击率、利润率等。
核心驱动指标一般是公司整体的目标,若从个人的岗位职责看,也可以找到自己的核心指标。比如内容运营可以关注阅读数和阅读时长。
核心驱动指标一定能给公司和个人带来最大优势和利益,记得二八法则么?20%的指标一定能带来80%的效果,这20%的指标就是核心。
另外一方面,好的指标还有一个特性,它应该是比率或者比例。
拿活跃用户数说明就懂了,我们活跃用户有10万,这能说明什么呢?这说明不了什么。如果产品本身有千万级别的注册用户,那么10万用户说明非常不健康,产品在衰退期。如果产品只拥有四五十万用户,那么说明产品的粘性很高。
正因为单纯的活跃用户数没有多大意义,所以运营和产品会更关注活跃率。这个指标就是一个比率,将活跃用户数除以总用户数所得。所以在设立指标时,我们都尽量想它能不能是比率。
认识和看待事物
这类常见的提问方式包括了一个知名人物或历史事件如何评价?如何看待一个产品?你对某个事物是如何理解的?如何看待或分析一种行为或热点等?
对于看待或分析事物类的思维,则是我们前面一篇思维的逻辑里面讲到的很多内容,即事物本身应该结合外部环境+时间线+事物核心维度进行全面的分析,事物的外在交互关系,事物的内部结构和衔接,事物本身动态展现的行为特征等。这些首先分析清楚,即对事物本身有一个全面和客观的认识。
这类思维的一个核心即辩证思维,在这里我不太喜欢用批评性思维这个词,辩证思i维更加体现了这类思维的重点是全面,客观,以数据说话同时减少主观偏颇看法。对于这类问题你不一定要去表面自己的主观感受,而更加重要的是把事实和道理讲清楚,有理有据。
在真正分析清楚后,后续才过渡到这类问题的演进,即如何评估或评价一个事物,其前提仍然是分析清楚客观数据,但是数据本身不是评价或评估指标,因此一谈到评估自然会想到需要建立或参考一个评估体系。一个历史帝王有政治,经济,外交,军事和民生各种评价体系。对一辆车可能有动力,舒适性,油耗,操控等各种评价体系。一个产品本身有功能满足度,易用性,性能,价格等各种评价体系等。对于任何评估,则首先是找到现成可用的科学评价体系,然后将对事物分析后的数据映射到具体的评价体系上,即任何评估指标值的得出一定有事物本身内在数据和运作机制进行支撑的。
这些都想清楚后,即这类思维的重点是事物的分解和集成分析,事物的行为或活动分析,事物相关的内外环境因素分析,事物本身的关键属性维度分析和评估体系确定,事物各关键指标特性间的相互制约和促进力分析(类似系统思维中的正负循环)等。
坏指标有哪些呢?
其一是虚荣指标,它没有任何的实际意义。
产品在应用商店有几十万的曝光量,有意义吗?没有,我需要的是实际下载。下载了意义大吗?也不大,我希望用户注册成功。曝光量和下载量都是虚荣指标,只是虚荣程度不一样。
新媒体都追求微信公众号阅读数,如果靠阅读数做广告,那么阅读数有意义,如果靠图文卖商品,那么更应该关注转化率和商品销量,毕竟一个夸张的标题就能带来很高的阅读量,此时的阅读量是虚荣指标。可惜很多老板还是孜孜不倦的追求10W+,哪怕刷量。
虚荣指标是没有意义的指标,往往它会很好看,能够粉饰运营和产品的工作绩效,但我们要避免使用。
第二个坏指标是后验性指标,它往往只能反应已经发生的事情。
比如我有一个流失用户的定义:三个月没有打开APP就算做流失。那么运营每天统计的流失用户数,都是很久没有打开过的,以时效性看,已经发生很久了,也很难通过措施挽回。我知道曾经因为某个不好的运营手段伤害了用户,可是还有用吗?
活动运营的ROI(投资回报率)也是后验性指标,一个活动付出成本后才能知道其收益。可是成本已经支出,活动的好与坏也注定了。活动周期长,还能有调整余地。活动短期的话,这指标只能用作复盘,但不能驱动业务。
第三个坏指标是复杂性指标,它将数据分析陷于一堆指标造成的陷阱中。
指标能细分和拆解,比如活跃率可以细分成日活跃率、周活跃率、月活跃率、老用户活跃率等。数据分析应该根据具体的情况选择指标,如果是天气类工具,可以选择日活跃率,如果是社交APP,可以选择周活跃率,更低频的产品则是月活跃率。
每个产品都有适合它的几个指标,不要一股脑的装一堆指标上去,当你准备了二三十个指标用于分析,会发现无从下手。
三、建立正确的指标结构
既然指标太多太复杂不好,那么应该如何正确的选择指标呢?
和分析思维的金字塔结构一样,指标也有固有结构,呈现树状。指标结构的构建核心是以业务流程为思路,以结构为导向。
假设你是内容运营,需要对现有的业务做一个分析,提高内容相关数据,你会怎么做呢?
我们把金字塔思维转换一下,就成了数据分析方法了。
从内容运营的流程开始,它是:内容收集—内容编辑发布—用户浏览—用户点击—用户阅读—用户评论或转发—继续下一篇浏览。
这是一个标准的流程,每个流程都有指标可以建立。内容收集可以建立热点指数,看哪一篇内容比较火。用户浏览用户点击则是标准的PV和UV统计,用户阅读是阅读时长。
从流程的角度搭建指标框架,可以全面的囊括用户相关数据,无有遗漏。
这套框架列举的指标,依旧要遵循指标原则:需要有核心驱动指标。移除虚荣指标,适当的进行删减,不要为添加指标而添加指标。
四、了解维度分析法
当你有了指标,可以着手进行分析,数据分析大体可以分三类:
利用维度分析数据
使用统计学知识如数据分布假设检验
使用机器学习
我们先了解一下维度分析法。
维度是描述对象的参数,在具体分析中,我们可以把它认为是分析事物的角度。销量是一种角度、活跃率是一种角度,时间也是一种角度,所以它们都能算维度。
当我们有了维度后,就能够通过不同的维度组合,形成数据模型。数据模型不是一个高深的概念,它就是一个数据立方体。
上图就是三个维度组成的数据模型/数据立方体。分别是产品类型、时间、地区。我们既能获得电子产品在上海地区的2010二季度的销量,也能知道书籍在江苏地区的2010一季度销量。
数据模型将复杂的数据以结构化的形式有序的组织起来。我们之前谈到的指标,都可以作为维度使用。下面是范例:
将用户类型、活跃度、时间三个维度组合,观察不同用户群体在产品上的使用情况,是否A群体使用的时长更明显?
将商品类型、订单金额、地区三个维度组合,观察不同地区的不同商品是否存在销量差异?
数据模型可以从不同的角度和层面来观察数据,这样提高了分析的灵活性,满足不同的分析需求、这个过程叫做OLAP(联机分析处理)。当然它涉及到更复杂的数据建模和数据仓库等,我们不用详细知道。
数据模型还有几种常见的技巧、叫做钻取、上卷、切片。
选取就是将维度继续细分。比如浙江省细分成杭州市、温州市、宁波市等,2010年一季度变成1月、2月、3月。上卷则是钻取的相反概念,将维度聚合,比如浙江、上海、江苏聚合成浙江沪维度。切片是选中特定的维度,比如只选上海维度、或者只选2010年一季度维度。因为数据立方体是多维的,但我们观察和比较数据只能在二维、即表格中进行。
上图的树状结构代表钻取(source和time的细分),然后通过对Route的air切片获得具体数据。
聪明的你可能已经想到,我们常用的数据透视表就是一种维度分析,将需要分析的维度放到行列组合进行求和、计数、平均值等计算。放一张曾经用到的案例图片:用城市维度和工作年限维度,计算平均工资。
除了Excel、BI、R、Python都能用维度分析法。BI是相对最简便的。
谈到维度法,想要强调的是分析的核心思维之一:对比,不同维度的对比,这大概是对新人快速提高的最佳捷径之一。比如过去和现在的时间趋势对比,比如不同地区维度的对比,比如产品类型的区别对比,比如不同用户的群体对比。单一的数据没有分析意义,只有多个数据组合才能发挥出数据的最大价值。
我想要分析公司的利润,利润 = 销售额 – 成本。那么找出销售额涉及的指标/维度,比如产品类型、地区、用户群体等,通过不断的组合和拆解,找出有问题或者表现良好的原因。成本也是同理。
这就是正确的数据分析思维。总结一下吧:我们通过业务建立和筛选出指标,将指标作为维度,利用维度进行分析。
很多人会问,指标和维度有什么区别?
维度是说明和观察事物的角度,指标是衡量数据的标准。维度是一个更大的范围,不只是数据,比如时间维度和城市维度,我们就无法用指标表示,而指标(留存率、跳出率、浏览时间等)却可以成为维度。通俗理解:维度>指标。
到这里,大家已经有一个数据分析的思维框架了。之所以是框架,因为还缺少具体的技巧,比如如何验证某一个维度是影响数据的关键,比如如何用机器学习提高业务,这些涉及到数据和统计学知识,以后再讲解。
这里我想强调,数据分析并不是一个结果,只是过程。还记得“如果你不能衡量它,那么你就不能有效增长它”这句话吗?数据分析的最终目的就是增长业务。如果数据分析需要绩效指标,一定不会是分析的对错,而是最终数据提升的结果。
数据分析是需要反馈的,当我分析出某项要素左右业务结果,那么就去验证它。告诉运营和产品人员,看看改进后的数据怎么样,一切以结果为准。如果结果并没有改善,那么就应该反思分析过程了。
这也是数据分析的要素,结果作导向。分析若只是当一份报告呈现上去,后续没有任何跟进、改进的措施,那么数据分析等与零。
业务指导数据,数据驱动业务。这才是不二法门。

⑵ 实验结果分析应注意什么数值计算应注意什么

实验报告撰写要求  一.    实验报告实验预习报告使用同份实验报告纸,预习报告基础继续补充相关内容完,作重复劳需要首先预习报告做规范、全面  二.    根据实验要求实验间内实验室进行实验边测量边记录实验数据使报告准确、美观应该实验测量数据先记录草稿纸等整理报告再抄写实验报告纸避免错填数据造修改报告写乱  三.    实验发实验测量数据与事先计算数值符甚至相差应该找原原计算错误测量问题能能算未完本实验  四.    实验报告简单实验数据记录纸应该实验情况析要通实验所测量数据与计算值加比较误差(般5%)认基本吻合误差较应该误差析找原  5.    实验报告应该每项实验结论要通具体实验内容具体实验数据析作结论(能笼统说验证某某定理)  陆.    设计性、综合性实验要画所设计电路图标所选确定电路参数要验算程必要设计说明  漆.    必要需要绘制曲线曲线应该刻度、单位标注齐全曲线比例合适、美观并针曲线作相应说明析  吧.    报告要完指导书要求解答思考题  9.    实验报告交应该面实验指导教师实验给预习绩操作绩并指导师签名否则报告效  一0.    希望每同认真完实验报告培养锻炼综合总结能力重要环节课程设计、毕业设计论文撰写打基础参加工作科研究益处

⑶ 数据分析师需要学习哪些技能

数据分析师需要学习很多的技能,也正是因为这样,数据分析师的工资是十分乐观的。在大数据的火热发展中,数据分析师这个职业也越来越欢迎,很多人都想进入这个行业,这些人对于数据分析师需要学的东西都是比较关心的,而数据分析师需要学习的技能有很多,需要学习统计学、Excel、SQL、数据分析知识以及行业的知识等等。下面我们就详细地给大家介绍一下这些知识。
首先我们说一说Excel。如果想成为数据师,那么很有必要学会使用Excel这个工具。对于数据分析师来说,Excel是一个必备的技能,经过大量的实践发现,Excel是一个比较靠谱的工具,如果用Excel分析数据,就能够做好数据的分析,同时Excel操作也是比较简单的,不是程序员也能够正常的使用。现在有很多企业都在使用Excel这项工具进行去分析数据,所以,数据分析师必须要学会使用Excel。
然后我们说一说行业知识。对于数据分析师来说,业务的了解比数据方法论更重要。而且业务学习没有捷径,基本都靠不断的思考与不断的总结。这样才能够做好数据分析。
接着我们说一下SQL,其实现在很多人不知道sql是什么,在这里给大家描述一下,sql是所有数据库查询的语言,当然,sql非常容易入手。而数据库也是有很多的类型的,比如mysql、sqlserver、oracle等等,对于不同的数据库,sql语法会有所不同,但是总体上大同小异,只是细微处的差别。如果大家有数据库基础的话,那么只需要找些sql的题目做一做,这样也能够提到sql水平。
而数据分析思维是数据分析师需要注意的事情。如果作为一名数据分析师,需要很缜密的心思以及对数据很敏感的喜欢,这样才能够发现他人会遗漏的东西。有力这些还不够,我们还需要有一个数据分析的思维,那么怎么有一个数据分析的思维呢?一般来说,需要梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即清楚如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。同时,确保分析框架的体系化和逻辑性。
最后给大家介绍一下统计学。一名优秀的数据分析师还应该精通统计学,只有学会了统计学,才能够进行数据分析,数据分析是通过大量的数据进行挑选出有用的数据,这样才能够做好正确的分析。统计学的统计知识能够让我们多了一种角度去看待数据,这样能够看出不同的情况,为数据分析中提供了参考价值。如果你想成为一名出色的数据分析师,那么你就必须要会统计学。
通过上述的内容相信大家已经知道了数据分析师需要学会的技能了,大家在进行数据分析的时候多多注意上面内容的学习,这样才能够学好数据分析。最后祝愿大家早日学成数据分析。

⑷ 如何进行数据分析

数据分析是以现有网站的内容为基础,展示用户喜欢的内容,降低网站的跳出率增加网站黏性,具体步骤如下:
1、分析pv、uv、ip、跳出率和平均访问时长
通常情况下uv要大于ip,pv是uv的倍数关系,而pv:uv多少合适呢?要看同行业的平均数据,比如一个知识性网站,pv:uv的比例接近10:1,而如果是企业站,可能3:1或者4:1。
跳出率越高说明网站内容质量越差,平均访问时长也体现网站的内容质量。时长越长说明网站内容质量越高、内链系统越好。
2、分析来源、地域和搜索引擎
从来源分析可以评测外链和推广效果,可以选择效果更好的推广和外链方式,节省时间。地域分析可以帮我我们做地域关键词,搜索引擎分析用于明白用户的搜索习惯。
3、受访页面、着陆页和搜索词
分析受访页面可以看出推广、外链以及内链效果,分析搜索词可以得出现在内容排名效果。
受访页面主要来自于外链、推广链接、排名页面和内链布局。受访页面越高的网页说明展示次数越多,被用户看到的概率越大。
着陆页分数据纯碎的体现外链、推广链接和排名的效果,如果没有关键词排名,可以直接评测推广、外链的效果。
可以通过搜索词得知那些关键词给我们带来了流量,以及访问的页面是哪些,访问页的跳出率是多少,是不是应该推广这个页面帮助它提升排名。
4、分析页面点击图和页面上下游
页面点击图,可以根据页面点击图调整网站首页布局。颜色越深的内容放置的位置越靠近左上角,颜色越浅的内容位置越靠近右下角。点击很少或者没有点击的内容可以从首页移除,或者放置在栏目页。
页面上下游是体现用户浏览网页的轨迹,从上下游的数据可以统计布局的内链用户点击最多的文章是哪一篇,以及哪些页面的跳出率高。页面上下游数据最能说明内链布局效果。
注意:数据分析的魅力是常人无法感受的,如果你的网站在中后期还是凭证感觉做,那么你就相当于盲人摸象,你的网站排名只能看运气了。

⑸ 如何成为一个数据分析师需要具备哪些技能

接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。

数据获取:公开数据、Python爬虫

如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。

外部数据的获取方式主要有以下两种。

第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。

另一种获取外部数据费的方式就是爬虫。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。

在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)……以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从 urllib 和 BeautifulSoup 开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)

网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。

掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫限制。

除此之外,常用的的电商网站、问答网站、点评网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。

数据存取:SQL语言

你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也需要懂得SQL的操作,能够查询、提取数据。

SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:

提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2018年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。

数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。

数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。

数据预处理:Python(pandas)

很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。

比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。

那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。

对于数据预处理,学会 pandas 的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:

选择:数据访问(标签、特定值、布尔索引等)

缺失值处理:对缺失数据行进行删除或填充

重复值处理:重复值的判断与删除

空格和异常值处理:清楚不必要的空格和极端、异常数据

相关操作:描述性统计、Apply、直方图等

合并:符合各种逻辑关系的合并操作

分组:数据划分、分别执行函数、数据重组

Reshaping:快速生成数据透视表

概率论及统计学知识

数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:

基本统计量:均值、中位数、众数、百分位数、极值等

其他描述性统计量:偏度、方差、标准差、显着性等

其他统计知识:总体和样本、参数和统计量、ErrorBar

概率分布与假设检验:各种分布、假设检验流程

其他概率论知识:条件概率、贝叶斯等

有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了,比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何……

你可以使用python的包 Seaborn(python包)在做这些可视化的分析,你会轻松地画出各种可视化图形,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,已验证结果是否在可接受的范围。

python数据分析

如果你有一些了解的话,就知道目前市面上其实有很多 Python 数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用 Python 实现不同案例的假设检验,其实你就可以对数据进行很好的验证。

比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。比如DataCastle的训练竞赛“房价预测”和“职位预测”,都可以通过回归分析实现。这部分需要掌握的知识点如下:

回归分析:线性回归、逻辑回归

基本的分类算法:决策树、随机森林……

基本的聚类算法:k-means……

特征工程基础:如何用特征选择优化模型

调参方法:如何调节参数优化模型

Python 数据分析包:scipy、numpy、scikit-learn等

在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。

当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类,然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。

系统实战

这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战。能够独立完成分析任务,那么你就已经打败市面上大部分的数据分析师了。

如何进行实战呢?

上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。

另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。

开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。

你也可以看看行业的分析报告,看看优秀的分析师看待问题的角度和分析问题的维度,其实这并不是一件困难的事情。

在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如 DataCastle 为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排名:

员工离职预测训练赛

美国King County房价预测训练赛

北京PM2.5浓度分析训练赛

种一棵树最好的时间是十年前,其次是现在。现在就去,找一个数据集开始吧!!

阅读全文

与在分析数据时应该注意哪些参数相关的资料

热点内容
自贡二手摩托车市场在哪里 浏览:254
交易猫买卖哪个比较靠谱 浏览:851
实验室录入信息是以什么为依据 浏览:246
广州科大技术学院有多少学生 浏览:527
阿里巴巴代理免费代发怎么样 浏览:533
win7如何切换程序窗 浏览:621
烟酰胺原液y02产品质量怎么样 浏览:948
百度旗下还有哪些产品 浏览:187
想做瓷砖代理怎么样 浏览:871
保外就医的程序要走多久 浏览:666
如何用生产许可查产品 浏览:627
如何获得红包的小程序 浏览:915
医院pda信息能储存多久 浏览:342
钢筋代理是怎么回事 浏览:269
迅驰技术什么意思 浏览:344
肖战为什么被称为数据 浏览:770
在分析数据时应该注意哪些参数 浏览:33
一体优盘数据恢复多少钱 浏览:685
代表人诉讼中怎么签订代理合同 浏览:743
怀孕的母猪发烧用什么产品 浏览:898