A. 如何学习成为一名数据分析师
学习数据分析师之前,你必须清楚自己想要达成什么目标。也就是说,你想通过这门技术来解决哪些问题或实现什么计划。有了这个目标,你才能清晰地开展自己的学习规划,并且明确它的知识体系。
B. 如何快速成为数据分析师
1、技能一:理解数据库。
还以为要与文本数据打交道吗?答案是:NO!进入了这个领域,你会发现几乎一切都是用数据库 来存储数据,如MySQL,Postgres,CouchDB,MongoDB,Cassandra等。理解数据库并且能熟练使用它,将是一个基础能力。
2、技能二:掌握数据整理、可视化和报表制作。
数据整理,是将原始数据转换成方便实用的格式,实用工具有DataWrangler和R。数据可视化,是创建和研究数据的视觉表现,实用工具有ggvis,D3,vega。数据报表是将数据分析和结果制作成报告。也是数据分析师的一个后续工作。这项技能是做数据分析师的主要技能。可以借助新型软件帮助自己迅速学会分析。
3、技能三:懂设计
说到能制作报表成果,就不得不说说图表的设计。在运用图表表达数据分析师的观点时,懂不懂设计直接影响到图形的选择、版式的设计、颜色的搭配等,只有掌握设计原则才能让结果一目了然。否则图表杂乱无章,数据分析内容不能良好地呈现出来,分析结果就不能有效地传达。
4、技能四:几项专业技哗陵大能
统计学技能——统计学是数据分析的基础,掌握统计学的基本知识是数据分析师的基本功。从数据采集、抽样到具体分析时的验证探索和预测都要用到统计汪纳学。
社会学技能——从社会化角度看,人有社会性,收群体心理的影响。数据分析师没有社乱竖会学基本技能,很难对市场现象做出合理解释。
另外,最好还能懂得财务管理知识和心理学概况。这些都将会使你做数据分析的过程更容易。
5、技能五:提升个人能力。
有了产品可以将数据展示出来,还需要具备基本的分析师能力。首先,要了解模型背后的逻辑,不能单纯地在模型中看,而要放到整个项目的上下文中去看。要理解数据的信息,形成一个整体系统,这样才能够做好细节。另外,与数据打交道,细心和耐心也是必不可少的。
6、技能六:随时贴近数据文化
拥有了数据分析的基本能力,还怕不够专业?不如让自己的生活中充满数据分析的气氛吧!试着多去数据分析的论坛看看,多浏览大数据知识的网站,让自己无时无刻不在进步,还怕不能学会数据分析吗?
拥有这些技能,再去做数据分析,数据将在你手里变得更亲切,做数据分析也会更简单更便捷,速成数据分析师不再遥远。
(2)如何练数据分析扩展阅读:
企业对数据分析师的基础技能需求差别不大,可总结如下:
SQL数据库的基本操作,会基本的数据管理
会用Excel/SQL做基本的数据分析和展示
会用脚本语言进行数据分析,Python or R
有获取外部数据的能力,如爬虫
会基本的数据可视化技能,能撰写数据报告
熟悉常用的数据挖掘算法:以回归分析为主
C. 零基础学习数据分析要做哪些准备
1.统计学相关知识统计学是数据分析的基础,因为数据分析需要对大量数据进行统计分析,大家可以通过对统计学的学习,培养数据分析最基本的一些逻辑思维。
2. EXCEL
不要小看EXCEL,它可是最初级的数据分析工具,在处理的数据量不是很大时,EXCEL完全可以胜任。而且大家都有一定基础,平时工作中也经常用,学习起来应该很容易,重点应该加强对于各类函数以及EXCEL数据可视化的学习。
3.代码语言的了解
数据分析需要使用的工具很多,例如python、SQL等,这些都需要强大的代码知识做支撑,所以有想学习数据分析的小伙伴可以在学习之前初步对代码有一个了解,这样不至于真正学习起来手足无措。
关于零基础学习数据分析要做哪些准备,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
D. 如何学习数据分析
对于自学数据分析,很多零基础的小伙伴都有以下的疑问。
“我数学不好身,可以学习数据分析吗?”
“我英语不好,可以成为数据分析师吗?”
“我没有编程基础可以学习数据分析吗?”
......
其实学习数据分析要比想象中容易得多,通常一提到数据分析就会想到各种数据和编程,让人头大,让很多零基础的小伙伴不知道如何下手学习。但是在IT行业中,数据分析往往是最容易入门和学习的,薪资也是比较高的,很多零基础的小伙伴被数据分析吓到劝退往往是不知道怎么样高效学习,没有找到适合自己的方法。想要了解更多,点击下方链接就能找到我。
接下来就讲讲如何自学数据分析,学习步骤如下
自学数据分析推荐书籍
数据分析常用的工具
数据分析常见面试问题
一些小建议
1.自学数据分析推荐书籍
入门篇
对于刚走上数据分析这条路的小白们,面对每天的工作可能已经手忙脚乱,但工作后面的逻辑及工具的应用,真的已经了解了吗?
从事数据分析的小白们,很多都和一样是半路出家,甚至有些文科的小伙伴,也对数据分析非常感兴趣。但是喜欢归喜欢,基础的知识还是得必备。
1. 《深入浅出数据分析》
这本书可以说是很多数据分析师的启蒙书籍。
怎么提升销量、怎么分析a门店比b门店好、怎么进行细分分析和对比分析......在读完这本书之后,跟着Acme在重重挑战之下,对数据分析有了一个整体认识。
2. 《深入浅出统计学》
什么是统计?什么是众数、异常值、四分位数?几何分布,泊松分布,二项分布又是什么?如何对数据进行预测?预测数据和置信区间又有什么关系?
这些名词是不是很可怕?没事,这本书写得非常浅显易懂,很多图片和对话,像看漫画书一样,把统计学学了。
3. 《谁说菜鸟不会数据分析》
牛老板和应届生小白之间的职场小故事,像看一本小说一样,但是其中会告诉你什么是数据分析,处理数据的技巧,提升图表之美,如何建立结构化思维等等。和第一本书类似,看书也是多多益善嘛~
4. 《漫画统计学》
这本书真的是以漫画的形式来讲统计学了,在诙谐的人物肢体和幽默的对话之间,传达统计知识,让无聊的数字变得生动有趣。
这本书可以在闲暇又不想学习的时候来打发时间呀,既学到了知识,又没那么累。
进阶篇
想必这段时间,小白们也有了一定的工作经验,对于数据分析有了稍微具体的认识。这时的目标是学习更加系统的数据思维。
5. 《商务与经济统计》
戴维 R.安德森的这本书,把数据处理、数据分析、业务三者相结合,还有不少统计学的知识。
记得以前看这本书的时候,拿着赠送的数据一边模拟操作,一边学习。在实践中对处理方法更加熟练,也对业务当中的数据分析有了更加立体的认识。
6. 《机器学习》
周志华先生写的这本《机器学习》,俗称西瓜书,是用西瓜的例子来引导一个又一个算法的介绍及应用。
跟着这本书,倒是学会了用Python编了个聚类算法,哈哈。不过这本书比较难,没有一定的统计基础和编程基础,还是就了解了解吧。想要学习更多数据分析知识,点击下方链接找到我。
2.数据分析常用的工具
(一)、常见数据分析工具
①、EXCEL
EXCEL可以说是数据分析师最常用的统计分析工具,它
使用广泛,容易上手,小规模数据的处理成本低,样式处理方便。
应该说只有学会了Vlookup,数据透视和基本公式才算EXCEL入门。
②、SQL
作为数据分析人员,要想获取数据,肯定就要和数据库打交道,因此sql肯定是要掌握的,在招聘要求中,sql也是很多数据分析岗位的能力要求之一。
SQL具有行业通用的优势,它的语法简单,独立于数据库本身。
③、Python
Python作为目前最火的编程软件之一,确实在数据分析、数据挖掘上有着独特优势。它主要用于做一些像数据挖掘的项目,或者说一些数据可视化等等。
④、PPT
那么最后,数据呈现,分析报告主要就是由PPT来实现,它是将分析关键结果传递给其他的重要手段。
学好PPT可以提升沟通和消息传递效率,也是数据分析师必备的技能。
E. 如何成为一个数据分析师需要具备哪些技能
接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。
数据获取:公开数据、Python爬虫
如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。
外部数据的获取方式主要有以下两种。
第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。
另一种获取外部数据费的方式就是爬虫。
比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。
在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)……以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从 urllib 和 BeautifulSoup 开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)
网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。
掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫限制。
除此之外,常用的的电商网站、问答网站、点评网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。
数据存取:SQL语言
你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也需要懂得SQL的操作,能够查询、提取数据。
SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:
提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2018年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。
数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。
数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。
数据预处理:Python(pandas)
很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。
比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。
那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。
对于数据预处理,学会 pandas 的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:
选择:数据访问(标签、特定值、布尔索引等)
缺失值处理:对缺失数据行进行删除或填充
重复值处理:重复值的判断与删除
空格和异常值处理:清楚不必要的空格和极端、异常数据
相关操作:描述性统计、Apply、直方图等
合并:符合各种逻辑关系的合并操作
分组:数据划分、分别执行函数、数据重组
Reshaping:快速生成数据透视表
概率论及统计学知识
数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:
基本统计量:均值、中位数、众数、百分位数、极值等
其他描述性统计量:偏度、方差、标准差、显着性等
其他统计知识:总体和样本、参数和统计量、ErrorBar
概率分布与假设检验:各种分布、假设检验流程
其他概率论知识:条件概率、贝叶斯等
有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了,比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何……
你可以使用python的包 Seaborn(python包)在做这些可视化的分析,你会轻松地画出各种可视化图形,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,已验证结果是否在可接受的范围。
python数据分析
如果你有一些了解的话,就知道目前市面上其实有很多 Python 数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用 Python 实现不同案例的假设检验,其实你就可以对数据进行很好的验证。
比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。比如DataCastle的训练竞赛“房价预测”和“职位预测”,都可以通过回归分析实现。这部分需要掌握的知识点如下:
回归分析:线性回归、逻辑回归
基本的分类算法:决策树、随机森林……
基本的聚类算法:k-means……
特征工程基础:如何用特征选择优化模型
调参方法:如何调节参数优化模型
Python 数据分析包:scipy、numpy、scikit-learn等
在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。
当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类,然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。
系统实战
这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战。能够独立完成分析任务,那么你就已经打败市面上大部分的数据分析师了。
如何进行实战呢?
上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。
另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。
开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。
你也可以看看行业的分析报告,看看优秀的分析师看待问题的角度和分析问题的维度,其实这并不是一件困难的事情。
在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如 DataCastle 为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排名:
员工离职预测训练赛
美国King County房价预测训练赛
北京PM2.5浓度分析训练赛
种一棵树最好的时间是十年前,其次是现在。现在就去,找一个数据集开始吧!!
F. 怎么培养数据分析的能力
2、工具实践
(1)对于入门小白,建议从Excel工具入手,这里以Excel为例:
学习Excel是一个循序渐进的过程:
基础的:简单的表格数据处理、打印、查询、筛选、排序
函数和公式:常用函数、高级数据计算、数组公式、多维引用、function
可视化图表:图形图示展示、高级图表、图表插件
数据透视表、VBA程序开发......
多逛逛excelhome论坛,平常多思考如何用excel来解决问题,学习用各种插件,对能够熟练使用Excel都有帮助。
其中,函数和数据透视表是两个重点。
函数
制作数据模板必须掌握的excel函数:
日期函数:day,month,year,date,today,weekday,weeknum 日期函数是做分析模板的必备,可以用日期函数来控制数据的展示,查询指定时间段的数据。
数学函数:proct,rand,randbetween,round,sum,sumif,sumifs,sumproct
统计函数:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif,averageifs 统计函数在数据分析中具有举足轻重的作用,求平均值,最大值,中位数,众位数都用得到。
查找和引用函数:choose,match,index,indirect,column,row,vlookup,hlookup,lookup,offset,getpivotdata 这几个函数的作用不用多说,特别是vlookup,不会这个函数基本上复杂报表寸步难行。
文本函数:find,search,text,value,concatenate,left,right,mid,len 这几个函数多半用在数据整理阶段使用。
逻辑函数:and,or,false,true,if,iferror
(以上学会,基本能秒杀90%的办公室白领!)
数据透视表
数据透视表的作用是把大量数据生成可交互的报表,它具有这样一些重要功能:分类汇总、取平均、最大最小值、自动排序、自动筛选、自动分组;可分析占比、同比、环比、定比、自定义公式等
现实中,取数或报表+EXCEL+PPT似乎还是主流形式。
工具上,无论是业务人员还是分析人员,都可以通过自动取数工具或者BI工具来制作报表,减少重复操作的时间。
其次,增加与业务人员的沟通,充分了解业务需求,当你的业务水平和他们差不多甚至更高时,自然而然知道他们一言两语背后真实的需求是什么了。
最后,站在更高角度上,报表的基本粒度就是指标,可梳理出企业的基本指标体系,从经营分析的角度去做报表,把报表的工作标准化,降低报表的冗余,避免动不动就做一张报表。标准化包括指标分类,指标命名,业务口径,技术口径,实现方式等等。其实,最终目的是实现报表数据一致性,减少重复报表开发,降低系统开销的战略性举措。
在业余时间,可以多补充数理统计知识,学习R、Python语言,学习常用的挖掘模型,往高级分析师路上发展!
一起加油鸭!
以上,就是今天的分享,数据分析能力听起来很大很抽象,虽是软实力但却是行业的硬要求!量变引起质变,一步步来,才能做到触类旁通,做起项目才会越来越顺手。
G. 如何自学数据分析
第一方面是数学基础,第二方面是统计学基础,第三方面是计算机基础。要想在数据分析的道路上走得更远,一定要注重数学和统计学的学习。数据分析说到底就是寻找数据背后的规律,而寻找规律就需要具备算法的设计能力,所以数学和统计学对于数据分析是非常重要的。
而想要快速成为数据分析师,则可以从计算机知识开始学起,具体点就是从数据分析工具开始学起,然后在学习工具使用过程中,辅助算法以及行业致死的学习。学习数据分析工具往往从Excel工具开始学起,Excel是目前职场人比较常用的数据分析工具,通常在面对10万条以内的结构化数据时,Excel还是能够胜任的。对于大部分职场人来说,掌握Excel的数据分析功能能够应付大部分常见的数据分析场景。
在掌握Excel之后,接下来就应该进一步学习数据库的相关知识了,可以从关系型数据库开始学起,重点在于Sql语言。掌握数据库之后,数据分析能力会有一个较大幅度的提升,能够分析的数据量也会有明显的提升。如果采用数据库和BI工具进行结合,那么数据分析的结果会更加丰富,同时也会有一个比较直观的呈现界面。
数据分析的最后一步就需要学习编程语言了,目前学习Python语言是个不错的选择,Python语言在大数据分析领域有比较广泛的使用,而且Python语言自身比较简单易学,即使没有编程基础的人也能够学得会。通过Python来采用机器学习的方式实现数据分析是当前比较流行的数据分析方式。