A. 怎么自学大数据
自学大数据学习路线:(前提:以Java语言为基础)
总共分为四个模块:
大数据基础
大数据框架
大数据项目
其他
第一模块:大数据基础
Java基础:集合,IO流
JVM:重点是项目调优
多线程:理论和项目应用
Linux:最基本的操作
这一个模块的重点是为了面试做准备,个人根据自己的情况去复习,复习的时候理论部分建议看书和博客资料,应用部分建议看视频和Demo调试。
下面分别去详细的介绍一下:
Java基础:集合,IO流
主要是理论部分,可以看书或者博客总结,这一块没什么推荐的,网上很多资料可以找到。
JVM:重点是项目调优
多线程:理论和项目应用
这两块重点要结合到项目中,通过项目中的实际使用,然后反馈到对应的理论基础,这一块建议在B站上看对应的视频。B站”尚硅谷“官网上的视频很详细。
Linux:最基本的操作
这一块有时间,先把《鸟哥的Linux私房菜》这本书看一遍,然后装个Linux系统自己玩玩,对应的最常使用的命令自己敲敲。
如果没时间,就把最常用的命令自己敲敲,网上有对应的总结,自己很容易搜到。一定要自己敲敲。
第二模块:大数据框架
Hadoop:重点学,毕竟大数据是以Hadoop起家的,里面就HDFS,MapReces,YARN三个模块。
Hive:先学会怎么用,当作一个工具来学习。
Spark:重点学,用来替代Hadoop的MapReces的,里面重点有三块:Spark Core,Spark SQL,Spark Streaming。
Flink:我还没学。
Hbase:当作一个工具来学习,先学习怎么用。
Kafka:先学怎么用,其实里面的模块可以先理解成两部分:生产者和消费者。所有的核心都是围绕这两个展开的。
Flume:当作一个工具来学习,先学习怎么用。
Sqoop:当作一个工具来学习,先学习怎么用。
Azkaban:当作一个工具来学习,先学习怎么用。
Scala:这个是一门编程语句,基于Java 而来的,可以工作后在学习。
Zookeeper:当作一个工具来学习,先学习怎么用。
以上的学习视频和资料可以在B站的”尚硅谷“和”若泽大数据“里找到,很详细。资料目前最详细的资料就是各个框架对应的官网。视频里也是对着官网一步一步讲的。官网都是英文的,可以用Google浏览器的翻译插件,翻译成中文后在看。
第三模块:大数据项目
B站的”尚硅谷“和”若泽大数据“。
第四模块:其他
分布式:知道最基本的概念,有个分布式项目的经验。分布式项目可以在B站的”尚硅谷“里找到。
算法:网上有详细的总结,书:推荐《剑指Offer》和《算法4》,看算法的目的是先掌握实现算法的思路然后才是实现方式。
SQL:主要是调优,网上有很详细的总结。
除此之外:Storm框架不要学了。
很多准备前期都是为了面试,例如:JVM和多线程,SQL调优和算法。这些东西真正使用的过程中千差万别,但核心知识不变,所以面试的时候总是会问,这一块的前期以通过面试为主要点。
学习了差不多了,例如:Hadoop,Hive 和Spark学完了,就去面试面试,通过面试的情况在来调整自己的学习。
B. 大数据初学者应该怎么学
大数据大家一定都不陌生,现在这个词几乎是红遍了大江南北,不管是男女老幼几乎都听说过大数据。大数据作为一个火爆的行业,很多人都想从事这方面相关的工作,所以大家就开始加入了学习大数据的行列。
目前,市面上不仅是学习大数据的人数在增加,随之而来的是大数据培训机构数量的迅速上升。因为很多人认为这是一门难学的技术,只有经过培训才能够很好的学习到相关技术,最终完成就业的目的。其实,也并不都是这样的,学习大数据的方法有很多,只有找到适合自己的就能够达到目的。
那么,大数据初学者应该怎么学?
1、如果是零基础的初学者,对于大数据不是很了解,也没有任何基础的话,学习能力弱,自律性差的建议选择大数据培训学习更有效;
2、有一定的基础的学员,虽然对于大数据不是很了解,但有其它方面的编程开发经验,可以尝试去选择自学的方式去学习,如果后期感觉需要大数据培训的话再去报名学习;
3、就是要去了解大数据行业的相关工作都需要掌握哪些内容,然后根据了解的内容去选择需要学习的大数据课程。
大数据学习路线图:
C. 大数据怎么学,自学可以学会吗
零基础学习大数据可以有以下几个步骤:
1、选择一个具体方向
大数据已经初步形成了一个产业链,在数据采集、数据存储、数据安全、数据分析、数据呈现、数据应用等有大量的岗位,不同的岗位需要具备不同的知识结构,所以首先要选择一个适合自己的方向。
2、学习编程等基础知识
大数据的基础知识是数学、统计学和计算机,可以从编程语言开始学起,Python、Java、Scala、R、Go等语言在大数据领域都有一定的应用场景,可以选择一门学习。大数据开发方向建议选择Java、Scala,数据分析方向建议学习Python、R。
3、学习大数据平台知识
入门学习Hadoop或者Spark,Hadoop平台经过多年的发展已经形成了较为完成的应用生态,相关的成熟案例也比较多,产品插件也越来越丰富。
D. 想学大数据,不知道如何入门
零基础学习大数据一般有以下几步:
1、了解大数据理论
2、计算机编程语言学习
3、大数据相关课程学习
4、实战项目
(1)了解大数据理论
要学习大数据你至少应该知道什么是大数据,大数据一般运用在什么领域。对大数据有一个大概的了解,你才能清楚自己对大数据究竟是否有兴趣,如果对大数据一无所知就开始学习,有可能学着学着发现自己其实不喜欢,这样浪费了时间精力,可能还浪费了金钱。所以如果想要学习大数据,需要先对大数据有一个大概的了解。
(2)计算机编程语言的学习
对于零基础的朋友,一开始入门可能不会太简单,大数据学习是需要java基础的,而对于从来没有接触过编程的朋友来说,要从零开始学习,是需要一定的时间和耐心的。
(3)大数据相关课程的学习
一般来说,大数据课程,包括大数据技术入门,海量数据高级分析语言,海量数据存储分布式存储,以及海量数据分析分布式计算等部分,Linux,Hadoop,Scala, HBase, Hive, Spark等专业课程。如果要完整的学习大数据的话,这些课程都是必不可少的。
(4)实战项目
不用多说,学习完任何一门技术,最后的实战训练是最重要的,进行一些实际项目的操作练手,可以帮助我们更好的理解所学的内容,同时对于相关知识也能加强记忆,在今后的运用中,也可以更快的上手,对于相关知识该怎么用也有了经验。
E. 大数据怎么学
其实简单的来说,大数据就是通过分析和挖掘全量的非抽样的数据辅助决策。
大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同的。再比如精准营销、网络的推广、淘宝的喜欢推荐,或者你到了一个地方,自动给你推荐周边的消费设施等等。
很多新手刚开始会考虑自学大数据,时间安排自由,但是新手如何自学大数据是个相当严峻的问题,看视频学大数据可以吗?可以,但问题的关键在于你要找出优质的大数据视频教程,然后要确保自己在学习中无遗漏,并且最好是伴随着你相应的笔记。
新手自学大数据中,特别注意的是要进行项目练习,大数据在刚接触时会有些新鲜感,但是接下来就是一些乏味感,一味的只看不练,那么学起来更乏味,大数据本身也是门需要大量项目练习巩固知识的专业,不多多进行项目练习,那么很大程度上就等于白学,学不能致用。
新手自学大数据难吗?其实相当有难度,大数据知识学习起来其实还满杂的,既得学大数据基础,又得掌握很多统计学等等的知识,自学大数据一个人的视野也毕竟有限,遇到难题时,想找个人一起商讨如何解决,难,想证明自己所做的数据分析正确全面,但是无人可证。
没有基础的,我是建议去找一个专业的学习去学习,会大大的缩减学习时间以及提高学习效率
F. 如何开始学习大数据
那么大数据从0开始需要学习些什么内容呢?可以先从这里开始:
1、0基础学习大数据需要Java基础
可以说是大数据最基础的编程语言,一是大数据的本质是海量数据的计算,查询与存储,后台开发很容易接触到大数据量存取的应用场景;二是Java天然的优势,大数据的组件很多是用Java开发的。
零基础小白想学习大数据,需要从Java基础开始学起,可以把Java语言作为第一个入门语言。一般来说,学会JavaSE就可以了,但能掌握JavaEE的话会更好。
2、学习Linux系统管理、Shell编程设计、Maven
大数据技术往往运行在Linux环境下,大数据的分布式集群(Hadoop,Spark)都是搭建在多台Linux系统上,对集群的执行命令都是在Linux终端窗口输入......想从事大数据相关工作,需要掌握Linux系统操作方法和相关命令。
G. 大数据怎么学,是不是还要学习编程
一般学大数据就是面授,线上学大数据效果并不理想,选择大数据培训机构的时候一定要好好的了解机构的口碑、师资、就业、课程、费用等等方面的情况,多对比几家机构,如果条件允许就去实地考察一下,希望你能找到好的大数据培训机构。
H. 大数据怎么学习
第一阶段:大数据技术入门
1大数据入门:介绍当前流行大数据技术,数据技术原理,并介绍其思想,介绍大数据技术培训课程,概要介绍。
2Linux大数据必备:介绍Lniux常见版本,VMware虚拟机安装Linux系统,虚拟机网络配置,文件基本命令操作,远程连接工具使用,用户和组创建,删除,更改和授权,文件/目录创建,删除,移动,拷贝重命名,编辑器基本使用,文件常用操作,磁盘基本管理命令,内存使用监控命令,软件安装方式,介绍LinuxShell的变量,控制,循环基本语法,LinuxCrontab定时任务使用,对Lniux基础知识,进行阶段性实战训练,这个过程需要动手操作,将理论付诸实践。
3CM&CDHHadoop的Cloudera版:包含Hadoop,HBase,Hiva,Spark,Flume等,介绍CM的安装,CDH的安装,配置,等等。
第二阶段:海量数据高级分析语言
Scala是一门多范式的编程语言,类似于java,设计的初衷是实现可伸缩的语言,并集成面向对象编程和函数式编程的多种特性,介绍其优略势,基础语句,语法和用法, 介绍Scala的函数,函数按名称调用,使用命名参数函数,函数使用可变参数,递归函数,默认参数值,高阶函数,嵌套函数,匿名函数,部分应用函数,柯里函数,闭包,需要进行动手的操作。
第三阶段:海量数据存储分布式存储
1HadoopHDFS分布式存储:HDFS是Hadoop的分布式文件存储系统,是一个高度容错性的系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,介绍其的入门基础知识,深入剖析。
2HBase分布式存储:HBase-HadoopDatabase是一个高可靠性,高性能,面向列,可伸缩的分布式存储系统,利用HBase技术可在廉价PC上搭建起大规模结构化存储集群,介绍其入门的基础知识,以及设计原则,需实际操作才能熟练。
第四阶段:海量数据分析分布式计算
1HadoopMapRece分布式计算:是一种编程模型,用于打过莫数据集的并行运算。
2Hiva数据挖掘:对其进行概要性简介,数据定义,创建,修改,删除等操作。
3Spare分布式计算:Spare是类MapRece的通用并行框架。
第五阶段:考试
1技术前瞻:对全球最新的大数据技术进行简介。
2考前辅导:自主选择报考工信部考试,对通过者发放工信部大数据技能认证书。
上面的内容包含了大数据学习的所有的课程,所以,如果有想学大数据的可以从这方面下手,慢慢的了解大数据。
I. 大数据怎么学
一、数据分析师有哪些要求?
1、理论要求及对数字的敏感性,包括统计知识、市场研究、模型原理等。
2、工具使用,包括挖掘工具、数据库、常用办公软件(excel、PPT、word、脑图)等。
3、业务理解能力和对商业的敏感性。对商业及产品要有深刻的理解,因为数据分析的出发点就是要解决商业的问题,只有理解了商业问题,才能转换成数据分析的问题,从而满足部门的要求。
4、汇报和图表展现能力。这是临门一脚,做得再好的分析模型,如果不能很好地展示给领导和客户,成效就大打折扣,也会影响到数据分析师的职业晋升。
二、请把数据分析作为一种能力来培养
从广义来说,现在大多数的工作都需要用到分析能力,特别是数据化运营理念深入的今天,像BAT这样的公司强调全员参与数据化运营,所以,把它作为一种能力培训,将会让你终生受益。
三、从数据分析的四个步骤来看清数据分析师需具备的能力和知识:
数据分析的四个步骤(这有别于数据挖掘流程:商业理解、数据理解、数据准备、模型搭建、模型评估、模型部署),是从更宏观地展示数据分析的过程:获取数据、处理数据、分析数据、呈现数据。
(一) 获取数据
获取数据的前提是对商业问题的理解,把商业问题转化成数据问题,要通过现象发现本质,确定从哪些纬度来分析问题,界定问题后,进行数据的采集。此环节,需要数据分析师具备结构化的思维和对商业问题的理解能力。
推荐书籍:《金字塔原理》、麦肯锡三部曲:《麦肯锡意识》、《麦肯锡工具》、《麦肯锡方法》
工具:思维导图、mindmanager软件
(二) 处理数据
一个数据分析项目,通常数据处理时间占70%以上,使用先进的工具有利于提升效率,所以尽量学习最新最有效的处理工具,以下介绍的是最传统的,但却很有效率的工具:
Excel:日常在做通报、报告和抽样分析中经常用到,其图表功能很强大,处理10万级别的数据很轻松。
UltraEdit:文本工具,比TXT工具好用,打开和运行速度都比较快。
ACCESS:桌面数据库,主要是用于日常的抽样分析(做全量统计分析,消耗资源和时间较多,通常分析师会随机抽取部分数据进行分析),使用SQL语言,处理100万级别的数据还是很快捷。
Orcle、SQL sever:处理千万级别的数据需要用到这两类数据库。
当然,在自己能力和时间允许的情况下,学习新流行的分布式数据库及提升自身的编程能力,对未来的职业发展也有很大帮助。
分析软件主要推荐:
SPSS系列:老牌的统计分析软件,SPSS Statistics(偏统计功能、市场研究)、SPSS Modeler(偏数据挖掘),不用编程,易学。
SAS:老牌经典挖掘软件,需要编程。
R:开源软件,新流行,对非结构化数据处理效率上更高,需编程。
随着文本挖掘技术进一步发展,对非结构化数据的分析需求也越来越大,需要进一步关注文本挖掘工具的使用。
(三) 分析数据
分析数据,需要用到各类的模型,包括关联规则、聚类、分类、预测模型等,其中一个最重要的思想是对比,任何的数据需要在参照系下进行对比,结论才有意义。
推荐的书籍:
1、《数据挖掘与数据化运营实战,思路、方法、技巧与应用》,卢辉着,机械出版社。这本书是近年国内写得最好的,务必把它当作圣经一样来读。
2、《谁说菜鸟不会数据分析(入门篇)》和《谁说菜鸟不会数据分析(工具篇)》,张文霖等编着。属于入门级的书,适合初学者。
3、《统计学》第五版,贾俊平等编着,中国人民大学出版社。比较好的一本统计学的书。
4、《数据挖掘导论》完整版,[美]Pang-Ning Tan等着,范明等翻译,人民邮电出版社。
5、《数据挖掘概念与技术》,Jiawei Han等着,范明等翻译,机械工业出版社。这本书相对难一些。
6、《市场研究定量分析方法与应用》,简明等编着,中国人民大学出版社。
7、《问卷统计分析实务—SPSS操作与应用》,吴明隆着,重庆大学出版社。在市场调查领域比较出名的一本书,对问卷调查数据分析讲解比较详细。
(四) 呈现数据
该部分需要把数据结果进行有效的呈现和演讲汇报,需要用到金字塔原理、图表及PPT、word的呈现,培养良好的演讲能力。
J. 大数据应该怎么学有哪些要求
“大数据”就是一些把我们需要观察的对象数据化,然后把数据输入计算机,让计算机对这些大量的数据进行分析之后,给出我们一些结论。
①JavaSE核心技术;
②Hadoop平台核心技术、Hive开发、HBase开发;
③Spark相关技术、Scala基本编程;
④掌握Python基本使用、核心库的使用、Python爬虫、简单数据分析;理解Python机器学习;
⑤大数据项目开发实战,大数据系统管理优化等。
你可以考察对比一下南京课工场、北大青鸟、中博软件学院等开设有大数据专业的学校。祝你学有所成,望采纳。
北大青鸟中博软件学院大数据毕业答辩