导航:首页 > 数据处理 > 数据怎么学的

数据怎么学的

发布时间:2025-03-01 22:20:30

大数据怎么学,自学可以学会吗

零基础学习大数据可以有以下几个步骤:

1、选择一个具体方向

大数据已经初步形成了一个产业链,在数据采集、数据存储、数据安全、数据分析、数据呈现、数据应用等有大量的岗位,不同的岗位需要具备不同的知识结构,所以首先要选择一个适合自己的方向。

2、学习编程等基础知识

大数据的基础知识是数学、统计学和计算机,可以从编程语言开始学起,Python、Java、Scala、R、Go等语言在大数据领域都有一定的应用场景,可以选择一门学习。大数据开发方向建议选择Java、Scala,数据分析方向建议学习Python、R。

3、学习大数据平台知识

入门学习Hadoop或者Spark,Hadoop平台经过多年的发展已经形成了较为完成的应用生态,相关的成熟案例也比较多,产品插件也越来越丰富。

⑵ 大数据初学者应该怎么学

大数据大家一定都不陌生,现在这个词几乎是红遍了大江南北,不管是男女老幼几乎都听说过大数据。大数据作为一个火爆的行业,很多人都想从事这方面相关的工作,所以大家就开始加入了学习大数据的行列。

目前,市面上不仅是学习大数据的人数在增加,随之而来的是大数据培训机构数量的迅速上升。因为很多人认为这是一门难学的技术,只有经过培训才能够很好的学习到相关技术,最终完成就业的目的。其实,也并不都是这样的,学习大数据的方法有很多,只有找到适合自己的就能够达到目的。

那么,大数据初学者应该怎么学?

1、如果是零基础的初学者,对于大数据不是很了解,也没有任何基础的话,学习能力弱,自律性差的建议选择大数据培训学习更有效;

2、有一定的基础的学员,虽然对于大数据不是很了解,但有其它方面的编程开发经验,可以尝试去选择自学的方式去学习,如果后期感觉需要大数据培训的话再去报名学习;

3、就是要去了解大数据行业的相关工作都需要掌握哪些内容,然后根据了解的内容去选择需要学习的大数据课程。

大数据学习路线图:

⑶ 初学者怎么学大数据

近日,笔者收到了大量的网友提问留言,绝大部分是关于大数据领域的问题。这一干问题中,提问频率最高的一个问题是有人问道:初学者怎么学大数据,要学多久?我们现在就来详细讲讲,初学者怎么学大数据,要学多久,这个话题,电脑培训来消除大家心中的疑问。


1:首先我们先说一下,大数据要学哪些东西,让大家对于这门技术有个基本的概念。合格的大数据工程师,需要熟悉MySQL等关系型数据库,掌握数据库应用开发;掌握Java/Scala/Shell语言,能熟练进行Hadoop/spark/HBase/storm之上的开发;7、熟悉java各种编程方法,比如多线程jniidl等,熟悉JVM的运行机制等。

2:除此之外,还需要熟悉storm/spark/kafka、熟悉Hadoop生态系统各功能组件、熟悉源码,熟悉sparkstieaming;熟悉大数据基础架构,对流式系统、并行计算、实时流计算等技术有较深理解;熟悉python、Mahout数据挖掘和机器学习等等。

3:从以上就能看出来,大数据工程师需要掌握的技能是很多的,初学者学大数据的话,最好是参加专业的培训,这是最省时省力效率最高的办法。北大青鸟不少学大数据的学员,哪怕是零基础,也能5个月快速学好这门技术,在就业老师一对一的帮助下,很快能满意就业。


⑷ 怎样进行大数据的入门级学习

怎样进行大数据的入门级学习?

文 | 郭小贤

数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。

但从狭义上来看,我认为数据科学就是解决三个问题:

1. datapre-processing;(数据预处理)

2. datainterpretation;(数据解读)

3.datamodeling and analysis.(数据建模与分析)

这也就是我们做数据工作的三个大步骤:

1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;

2、我们想看看数据“长什么样”,有什么特点和规律;

3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。

这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。

这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说R和Python。但既然是荐数据科学方面的书,我这里就不提R/Python编程基础之类的书了,直接上跟数据科学相关的。

R programming

如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:

R inaction:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics(http://cran.r-project.org/doc/contrib/usingR.pdf),stackoverflow上有tag-R的问题集(Newest ‘r’ Questions),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。

Dataanalysis and graphics using R:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。

但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:

Modernapplied statistics with S:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)

Datamanipulation with R:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。

RGraphics Cookbook:想用R做可视化,就用这本书吧。150多个recipes,足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看,R是最容易做出最漂亮的图表的工具了。

Anintroction to statistical learning with application in R:这本书算是着名的the element of statistical learning的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。

Ahandbook of statistical analysis using R:这本书内容同样非常扎实,很多统计学的学生就是用这本书来学习用R来进行统计建模的。

Python

Think Python,ThinkStats,Think Bayes:这是AllenB. Downey写的着名的Think X series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。

PythonFor Data Analysis: 作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。

Introctionto Python for Econometrics, Statistics and DataAnalysis:这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。

PracticalData Analysis: 这本书挺奇葩,貌似很畅销,但作者把内容安排得东一榔头西一棒子,什么都讲一点,但一个都没讲透。这本书可以作为我们学习数据分析的一个索引,看到哪块内容有意思,就顺着它这个藤去摸更多的瓜。

PythonData Visualization Cookbook: 用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。

Exploratory Data Analysis 和 Data Visualization

Exploratory DataAnalysis:John Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了,内容略过时。要想完整地了解EDA,推荐下一本:

ExploratoryData Analysis with MATLAB:这本书虽然标题带了个MATLAB,但实际上内容几乎没怎么讲MATLAB,只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于,这是我读过的讲EDA最系统的一本书,除了对visualization有不输于John Tucky的讲解外,对于高维的数据集,通过怎样的方法才能让我们从中找到潜在的pattern,这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码,而且还提供了GUI(图形用户界面)。所以这本书学起来还是相当轻松愉悦的。

VisualizeThis:中译本叫“鲜活的数据”,作者是个“超级数据迷”,建立了一个叫http://flowingdata.com的网页展示他的数据可视化作品,这本书告诉你该选择什么样的可视化工具,然后告诉你怎样visualize关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo(A TourThrough the Visualization Zoo)

Machine Learning & Data Mining

这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名着“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep learning这两块就不荐书了。

TheElement of Statistical Learning:要学机器学习,如果让我只推荐一本书,我就推荐这本巨着。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用R语言的ggplot2做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。

DataMining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。

其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有data scientist都要用到,所以这一块就不再细说。

还有一些印象比较深刻的书:

Big DataGlossary: 主要讲解大数据处理技术及工具,内容涵盖了NoSQL,MapRece,Storage,Servers,NLP库与工具包,机器学习工具包,数据可视化工具包,数据清洗,序列化指南等等。总之,是一本辞典式的大数据入门指导。

Mining ofMassive Datasets:这本书是斯坦福大学Web Mining的讲义,里面很多内容与韩家炜的Data Mining那本书重合,但这本书里详细地讲了MapRece的设计原理,PageRank(Google创业时期的核心排序算法,现在也在不断优化更新)讲解得也比较详细。

DevelopingAnalytic Talent: 作者是个从事了十几年数据工作的geek,技术博客写得很有个人风格,写的内容都比较偏门,通常只有具备相关数据处理经验的人能体会出来,丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办,或者MapRece在什么时候不好用的问题,才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结,用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。

Past, Present and Future of Statistical Science:这本书是由COPSS(统计学社主席委员会,由国际各大统计学会的带头人组成)在50周年出版的一本纪念册,里面有50位统计学家每人分别贡献出的一两篇文章,有的回忆了自己当年如何走上统计学这条路,有的探讨了一些统计学的根本问题,有的谈了谈自己在从事的前沿研究,有的则给年轻一代写下了寄语。非常有爱的一本书。

其它资料

Harvard Data Science:这是H大的Data science在线课,我没有修过,但口碑很好。这门课需要费用8千刀左右,比起华盛顿大学的4千刀的Data science在线课虽贵一倍,但比斯坦福的14千刀要便宜将近一半(而且斯坦福的更偏计算机)。如果想自学,早有好心人分享了slides:(https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing)和homeworks and solutions: (https://github.com/cs109/content)

PyData:PyData是来自各个domain的用Python做数据的人每年举行一次的聚会,期间会有各路牛人举行一些规模不大的seminar或workshop,有好心人已经把video上传到github,有兴趣的去认领吧(DataTau/datascience-anthology-pydata · GitHub)

工具

R/Python/MATLAB(必备):如果是做数据分析和模型开发,以我的观察来看,使用这三种工具的最多。R生来就是一个统计学家开发的软件,所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具,但因为很多人不是专业做数据的,做数据还是为了自己的domain expertise(特别是科学计算、信号处理等),而MATLAB又是个强大无比的Domain expertise工具,所以很多人也就顺带让MATLAB也承担了数据处理的工作,虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件,但作为一个面向对象的高级动态语言,其开源的生态使Python拥有无比丰富的库,Numpy, Scipy 实现了矩阵运算/科学计算,相当于实现了MATLAB的功能,Pandas又使Python能够像R一样处理dataframe,scikit-learn又实现了机器学习。

SQL(必备):虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展,但对于很多人来说,他们每天都有处理数据的需要,但可能一辈子都没机会接触TB级的数据。不管怎么说,不论是用关系型还是非关系型数据库,SQL语言是必须要掌握的技能,用什么数据库视具体情况而定。

MongoDB(可选):目前最受欢迎的非关系型数据库NoSQL之一,不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用,扩展性强,Web2.0时代的必需品。

Hadoop/Spark/Storm(可选): MapRece是当前最着名也是运用最广泛的分布式计算框架,由Google建立。Hadoop/Spark/storm都是基于MapRece的框架建立起来的分布式计算系统,要说他们之间的区别就是,Hadoop用硬盘存储数据,Spark用内存存储数据,Storm只接受实时数据流而不存储数据。一言以蔽之,如果数据是离线的,如果数据比较复杂且对处理速度要求一般,就Hadoop,如果要速度,就Spark,如果数据是在线的实时的流数据,就Storm。

OpenRefine(可选):Google开发的一个易于操作的数据清洗工具,可以实现一些基本的清洗功能。

Tableau(可选):一个可交互的数据可视化工具,操作简单,开箱即用。而且图表都设计得非常漂亮。专业版1999美刀,终身使用。媒体和公关方面用得比较多。

Gephi(可选):跟Tableau类似,都是那种可交互的可视化工具,不需要编程基础,生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。

来自知乎

以上是小编为大家分享的关于怎样进行大数据的入门级学习?的相关内容,更多信息可以关注环球青藤分享更多干货

⑸ 初学数据库应该从何学起

初学数据库应该从以下几点进行学习:

一、编程语言基础
新手学大数据,首先要掌握基础的编程语言基础,比如Java、C++等,要初步掌握面向的对象、抽象类、接口及数据流及对象流等基础,如果有疑问,可以去网上搜索相关书籍,再结合自己的疑问去翻书,就能很快的熟悉了解数据库的基础技术原理。
二、Linux系统的基本操作
Linux系统的基本操作是大数据不可分割的一部分,企业的MySQL大数据的组件都是跑在linux环境下的,所以学会linux常用命令不能缺少,重点是要学习一下Linux环境的搭建,搭建平台,,能写shell程序就会更好了。
三、学习Hadoop架构设计
要学大数据,首先要了解的是如何在单台Windows系统上通过虚拟机搭建多台Linux虚拟机,从而构建Hadoop集群,再建立spark开发环境,环境搭建成功后在网上搜罗一些demo,sql脚本之类,直接动手敲进去一点一点体会。
四、采用机器学习模式
为了发挥出大数据的优势,提升你的办公效率,就需要实操并应用其中的内容,必然也会涉及大量机器学习及算法,这能最大化的发挥出计算机的性能,也是大数据的优势所在。

想了解更多有关数据库的相关信息,推荐咨询达内教育。作为国内IT培训的领导品牌,达内的每一名员工都以“帮助每一个学员成就梦想”为己任,也正因为达内人的执着与努力,达内已成功为社会输送了众多合格人才,为广大学子提供更多IT行业高薪机会,同时也为中国IT行业的发展做出了巨大的贡献。

⑹ 零基础应该如何学习大数据

首先,学习大数据我们就要认识大数据,大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性)。

其次,学习有关大数据课程的内容,第一阶段:Java语言基础(只只需要学习Java的标准版JavaSE就可以了,做大数据不需要很深的Java 技术,当然Java怎么连接数据库还是要知道);

第二阶段:Linux精讲(因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑);

第三阶段:Hadoop生态系统(这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapRece是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。)

第四阶段:strom实时开发(torm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。)

第五阶段:Spark生态体系(它是用来弥补基于MapRece处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。);

第六阶段:大数据项目实战(大数据实战项目可以帮助大家对大数据所学知识更加深刻的了解、认识,提高大数据实践技术)。

关于零基础应该如何学习大数据,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

⑺ 如何学习数据分析

对于自学数据分析,很多零基础的小伙伴都有以下的疑问。


“我数学不好身,可以学习数据分析吗?”

“我英语不好,可以成为数据分析师吗?”

“我没有编程基础可以学习数据分析吗?”

......

其实学习数据分析要比想象中容易得多,通常一提到数据分析就会想到各种数据和编程,让人头大,让很多零基础的小伙伴不知道如何下手学习。但是在IT行业中,数据分析往往是最容易入门和学习的,薪资也是比较高的,很多零基础的小伙伴被数据分析吓到劝退往往是不知道怎么样高效学习,没有找到适合自己的方法。想要了解更多,点击下方链接就能找到我。


接下来就讲讲如何自学数据分析,学习步骤如下

阅读全文

与数据怎么学的相关的资料

热点内容
哪些农副产品可以消除秋燥 浏览:723
微信莆田鞋小程序叫什么 浏览:312
银行卡预留信息填哪些 浏览:658
插排灯泡属于什么产品 浏览:810
什么是重要经济信息源 浏览:147
香港通关信息在哪里看 浏览:933
丽江买车票在哪个小程序上面买 浏览:431
代理安踏品牌怎么样 浏览:286
为什么渔副产品价格高 浏览:244
精准抓取技术怎么样 浏览:258
薇诺娜如何代理权 浏览:413
孩子姓名看父母哪些信息 浏览:697
如何参照另一列数据进行排序 浏览:779
锐明技术业绩怎么样 浏览:395
数据怎么学的 浏览:174
怎么样重塑市场 浏览:585
做什么总代理比较挣钱 浏览:715
詹姆斯保证金和交易金条款哪个好 浏览:878
近期交易思路有哪些 浏览:506
淘宝带货数据在哪里看 浏览:166