导航:首页 > 数据处理 > 如何成为一名大数据科学家

如何成为一名大数据科学家

发布时间:2023-06-10 23:07:22

A. 大数据时代 怎么样才能成为数据科学家

要成为一名大数据科学家,需要学习加实践的东西非常多,在文章的末尾,我会梳理下需要培养的能力框架供大家参考。下面,我重点谈谈要成为数据科学家的最核心的能力培养是要尺简知掌握好大数据应用技术,掌握好大数据基础平台的构建和大数据产品化、服务化的价值变现框架以及大数据商业化的总体思路。

当前大数据已经深入人心,各行各业都在谈论大数据,都想抓住大数据这个新兴产业的机会,传统企业也想利用大数据进行企业的转型升级。一个个的大数据项目像雨后春笋般被立项动工,怀着领导极大的期望热火朝天的干起来。可是,当领导们发现投入了大量的人力财力物力,但最终结果不理想、没有实际结果产出的时候,他们就开始心灰意冷,怀疑起大数据是不是真像人们说的这样有价值?领导们心里就会认为,大数据其实就是大家跟风炒作,只是一个泡沫而异?事实上,真的是这样的吗?我想一定不是的,大数据绝对不存在泡沫,大数据是真真正正的具有非常大的企业应用价值的。那这样说,老板的问题出在哪里呢?我认为,大数据项目之所以失败、之所以没能达到老板的预期,主要责任在于这个公司的大数据科学家,是他的能力水平不够,导致老板对大数据丧失信心。而社会上,正是存在千千万万不合格的但又处于企业核心关键位置的大数据科学家,才让一个个大数据项目发挥不出真正的价值来,导致当前大家对大数据所存在的社会困惑,更以至于大家都认为大数据存在泡沫。

一个大数据科学家,要做好大数据工作,真正发挥大数据的价值。需要掌握三方面的应用能力,一是大数据基础平台的建设能力;二是大数据产品化、服务化的包装能力;三是大数据产品和服务转化为商业价值的商业化能力。三个方面,缺一不可。如果只懂得大数据平台建设能力,那么他只是一个大数据架构师;如果只懂得大数据产品化、服务化能力,那么他也只是一个数据产品经理;如果只懂得大数据商业化能力,那么他只是一个好的大数据销售经理。具备以上单一能力的人,社会上还是非常多的,具备双重能力的人,也还不少。一个具备大数据平台建设能力,又可实现大数据产品化的人,不能称之为数据科学家,这一类人能力不错,可把数据和产品玩得非常溜,企业有时候招到这类人认为已经招对人了,挺高兴的。如果这个人作为一个架构师或者高级产品经理或者是一个大数据部门经理,我觉得可以胜任的。但一旦把这个人摆在大数据总监或者更高层的位置上的话,会是不胜任的,因为从商业角度来说,这一类人只会搭积木,不了解数据商业化,更不懂得生意的本质,有时候会是灾难性的,会直接导致大数据项陵消目的失败。下面,我们分别讲讲这三个方面,都有哪些具体的要求。
大数据平台构建:需要掌握大数据基础平台架构能力、企业大数据门户建设能力、大数据应用系统集成能力。由于每个企业业务繁多,企业数据日常只存放在各个业务数据库中,当运营、产品、分析等人员需要用到数据的时候,就需要访问多个数据库来获取,并且,这些数据是杂乱无章的,各种格式都存在,为了拿到需要的数据,也许需要分析人员花上好几个小时甚至几天的时间,使用起来非常的很不方便。另外,数据是企业日常运营过程中,经常使用的资产,获取数据的低效率直接影响到企业的经营效率,从而影响到企业在激烈的商场中的竞争力。在竞争激烈的商场中,每家企业都追求比别人快一秒,这就需要数据科学家们,帮助企业搭建好完善的大数据基础平台,让获取数据变得容易、简单、高效。当然,这一步也是大数据产品化、服务化的基础。说了这么多,我们该怎样构建企业大数据基础平台呢?由于我们这是一个大数据职业生涯系列的分享,涉及具体技术方法方面我们将会在大数据应用系列的“企业大数据战略及价值变现”这个小讲中详细的分享,欢迎大家参加。在这里,我只讲两点需要特别特别注意的地方:
1)把握实施的节奏和策略。通常在企业B轮之后,就要上大数据平台了。如果本身背景比较雄厚的,早期规模都比较大,有实力的话,越早做越好。但是,要非常注意实咐芹施策略,大数据是投入大,短期产出小的项目,如果不懂得实施策略,必然会失败。怎样的策略呢?先做好大数据平台架构,规划好主题模型和层次模型,进行模块化、框架式设计,然后根据最靠近业务、最靠近营收为准则,去判断优先实施哪个模块哪个应用,以期望马上带来经济效益。这一点非常之重要,直接决定了这家企业大数据项目后期还能不能继续玩下去的根本。这也是我在给企业做大数据解决方案时候,最核心关注点。
2)关注大数据3个平台间的联动协同效应。是哪三个平台呢?我们前面已经说到,不知大家有没有留意。大数据基础平台、大数据门户(也即大数据分析平台,含用户画像)、大数据业务应用系统(如风控系统、个性化推荐系统等)。虽然他们三者之间存在依赖关系,比如大数据分析平台的数据从大数据基础平台出,个性化推荐系统所用到的用户画像从大数据分析平台过来,但我们千万不要先做完成一个平台再去做另一个平台。我们一定要联动协同,要同时进行,要小步快跑,快节奏的出效果。那么,我们怎么联动呢?我还是举一个例子来说明。就说个性化推荐系统吧,我们可以先专心推荐系统最重要的模块-用户画像这个模块的研发,像产品知识库、推荐引擎等,可以以最简单的方式,甚至半人工方式来完成,集中精力完成用户画像这个模块。同时,兼顾大数据分析平台中用户画像的框架、大数据基础平台中用户主题模型框架来实施,当我们把推荐系统的用户画像模块研发出来的时候,我们也已经把大数据基础平台的用户主题模型和大数据分析平台的用户画像分析做出来了,一箭三雕,非常之高效。这就是联动协同效应。
大数据产品化: 需要掌握大数据产品化、数据应用化能力以及数据驱动业务增长技术能力。数据产品化,是企业大数据项目的重要且核心的内容。数据能不能提炼成产品或者服务,进行产品化、服务化转变,直接影响到数据变现能不能成功,从而影响到企业整体的变现、货币化能力。货币化能力又直接影响到企业的估值高低。关于这方面例子的企业,社会上非常之多,在这里也不好直接说出来,大家可以自己想想有哪些企业用户基数非常之大,但多年一直在亏损的,不管是国企还是民企,这一类企业数据变现是不成功的或者是根本没有进行数据变现的,导致货币化困难、盈利能力弱。这是什么原因呢?核心还是人才,缺乏一个真正的大数据科学家,缺乏能把数据变成产品或者服务的人。有很多企业数据非常多,但是就是不能充分利用起来,不能充分发挥数据的价值,原因就是缺乏这样一位大数据科学家。 既然数据产品化服务化是这么重要,我们日常有哪些常用数据产品化、服务化方法呢?方法非常之多,但总结起来就那么几类,要成为一个数据科学家,那是必须要掌握的。
1)精准营销和个性化推荐系统。非常之常见,几乎每家有一定规模的企业都会做的大数据产品项目。它们是通过推送用户喜欢的产品或者服务给用户来获得价值收益的。大家平时在淘宝上买东西,看到的“猜你喜欢”或者是“买了**可能你还想买**”等模块就是典型的个性化推荐系统的产品。个性化推荐系统,商业效果非常显着,产出也比较好衡量,只需要看应用了这个产品后,相同的业务营收比不使用该推荐系统提升多少就可以看出来了。关于个性化推荐系统是一个什么东西,有哪些构成,实现原理是怎样的,等等技术或具体产品问题,我们会在大数据应用系列分享的“如何利用大数据做个性化推荐”小讲中,详细的给大家分享,欢迎大家参加。
2)搜索平台、广告服务平台。显然,这两个主要是通过广告来创收的。大凡有一定用户量的线上平台,基本都会通过广告来获得收益,这是各家企业普遍的最重要的变现手段。广告商业模式多种多样,有购买搜索关键词的,也有搜索竞价排名的,有购买黄金展位的,也有闪屏直接推送的,等等。商业模式多种多样,但都脱不了其是将目标产品或者服务通过广告位推送给恰当的人群,要不是曝光、要不点击、要不购买等来获取收益的。例子大家都知道啦,网络的主营业务就是靠广告收入。
3)风控模型产品和服务。这块在金融或者电商等互联网企业应用得比较广泛。是企业业务发展的重要支柱。风控可以带来两个方面的收益。对内,通过风控,识别欺诈和骗贷,降低由于欺诈带来的放贷本金的损失,其实就是收益。对外,可以直接输出风控服务能力,直接的产生营收。这方面的例子太多了,社会上做风控服务的大数据公司,不低于一百家,都是靠输出风控数据服务来赚钱的。至于风控有哪些可以赚钱的产品和服务,以及风控的技术模型等一些问题,我们留到大数据应用系列分享的“如何利用大数据做好大数据风控”这一小讲中,再详细的给大家分享,欢迎大家参加。
4)大数据信息产品或解决方案服务。这一类企业也非常多,有提供会员服务的,有提供APP使用的,有提供SAAS云服务的,等等,大大小小的提供大数据工具或者信息产品服务的企业不低于一千家。举个例子,万德资讯就是通过大数据手段,收集各种有价值信息进行整理加工后,提供给用户的。关于这一类企业,在这里我就不详细讨论了。因为实在是太零散了,各家企业五花八门。
大数据商业化:需要掌握数据商业化能力,数据价值变现能力,需要培养有强烈的商业敏感度的习惯。作为一个数据科学家,搭建好大数据基础平台,做好数据的产品化、服务化,还是远远不够的。企业生存就是为了积累数据,未来企业融资是靠数据,企业的上市估值更是靠数据。所以,我们所做的一切都是为了数据。可是,有数据还是非常不够的,做出好的数据,也许一时能忽悠住投资人,忽悠住工作的同事,但是不能长期忽悠投资人,你有多少多少用户量、交易流水多少多少个亿,那都没用的。长期来看一定是靠盈利的,是要为投资人创造收益的。企业的商业化是否成功,在很大程度上特别是对于一些本身是做大数据的公司来说,都是要靠大数据去驱动做数据化变现的。常用的一些方法有:
1)卖流量。通过大数据精准营销或者设计一些数据产品比如个性化推荐来支持广告的精准投放和产品的销售以及交叉销售等。这一类非常常见,我想不讲大家应该也能明白。如果不明白的,可以看看淘宝网的一些广告位和商品的推荐位,就会清楚了。
2)卖服务。现在很多大数据公司,通过把自己的核心能力包装成一整套解决方案,提供给客户。比如,大数据风控公司,提供大数据风控云服务,把自己拥有的数据加上自身的建模能力优势包装成解决方案,提供给客户。
3)卖产品。通过把数据产品化,比如,淘宝上特别多的提供各种分析结果给淘宝店家的数据产品。
4)卖数据。贵阳的国家大数据交易平台,其实就是在做这个事情。在互联网金融领域,直接卖数据也是各大数据公司非常之常见的一种营收模式。
关于大数据商业化变现还有非常多的方法,这就需要数据科学家在日常工作管理中,做好归纳总结,创新思维,创造出各种各样的数据商业化模式来。
(1)成为大数据科学家需要掌握大数据基础科学技术
大数据技术:分布式大规模数据处理技术和工具,如hadoop、spark生态系统技术
数据挖掘技术:掌握常用的数据挖掘算法模型、机器学习算法、深度学习、人工智能技术
数据采集技术:掌握数据采集的常用技术框架和工具
数据可视化技术:掌握数据可视化方法和技术及工具
(2)成为大数据科学家需要具备大数据应用技术
大数据平台构建:大数据架构能力、离线和实时分布式计算环境的建设
大数据产品化: 数据产品化、数据应用能力,数据驱动业务增长等技术
大数据商业化:数据商业化能力,数据价值变现能力,有强烈的商业敏感度
(3)成为大数据科学家需要具备大数据实战能力
最好是大数据的各个工作岗位都曾经做过一遍,熟悉数据产品、数据分析、数据挖掘、
数据转换清洗处理、数据采集、数据可视化等技术,能够通盘的指挥大伙作战。
要成为大数据科学家那就必须具备10年以上的大数据行业实践经历,当然啦,
特别厉害的人, 这个时间可以缩短再缩短。
(4)成为大数据科学家需要具备大数据战略、产业化思维
大数据战略:大数据平台战略、人才战略、时机战略、选型战略、管理战略、决策战略等
大数据思维:增长思维、动态思维、历史思维、颠覆思维等
大数据行业视野:站在行业的视角,掌控各行各业的大数据动态情况
大数据产业的引领者: 具备大数据产业塑造能力,是产业的引领者
(5)成为大数据科学家需要具备一定的科研能力
需要具备专利论文能力,最好是能够着书立说。各大大数据公司,
都有专利论文的要求的,作为企业数据最高领导者,必然需要具备专利敏感性。

B. 一文读懂如何成为数据科学家

你为成为数据科学家做了充分的准备,但实际的工作将于你的预期大不相同。
你为成为数据科学家做好了充分的准备。你参加Kaggle比赛,看了大量的Coursera课程。你感觉已经准备好了,但数据科学家的实际工作将与你的预期大不相同。
本文探讨了数据科学家新手的5个常见错误。这是由我在Sébastien Foucaud博士的帮助下一起总结的,他在学术界和行业领域有指导年轻数据科学家有超过20年的经验。本文旨在帮助你更好地为数据科学家的实际工作做好准备。
误区1 热衷参加Kaggle比赛
你通过参与Kaggle比赛练习了数据科学技能。如果你掌握决策树和神经网络那就再好不过了。但其实作为数据科学家,你不需要完成这么多的模型融合。记住,一般来说你将花80%的时间进行数据预处理,剩下20%的时间用于构建模型。
参加Kaggle比赛的好处在于,给出的数据都很从而你有更多的时间调整模型。但是在实际工作中则很少出现这种情况,你需要使用不同的格式和命名方式来汇总不同来源的数据。
你需要做的是,熟练掌握你大部分时间将要做的事,即数据预处理。例如抓取图像或从API收集图像;从Genius收集歌词数据等。为解决特定问题准备所需的数据,然后将其输入到计算机中开始机器学习生命周期。精通数据预处理无疑将大大帮助你成为一名出色的数据科学家,从而让你在公司制定决策中起到关键作用。
误区2 神经网络能搞定一切
深度学习模型在计算机视觉和自然语言处理领域优于其他机器学习模型。但也有明显的缺点。
神经网络需要大量数据。如果样本较少,那么使用决策树或逻辑回归模型效果会更好。众所周知,神经网络难以说明和解释,因此被称为”黑匣子“。当产品负责人或主管对模型输出产生质疑时,你必须进行解释,而传统的模型更容易解释。
有很多出色的统计学习模型,你需要了解其优缺点,并根据具体任务应该相关模型。除非是用于计算机视觉或自然语音识别等专业领域,否则传统的机器学习算法的成功率会更高。你很快就会发现,像逻辑回归等简单的模型是最好的模型。
误区3 机器学习是产品
在过去十年机器学习大受吹捧,许多创业公司都认为机器学习能解决任何存在的问题。
机器学习永远不应该是产品。机器学习是强大的工具,用于生产满足客户需求的产品的。机器学习可以用于让客户收到精准的商品推荐;准确识别图像中的对象;帮助企业向用户展示有价值的广告。
作为数据科学家,你必须以客户为目标制定计划,从而你才能充分利用机器学习。
误区4 混淆因果关系和相关性
大约90%的数据是在过去几年中产生的。随着大数据的出现,机器学习从业者可以获得大量数据。由于有大量的数据需要分析评估,学习模型也更容易发现随机的相关性。
上图显示了美国小姐的年龄与蒸汽、热蒸汽和发热物体导致的谋杀总数。根据这些数据,算法会学习美国小姐的年龄与某些物体导致谋杀的模式。然而,这些数据点实际上是无关的,并且这两个变量对其他变量没有任何预测作用。
当在数据中发现模式时,要应用你的专业知识。当中是相关性还是因果关系?回答这些问题是从数据中得出分析见解的关键。
误区5 优化错误的指标
开发机器学习模型遵循敏捷的生命周期。首先,你定义概念和关键指标。然后,将结果原型化。接着,不断进行改进直到指标令你满意。
在你构建机器学习模型时,记得要进行手动错误分析。虽然这个过程繁琐且费时费力,但可以帮助你在迭代中有效地改进模型。
结语
年轻的数据科学家能为公司提供巨大价值。他们通常是自学成才,因为很少有大学提供数据科学学位。同时他们具有强烈的好奇心,并且对自己选择的领域充满热情,并渴望了解更多的知识。因此对于刚入行的数据科学家来说,一定要注意以上提到的误区。
注意以下几点:
· 练习数据管理
· 研究不同模型的优缺点
· 让模型尽可能简单
· 检查结论中的因果性和相关性
· 优化最有希望的指标

C. 如何成为一名数据科学家

简单的说,原理和基础都在数学这边。线性代数(矩阵表示和运算)是基础中的基础,微积分(求导,极限);数据处理当然需要编程了,因此C/C++/Python任选一门,数据结构可以学学,只是让你编程更顺手,但是编程不是数据处理的核心。

Mid-level的课程,概率论+统计(很多数据分析基于统计模型),线性规划+凸优化(统计到最后也还是求解一个优化问题,当然也有纯优化模型不用统计模型的)再高阶的课程,就是些研究生的课程了,就比较specific了,可以看你做的项目再选择选修,比如:Probabilistic Graphical Models, Nolinear Programming, Integer Programming, Machine Learning(其实机器学习,学的都是一些统计和优化),图像处理,deep learning, 神经网络,等等等等。学到Mid-level,然后做几个实际项目,就能上手咯。要读Phd搞科研,才上高阶的。

阅读全文

与如何成为一名大数据科学家相关的资料

热点内容
哪些岗位有权登记公民个人信息 浏览:14
如何更改小程序登录密码 浏览:449
怎么抢到贝贝网秒杀产品 浏览:136
沈阳房票交易注意哪些 浏览:784
淘宝数据中心什么样子 浏览:681
热力保证安全的技术措施有哪些 浏览:459
华为手机信息为什么横屏 浏览:845
顺丰中转站数据员做哪些工作 浏览:364
htb健康产品有哪些 浏览:260
galgame用什么程序做 浏览:907
哪里有代理房地产的 浏览:420
浙江台电视台招聘信息在哪里看 浏览:842
交易猫待收货不想要了怎么办 浏览:224
哪个网站做粉丝交易平台 浏览:693
我为什么选择程序猿 浏览:755
安怡为什么恢复不了原始程序 浏览:225
信息流过载是什么 浏览:223
环境实验室信息管理系统有哪些 浏览:264
新车怎么没有产品 浏览:393
永恒纪元交易密码错误限制多久 浏览:943