① 数据分析师的具体工作内容是什么
很多人对于数据分析师的工作内容不是很清楚,一般数据分析行业都是有很多职业的,不同的职业承担着不同的职责以及工作内容,对于数据分析行业来说,不管是什么职业,作为数据分析师,都需要懂得很多的知识,那么数据分析师的具体工作内容是什么呢?一般来说,数据分析师的工作内容就是数据采集、数据存储、数据提取、数据提取、数据挖掘、数据分析,数据展现等内容。
首先给大家说一下数据提取,数据提取就是讲数据取出来的过程,需要明确三个事情,就是数据去那取?数据何时取?数据如何取?从哪取?需要确定数据来源。何时取?需要注意提取时间。如何取?需要提取规则。
第二给大家数一下数据采集,一般来说数据采集的意义就是了解数据的原始面貌,数据的原始外貌就是数据产生的时间、条件、格式、内容、长度、限制条件内容。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题。
其次说一下数据存储,数据储存需要懂得数据库的知识。在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。数据的及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。
然后说一下数据挖掘,数据挖掘就是面对海量数据时进行数据价值提炼的关键,数据挖掘需要算法的配合。没有最好的算法,只有最适合的算法,大家需要意识到了一个问题,没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。
接着说一下而数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显着程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。
最后说一下数据展现是一个非常重要的阶段,一般来说,数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现的具体形式还要根据实际需求和场景而定。
对于上述的内容想必大家已经知道了数据分析的具体内容了吧,大家在了解数据分析的时候一定要多多注意这些问题,这样才能够更加深入的了解数据分析这个行业,数据分析的工作内容就是上面提到的数据采集、数据存储、数据提取、数据提取、数据挖掘、数据分析,数据展现等内容,希望这篇文章能够给大家带来帮助。
② 未来什么技术有前景
未来几年行业比较有前景:
一、云计算
企业向云端迁移是大势所趋。可以看到:
1)公有云和私有云市场增长依然齐头并进,不是零和博弈;
2)IaaS层面:拥有多元化的商业应用生态圈越来越重要,如亚马逊、谷歌、微软等;
3)SaaS层面:主要集中在人力资源、OA、CRM、市场营销、B2B 大宗商品采购等领域,如SalesForce、Sap、Oracle等;
4)PaaS层面:没有出现独立巨头,未来更可能由IaaS巨头向上或SaaS巨头向下延伸。
国内云计算市场还处在萌芽期,市场蛋糕正变得越来越诱人。我们预测:
1)虽然阿里、腾讯、华为等IT巨头等纷纷进入,但中国企业级市场的复杂性使得IaaS层面依然存在机会;
2)SaaS层面:除重点关注以上几个细分领域,还应重点分析具体的产品和服务是否符合国内客户的实际市场需求。
二、大数据
大数据行业的融资总额2013-2015年分别为8亿美金、15.4亿美金及20亿美金;2013-2015年融资事件分别为10起、42起及超过50起。“大数据+”已经渗透到几乎所有行业,如以阿里巴巴为代表的“大数据+零售”、以丁香园为代表的“大数据+医疗”、以搜房网为代表的“大数据+房地产”等等。该领域我们的投资策略为:
1)对于资源型大数据公司:数据资源足够庞大完整,数据价值足够有想象空间,数据挖掘整合能力足够强;
2)对于技术型大数据公司:技术门槛够高,并足以让公司快速形成规模效应、网络效应,从而快速占领足够市场份额;
3)对于应用型大数据公司:应用市场足够大,公司成长性好且可实现性强。
三、虚拟现实
我们认为虚拟现实行业已经处在爆发前夜,从一个简单的逻辑来看,人们已经无法满足于2D画面和3D影像的服务。虚拟现实其实是借助计算机系统及传感器技术生成一个全景环境,让用户在这个崭新的环境下调动起所有的感官去产生人机互动,给用户带来完美的沉浸感,同时用户可以在该环境里发挥无穷的想象力去进行创造。
目前全球虚拟现实行业经过近百年的发展仍处于早期起步阶段,供应链及各类配套设施还在摸索。然而虚拟现实的发展前景引人想象,具备广泛的应用空间,如游戏、影视、教育、体育、星际探索、医疗等等。当前各大咨询机构均看好虚拟现实在未来5年将实现超高速增长,爆发近在咫尺。我们认为:
1)短期内,能够布局虚拟现实产业链的厂商,从硬件设备、内容生产到平台分发,均具备投资价值;
2)从长远来看,虚拟现实的内容将是行业灵魂存在,投资成熟内容产业厂商将充满机会。
四、人工智能
根据Tractica预测,2024年人工智能市场规模将增长至111亿美元。初步的技术积累和数据积累已经在过去有了比较显着的规模效应,因而人工智能重塑各行各业的大潮即将来袭,并引发新一轮IT设备投资。
未来3-5年智能化大潮将带来万亿级市场。在人工智能领域内,2016年我们主要关注的方向包括:
1)计算机视觉识别(以人脸识别为典型);
2)计算机自适应(以各类机器人为例);
3)各项细分底层技术领域(比如自然语言处理、机器学习和知识图谱)。
五、3D技术
经过过去几年3D打印的投资热,3D打印技术步入到了一个新的阶段,但应用市场仍有待突破。专家预测2016年,中国3D打印机市场规模预测将扩大到100亿元;与此同时,Wohlers报告显示2016年全球市场规模可达70亿美金。如果应用市场能够打开,到2020年该市场有可能突破一千亿元甚至达到二千亿元,仅以医疗行业为例,预计到2015年仅该市场规模可达19亿美元。
接下来新一轮的3D技术的投资热点,包括:
1)3D打印专用材料及其工艺技术;
2)3D建模和个性化定制设计软件;
3)围绕3D打印技术出现的行业模式创新企业(即3D打印与教育、医疗和工业4.0等行业的结合)。
六、无人技术
无人技术目前主要应用在无人机、无人驾驶汽车等领域。美国蒂尔集团预测全球无人机市场规模会从2015年的64亿美元增至2024年的115亿美元,发展态势迅猛。无人驾驶汽车至今仍未揭面纱,但麦肯锡预测到2025年该领域将会有2000亿美元到1.9万亿美元产值,届时中国无人驾驶汽车产值空间至少也在万亿规模,潜力无限。
该领域我们已经布局工业级无人机第一品牌易瓦特,亦会长期持续关注如下标的:
1)随着政策逐渐放开,网络、谷歌、宝马、奥迪等巨头加紧布局无人驾驶汽车,我们重点侧重汽车电子相关硬件、车联网相关软件、整车等各个领域领导企业;
2)无人机领域,我们将重点挖掘部件制造与总体设计细分领域及无人机解决方案提供商中非常有潜力的优质企业。
七、机器人
中国人口老龄化问题日益突出、人工成本急剧上升以及整体经济结构面临转型,机器人未来的崛起及其巨大的市场规模已经被各大机构认可。我们认为未来无论短期或是长期,机器人行业的投资机遇巨大,从工业机器人、协作机器人到服务机器人均有十分可观的市场规模:
1)未来的工业机器人将具备强大的自我学习能力和专业化能力,向更细分的领域和结构进行创新延伸;
2)协作机器人可以与人协同工作并且广泛应用在生活中各种领域,属于“跨界”的产物;
3)服务机器人则没有上限,具有远超工业机器人和协作机器人的市场规模潜力,我们认为助老和医用的服务型机器人将领先发展。
八、新能源
中国是最大的新能源市场,发展新能源产业是改变我国的能源结构,降低对化石能源的依赖度,同事减少环境污染的必然选择。大力度的财政补贴推动新能源产业快速走向成熟,蕴含丰富投资机会:
1)锂电池在中国已经形成完整的产业链,下游动力和储能电池需求巨大;
2)中国新能源汽车市场在2015年实现井喷式发展,产销量均超过30万辆,同比增长超过300%,是全球第一大新能源汽车市场;
3)超级电容在快速充放电、高循环寿命、高功率密度方面相比较锂电池有明显优势,能够广泛用于城市公交、轨道交通、风力发电、石油钻探、港口机械等领域。
九、新材料
新材料是新经济的基石,我国在军工、高铁、核电、航天航空等尖端制造领域的快速发展均离不开基础材料领域的突破。随着基础化学、基础材料、纳米技术等方面的科研实力的不断积累,新材料领域的创新点将不断涌现,新材料将成为数万亿产值的市场:
1)石墨烯的柔性、力学、光学、电学和微观量子特性与目前现有材料相比整体有明显优势,未来应用行业横跨电子、生物医疗、军工、精密制造业、化工等;
2)碳纤维是应用相对成熟的新兴材料,相对于传统材料品质好,重量轻,未来需要在降低成本、突破国外技术封锁方面继续努力;
3)新型膜材料,可广泛应用于水处理、废气治理、锂电池等多个领域;
4)生物基材料,用于齿科、骨科等,可取代、修复人体组织器官功能。
十、医疗服务
2016年医疗服务行业的驱动因素来自于药品行业景气度持续下滑,以及药品价格形成机制的变化。分级诊疗和医生多点执业的推动下,公立医院借助民营资本盘活存量资产创造增量价。医疗服务业务为新技术提供了商业化的出口,而新技术给医疗服务业务提供了高附加值的项目。我们投资逻辑是:
1)符合医院利益诉求、以医为本的商业模式,比如康复医疗、检验领域,以及高端医学影像领域;
2)具有一定门槛的连锁专科医院如妇儿、辅助生殖、眼科、骨科、医疗美容等;
3)连锁第三方服务如健康管理、第三方诊断等;
4)一线城市的具有核心技术和专家资源的高端医院。
十一、生命技术与生命科学
随着基因组学、分子生物学等基础学科的发展,生物制剂与生命科学技术正在治疗中发挥越来越重要的作用:生物制剂方面,越来越多的单抗药物对肿瘤、糖尿病等疑难杂症产生突破性疗效,“重磅炸弹”级新药频出。2014年全球销量前十大药物中,有7个为生物制剂,其中阿达木单抗位居全球销量首位,年销售额达110亿美元;生命科学方面,全球范围内,基因测序市场从2007年的794.1万美元增长到2013年的45亿美元,复合增长率为33.5%,预计未来几年依旧会保持快速增长;细胞免疫疗法等新兴技术也日渐成为重要的治疗方法。
基于以上背景,我们认为生物技术与生命科学无疑是大健康领域极为重要的投资方向,重点关注的细分领域包括:
1)先进的基因测序及数据分析公司;
2)技术驱动型生物制剂公司;
3)与基因测序解读、个体化给药相结合的精准医疗公司;
4)技术上取得突破的新型生物治疗方式,如CAR-T细胞免疫疗法等。
十二、医疗器械
医疗器械市场在国内起步较晚,但发展迅速,2001年至2014年,我国医疗器械市场规模从173亿元增长至2556亿元,增长了近15倍,复合增速达到23%。但从医疗器械市场规模与药品市场规模的对比来看,全球医疗器械市场规模大致为全球药品市场规模的40%,而我国这一比例低于15%,随着经济的发展以及国内老龄化程度的提高,医疗器械市场发展潜力巨大。同时,《创新医疗器械特别审批程序(试行)》等一批政策的出台,为国产创新医疗器械的快速成长奠定了坚实的基础。重点关注的细分领域包括:
1)与机器人、人工智能等先进技术相结合的高端医疗器械;
2)国产创新型医疗器械;
3)智能家用医疗器械;
4)现有成熟医疗器械的进口替代产品。
十三、互联网医疗
信息技术的高速发展引发各个行业的巨大变革,也为医疗行业带来巨大机遇。随着大数据、云计算、物联网等多领域技术与互联网的跨界融合,新技术与新商业模式快速渗透到医疗各个细分领域,从预防、诊断、治疗、购药都将全面开启一个智能化时代。同时,中国医疗行业特有的资源配置不合理、服务质量低、医患关系紧张等问题,都有赖于凭借互联网技术加以改善。
同时也应看到,互联网医疗在国内仍然处于起步阶段,对传统医疗的改革必然是漫长而艰巨的过程,因此我们认为对该领域的投资应保持乐观但谨慎的态度。重点关注的细分领域包括:
1)医药类电商平台;
2)医疗大数据分析公司;
3)慢病管理/健康管理在线平台;
4)智能及可穿戴式医疗设备。
十四、健康养老
健康养老产业受需求迫切和政策鼓励双向驱动,将迎来十分确定的发展机会。未来我国政府和个人将面对很大的养老压力,截止2014年65岁及以上老年人口达1.4亿,占总人口比重10.1%,到2020年老年人口将增至2.6亿。同时,养老作为"健康中国"的一部分已被提升到国家战略性高度。我们将沿着国家提出的建设以居家为基础、社区为依托、机构为补充的多层次养老服务体系挖掘投资机会:
1)涉足养老核心产业---康复医疗,并已具备可行性和连锁化潜力发展模式的企业;
2)积极探索创新养老模式的企业。
十五、体育
在过去的一年,中国各路巨头开始瞄准海外优质体育标的资产(尤其是赛事转播权和体育运营公司),渐渐向成熟体育盈利模式靠拢– 门票、媒体转播权、赞助和体育衍生品,如乐视购得香港英超和MLB三个赛季转播独家权益;万达购得盈方体育传媒和世界铁人三项公司(WTC)成为万达体育;阿里体育获得 NFL 在中国大陆地区的转播权等等。因此,拥有优质赛事资源和广大受众的体育行业标的将会持续收到资本的追捧。
信中利作为中国最早最广布局体育行业的投资机构,会继续关注如下领域:
1)体育各个细分领域拥有优质体育赛事IP的运营公司;
2)冲击传统体育的电竞行业,包括内容方和直播平台;
3)体育运动相关的智能硬件+数据分析软件+可以导流到健康医疗领域的创业公司;
4)聚焦大众健身的互联网健身上下游公司。
十六、娱乐
中国的2015年是投资圈和BAT们在文化娱乐领域进击的一年。消费升级使得国人的消费习惯逐渐向文化娱乐进行倾斜,消费人群和消费金额也越来越低龄化和增长化。2015年也是独立IP火热的一年,花千骨、琅琊榜、盗墓笔记等一大波影视剧热播,夏洛特烦恼、捉妖记、“囧”系列、鬼吹灯等不断刷新国内电影票房记录。此外,伴随游戏、动漫衍生而来的二次元文化兴起,生产数字化、碎片化、娱乐化内容的自媒体大爆发,都将聚集大量新一代年轻用户,引发新的商业模式和机会。我们将关注以下细分领域:
1)拥有优质IP内容(生产或购买)和强大IP运营能力的公司;
2)有海量用户及盈利能力的自媒体和新媒体;
3)文化娱乐行业的大数据分析公司;
4)二次元内容聚合社区;
5)泛娱乐直播平台等。
十七、教育
国内的民办教育市场规模超过6000亿元,而在线教育五分之一的市场份额吸引了无数资本和创业者竞折腰。经过过去一两年的洗礼,教育O2O(Online to Offline)举步维艰,不仅没有革了传统教育的命,还在盈利模式的探索上不知所措。而传统线下教育培训机构除了拥有稳定的线下资源和师资以外,也在互联网+ 的攻势下顺应时代发展做出了很多改革。此外,新一轮的高考改革也将带来新的商业模式和创业机会。教育行业对于投资机构来说仍是一座金矿,但随着我们会重点关注如下领域:
1)顺应高考改革而生的素质教育和应试教育的优质线下培训机构;
2)职业教育培训机构与职业经验分享平台;
3)(性价比高的)可以帮助学生提升课堂体验的虚拟现实技术公司(硬件+软件+内容);
4)专注在儿童教育领域的优质IP内容生产者。
③ 学大数据需要什么基础知识和能力
1.计算机基本理论知识
了解计算机的基本原理,计算机的发展历史等计算机的基本常识和理论。
示例说明
总结:以上条件并不是一定要达到很高的标准,只要基本都熟悉,都有印象,能够简单运用即可。
④ 未来五年最吃香的6个专业有哪些
今天我们就来盘点一下未来五年最热门的六大大学专业,让你就业更快!据悉,目前中国人工智能相关人才需求高达500万,这意味着人工智能相关工作岗位需求处于供大于求的状态。人工智能专业的毕业生一出来就是抢手的香饽饽,也是高薪从业者。人工智能是朝阳产业,未来五年社会需求将持续增加。另外,我们的生活和工作越来越离不开人工智能,人工智能也给我们的生活和工作带来了便利,生活的方方面面都在慢慢向智能化发展。机械专业近年来,机械专业一直是高校最热门的专业之一,尤其是机械设计、制造及其自动化专业。机械每年的就业率都在90%以上,一直居高不下。未来五年对该专业人才的需求只会越来越大。业内专家表示,随着近年来大型产业的逐渐复苏,研发、设计、工艺、组装等高级制造业人才短缺。所以这个专业毕业的学生一般不会面临失业的危险。专业互联网正处于快速发展阶段。无论是软件开发还是网站建设,对计算机专业人才的需求都很大,工资也在不断增加。该专业技术性强,毕业后就业率高。找一份待遇好的工作一般不难,而且很多企业的高管都是计算机专业出身,事业单位或者公务员对计算机专业的需求比较大。车辆工程随着人们生活水平的提高,对汽车的需求不断增加,以安全、节能、环保三大主题的汽车技术的兴起带动了整个汽车行业的发展,产品设计开发、制造、试验检测、应用研究、技术服务、运营销售、管理等与车辆工程相关的岗位需求,,也在不断增加,尤其是对实践能力强、创新精神强的高级专业人才。遥感科学与技术专业未来五年,除了地质勘探、环境调查等国家的一些院校和研究机构外,一些互联网公司也有同样的需求,而且需求也呈增加趋势。目前人才缺口已经很大了。在职业经济飞速发展的今天,金融专业的人才不可或缺。金融专业的毕业生可以走很多岗位,比如企业中的财务分析师、财务顾问、经济预测分析、管理顾问、外贸人等相关岗位,甚至可以在政府和事业单位、中外资银行、保险、信托等工作。除了就业方向多,就业收入也高。
仅代表个人观点:大数据专业,未来是人工智能时代,所以大数据专业肯定会有很大需求;能源和化石能源告急,未来新能源资源的转化不可避免,这方面的人才需求会很大。航天,进入太空,航天工业的发展也成为一种趋势。其实还涉及到物理、化学等基础科学。计算机和计算机编程已经成为基础学科,各行各业都离不开编程语言。医学,老龄化加速,慢性病和各种传染病逐渐增多,医疗水平是人类的发展趋势;心理学,人类文明发展到现在,很多人心里也有很多问题,所以心理健康被纳入了健康的新标准。
未来五年可能最热门的专业一定是国家战略相关的。比如对于理科生,大家可以关注《中国制造2025》。与该战略相关的专业主要有信息技术专业、新能源、新材料、互联网政策相关的计算机专业、软件工程、电子科学与技术、物联网工程等。对于文科生来说,要关注与一带一路相关的专业,比如我们的对外交流文化和贸易相关的专业,这样在填报的时候可以多关注一些。1.电气工程及其自动化专业(本科5000左右)应用广泛,从家庭到社会都有。社会需求很大,这个专业就业率95.5%,可以说很吃香。况且该专业就业领域与国家电力系统接轨,工作稳定性和福利待遇都不错。TOP 2:人工智能(本科毕业生6000人左右)随着国内市场的产业升级,人工智能相关专业日渐热门,人才供给严重不足,导致就业市场供不应求。前段时间各大互联网公司在北大清华招聘相关专业的大学生,年薪30万。这足以说明智能R&D工程专业未来几年前景非常好,更不用说工资了。但这也是一个非常具有挑战性的课题。因为学生必须学习一些计算机知识和心理学、哲学,对这方面感兴趣的同学可以考虑。TOP 3:新能源(本科学历6000左右)随着环境的恶化,新能源开始得到极大的关注,未来发展新能源的行业特别受欢迎,尤其是汽车行业。再加上国家财政对节能减排的支持,促进了新能源产业的加速发展,成为新一轮汽车推广的亮点,未来就业前景不错!TOP 4:大数据(本科毕业生约7000人)大数据应用广泛,覆盖99%的行业。至少在几十年内有很好的发展前景,人才紧缺。这不仅仅是一个职位。在积累经验的过程中,可以从事数据挖掘专家、资深行业分析师等。,就业前景好,薪资可观。TOP 5:医学(刚毕业研究生一万左右)很多人都知道学医很累,但是学医很有前途。人们越来越重视健康和保健,医疗行业发展迅速。尤其是临床医学的就业前景还是很可观的,因为中国的医生数量相对于中国的大众来说是不够的,而且随着现在很多医院的扩张,临床上还是需要很多医生的。Top:软件工程专业(本科刚
选大学其实就是选专业,帮你分析专业问题..教师。教育部近日发布的首份中国教育与人力资源报告《从人口大国到人力资源强国》指出,中国仍属于教育欠发达国家之列。高中阶段毛入学率不足43%,高等教育入学率仅为13%,教师短缺是教育发展的主要瓶颈之一。根据“十五”计划的发展要求,高中阶段教育毛入学率要达到60%。按照18:1的生师比,教师缺口将达到116万,按照15:1的师生比,教师缺口也将达到11万。简而言之,中国有120多万高中和高等教育教师。2.软件人才。全球IT行业的低迷影响了一系列相关行业,但也有一些例外——IT培训市场表现出了强大的生命力。中国作为IT领域潜力巨大的市场,对IT专业人才的需求更加迫切。资料显示,目前我国软件人才缺口每年在35万人以上,而如果用传统的教育模式培养这些人才,不仅难以填补数量上的缺口,也远远不能满足我国软件产业发展对人才结构的要求。3.医学人才紧缺。北京市人才服务中心提供的数据显示,由于北京郊区县医疗服务的发展,医疗人才市场的需求和供给都在蓬勃发展。根据1月12日举行的医疗人才招聘会,医疗用人单位提供3765个岗位,其中需要临床医学和生物制剂专业人才1780人。但北京600多名医学毕业生明显供不应求。4.速记天赋。随着北京成为国际化大都市,会展经济空前发展,对速记人才的需求越来越大。据北京速记协会培训中心唐老师介绍,这个协会培养的学员都不是失业人员,北京市几个有资质的机构培养的速记人才,比如北京政法管理干部学院,也很受欢迎。速记市场肯定会吸引越来越多的大学生。5.特色突出、“岗位匹配”的高校毕业生,如航运专业、高级护理专业、高级技术技能专业的毕业生也供不应求。6.随着北京申奥成功,市政和社区管理维护相关专业人员将有更好的就业空间。祝你法律和会计好运!!
一、人工智能:据悉,到2020年,中国人工智能产业规模将超过1500亿元。目前我国人工智能人才缺口超过500万,供需比为1:10。在未来很长一段时间内,人工智能专业的人才将是企业争夺的重要资源,加上国家政策的大力支持,前景十分广阔。2.大数据专业:据悉国内数据分析人才供给指数最低,高度稀缺;未来3-5年,大数据人才缺口估计高达150万。可以说就业前景一片光明。3.信息安全专业:在当今信息时代,无论是我们的个人隐私,还是企业或国家的隐私,可以说信息安全已经上升到国家战略层面。社会对信息安全专业人才需求巨大,人才缺口巨大,就业前景非常好。4.经济学专业:经济学一直是高校的热门专业。很多人可能会觉得以前太热门的专业现在已经不吃香了,但其实金融行业在未来会是一个黄金发展期。即使是国家机关招录公务员的时候,经济学专业的毕业生能够报考的职位数量也一直名列前茅。5.控制科学与工程专业:这个专业本科阶段叫自动化,研究生阶段叫控制科学与工程。近年来,由于自动化和各种新技术的发展,该专业对人才的需求非常大,就业范围广,就业前景好。6.汉语言文字与新闻媒体传播专业:现在各行各业的公司大多都有新媒体运营岗位。初期主要负责新媒体矩阵(微信官方账号、微博、百家号等媒体)文章的选题、撰写和推送,后期负责整个新媒体矩阵的设计和策划,包括文案策划、活动策划、数据监测分析等。未来最热门的专业
⑤ BAT三巨头开始挖掘大数据
BAT三巨头开始挖掘大数据
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。
实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。
概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路。
BAT都是大矿主,但矿山性质不同
数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
网络拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
下面,就将三家公司的情况一一扫描与分析。
一、网络:含着数据出生且拥有挖掘技术,研究和实用结合
搜索巨头网络围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。
除了网页外,网络还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管网络拥有核心技术和数据矿山,却还没有发挥出最大潜力。网络指数、网络统计等产品算是对数据挖掘的一些初级应用,与Google相比,网络在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。
2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。 搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。
接下来,网络会向企业提供更多的数据和数据服务。前期网络与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。
网络还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。尽管网络已经出发,其在大数据上可做的事情还有很多。
在数据收集方面,网络需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据,以及推进移动App、穿戴式设备等数据收集系统。
在数据处理技术上,网络成立深度学习研究院加强自己在人工智能领域的探索,在多媒体和中文自然语言处理领域已经有一些进展;云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战,网络等探索者还有很多待解问题,如:无监督式学习、立体图像识别。
在数据变现方面,网络需将数据挖掘能力、数据内容聚合和提取等形成标准化的服务和产品,进而开拓大数据领域的企业和开发者市场。而不仅仅是颇为个性化、定制化地为大型企业提供解决。
网络的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面网络是聚集国内最多大数据相关领域顶尖人才的公司。听说网络前段时间花五千万挖了数据挖掘、自然语言处理、深度学习领域的十来位大牛,包括一些学者和教授。例如Facebook科学家徐伟。
在挖人上,舍得花钱不够,还得用心。对于真正的大牛来说,钱只是一个影响因素。能否实现自己的梦想,公司的资源能否帮助自己的研究至关重要。徐伟在回国前就曾问过其他从硅谷回国工程师的意见,得到答案是积极的,最终促成他作出决定。
总体来看,网络拥有大数据也具备大数据挖掘的能力,并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用性的技术产出。
二、腾讯:数据为产品所用,自产自销
微创新提出者金错刀有个关于腾讯的故事。 1999年腾讯公司刚刚成立不久,天使投资人刘晓松决定向其注资的一个主要原因就是因为他发现,“当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。”而另一个投资人却因为马化腾在公司很小时就花钱在数据上表示不满。此后腾讯的产品生产及运营、腾讯游戏的崛起都离不开对数据的重视。
腾讯拥有社交大数据,在企鹅帝国完成数据的制造、流通、消费和挖掘。 腾讯大数据目前释放价值更多是改进产品。据腾讯Q1财报,增值服务占总收入的78.7%;电子商务业务占14.1%;网络广告收入占6.3%。从广告收入比例可以看出腾讯的大数据在精准营销领域暂时还未大量释放出价值。与其产品线对应的GMAIL、Google+的Google以及社交巨头Facebook则通过广告赚得盆满钵满。
在笔者看来,腾讯的思路主要是补齐产品,注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用“大数据技术”实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。明显的用数据改进产品的思路。 那么如果腾讯要深入大数据挖掘缺少什么呢?笔者认为其只需马化腾“摁下启动按钮”。数据已经准备好了,就差模式,也就是找到需求或者能更深层次驱动大数据利用的产品,而不是用大数据改进自己的产品。腾讯还在观望,等其他人去试错验证出一套模式或者产品后,自己可以“站在巨人肩上”。这是腾讯的典型思维。
在人才方面,腾讯很早便开始重金挖人。尤其是2010年在Google宣布退出中国后,Google图片搜索创始人朱会灿、Google中国工程研究院副院长颜伟鹏、Google中日韩文搜索算法的主要设计者,《浪潮之巅》及《数学之美》作者吴军相继加入腾讯。搜搜花了很多钱,但被认定为一款无法承载腾讯重托的产品,最后这些大牛都走了。大都回Google了。
腾讯在大数据领域也缺少技术带头人。其对公关也不重视。技术大牛很少出来做报告,更不会向网络、阿里那样主动包装宣传技术大牛。其技术虽然低调,但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫、腾讯用制度保障技术产出。另外腾讯在高校合作领先一步,在2010年便与清华大学合作成立了清华腾讯联合实验室。这么看腾讯的技术人才这块似乎有短板。会不会到时候马化腾按下启动按钮,发现没数据挖掘能力呢?不会,腾讯搞不定数据挖掘,到时候依然可以挖到大牛,甚至读论文来搞定这事儿。数据挖掘已较为成熟。数据挖掘实际是数据库、统计学、机器学习三个领域的融合。在学术界已经发展多年。不过自然语言识别和深度学习等方面要赶上网络,就难了。除非将网络的数据和众大牛一起倒腾过来。
总体来看,腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品,则利用自家的社交及关系数据时,开展对大数据的进一步挖掘。
三、阿里巴巴:坐拥金数据,尝试做面向未来的数据集市
阿里巴巴B2B出身,在外贸蓬勃的大环境下,依靠服务中小企业发家。淘宝、支付宝等toC的产品出生前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝以及天猫三个产品后,对海量用户大并发量交易、海量货架数据的管理、安全性等方面的严苛要求,阿里完成进化,在电商技术上取得不菲的成绩。在一段时期阿里仍然浪费了手里掌握的大量数据。这些数据还是“最值钱”的金数据。
数据挖掘无非是从原始数据提取价值。阿里现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说是比较简单的BI(商业智能),没到大数据的阶段。“大数据”浪潮袭来,阿里提出“数据、金融和平台”战略。前所未有地重视起对数据的收集、挖掘和共享。马云在“退居”前动不动都对外提“数据”。有位阿里朋友甚至开玩笑说,马云英文名可以从Jack Ma改为Data Ma。阿里现CEO陆兆禧曾做过CDO,首席数据官。为了用数据来驱动阿里电商帝国,阿里还成立了横跨各大事业部的“数据委员会”。
阿里的各项投资案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。数据战略正在首席人工智能官(CBO)车品觉领头下逐步落地,王坚的云为其提供基础设施、基础技术支撑。
就在马云退休之后,王坚对外透露其跟马云开玩笑说的一句话:阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。估计马云不一定认同他这话。马云对大数据已经有着自己的理解和考量。马云曾经说过其对大数据的思考。大致意思是:现在从信息时代进入数据时代了。区别是信息时代更多的是精英玩的游戏。我比别人聪明,我能提取出信息出来;数据时代,别人比我聪明,将数据开放给更聪明的人处理,数据即资产,分析即服务。
计算机发展的过程是从象牙塔、到平民到草根。大数据也是这样,一开始在象牙塔阶段,少数精英公司才能玩;但到后面只要有数据就有价值。数据也有所有权,产生数据、流通数据、挖掘数据的都会获得相应的价值。而阿里擅长的便是“建立市场”,建立一个数据交易市场。届时任何个人和企业都可以将数据和挖掘服务拿上去,交易。初期阿里会将自己珍藏的电商和信用数据逐步放到上面。 有数据的人,拿上去卖,或者让别人分析,分析即服务。没有数据的人,即可以去买,也可以去帮别人挖掘,做矿工。
阿里并不是技术驱动,而是业务驱动的。因此在技术层面我们看到,基于前面提到的阿里大数据思路,其技术重心主要在系统层面。阿里拥有LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人章文嵩,Linux Kernal、文件系统、大牛DBA等领域的大牛。从人才布局可以看到阿里擅长的技术领域,体现在对于并发访问、电信级别的电商业务的支撑方面的得心应手。在去年双十一期间,支撑了单日过亿的订单量。铁道部奇葩网12306在日均40万时已经不行了。
总体来看,阿里更多是在搭建数据的流通、收集和分享的底层架构。自己并不擅长似乎也不会着重来做数据挖掘的活儿。而是将自己擅长的“交易”生意扩展到数据。让天下没有难做的“数据生意”。
总结一下
移动互联网浪潮下,现实世界正在加速数字化,每个人,每个物体、每件事情、每一个时间节点,都在向网上映射。空间和时间两个维度的联网,使得数字世界正在接近一步步模拟现实世界。历史、现在和未来都会映射到网上。对大数据的挖掘正是对世界的二次发现和感知。BAT三巨头已经出发。