導航:首頁 > 數據處理 > 如何成為一名大數據科學家

如何成為一名大數據科學家

發布時間:2023-06-10 23:07:22

A. 大數據時代 怎麼樣才能成為數據科學家

要成為一名大數據科學家,需要學習加實踐的東西非常多,在文章的末尾,我會梳理下需要培養的能力框架供大家參考。下面,我重點談談要成為數據科學家的最核心的能力培養是要尺簡知掌握好大數據應用技術,掌握好大數據基礎平台的構建和大數據產品化、服務化的價值變現框架以及大數據商業化的總體思路。

當前大數據已經深入人心,各行各業都在談論大數據,都想抓住大數據這個新興產業的機會,傳統企業也想利用大數據進行企業的轉型升級。一個個的大數據項目像雨後春筍般被立項動工,懷著領導極大的期望熱火朝天的干起來。可是,當領導們發現投入了大量的人力財力物力,但最終結果不理想、沒有實際結果產出的時候,他們就開始心灰意冷,懷疑起大數據是不是真像人們說的這樣有價值?領導們心裡就會認為,大數據其實就是大家跟風炒作,只是一個泡沫而異?事實上,真的是這樣的嗎?我想一定不是的,大數據絕對不存在泡沫,大數據是真真正正的具有非常大的企業應用價值的。那這樣說,老闆的問題出在哪裡呢?我認為,大數據項目之所以失敗、之所以沒能達到老闆的預期,主要責任在於這個公司的大數據科學家,是他的能力水平不夠,導致老闆對大數據喪失信心。而社會上,正是存在千千萬萬不合格的但又處於企業核心關鍵位置的大數據科學家,才讓一個個大數據項目發揮不出真正的價值來,導致當前大家對大數據所存在的社會困惑,更以至於大家都認為大數據存在泡沫。

一個大數據科學家,要做好大數據工作,真正發揮大數據的價值。需要掌握三方面的應用能力,一是大數據基礎平台的建設能力;二是大數據產品化、服務化的包裝能力;三是大數據產品和服務轉化為商業價值的商業化能力。三個方面,缺一不可。如果只懂得大數據平台建設能力,那麼他只是一個大數據架構師;如果只懂得大數據產品化、服務化能力,那麼他也只是一個數據產品經理;如果只懂得大數據商業化能力,那麼他只是一個好的大數據銷售經理。具備以上單一能力的人,社會上還是非常多的,具備雙重能力的人,也還不少。一個具備大數據平台建設能力,又可實現大數據產品化的人,不能稱之為數據科學家,這一類人能力不錯,可把數據和產品玩得非常溜,企業有時候招到這類人認為已經招對人了,挺高興的。如果這個人作為一個架構師或者高級產品經理或者是一個大數據部門經理,我覺得可以勝任的。但一旦把這個人擺在大數據總監或者更高層的位置上的話,會是不勝任的,因為從商業角度來說,這一類人只會搭積木,不了解數據商業化,更不懂得生意的本質,有時候會是災難性的,會直接導致大數據項陵消目的失敗。下面,我們分別講講這三個方面,都有哪些具體的要求。
大數據平台構建:需要掌握大數據基礎平台架構能力、企業大數據門戶建設能力、大數據應用系統集成能力。由於每個企業業務繁多,企業數據日常只存放在各個業務資料庫中,當運營、產品、分析等人員需要用到數據的時候,就需要訪問多個資料庫來獲取,並且,這些數據是雜亂無章的,各種格式都存在,為了拿到需要的數據,也許需要分析人員花上好幾個小時甚至幾天的時間,使用起來非常的很不方便。另外,數據是企業日常運營過程中,經常使用的資產,獲取數據的低效率直接影響到企業的經營效率,從而影響到企業在激烈的商場中的競爭力。在競爭激烈的商場中,每家企業都追求比別人快一秒,這就需要數據科學家們,幫助企業搭建好完善的大數據基礎平台,讓獲取數據變得容易、簡單、高效。當然,這一步也是大數據產品化、服務化的基礎。說了這么多,我們該怎樣構建企業大數據基礎平台呢?由於我們這是一個大數據職業生涯系列的分享,涉及具體技術方法方面我們將會在大數據應用系列的「企業大數據戰略及價值變現」這個小講中詳細的分享,歡迎大家參加。在這里,我只講兩點需要特別特別注意的地方:
1)把握實施的節奏和策略。通常在企業B輪之後,就要上大數據平台了。如果本身背景比較雄厚的,早期規模都比較大,有實力的話,越早做越好。但是,要非常注意實咐芹施策略,大數據是投入大,短期產出小的項目,如果不懂得實施策略,必然會失敗。怎樣的策略呢?先做好大數據平台架構,規劃好主題模型和層次模型,進行模塊化、框架式設計,然後根據最靠近業務、最靠近營收為准則,去判斷優先實施哪個模塊哪個應用,以期望馬上帶來經濟效益。這一點非常之重要,直接決定了這家企業大數據項目後期還能不能繼續玩下去的根本。這也是我在給企業做大數據解決方案時候,最核心關注點。
2)關注大數據3個平台間的聯動協同效應。是哪三個平台呢?我們前面已經說到,不知大家有沒有留意。大數據基礎平台、大數據門戶(也即大數據分析平台,含用戶畫像)、大數據業務應用系統(如風控系統、個性化推薦系統等)。雖然他們三者之間存在依賴關系,比如大數據分析平台的數據從大數據基礎平台出,個性化推薦系統所用到的用戶畫像從大數據分析平台過來,但我們千萬不要先做完成一個平台再去做另一個平台。我們一定要聯動協同,要同時進行,要小步快跑,快節奏的出效果。那麼,我們怎麼聯動呢?我還是舉一個例子來說明。就說個性化推薦系統吧,我們可以先專心推薦系統最重要的模塊-用戶畫像這個模塊的研發,像產品知識庫、推薦引擎等,可以以最簡單的方式,甚至半人工方式來完成,集中精力完成用戶畫像這個模塊。同時,兼顧大數據分析平台中用戶畫像的框架、大數據基礎平台中用戶主題模型框架來實施,當我們把推薦系統的用戶畫像模塊研發出來的時候,我們也已經把大數據基礎平台的用戶主題模型和大數據分析平台的用戶畫像分析做出來了,一箭三雕,非常之高效。這就是聯動協同效應。
大數據產品化: 需要掌握大數據產品化、數據應用化能力以及數據驅動業務增長技術能力。數據產品化,是企業大數據項目的重要且核心的內容。數據能不能提煉成產品或者服務,進行產品化、服務化轉變,直接影響到數據變現能不能成功,從而影響到企業整體的變現、貨幣化能力。貨幣化能力又直接影響到企業的估值高低。關於這方面例子的企業,社會上非常之多,在這里也不好直接說出來,大家可以自己想想有哪些企業用戶基數非常之大,但多年一直在虧損的,不管是國企還是民企,這一類企業數據變現是不成功的或者是根本沒有進行數據變現的,導致貨幣化困難、盈利能力弱。這是什麼原因呢?核心還是人才,缺乏一個真正的大數據科學家,缺乏能把數據變成產品或者服務的人。有很多企業數據非常多,但是就是不能充分利用起來,不能充分發揮數據的價值,原因就是缺乏這樣一位大數據科學家。 既然數據產品化服務化是這么重要,我們日常有哪些常用數據產品化、服務化方法呢?方法非常之多,但總結起來就那麼幾類,要成為一個數據科學家,那是必須要掌握的。
1)精準營銷和個性化推薦系統。非常之常見,幾乎每家有一定規模的企業都會做的大數據產品項目。它們是通過推送用戶喜歡的產品或者服務給用戶來獲得價值收益的。大家平時在淘寶上買東西,看到的「猜你喜歡」或者是「買了**可能你還想買**」等模塊就是典型的個性化推薦系統的產品。個性化推薦系統,商業效果非常顯著,產出也比較好衡量,只需要看應用了這個產品後,相同的業務營收比不使用該推薦系統提升多少就可以看出來了。關於個性化推薦系統是一個什麼東西,有哪些構成,實現原理是怎樣的,等等技術或具體產品問題,我們會在大數據應用系列分享的「如何利用大數據做個性化推薦」小講中,詳細的給大家分享,歡迎大家參加。
2)搜索平台、廣告服務平台。顯然,這兩個主要是通過廣告來創收的。大凡有一定用戶量的線上平台,基本都會通過廣告來獲得收益,這是各家企業普遍的最重要的變現手段。廣告商業模式多種多樣,有購買搜索關鍵詞的,也有搜索競價排名的,有購買黃金展位的,也有閃屏直接推送的,等等。商業模式多種多樣,但都脫不了其是將目標產品或者服務通過廣告位推送給恰當的人群,要不是曝光、要不點擊、要不購買等來獲取收益的。例子大家都知道啦,網路的主營業務就是靠廣告收入。
3)風控模型產品和服務。這塊在金融或者電商等互聯網企業應用得比較廣泛。是企業業務發展的重要支柱。風控可以帶來兩個方面的收益。對內,通過風控,識別欺詐和騙貸,降低由於欺詐帶來的放貸本金的損失,其實就是收益。對外,可以直接輸出風控服務能力,直接的產生營收。這方面的例子太多了,社會上做風控服務的大數據公司,不低於一百家,都是靠輸出風控數據服務來賺錢的。至於風控有哪些可以賺錢的產品和服務,以及風控的技術模型等一些問題,我們留到大數據應用系列分享的「如何利用大數據做好大數據風控」這一小講中,再詳細的給大家分享,歡迎大家參加。
4)大數據信息產品或解決方案服務。這一類企業也非常多,有提供會員服務的,有提供APP使用的,有提供SAAS雲服務的,等等,大大小小的提供大數據工具或者信息產品服務的企業不低於一千家。舉個例子,萬德資訊就是通過大數據手段,收集各種有價值信息進行整理加工後,提供給用戶的。關於這一類企業,在這里我就不詳細討論了。因為實在是太零散了,各家企業五花八門。
大數據商業化:需要掌握數據商業化能力,數據價值變現能力,需要培養有強烈的商業敏感度的習慣。作為一個數據科學家,搭建好大數據基礎平台,做好數據的產品化、服務化,還是遠遠不夠的。企業生存就是為了積累數據,未來企業融資是靠數據,企業的上市估值更是靠數據。所以,我們所做的一切都是為了數據。可是,有數據還是非常不夠的,做出好的數據,也許一時能忽悠住投資人,忽悠住工作的同事,但是不能長期忽悠投資人,你有多少多少用戶量、交易流水多少多少個億,那都沒用的。長期來看一定是靠盈利的,是要為投資人創造收益的。企業的商業化是否成功,在很大程度上特別是對於一些本身是做大數據的公司來說,都是要靠大數據去驅動做數據化變現的。常用的一些方法有:
1)賣流量。通過大數據精準營銷或者設計一些數據產品比如個性化推薦來支持廣告的精準投放和產品的銷售以及交叉銷售等。這一類非常常見,我想不講大家應該也能明白。如果不明白的,可以看看淘寶網的一些廣告位和商品的推薦位,就會清楚了。
2)賣服務。現在很多大數據公司,通過把自己的核心能力包裝成一整套解決方案,提供給客戶。比如,大數據風控公司,提供大數據風控雲服務,把自己擁有的數據加上自身的建模能力優勢包裝成解決方案,提供給客戶。
3)賣產品。通過把數據產品化,比如,淘寶上特別多的提供各種分析結果給淘寶店家的數據產品。
4)賣數據。貴陽的國家大數據交易平台,其實就是在做這個事情。在互聯網金融領域,直接賣數據也是各大數據公司非常之常見的一種營收模式。
關於大數據商業化變現還有非常多的方法,這就需要數據科學家在日常工作管理中,做好歸納總結,創新思維,創造出各種各樣的數據商業化模式來。
(1)成為大數據科學家需要掌握大數據基礎科學技術
大數據技術:分布式大規模數據處理技術和工具,如hadoop、spark生態系統技術
數據挖掘技術:掌握常用的數據挖掘演算法模型、機器學習演算法、深度學習、人工智慧技術
數據採集技術:掌握數據採集的常用技術框架和工具
數據可視化技術:掌握數據可視化方法和技術及工具
(2)成為大數據科學家需要具備大數據應用技術
大數據平台構建:大數據架構能力、離線和實時分布式計算環境的建設
大數據產品化: 數據產品化、數據應用能力,數據驅動業務增長等技術
大數據商業化:數據商業化能力,數據價值變現能力,有強烈的商業敏感度
(3)成為大數據科學家需要具備大數據實戰能力
最好是大數據的各個工作崗位都曾經做過一遍,熟悉數據產品、數據分析、數據挖掘、
數據轉換清洗處理、數據採集、數據可視化等技術,能夠通盤的指揮大夥作戰。
要成為大數據科學家那就必須具備10年以上的大數據行業實踐經歷,當然啦,
特別厲害的人, 這個時間可以縮短再縮短。
(4)成為大數據科學家需要具備大數據戰略、產業化思維
大數據戰略:大數據平台戰略、人才戰略、時機戰略、選型戰略、管理戰略、決策戰略等
大數據思維:增長思維、動態思維、歷史思維、顛覆思維等
大數據行業視野:站在行業的視角,掌控各行各業的大數據動態情況
大數據產業的引領者: 具備大數據產業塑造能力,是產業的引領者
(5)成為大數據科學家需要具備一定的科研能力
需要具備專利論文能力,最好是能夠著書立說。各大大數據公司,
都有專利論文的要求的,作為企業數據最高領導者,必然需要具備專利敏感性。

B. 一文讀懂如何成為數據科學家

你為成為數據科學家做了充分的准備,但實際的工作將於你的預期大不相同。
你為成為數據科學家做好了充分的准備。你參加Kaggle比賽,看了大量的Coursera課程。你感覺已經准備好了,但數據科學家的實際工作將與你的預期大不相同。
本文探討了數據科學家新手的5個常見錯誤。這是由我在Sébastien Foucaud博士的幫助下一起總結的,他在學術界和行業領域有指導年輕數據科學家有超過20年的經驗。本文旨在幫助你更好地為數據科學家的實際工作做好准備。
誤區1 熱衷參加Kaggle比賽
你通過參與Kaggle比賽練習了數據科學技能。如果你掌握決策樹和神經網路那就再好不過了。但其實作為數據科學家,你不需要完成這么多的模型融合。記住,一般來說你將花80%的時間進行數據預處理,剩下20%的時間用於構建模型。
參加Kaggle比賽的好處在於,給出的數據都很從而你有更多的時間調整模型。但是在實際工作中則很少出現這種情況,你需要使用不同的格式和命名方式來匯總不同來源的數據。
你需要做的是,熟練掌握你大部分時間將要做的事,即數據預處理。例如抓取圖像或從API收集圖像;從Genius收集歌詞數據等。為解決特定問題准備所需的數據,然後將其輸入到計算機中開始機器學習生命周期。精通數據預處理無疑將大大幫助你成為一名出色的數據科學家,從而讓你在公司制定決策中起到關鍵作用。
誤區2 神經網路能搞定一切
深度學習模型在計算機視覺和自然語言處理領域優於其他機器學習模型。但也有明顯的缺點。
神經網路需要大量數據。如果樣本較少,那麼使用決策樹或邏輯回歸模型效果會更好。眾所周知,神經網路難以說明和解釋,因此被稱為」黑匣子「。當產品負責人或主管對模型輸出產生質疑時,你必須進行解釋,而傳統的模型更容易解釋。
有很多出色的統計學習模型,你需要了解其優缺點,並根據具體任務應該相關模型。除非是用於計算機視覺或自然語音識別等專業領域,否則傳統的機器學習演算法的成功率會更高。你很快就會發現,像邏輯回歸等簡單的模型是最好的模型。
誤區3 機器學習是產品
在過去十年機器學習大受吹捧,許多創業公司都認為機器學習能解決任何存在的問題。
機器學習永遠不應該是產品。機器學習是強大的工具,用於生產滿足客戶需求的產品的。機器學習可以用於讓客戶收到精準的商品推薦;准確識別圖像中的對象;幫助企業向用戶展示有價值的廣告。
作為數據科學家,你必須以客戶為目標制定計劃,從而你才能充分利用機器學習。
誤區4 混淆因果關系和相關性
大約90%的數據是在過去幾年中產生的。隨著大數據的出現,機器學習從業者可以獲得大量數據。由於有大量的數據需要分析評估,學習模型也更容易發現隨機的相關性。
上圖顯示了美國小姐的年齡與蒸汽、熱蒸汽和發熱物體導致的謀殺總數。根據這些數據,演算法會學習美國小姐的年齡與某些物體導致謀殺的模式。然而,這些數據點實際上是無關的,並且這兩個變數對其他變數沒有任何預測作用。
當在數據中發現模式時,要應用你的專業知識。當中是相關性還是因果關系?回答這些問題是從數據中得出分析見解的關鍵。
誤區5 優化錯誤的指標
開發機器學習模型遵循敏捷的生命周期。首先,你定義概念和關鍵指標。然後,將結果原型化。接著,不斷進行改進直到指標令你滿意。
在你構建機器學習模型時,記得要進行手動錯誤分析。雖然這個過程繁瑣且費時費力,但可以幫助你在迭代中有效地改進模型。
結語
年輕的數據科學家能為公司提供巨大價值。他們通常是自學成才,因為很少有大學提供數據科學學位。同時他們具有強烈的好奇心,並且對自己選擇的領域充滿熱情,並渴望了解更多的知識。因此對於剛入行的數據科學家來說,一定要注意以上提到的誤區。
注意以下幾點:
· 練習數據管理
· 研究不同模型的優缺點
· 讓模型盡可能簡單
· 檢查結論中的因果性和相關性
· 優化最有希望的指標

C. 如何成為一名數據科學家

簡單的說,原理和基礎都在數學這邊。線性代數(矩陣表示和運算)是基礎中的基礎,微積分(求導,極限);數據處理當然需要編程了,因此C/C++/Python任選一門,數據結構可以學學,只是讓你編程更順手,但是編程不是數據處理的核心。

Mid-level的課程,概率論+統計(很多數據分析基於統計模型),線性規劃+凸優化(統計到最後也還是求解一個優化問題,當然也有純優化模型不用統計模型的)再高階的課程,就是些研究生的課程了,就比較specific了,可以看你做的項目再選擇選修,比如:Probabilistic Graphical Models, Nolinear Programming, Integer Programming, Machine Learning(其實機器學習,學的都是一些統計和優化),圖像處理,deep learning, 神經網路,等等等等。學到Mid-level,然後做幾個實際項目,就能上手咯。要讀Phd搞科研,才上高階的。

閱讀全文

與如何成為一名大數據科學家相關的資料

熱點內容
恆泰證券怎麼開通轉債交易 瀏覽:539
縣城沒有順豐快遞代理怎麼樣 瀏覽:177
空分技術學院有什麼專業 瀏覽:981
北京旅遊機票代理怎麼聯系 瀏覽:409
舊貨市場上哪裡有舊空調賣 瀏覽:490
執行監理監督程序是什麼 瀏覽:227
天津銀行股票如何交易 瀏覽:467
模型怎麼招代理拿貨 瀏覽:334
雷賽伺服怎麼保存數據 瀏覽:902
草坪剪紙技術有哪些 瀏覽:474
創新城股票做事交易如何掛檔 瀏覽:764
qq怎麼屏蔽人發信息 瀏覽:333
臨滄蘭瑞莎代理多少錢一盒 瀏覽:501
安卓如何重置電池數據 瀏覽:820
北橋廢塑料市場在什麼位置 瀏覽:402
菜市場海帶為什麼那麼綠 瀏覽:476
水光針滾針用什麼產品 瀏覽:72
在哪裡學種菜技術 瀏覽:509
閑魚交易如何催發貨 瀏覽:717
哪些崗位有權登記公民個人信息 瀏覽:14