A. 國內有哪些做的比較好的大數據平台,你怎麼評價
比較好的大數據平台有阿里雲,騰訊,網路,華為和星環.
阿陸顫判里雲的大數據平台偏技術,產品比較齊全.
騰訊大數據產品偏分早改析,產品和方案偏少
網路大數據的產品也比較齊全,另外偏營銷的解決方案不少
華為的產品偏薄弱.
另外一家是星環,產品很有特點,但是研發能力和市場等比較弱.
阿里雲大洞緩數據
騰訊大數據
網路大數據
華為大數據
星環大數據
B. 大數據技術平台有哪些
Java:只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據。基礎
Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
好說完基礎了,再說說還需要學習哪些大數據技術,可以按我寫的順序學下去。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰溜溜的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接收方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
C. 鏁版嵁縐戝﹀鉤鍙版湁鍝浜涳紵
澶╂睜錛氬ぉ奼犲ぇ鏁版嵁絝炶禌鏄鐢遍樋閲屽反宸翠富鍔烇紝闈㈠悜鍏ㄧ悆鏂扮敓浠e姏閲忕殑楂樼綆楁硶絝炶禌銆
浜涓淛DATA錛氫含涓淛DATA鏄浜涓滄棗涓嬩竴涓鏅烘眹騫沖彴錛屽鉤鍙版彁渚涗簡澶ф暟鎹絝炶禌銆佸湪綰跨殑鏁版嵁鍒嗘瀽澶勭悊宸ュ叿浠ュ強鏁版嵁縐戝︾ぞ鍖恆傝繖涓騫沖彴鐨勮禌棰樻潵鑷浜涓滀富鍔炵殑JDATA綆楁硶澶ц禌錛岃禌棰樻柟鍚戜富瑕佹槸鍋忕數鍟嗙墿嫻併佺敓媧誨簲鐢ㄧ被銆
Biendata錛氭槸鍖椾含鏁扮珵縐戞妧鏈夐檺鍏鍙稿壋鍔炵殑涓涓浜哄伐鏅鴻兘絝炶禌騫沖彴錛岀敤鎴峰彲閫氳繃璇ュ鉤鍙版姤鍚嶅苟鍙傚姞浜哄伐鏅鴻兘棰嗗煙鍚勭被璧涗簨銆
DataFountain錛氭槸鍖椾含鏁拌仈浼楀壋縐戞妧鏈夐檺鍏鍙告棗涓嬪搧鐗岋紝鏄鍥藉唴棰嗗厛鐨勬暟鎹絝炶禌鏈嶅姟騫沖彴鍜屾暟鎹鏅鴻兘鍗忓悓鍒涙柊騫沖彴錛屾棬鍦ㄥ洿緇曞崗浣溿佹暟鎹銆佺煡璇嗐佹妧鑳藉艦鎴愬ぇ鏁版嵁鐖卞ソ鑰呯殑涓撲笟鎴愰暱閾捐礬銆
Heywhale鍜岄哺錛氬拰椴哥ぞ鍖猴紙鍘 鈥滅戣禌緗戔濓級鎴愮珛浜2015騫達紝鏄涓鍥界煡鍚嶇殑絎涓夋柟鏁版嵁縐戝︾ぞ鍖轟箣涓錛岃緝鏃╀竴鎵逛笓娉ㄤ簬澶ф暟鎹綆楁硶姣旇禌鐨勫鉤鍙般
FlyAI錛氭槸鍖椾含鏅鴻兘宸ュ満縐戞妧鏈夐檺鍏鍙告棗涓嬩負AI寮鍙戣呮彁渚涙暟鎹絝炶禌騫舵敮鎸丟PU紱葷嚎璁緇冪殑涓絝欏紡鏈嶅姟騫沖彴錛屾瘡鍛ㄥ厤璐規彁渚涢」鐩寮婧愮畻娉曟牱渚嬶紝鏀鎸佺畻娉曡兘鍔涘彉鐜頒互鍙婂揩閫熺殑榪浠g畻娉曟ā鍨嬨
DataCastle鏁版嵁鍩庡牎錛欴ataCastle鏁版嵁縐戝﹀︿範紺懼尯闅跺睘浜庢垚閮芥暟鑱氬煄鍫$戞妧鏈夐檺鍏鍙革紝鏄鐢辯數瀛愮戞妧澶у﹀懆娑涙暀鎺堝壋寤虹殑鏁版嵁鏋佸㈠湀錛岃仛闆嗕簡鍏ㄧ悆鏁版嵁綺捐嫳銆侀嗗厛鐨勬暟鎹縐戝︽濈淮涓庢櫤鎱т互鍙婂悇琛屼笟棰嗗煙浼樿川鏁版嵁璧勬簮銆傦紙瀵規柊浜哄弸濂斤級
椋炴〃AI Studio錛氶炴〃AI Studio鏄鍩轟簬鐧懼害娣卞害瀛︿範騫沖彴椋炴〃鐨勪漢宸ユ櫤鑳藉︿範涓庡疄璁紺懼尯錛 鍒嗚鵑炴〃澶ц禌銆侀炴〃甯歌勮禌銆佹柊浜虹粌涔犺禌絳夈
鍗庝負浜戱細涓ユ牸鏉ヨ達紝鍗庝負浜戞洿鍍忎竴涓緇煎悎鎬у紑鍙戣呰禌浜嬪鉤鍙幫紝涓斿彧涓哄崕涓洪泦鍥㈣嚜韜涓氬姟鏈嶅姟錛岀珶璧涙兜鐩栨満鍣ㄥ︿範杞浠跺紑鍙戙佺‖浠跺紑鍙戙佺郴緇熷紑鍙戙佸伐涓氫簰鑱旂綉絳変紬澶氭柟鍚戙
AMARS鏁版嵁縐戝﹀鉤鍙幫細MARS澶ф暟鎹鏈嶅姟騫沖彴鏄鍗楁暟榪愮逛笌縐戝︾爺絀墮櫌(綆縐板崡鏁扮爺絀墮櫌)錛屽湪奼熻嫃鐪佸ぇ鏁版嵁鑱旂洘鎸囧間笅鍒涘緩鐨勪笓涓氭х珵璧涘鉤鍙板拰澶ф暟鎹寮鏀炬湇鍔″鉤鍙般
鍏朵綑榪樻湁錛氬叞浜 銆佹暟鐫挎濈瓑騫沖彴
D. 數據分析和大數據平台網站有哪些
無需編程即可用來數據分析的工具/軟體,推薦幾個:
Excel / Spreadsheet:http://www.openoffice.org/download/
Trifacta:https://www.trifacta.com/start-wrangling/
Rapid Miner:https://rapidminer.com/
Rattle GUI:https://cran.r-project.org/bin/windows/base/
Orange:http://orange.biolab.si/
Tableau Public:https://public.tableau.com/s/
Talend:http://openrefine.org/download.html
E. 澶ф暟鎹鍩虹騫沖彴鏈夊摢浜涳紵
DataCastle錛欴ataCastle鏄涓涓鏁版嵁縐戝︾珵璧涘鉤鍙幫紝鎻愪緵鏁版嵁絝炶禌鍜屾寫鎴橈紝璁╂暟鎹縐戝﹀跺拰鍒嗘瀽甯堝彲浠ュ湪瀹為檯闂棰樹笂灞曠ず鍜屾彁鍗囦粬浠鐨勬妧鑳姐
DataCanvas錛欴ataCanvas鏄涓縐嶄紒涓氱駭鐨勬暟鎹縐戝﹀鉤鍙幫紝甯鍔╃敤鎴蜂粠鏁版嵁涓鍙戠幇媧炲療鍜屼環鍊礆紝榪涜屾暟鎹鎸栨帢鍜屽垎鏋愩
钃濇箹鏁版櫤錛氳摑婀栨暟鏅烘槸涓瀹舵彁渚涙暟鎹鏅鴻兘鎶鏈鍜岃В鍐蟲柟妗堢殑鍏鍙革紝鍏舵暟鎹鏅鴻兘騫沖彴娑電洊鏁版嵁鏁寸悊銆佸彲瑙嗗寲銆佸垎鏋愬拰鎸栨帢絳夊姛鑳姐
鑾鏅縐戞妧錛氳帿鏅縐戞妧鎻愪緵鏁版嵁鍒嗘瀽鍜屾寲鎺樼殑騫沖彴鍜屽伐鍏鳳紝甯鍔╀紒涓氬疄鐜版暟鎹椹卞姩鍐崇瓥銆
浜戜粠縐戞妧錛圖atastory錛夛細浜戜粠縐戞妧鏄涓瀹舵彁渚涙暟鎹鏅鴻兘鍜屽彲瑙嗗寲浜у搧鐨勫叕鍙革紝鏃椾笅鐨凞atastory騫沖彴鏀鎸佹暟鎹鎺㈢儲鍜屾晠浜嬪彊榪般
涓滄柟鏁扮爜錛氫笢鏂規暟鐮佹槸涓瀹舵彁渚涙暟鎹縐戝﹀拰浜哄伐鏅鴻兘鎶鏈鐨勫叕鍙革紝鍏舵暟鎹縐戝﹀鉤鍙版兜鐩栨暟鎹鎸栨帢銆佸垎鏋愬拰寤烘ā絳夊姛鑳姐
娣卞湷鏁版嵁縐戝︾爺絀墮櫌錛圫SRI錛夛細娣卞湷鏁版嵁縐戝︾爺絀墮櫌鏄娣卞湷甯傛斂搴滄敮鎸佺殑鏁版嵁縐戝︾爺絀舵満鏋勶紝鑷村姏浜庢帹鍔ㄦ暟鎹縐戝﹀湪娣卞湷鐨勫彂灞曞拰搴旂敤銆
F. 大數據分析平台有哪些
1、國家數據: http://data.stats.gov.cn可以查詢到國家統計局調查統計的各專業領域的主要指標時間序列數據。
2、阿里指數: https://index.1688.com最權威專業的行業價格、供應、采購趨勢分析。
3、微指數: https://data.weibo.com/index微指數是對提及量、閱讀量、互動量加權得出的綜合指數,更加全面的體現關鍵詞在微博上的熱度情況。
4、微信指數: 微信裡面搜一搜“微信指數”就能直接找到。立足於微信生態,依託海量用戶數據,微信指數具有天生優勢。
5、淘寶生意參謀: https://sycm.taobao.com生意參謀基於“支付金額=訪客數*轉化率*客單價”這一公式,幫你快速定位生意波動的核心因素。
6、搜狗指數: http://shu.sogou.com/全網熱門事件、品牌、人物等查詢詞的搜索熱度變化趨勢,掌握網民需求變化.
7、頭條指數: https://index.toutiao.com/頭條指數是巨量引擎雲圖推出的一種數據產品。
8、360指數: http://index.haosou.com360趨勢是以360產品海量用戶數據為基礎的大數據展示平台。
G. 大數據基礎平台有哪些
國內大數據平台有:
1、星環Transwarp。星環科技是一個以hadoop生態系統為基礎的大型數據平台公司,被Gartner魔力象限列入名單過,它的潛力不容忽視,它在技術上對hadoop不穩定的部分進行了優化,功能得到了改進,提供了hadoop的企業大數據引擎等。
2、TalkingData。TalkingData屬於獨立的第三方品牌。它的產品與之服務涵蓋了移動應用數據統計、公共數據查詢、綜合數據管理等多款極具針對性的產品及服務。在銀行、互聯網、電商行業有廣泛的數據服務應用。
3、友盟+。友盟+是第一個第三方的全域大數據服務供應商,可以全面覆蓋PC機、無線路由器等多種設備。為企業提供基礎統計、操作分析、數據決策等全業務鏈的數據應用解決方案,幫助企業進行數據化操作和管理。
4、網易猛獁。網易猛獁大數據平台提供了海量應用開發的一站式數據管理平台,其中還包含了大數據開發套件和hadoop發布。該套件主要包括數據開發、任務操作、自助分析、以及多租戶管理等。
5、GrowingIO。GrowingIO是一種基於網際網路用戶行為的數據分析產品,具有無埋點數據採集技術,可通過行為數據,如網頁或APP的瀏覽軌跡、點擊記錄、滑鼠滑動軌跡等行為數據,對用戶行為數據,進行實時的分析,用於優化產品體驗,實現精益化操作。
6、神策數據。神策數據原理也與GrowingIO類似。但是它在技術上提供開放的查詢API和完整的SQL介面,同時與MapRece和Spark等計算引擎無縫融合,隨時以最高效的方式來訪問干凈、規范的數據。