1. 大數據開發人員面試常會被問什麼問題
1、你自身的優點
這個問題不僅僅是在大數據面試當中常常被問,在各行各業的面試中都經常出現。所以面試者要盡可能說一些和工作相關的優點,比如「學習能力強」「能抗住壓力」等,再舉一個自己之前工作的例子進行證明,這會讓面試官覺得很真實。
2、為什麼要離開上家公司
其實面試官問這種問題的時候,就是在看你人品。很多人覺得說上家公司不好的話才是好的,其實不是的,離職見人品,如果你能在面試官面前說上家公司的不好,也能在下家公司說這家公司的不好。所以在面試官問及這個問題的時候,最好結合自身的發展來說。
3、未來幾年的規劃
回答這個問題的時候,不要說自己不知道、不清楚,會顯得你這個人沒有目標和方向。所以如果應聘者對這個問題不知道怎麼回答的時候,可以跟面試官交流一下現在大數據行業的職業目標以及准備做些什麼去實現這個目標,至少要讓面試官看到應聘者對選擇這個職業的熱情,甚至是對選擇這份工作的熱情。
2. 2021年大數據工程師面試內容包括哪些
【導語】近年來,大數據發展如火如荼,很多人都選擇學習大數據專業或者轉行大數據,大數據里又包含很多就業崗位,所以在進行崗位選擇的時候,還是需要大家合理選擇,為了幫助大家更好的進入大數據行業執業,下面就把2021年大數據工程師面試內容給大家進行一下具體介紹。
1、自我介紹
一般上來就是自我介紹,談下工作經歷和項目經驗,面試官會根據你的項目經驗對你進行技術面試。在自我介紹時,一定要抓住核心說,不要太啰嗦,盡量放大自己的價值,讓面試官感受到你對工作的熱情,以及以後對公司貢獻的能力。
2、數倉開發知識技能
(1)Java是必問的,不過問的不深,把Javase部分吃透,足以應付Java部分的面試。
(2)Hadoop生態,Yarn、Zookeeper、HDFS這些底層原理要懂,面試經常被問。
(3)Maprece的shuffle過程這個也是面試被常問的。
(4)Hbase和HIve,搞大數據這些不懂真的說不過去。
(5)Mysql、Oracle和Postgres資料庫操作要回,Sql要會寫。
(6)linux操作系統,這個簡單得命令必須要懂,會寫shell腳本更好了。
(7)Kettle或Sqoop這種數據處理工具至少要會一個。8,數據倉庫建模、數據模型的問題。
3、技術方面知識技能
(1)SparkSql和SparkStreaming,底層原理、內核、提交任務的過程等等,盡量深入內幕,這個經常會跟MapRece作比較的。當然也要了解Storm和Flink,Flink這個建議要學會,以後用處會越來越廣。
(2)Redis、Kafka、ElasticSearch這些都得懂原理,深入了解,會使用,會操作,會調優。
(3)impala和kylin這些盡量也要了解會用
(4)Python這個要是有能力,有精力,建議也要往深處學習,我目前正在自學中。
(5)集群的問題,包括一些簡單的運維知識。
(6)大數據數據傾斜的問題,包括Spark JVM內存調優問題等等。
關於2021年大數據工程師面試內容,就給大家介紹到這里了,希望對大家能有所幫助,當然進入大數據行業,還需要大家在平時不斷進行技能提升,這樣才能更好的擁有一席之地。
3. 尚矽谷大數據面試都會問些什麼
其實不管是哪家公司面試,都是根據你的簡歷來對你進行提問,所以自己簡歷上面寫的知識點都要全部對答如流。
還有慎用精通這樣的字眼,工作五年以上的人,也不敢說自己對哪一方面能夠達到精通的地步。
尚矽谷大數據面試的一些基本問題總結如下:
1.講講你做的過的項目。 項目里有哪些 難點重點注意點呢?
2.講講多線程吧, 要是你,你怎麼實現一個線程池呢?
3.講一下Maprece或者hdfs的原理和機制。map讀取數據分片。
4.shuffle 是什麼? 怎麼調優?
5.項目用什麼語言寫? Scala? Scala的特點? 和Java的區別?
6.理論基礎怎麼樣,比如數據結構,裡面的快速排序,或者,樹? 講一講你了解的樹的知識?
7.數學怎麼樣呢?
8.講一下資料庫,SQl ,左外連接, 原理,實現?
9.還了解過數據的什麼知識? 資料庫引擎?
10.Hadoop的機架怎麼配置的?
11.Hbase的設計有什麼心得?
12.Hbase的操作是用的什麼API還是什麼工具?
13.對調度怎麼理解.? 用什麼工具嗎?
14.用kettle 這種工具還是 自己寫程序? 你們公司是怎麼做的?
15.你們數據中心開發周期是多長?
16.你們hbase裡面是存一些什麼數據
4. 常見大數據公司面試問題有哪些
1、您對“大數據”一詞有什麼了解?
答: 大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是為什麼使用特殊的工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還使公司能夠根據數據做出更好的業務決策。
2、告訴我們大數據和Hadoop之間的關系。
答: 大數據和Hadoop幾乎是同義詞。隨著大數據的興起,專門用於大數據操作的Hadoop框架也開始流行。專業人士可以使用該框架來分析大數據並幫助企業做出決策。
注意: 在大數據采訪中通常會問這個問題。 可以進一步去回答這個問題,並試圖解釋的Hadoop的主要組成部分。
3、大數據分析如何有助於增加業務收入?
答:大數據分析對於企業來說已經變得非常重要。它可以幫助企業與眾不同,並增加收入。通過預測分析,大數據分析為企業提供了定製的建議。此外,大數據分析使企業能夠根據客戶的需求和偏好推出新產品。這些因素使企業獲得更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。
5. 面試數據分析師的常見問題
面試數據分析師的常見問題。數據分析師指的是不同行業中,專門從事行業數據搜集、整理、分析,並依據數據做出行業研究、評估和預測的專業人員。那麼在應聘數據分析師這一職位的求職者會面臨哪些面試問題呢?
1、告訴我二個分析或者計算機科學相關項目?你是如何對其結果進行衡量的?
2、如何讓一個網路爬蟲速度更快、抽取更好的信息以及更好總結數據從而得到一干凈的資料庫?
3、什麼是:提升值、關鍵績效指標、強壯性、模型按合度、實驗設計、2/8原則?
4、什麼是:協同過濾、n-grams, map rece、餘弦距離?
5、點擊流數據應該是實時處理?為什麼?哪部分應該實時處理?
6、如何設計一個解決抄襲的方案?
7、如何檢驗一個個人支付賬戶都多個人使用?
8、什麼是概率合並(AKA模糊融合)?使用SQL處理還是其它語言方便?對於處理半結構化的數據你會選擇使用哪種語言?
9、你認為哪個更好:是好的數據還是好模型?同時你是如何定義「好」?存在所有情況下通用的模型嗎?有你沒有知道一些模型的定義並不是那麼好?
10、你最喜歡的編程語言是什麼?為什麼?
11、你是如何處理缺少數據的?你推薦使用什麼樣的處理技術?
12、什麼是大數據的詛咒?
13、對於你喜歡的統計軟體告訴你喜歡的與不喜歡的3個理由。
14、SAS, R, Python, Perl語言的區別是?
15、你喜歡TD資料庫的什麼特徵?
16、你參與過資料庫與數據模型的設計嗎?
17、你是否參與過儀表盤的設計及指標選擇?你對於商業智能和報表工具有什麼想法?
18、請舉例說明maprece是如何工作的?在什麼應用場景下工作的很好?雲的安全問題有哪些?
19、如何你打算發100萬的營銷活動郵件。你怎麼去優化發送?你怎麼優化反應率?能把這二個優化份開嗎?
20、如果有幾個客戶查詢ORACLE資料庫的效率很低。為什麼?你做什麼可以提高速度10倍以上,同時可以更好處理大數量輸出?
21、如何把非結構化的數據轉換成結構化的數據?這是否真的有必要做這樣的轉換?把數據存成平面文本文件是否比存成關系資料庫更好?
22、什麼是哈希表碰撞攻擊?怎麼避免?發生的頻率是多少?
23、如何判別maprece過程有好的負載均衡?什麼是負載均衡?
24、你處理過白名單嗎?主要的規則?(在欺詐或者爬行檢驗的情況下)
25、(在內存滿足的情況下)你認為是100個小的哈希表好還是一個大的哈希表,對於內在或者運行速度來說?對於資料庫分析的評價?
26、為什麼樸素貝葉斯差?你如何使用樸素貝葉斯來改進爬蟲檢驗演算法?
27、普通線性回歸模型的缺陷是什麼?你知道的其它回歸模型嗎?
28、什麼是星型模型?什麼是查詢表?
29、你可以使用excel建立邏輯回歸模型嗎?如何可以,說明一下建立過程?
30、在SQL, Perl, C++, Python等編程過程上,待為了提升速度優化過相關代碼或者演算法嗎?如何及提升多少?
31、使用5天完成90%的精度的解決方案還是花10天完成100%的精度的解決方案?取決於什麼內容?
32、定義:QA(質量保障)、六西格瑪、實驗設計。好的與壞的實驗設計能否舉個案例?
33、什麼是敏感性分析?擁有更低的敏感性(也就是說更好的強壯性)和低的預測能力還是正好相反好?你如何使用交叉驗證?你對於在數據集中插入雜訊數據從而來檢驗模型的敏感性的想法如何看?
34、你認為葉數小於50的決策樹是否比大的好?為什麼?
35、保險精算是否是統計學的一個分支?如果不是,為何如何?
36、給出一個不符合高斯分布與不符合對數正態分布的數據案例。給出一個分布非常混亂的數案例。
37、你如何建議一個非參數置信區間?
38、你如何證明你帶來的演算法改進是真的有效的與不做任何改變相比?你對A/B測試熟嗎?
39、為什麼說均方誤差不是一個衡量模型的好指標?你建議用哪個指標替代?
40、對於一下邏輯回歸、決策樹、神經網路。在過去15年中這些技術做了哪些大的改進?
41、除了主成分分析外你還使用其它數據降維技術嗎?你怎麼想逐步回歸?你熟悉的逐步回歸技術有哪些?什麼時候完整的數據要比降維的數據或者樣本好?
42、如何創建一個關鍵字分類?
43、你熟悉極值理論、蒙特卡羅邏輯或者其它數理統計方法以正確的評估一個稀疏事件的發生概率?
44、什麼是歸因分析?如何識別歸因與相關系數?舉例。
45、如何定義與衡量一個指標的預測能力?
46、如何為欺詐檢驗得分技術發現最好的規則集?你如何處理規則冗餘、規則發現和二者的本質問題?一個規則集的近似解決方案是否可行?如何尋找一個可行的近似方案?你如何決定這個解決方案足夠好從而可以停止尋找另一個更好的?
47、什麼是概念驗證?
48、什麼是僵屍網路?如何進行檢測?
49、你有使用過API介面的經驗嗎?什麼樣的API?是谷歌還是亞馬遜還是軟體即時服務?
50、什麼時候自己編號代碼比使用數據科學者開發好的軟體包更好?
51、可視化使用什麼工具?在作圖方面,你如何評價Tableau?R?SAS?在一個圖中有效展現五個維度?
52、是假陽性好還是假陰性好?
53、你主要與什麼樣的客戶共事:內部、外部、銷售部門/財務部門/市場部門/IT部門的人?有咨詢經驗嗎?與供應商打過交道,包括供應商選擇與測試。
54、你熟悉軟體生命周期嗎?及IT項目的生命周期,從收入需求到項目維護?
55、什麼是cron任務?
56、你是一個獨身的編碼人員?還是一個開發人員?或者是一個設計人員?
57、什麼讓一個圖形使人產生誤解、很難去讀懂或者解釋?一個有用的圖形的特徵?
58、你熟悉價格優化、價格彈性、存貨管理、競爭智能嗎?分別給案例。
59、Zillow』s演算法是如何工作的?
60、如何檢驗為了不好的目的還進行的虛假評論或者虛假的FB帳戶?
61、你如何創建一個新的匿名數字帳戶?
62、你有沒有想過自己創業?是什麼樣的想法?
63、你認為帳號與密碼輸入的登錄框會消失嗎?它將會被什麼替代?
64、你用過時間序列模型嗎?時滯的相關性?相關圖?光譜分析?信號處理與過濾技術?在什麼樣的場景下?
65、哪位數據科學有你最佩服?從哪開始?
66、你是怎麼開始對數據科學感興趣的?
67、你覺得下一個20年最好的5個預測方法是?
68、什麼是推薦引擎?它是如何工作的?
69、什麼是精密測試?如何及什麼時候模擬可以幫忙我們不使用精密測試?
70、你認為怎麼才能成為一個好的數據科學家?
71、你認為數據科學家是一個藝術家還是科學家?
72、你怎麼馬上就知道在一篇文章中(比如報紙)發表的統計數字是錯誤,或者是用作支撐作者的論點,而不是僅僅在羅列某個事物的信息?例如,對於每月官方定期在媒體公開發布的失業統計數據,你有什麼感想?怎樣可以讓這些數據更加准確?
73、給出一些在數據科學中「最佳實踐的案例」。
74、什麼是效率曲線?他們的缺陷是什麼,你如何克服這些缺陷?
75、你處理過的最大的數據量?你是如何處理他們的?處理的結果。
76、什麼是一個好的、快速的聚類演算法的的計算復雜度?什麼好的聚類演算法?你怎麼決定一個聚類的聚數?
77、你知道使用在統計或者計算科學中的「經驗法則」嗎?或者在商業分析中。
上述的這些問題在面試數據分析師的求職者中非常容易遇到的,有些的涉及到專業性的問題,因此在面試之前一定要做好充足的准備!
6. 大數據面試題及答案誰能分享一下
大數據時代才剛剛開始。隨著越來越多的公司傾向於大數據運營,人才需求達到歷史最高水平。這對你意味著什麼?如果您想在任何大數據崗位上工作,它只能轉化為更好的機會。您可以選擇成為數據分析師,數據科學家,資料庫管理員,大數據工程師,Hadoop大數據工程師等。在本文中,慧都網將介紹與大數據相關的前10大數據面試問題。
以下是最重要的大數據面試問題以及具體問題的詳細解答。對於更廣泛的問題,答案取決於您的經驗,我們將分享一些如何回答它們的提示。
無論何時進行大數據采訪,采訪者都可能會詢問一些基本問題。無論您是大數據領域的新手還是經驗豐富,都需要基礎知識。因此,讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。
1.您對「大數據」一詞有何了解?
答:大數據是與復雜和大型數據集相關的術語。關系資料庫無法處理大數據,這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地了解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。
2.大數據的五個V是什麼?
答:大數據的五個V如下:
Volume -Volume表示體積大,即以高速率增長的數據量,即以PB為單位的數據量
Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。
Variety -Variety是指不同的數據類型,即各種數據格式,如文本,音頻,視頻等。
Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性,因此產生了准確性。
Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值,企業可以創造收入。
YARN的兩個主要組成部分:
ResourceManager-該組件接收處理請求,並根據處理需要相應地分配給各個NodeManager。
NodeManager-它在每個單個數據節點上執行任務
7.為什麼Hadoop可用於大數據分析?
答:由於數據分析已成為業務的關鍵參數之一,因此,企業正在處理大量結構化,非結構化和半結構化數據。在Hadoop主要支持其功能的情況下,分析非結構化數據非常困難
存儲
處理
數據採集
此外,Hadoop是開源的,可在商用硬體上運行。因此,它是企業的成本效益解決方案。
8.什麼是fsck?
答:fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如,如果文件有任何丟失的塊,則通過此命令通知HDFS。
9. NAS(網路附加存儲)和HDFS之間的主要區別是什麼?
答:NAS(網路附加存儲)和HDFS之間的主要區別 -
HDFS在一組計算機上運行,而NAS在單個計算機上運行。因此,數據冗餘是HDFS中的常見問題。相反,復制協議在NAS的情況下是不同的。因此,數據冗餘的可能性要小得多。
在HDFS的情況下,數據作為數據塊存儲在本地驅動器中。在NAS的情況下,它存儲在專用硬體中。
10.格式化NameNode的命令是什麼?
答:$ hdfs namenode -format。
歡迎咨詢慧都在線客服,我們將幫您轉接大數據專家團隊,並發送相關資料給您!
以上就是大數據面試題及答案,希望我的回答對您有幫助!