『壹』 數據標注員是做什麼的主要工作內容是什麼
數據標注員:標注員負責標記數據。(文本、圖像、視頻)
數據審核員:審核員負責審核被標記數據的質量。(抽檢)
標注管理員:管理人員、發放任務、跟進流程。
『貳』 數據標注員是做什麼的主要工作內容是什麼
簡單來說,數據標注是通過數據標注員藉助標注工具,對人工智慧學習數據進行加工的一種行為。
數據標注員每天的工作就是對著圖片、視頻、文本等數據,不斷進行著拉框、標點等操作。
這是比較典型的語音標注工具:
『叄』 數據標注工作簡介
1、三個角色
1) 標注員 :標注員負責標記數據
2) 審核員 :審核員負責審核被標記數據的質量
3) 管理員 :管理人員、發放任務、統計工資
2、數據標記流程
1) 任務分配 :假設標注員每次標記的數據為一次任務,則每次任務可由管理員分批發放記錄,也可將整個流程做成「搶單式」的,由後台直接分發。
2) 標記程序設計 :需要考慮到如何提升效率,比如快捷鍵的設置、邊標記及邊存等等功能都有利於提高標記效率。
3) 進度跟蹤 :程序對標注員、審核員的工作分別進行跟蹤,可利用「規定截止日期」的方式淘汰怠惰的人。
4) 質量跟蹤 :通過計算標注人員的標注正確率和被審核通過率,對人員標注質量進行跟蹤,可利用「末位淘汰」制提高標注人員質量。
這部分基本交由演算法同事跟進,但產品可依據需求,向演算法同事提出需要注意的方面
eg背景:一個識別車輛的產品對大眾車某系列的識別效果非常不理想,經過跟蹤發現,是因為該車系和另外一個品牌的車型十分相似。那麼,為了達到某個目標(比如,將精確率提高5%),可以採用的方式包括:
1)補充數據:針對大眾車系的數據做補充。值得注意的是,不僅是補充正例(「XXX」應該被識別為該大眾車系),還可以提供負例(「XXX」不應該被識別為該大眾車系),這樣可以提高差異度的識別。
2)優化數據:修改大批以往的錯誤標注。
產品將具體的需求給到演算法工程師,能避免無目的性、無針對性、無緊急程度的工作
測試同事(一般來說演算法同事也會直接負責模型測試)將未被訓練過的數據在新的模型下做測試。
如果沒有後台設計,測試結果只能由人工抽樣計算,抽樣計算繁瑣且效率較低。因此可以考慮由後台計算。
一般來說模型測試至少需要關注兩個指標:
1) 精確率 :識別為正確的樣本數/識別出來的樣本數
2) 召回率 :識別為正確的樣本數/所有樣本中正確的數
注意:
模型的效果,需要在這兩個指標之間達到一個平衡
測試同事需要關注特定領域內每個類別的指標,比如針對識別人臉的表情,裡面有喜怒哀樂等分類,每一個分類對應的指標都是不一樣的
測試同事需要將測試的結果完善地反饋給演算法同事,演算法同事才能找准模型效果欠缺的原因。
同時,測試同事將本次模型的指標結果反饋給產品,由產品評估是否滿足上線需求。
「評估模型是否滿足上線需求」是產品必須關注的,一旦上線會影響到客戶的使用感。
因此,在模型上線之前,產品需反復驗證模型效果。為了用數據對比本模型和上一個模型的優劣,需要每次都記錄好指標數據。
假設本次模型主要是為了優化領域內其中一類的指標,在關注目的的同時,產品還需同時注意檢測其他類別的效果,以免漏洞產生。
產品經理的工作,不止是產品評估——除了流程式控制制,質量評估,還有針對分類問題,由產品經理制定邊界,這是非常重要的,直接影響模型是否滿足市場需求。
產品制定分類規則:例如,目的是希望模型能夠識別紅色,那產品需要詳細描述「紅色」包含的顏色,暗紅色算紅色嗎?紫紅色算紅色嗎?紫紅色算是紅色還是紫色?這些非常細節的規則都需要產品設定。
如果分類細,那麼針對某一類的數據就會少。如果分類大,那麼一些有歧義的數據就會被放進該分類,也會影響模型效果。
分類問題和策略問題道理是一樣的,都需要產品對需求了解得非常深刻。
參考資料:《AI產品經理需要了解的數據標注工作入門》