A. 什麼是數據標注
數據標注最基本的就是畫框,比如檢測目標是車,標注員就需要把一張圖上的所有車都標出來,畫框要完全卡住車的外接矩形,框得不準確機器就可能「學壞」。再比如人的姿態識別,就包括18個關鍵點,經過訓練的標注員才能掌握這些關鍵點的標注,標注完成的數據也才能符合機器學習的標准。
自動標注技術是在計算機制圖技術發展的基礎上形成的一門技術。主要是利用存儲在資料庫屬性表中的信息來自動標注主題特徵,在標注時可以用主題屬性表中任意域的正方便地改變標注屬性的位置、字體、風格、大小和顏色。
自動注記的主要內容是地圖注記。地圖注記是地圖的基本內容之一,如同地圖上其他符號一樣,注記也是一種符號,在許多情況下起定位作用。它是將地圖信息在制圖者與用圖者之間進行傳遞的重要方式。例如,根據注記的位置和結構,可以指示點位,根據注記的間隔和排列走向,指示對象的范圍。
B. 數據標注是做什麼的
首先談談什麼是數據標注。數據標注有許多類型,如分類、畫框、注釋、標記等等,我們會在下面詳談。
要理解數據標注,得先理解AI其實是部分替代人的認知功能。回想一下我們是如何學習的,例如我們學習認識蘋果,那麼就需要有人拿著一個蘋果到你面前告訴你,這是一個蘋果。然後以後你遇到了蘋果,你才知道這玩意兒叫做「蘋果」。
類比機器學習,我們要教他認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標注著「蘋果」兩個字,然後機器通過學習了大量的圖片中的特徵,這時候再給機器任意一張蘋果的圖片,它就能認出來了。
這邊可以順帶提一下訓練集和測試集的概念。訓練集和測試集都是標注過的數據,還是以蘋果為例子,假設我們有1000張標注著「蘋果」的圖片,那麼我們可以拿900漲作為訓練集,100張作為測試集。機器從900張蘋果的圖片中學習得到一個模型,然後我們將剩下的100張機器沒有見過的圖片去給它識別,然後我們就能夠得到這個模型的准確率了。想想我們上學的時候,考試的內容總是不會和我們平時的作業一樣,也只有這樣才能測試出學習的真正效果,這樣就不難理解為什麼要劃分一個測試集了。
我們知道機器學習分為有監督學習和無監督學習。無監督學習的效果是不可控的,常常是被用來做探索性的實驗。而在實際產品應用中,通常使用的是有監督學習。有監督的機器學習就需要有標注的數據來作為先驗經驗。
在進行數據標注之前,我們首先要對數據進行清洗,得到符合我們要求的數據。數據的清洗包括去除無效的數據、整理成規整的格式等等。具體的數據要求可以和演算法人員確認。
二、常見的幾種數據標注類型
1.分類標註:分類標注,就是我們常見的打標簽。一般是從既定的標簽中選擇數據對應的標簽,是封閉集合。如下圖,一張圖就可以有很多分類/標簽:成人、女、黃種人、長發等。對於文字,可以標注主語、謂語、賓語,名詞動詞等。
適用:文本、圖像、語音、視頻
應用:臉齡識別,情緒識別,性別識別
2.標框標註:機器視覺中的標框標注,很容易理解,就是框選要檢測的對象。如人臉識別,首先要先把人臉的位置確定下來。行人識別,如下圖。
適用:圖像
應用:人臉識別,物品識別
3.區域標註:相比於標框標注,區域標注要求更加精確。邊緣可以是柔性的。如自動駕駛中的道路識別。
適用:圖像
應用:自動駕駛
4.描點標註:一些對於特徵要求細致的應用中常常需要描點標注。人臉識別、骨骼識別等。
適用:圖像
應用:人臉識別、骨骼識別
5.其他標註:標注的類型除了上面幾種常見,還有很多個性化的。根據不同的需求則需要不同的標注。如自動摘要,就需要標注文章的主要觀點,這時候的標注嚴格上就不屬於上面的任何一種了。(或則你把它歸為分類也是可以的,只是標注主要觀點就沒有這么客觀的標准,如果是標注蘋果估計大多數人標注的結果都差不多。)
三、數據標注的過程
1.標注標準的確定
確定好標準是保證數據質量的關鍵一步,要保證有個可以參照的標准。一般可以:
設置標注樣例、模版。例如顏色的標准比色卡。
對於模稜兩可的數據,設置統一處理方式,如可以棄用,或則統一標注。
參照的標准有時候還要考慮行業。以文本情感分析為例,「疤痕」一詞,在心理學行業中,可能是個負面詞,而在醫療行業則是一個中性詞。
2.標注形式的確定
標注形式一般由演算法人員制定,例如某些文本標注,問句識別,只需要對句子進行0或1的標注。是問句就標1,不是問句就標0。
3.標注工具的選擇
標注的形式確定後,就是對標注工具的選擇了。一般也是由演算法人員提供。大公司可能會內部開發一個專門用於數據標注的可視化工具。如:
也有使用開源的數據標注工具的,如推薦 Github 上的小工具labelImg
四、數據標注產品的設計
結合自己做過一款數據標記工具談談設計數據標注工具的幾個小技巧。
一個數據標注工具一般包含:
進度條:用來指示數據標注的進度。標注人員一般都是有任務量要求的,一方面方便標注人員查看進度,一方面方便統計。
標注主體:這個可以根據標注形式進行設計,原則上是越簡潔易用越好。根據標注所需要的注意力可以分為單個標注和多個標注的形式,可根據需求選擇。
數據導入導出功能:如果你的標注工具是直接數據對接到模型上的,可以不需要。
收藏功能:這個可能是沒有接觸過數據標注的不會想到。標注人員常常會出現的一種情況就是疲勞,或者是遇到了那種模稜兩可的數據,則可以先收藏,等後面再標。
質檢機制:在分發數據的時候,可以隨機分發一些已經標注過的數據,來檢測標注人員可靠性。
C. 數據標注是做什麼的
數據標注是做什麼的,這個是IT互聯網公司的一個工作,數據標注就是使用自動化的工具從互聯網上抓取、收集數據包括文本、圖片、語音等等,然後對抓取的數據進行整理與標注。相當於互聯網上的」專職編輯「。探究的一般過程是從發現問題、提出問題開始的,發現問題後,根據自己已有的知識和生活經驗對問題的答案作出假設.設計探究的方案,包括選擇材料、設計方法步驟等.按照探究方案進行探究,得到結果,再分析所得的結果與假設是否相符,從而得出結論.並不是所有的問題都一次探究得到正確的結論.有時,由於探究的方法不夠完善,也可能得出錯誤的結論.因此,在得出結論後,還需要對整個探究過程進行反思.探究實驗的一般方法步驟:提出問題、做出假設、制定計劃、實施計劃、得出結論、表達和交流.
科學探究常用的方法有觀察法、實驗法、調查法和資料分析法等.
觀察是科學探究的一種基本方法.科學觀察可以直接用肉眼,也可以藉助放大鏡、顯微鏡等儀器,或利用照相機、錄像機、攝像機等工具,有時還需要測量.科學的觀察要有明確的目的;觀察時要全面、細致、實事求是,並及時記錄下來;要有計劃、要耐心;要積極思考,及時記錄;要交流看法、進行討論.實驗方案的設計要緊緊圍繞提出的問題和假設來進行.在研究一種條件對研究對象的影響時,所進行的除了這種條件不同外,其它條件都相同的實驗,叫做對照實驗.一般步驟:發現並提出問題;收集與問題相關的信息;作出假設;設計實驗方案;實施實驗並記錄;分析實驗現象;得出結論.調查是科學探究的常用方法之一.調查時首先要明確調查目的和調查對象,制訂合理的調查方案.調查過程中有時因為調查的范圍很大,就要選取一部分調查對象作為樣本.調查過程中要如實記錄.對調查的結果要進行整理和分析,有時要用數學方法進行統計.收集和分析資料也是科學探究的常用方法之一.收集資料的途徑有多種.去圖書管查閱書刊報紙,拜訪有關人士,上網收索.其中資料的形式包括文字、圖片、數據以及音像資料等.對獲得的資料要進行整理和分析,從中尋找答案和探究線索
D. 數據來源怎麼標注
方法/步驟
首先用word打開要編輯的論文,這里使用word2013打開編輯,然後把滑鼠移動到引用數據的末尾並點擊一下。
E. 數據的三種表示方法有哪三種
數據的表示法主要有三種方式:列表法、作圖法和方程式法。現分述其應用及表達時應注意的事項。
數據表達
數據的表示法主要有三種方式:列表法、作圖法和方程式法。現分述其應用及表達時應注意的事項。
中文名
數據表達
外文名
Data expression
公式
y=mx+b
方法
作圖法、列表法
相關學科
數學
列表法
做完實驗後,所獲得的大量數據,應該盡可能整齊地、有規律地列表表達出來,使得全部數據能一目瞭然,便於處理、運算,容易檢查而減少差錯。列表時應注意以下幾點:
(1)每一個表都應有簡明而又完備的名稱;
(2)在表的每一行或每一列的第一欄,要詳細地寫出名稱、單位;
(3)在表中的數據應化為最簡單的形式表示,公共的乘方因子應在第一欄的名稱下註明;
數據表達
(4)在每一行中數字排列要整齊,位數和小數點要對齊; (5)原始數據可與處理的結果並列在一張表上,而把處理方法和運算公式在表下註明。
作圖法
利用圖形表達實驗結果有許多好處:首先它能直接顯示出數據的特點,像極大、極小、轉折點等;其次能夠利用圖形作切線、求面積,可對數據作進一步處理。作圖法用處極為廣泛,其中重要的有:
(1)求內插值。根據實驗所得的數據,作出函數間相互的關系曲線,然後找出與某函數相應的物理量的數值。例如,在溶解熱的測定中,根據不同濃度下的積分溶解熱曲線,可以直接找出該鹽溶解在不同量的水中所放出的熱量。
數據表達
(2)求外推值。在某些情況下,測量數據間的線性關系可外推至測量范圍以外,求某一函數的極限值,此種方法稱為外推法。例如,強電解質無限稀釋溶液的摩爾電導率的值,不能由實驗直接測定,但可直接測定濃度很稀的溶液的摩爾電導率,然後作圖外推至濃度為0,即得無限稀釋溶液的摩爾電導率 (3)作切線,以求函數的微商。從曲線的斜率求函數的微商在數據處理中是經常應用的。例如,利用積分溶解熱的曲線作切線,從其斜率求出某一指定濃度下的微分沖淡熱,就是很好的例子。
F. 地圖基礎數據標注是什麼
地圖基礎數據標注,就是地圖標注,是將商家或企業的線下地址信息標注到互聯網電子地圖、手機電子地圖或導航地圖中,這樣用戶在當地的電子地圖上就可以看到商家的店鋪信息或企業的地址信息,同時店鋪聯系信息中也將顯示該信息地圖標記。
電子地圖是系統反映經濟、交通、旅遊、公共設施等基礎地理信息的最大眾化的地圖作品,它在表示基礎地理信息空間分布上起著任何傳統媒體所無法替代的功能。當地圖的標注點與道路設施聯系起來,就可以得到企業或商戶的精確方位。
與交通信息結合起來,就可以得到企業或商戶的交通情況,如周圍有哪些公路、乘坐哪路公交車可以到達;與城市基本信息結合起來,就可以分析出企業或商戶的周邊環境,如周圍有什麼賓館飯店、娛樂設施、醫院、學校等,方便有關人員辦公等。
(6)數據標注有哪些方式方法擴展閱讀:
標注方式:以常見地圖舉例
1、網路地圖
資費:標注點的新增、更改和認領均免費
標注方式:網路地圖標注中心線上進行標注
2、高德地圖
資費:標注和更新免費
標注方式:申請人提交標注申請,高德專人審核數據並更新到高德地圖