導航:首頁 > 數據處理 > 如何創作機器學習的數據集

如何創作機器學習的數據集

發布時間:2024-12-09 08:31:20

㈠ 機器學習中常用的數據集處理方法

機器學習中常用的數據集處理方法
1.離散值的處理: 因為離散值的差值是沒有實際意義的。比如如果用0,1,2代表紅黃藍,1-0的差值代表黃-紅,是沒有意義的。因此,我們往往會把擁有d個取值的離散值變為d個取值為0,1的離散值或者將
其映射為多維向量。
2.屬性歸一化: 歸一化的目標是把各位屬性的取值范圍放縮到差不多的區間,例如[-0.5,0.5]。這里我們使用一種很常見的操作方法:減掉均值,然
後除以原取值范圍。 做歸一化至少有以下3個理由: - 過大或過小的數值范圍會導致計算時的浮點上溢或下溢。 - 不同的數值范圍會導致不同屬性對模型的重要性不同(至少在訓練的初始階段如此),而這個隱含的假設常常是不合理的。這會對優化的過程造成困難,使訓練時間大大的加長。 - 很多的機器學習技巧/模型(例如L1,L2正則項,向量空間模型-Vector Space Model)都基於這樣的假設:所有的屬性取值都差不多是以0為均值
且取值范圍相近的
。 3.分割數據集 一般把數據集分為兩部分,一部分為訓練集,用於訓練數據,一部分為測試集,用於測試訓練的數據,測試集不應過多或過少,數據較少時訓練集:測試集可以為8:2,較多時比
例可以達到9:1 。

閱讀全文

與如何創作機器學習的數據集相關的資料

熱點內容
發行代理費一般多少 瀏覽:922
海鮮產品退貨怎麼處理 瀏覽:704
股權託管交易什麼意思 瀏覽:542
什麼程序寫app簡單 瀏覽:299
為什麼牛市場大跌 瀏覽:419
如何將數據去掉重復 瀏覽:530
mc取消數據顯示按什麼鍵 瀏覽:602
平價減肥產品有哪些 瀏覽:409
賽車3數據包放哪裡 瀏覽:268
銷售數據如何聯網 瀏覽:52
修改硬碟數據需要哪些 瀏覽:351
plc怎麼編輯數據子程序 瀏覽:796
江蘇化妝品代理怎麼找 瀏覽:947
ktv需要話筒信息去哪裡找 瀏覽:223
船上指定人員要了解什麼程序 瀏覽:452
高考英語閱讀理解背景信息是什麼 瀏覽:10
保險代理客戶怎麼做 瀏覽:366
夢幻西遊怎麼交易祥瑞 瀏覽:381
製造雷達運用到的是什麼生物技術 瀏覽:861
民生股票可以在哪個手機軟體交易 瀏覽:415