導航:首頁 > 數據處理 > 如何創作機器學習的數據集

如何創作機器學習的數據集

發布時間：2024-12-09 08:31:20

㈠機器學習中常用的數據集處理方法

機器學習中常用的數據集處理方法
1.離散值的處理：因為離散值的差值是沒有實際意義的。比如如果用0,1,2代表紅黃藍，1-0的差值代表黃-紅，是沒有意義的。因此，我們往往會把擁有d個取值的離散值變為d個取值為0,1的離散值或者將
其映射為多維向量。
2.屬性歸一化：歸一化的目標是把各位屬性的取值范圍放縮到差不多的區間，例如[-0.5,0.5]。這里我們使用一種很常見的操作方法：減掉均值，然
後除以原取值范圍。做歸一化至少有以下3個理由： - 過大或過小的數值范圍會導致計算時的浮點上溢或下溢。 - 不同的數值范圍會導致不同屬性對模型的重要性不同（至少在訓練的初始階段如此），而這個隱含的假設常常是不合理的。這會對優化的過程造成困難，使訓練時間大大的加長。 - 很多的機器學習技巧/模型（例如L1，L2正則項，向量空間模型-Vector Space Model）都基於這樣的假設：所有的屬性取值都差不多是以0為均值
且取值范圍相近的
。 3.分割數據集一般把數據集分為兩部分，一部分為訓練集，用於訓練數據，一部分為測試集，用於測試訓練的數據，測試集不應過多或過少，數據較少時訓練集：測試集可以為8:2，較多時比
例可以達到9:1 。

閱讀全文

與如何創作機器學習的數據集相關的資料

熱點內容

西門子plc主程序與子程序如何編程發布：2025-03-06 03:17:51 瀏覽：513

論文數據來源怎麼搞發布：2025-03-06 03:07:46 瀏覽：339

學習程序設計的最關鍵是什麼發布：2025-03-06 03:06:57 瀏覽：536

數據的同質性是什麼意思發布：2025-03-06 03:04:21 瀏覽：267

電腦惡意程序怎麼來的發布：2025-03-06 02:56:50 瀏覽：885

黑馬程序員的c教程怎麼樣發布：2025-03-06 02:51:06 瀏覽：670

不讓交易的文物有哪些發布：2025-03-06 02:40:08 瀏覽：989

開發小程序網站開發需要多少錢發布：2025-03-06 02:35:46 瀏覽：802

石基信息總股本是多少發布：2025-03-06 02:22:20 瀏覽：609

雲南的花鳥市場在哪裡發布：2025-03-06 02:22:19 瀏覽：127

走法律程序讓人搬家多久發布：2025-03-06 02:10:21 瀏覽：415

全國水果代理加盟多少錢發布：2025-03-06 02:02:12 瀏覽：873

賣去角質怎麼去推銷一個產品發布：2025-03-06 01:50:54 瀏覽：756

店鋪如何注冊微信小程序發布：2025-03-06 01:39:12 瀏覽：799

如何在東財交易股票發布：2025-03-06 01:09:37 瀏覽：907

期權交易通過什麼進行發布：2025-03-06 01:08:30 瀏覽：216

對接銀行業務需要了解哪些信息發布：2025-03-06 01:07:54 瀏覽：521

30歲女初中文化可以學點什麼技術發布：2025-03-06 01:01:59 瀏覽：958

合同仲裁程序在哪裡發布：2025-03-06 00:57:23 瀏覽：803

市場營銷本科畢業可以考哪些學校發布：2025-03-06 00:44:29 瀏覽：865