导航:首页 > 数据处理 > 如何创作机器学习的数据集

如何创作机器学习的数据集

发布时间：2024-12-09 08:31:20

㈠机器学习中常用的数据集处理方法

机器学习中常用的数据集处理方法
1.离散值的处理：因为离散值的差值是没有实际意义的。比如如果用0,1,2代表红黄蓝，1-0的差值代表黄-红，是没有意义的。因此，我们往往会把拥有d个取值的离散值变为d个取值为0,1的离散值或者将
其映射为多维向量。
2.属性归一化：归一化的目标是把各位属性的取值范围放缩到差不多的区间，例如[-0.5,0.5]。这里我们使用一种很常见的操作方法：减掉均值，然
后除以原取值范围。做归一化至少有以下3个理由： - 过大或过小的数值范围会导致计算时的浮点上溢或下溢。 - 不同的数值范围会导致不同属性对模型的重要性不同（至少在训练的初始阶段如此），而这个隐含的假设常常是不合理的。这会对优化的过程造成困难，使训练时间大大的加长。 - 很多的机器学习技巧/模型（例如L1，L2正则项，向量空间模型-Vector Space Model）都基于这样的假设：所有的属性取值都差不多是以0为均值
且取值范围相近的
。 3.分割数据集一般把数据集分为两部分，一部分为训练集，用于训练数据，一部分为测试集，用于测试训练的数据，测试集不应过多或过少，数据较少时训练集：测试集可以为8:2，较多时比
例可以达到9:1 。

阅读全文

与如何创作机器学习的数据集相关的资料

热点内容

西昌铁路技术学院怎么收费发布：2025-03-06 11:25:29 浏览：302

如何学习主播技术发布：2025-03-06 11:20:31 浏览：642

化妆品新产品有哪些推荐图片发布：2025-03-06 11:08:45 浏览：433

公共资源交易网是什么单位发布：2025-03-06 11:08:44 浏览：544

团员信息入错了怎么改发布：2025-03-06 10:11:45 浏览：223

编程怎么写一个程序发布：2025-03-06 09:59:50 浏览：761

产品标准代号怎么填发布：2025-03-06 09:51:07 浏览：203

中国完美山东代理商一年赚多少钱发布：2025-03-06 09:46:36 浏览：567

冰超联赛在哪个程序里看发布：2025-03-06 09:19:34 浏览：866

广告数据为什么要细分发布：2025-03-06 09:19:18 浏览：658

如何让产品全新裂变发布：2025-03-06 08:55:59 浏览：405

产品怎么找契合点发布：2025-03-06 08:45:59 浏览：30

数据解析错了怎么办发布：2025-03-06 08:45:22 浏览：753

江苏如何在公众号上查询接种信息发布：2025-03-06 08:42:56 浏览：91

你有哪些专业技术经验英语翻译发布：2025-03-06 08:40:20 浏览：345

优洋饮品在市场卖得怎么样发布：2025-03-06 08:37:56 浏览：415

商丘光彩大市场箱包在哪个区发布：2025-03-06 08:33:58 浏览：897

昆明网红产品有哪些发布：2025-03-06 08:33:52 浏览：939

胜为和绿联苹果数据线哪个好发布：2025-03-06 08:26:44 浏览：94

热胶膜是什么产品发布：2025-03-06 08:12:45 浏览：688