导航:首页 > 数据处理 > 如何创作机器学习的数据集

如何创作机器学习的数据集

发布时间:2024-12-09 08:31:20

㈠ 机器学习中常用的数据集处理方法

机器学习中常用的数据集处理方法
1.离散值的处理: 因为离散值的差值是没有实际意义的。比如如果用0,1,2代表红黄蓝,1-0的差值代表黄-红,是没有意义的。因此,我们往往会把拥有d个取值的离散值变为d个取值为0,1的离散值或者将
其映射为多维向量。
2.属性归一化: 归一化的目标是把各位属性的取值范围放缩到差不多的区间,例如[-0.5,0.5]。这里我们使用一种很常见的操作方法:减掉均值,然
后除以原取值范围。 做归一化至少有以下3个理由: - 过大或过小的数值范围会导致计算时的浮点上溢或下溢。 - 不同的数值范围会导致不同属性对模型的重要性不同(至少在训练的初始阶段如此),而这个隐含的假设常常是不合理的。这会对优化的过程造成困难,使训练时间大大的加长。 - 很多的机器学习技巧/模型(例如L1,L2正则项,向量空间模型-Vector Space Model)都基于这样的假设:所有的属性取值都差不多是以0为均值
且取值范围相近的
。 3.分割数据集 一般把数据集分为两部分,一部分为训练集,用于训练数据,一部分为测试集,用于测试训练的数据,测试集不应过多或过少,数据较少时训练集:测试集可以为8:2,较多时比
例可以达到9:1 。

阅读全文

与如何创作机器学习的数据集相关的资料

热点内容
中介代理职称怎么申报 浏览:76
社群代理怎么做 浏览:497
光电信息与工程取多少分 浏览:316
高级技术证怎么办 浏览:388
代理主机名称是什么 浏览:960
代理一个月可以学到什么 浏览:795
完成整个产品开发需要学什么 浏览:673
股票一年交多少交易税 浏览:609
代理怎么设置才能上网 浏览:518
有一个技术员对象什么感觉 浏览:600
微信抽奖哪个小程序最多人用 浏览:134
猪灵交易一次是多久 浏览:525
湖南城建技术学院毕业就业怎么样 浏览:670
双付天下如何申请机构代理 浏览:31
数据库随机1到100怎么取 浏览:85
建信银保是什么产品 浏览:951
咸宁有哪些加工市场 浏览:536
浙江活蛇市场在哪里 浏览:993
空军技术士官该如何做 浏览:480
程序控制哪里有在线考试 浏览:286