导航:首页 > 数据处理 > 如何创作机器学习的数据集

如何创作机器学习的数据集

发布时间:2024-12-09 08:31:20

㈠ 机器学习中常用的数据集处理方法

机器学习中常用的数据集处理方法
1.离散值的处理: 因为离散值的差值是没有实际意义的。比如如果用0,1,2代表红黄蓝,1-0的差值代表黄-红,是没有意义的。因此,我们往往会把拥有d个取值的离散值变为d个取值为0,1的离散值或者将
其映射为多维向量。
2.属性归一化: 归一化的目标是把各位属性的取值范围放缩到差不多的区间,例如[-0.5,0.5]。这里我们使用一种很常见的操作方法:减掉均值,然
后除以原取值范围。 做归一化至少有以下3个理由: - 过大或过小的数值范围会导致计算时的浮点上溢或下溢。 - 不同的数值范围会导致不同属性对模型的重要性不同(至少在训练的初始阶段如此),而这个隐含的假设常常是不合理的。这会对优化的过程造成困难,使训练时间大大的加长。 - 很多的机器学习技巧/模型(例如L1,L2正则项,向量空间模型-Vector Space Model)都基于这样的假设:所有的属性取值都差不多是以0为均值
且取值范围相近的
。 3.分割数据集 一般把数据集分为两部分,一部分为训练集,用于训练数据,一部分为测试集,用于测试训练的数据,测试集不应过多或过少,数据较少时训练集:测试集可以为8:2,较多时比
例可以达到9:1 。

阅读全文

与如何创作机器学习的数据集相关的资料

热点内容
西昌铁路技术学院怎么收费 浏览:302
如何学习主播技术 浏览:642
化妆品新产品有哪些推荐图片 浏览:433
公共资源交易网是什么单位 浏览:544
团员信息入错了怎么改 浏览:223
编程怎么写一个程序 浏览:761
产品标准代号怎么填 浏览:203
中国完美山东代理商一年赚多少钱 浏览:567
冰超联赛在哪个程序里看 浏览:866
广告数据为什么要细分 浏览:658
如何让产品全新裂变 浏览:405
产品怎么找契合点 浏览:30
数据解析错了怎么办 浏览:753
江苏如何在公众号上查询接种信息 浏览:91
你有哪些专业技术经验英语翻译 浏览:345
优洋饮品在市场卖得怎么样 浏览:415
商丘光彩大市场箱包在哪个区 浏览:897
昆明网红产品有哪些 浏览:939
胜为和绿联苹果数据线哪个好 浏览:94
热胶膜是什么产品 浏览:688