导航:首页 > 数据处理 > 数据森林怎么设置

数据森林怎么设置

发布时间：2022-12-30 20:00:25

⑴ 怎么用excel做森林图

打开文件表格之后，选择需要我们设置森林图的数据源之后，插入图表之后选择森林图就可以了。

⑵ 支付宝蚂蚁森林怎么设置自动收取

蚂蚁森林自动收取的方法：
1、首先打开支付宝，再点开蚂蚁森林，在蚂蚁森林的首页，右上角点开三个小点图标。
2、点击三个小点图标之后，选择设置，点击打开。
3、然后在设置页面，就可以看到能量可收取提醒，滑动打开它。
4、在它的下面还可以设置提醒时间，点开提醒时间就可以选择提醒时间段。
5、还有一个隐私设置，只要把这个隐藏能量球数值打开，别人也看不到能量球数值了。
6、还可以利用蚂蚁积分兑换能量保护罩哦，在蚂蚁森林首页有一个道具。
7、点开这个道具，就可以看到有个积分兑换，200积分就可以换取一个一天时间长的保护罩，这样好友就无法偷取能量值了。
拓展资料
蚂蚁森林是一项旨在带动公众低碳减排的公益项目，每个人的低碳行为在蚂蚁森林里可计为"绿色能量"。"绿色能量"积累到一定程度，就可以用手机申请在生态亟需修复的地区种下一棵真树，或者在生物多样性亟需保护的地区“认领”保护权益。
蚂蚁森林在各地的生态修复项目，是由蚂蚁集团向公益机构捐赠资金，由公益机构组织种植养护等具体工作，并由当地林业部门进行业务监管，所有项目都有对应的捐赠协议、验收报告。
2019年9月19日，中国“蚂蚁森林”项目获联合国“地球卫士奖” 。
据生态环境部2021年“全国低碳日”主场活动公布的数据：蚂蚁森林从2016年上线5年来，已累计带动超过6.13亿人参与低碳生活，产生“绿色能量”2000多万吨。
为了激励社会公众的低碳生活，5年来蚂蚁森林参与到全国11个省份的生态修复工作，累计种下3.26亿棵树，其中在甘肃、内蒙古均超过1亿棵。
同时，蚂蚁森林还在全国10个省份设立了18个公益保护地，守护野生动植物1500多种。通过在各地的生态环保项目，蚂蚁森林累计创造了种植、养护、巡护等238万人次的绿色就业机会，为当地群众带来劳动增收3.5亿元。
蚂蚁集团公开声明：每年投入蚂蚁森林数亿的费用属于纯公益捐赠。蚂蚁森林种下的树一经捐出，就属于国家、属于社会，未来如果这些树木产生碳汇，将全部用于公益。蚂蚁森林从未参与过碳交易。
如果蚂蚁森林里记录的个人碳减排量未来能交易，产生的所有收益将属于用户个人，不属于蚂蚁森林。
支付宝第一波集福活动：2017年1月18日扫福字可以获得3张福卡，1月19日扫福字只能获得1张福卡。
1月20日0点，上线第二波集福活动——蚂蚁森林浇水得福卡。官方确认活动期间最多获得16张福卡，1月20日-27日一共8天时间，这代表大家每天获得福卡的数量是1-2张随机哦。
2018年9月30日，根据支付宝页面的消息，蚂蚁森林与ofo的合作将在10月10日到期，此后ofo骑行将无法获得蚂蚁森林能量。

⑶ 数据挖掘实战之随机森林算法使用

阅读路线:

近来有同学问道，有没有数据挖掘的案例可以来练习下，主要是来通过案例来知道算法是如何使用的。

下面就以 港股打新 这个金融项目为例，来做个预测，先来说下什么是打新;打新，就是用资金参与新股申购，如果中签的话，就买到了即将上市的股票。

此次分析的目的是为了深入打新数据，找到最优算法，挖掘出影响打新的关键因素，找到可能要破发的新股,从而减少新股破发的风险，提高盈利。

打新的本质，也即是在股票上市后卖出，赚取其中的差价。一般在买到的第一天就会卖掉，当然第一天上升的股票有涨有跌，为了能够减少风险，会根据历史数据来做个预判，这里把涨幅10%以下记为0，涨幅10%以上记为1,很明显这也是二分类的预测问题

对于本项目而言，最终的评价标准是要求在精确度达到97%的情况下，最大化召回率。这里是要求尽可能提高召回率,自己本身对风险比较厌恶，宁可错杀，也不会愿意申购上市就要的破发的新股

对于评价标准，一般用的是PR曲线和ROC曲线。ROC曲线有一个突出优势，就是不受样本不均衡的影响 ROC曲线不受样本不均衡问题的影响

1.数据总体情况

港股数据主要来自两个方面, 利弗莫尔证券数据和阿思达克保荐人近两年数据，处理之后是这样的:

数据一共有17个特征，除了目标变量is_profit,还有16个特征。

以上的数据指标可以梳理为两类，一类是股票相，如关，一类是保荐人指标，

2.数据处理方面不用管
一般特征工程主要从以下方面来进行:衍生特征、异常值处理、缺失值处理、连续特征离散化、分类变量one-hot-encode、标准化等，本篇文章主要讲解随机森林算法使用，暂不对特征工程做过多的展示了

从 使用随机森林默认的参数 带来的模型结果来看，auc指标是0.76，效果还可以。

为了更好的理解上述，这里有几个知识点需要来解释下:

返回的是一个n行k列的数组，第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率。所以每一行的和应该等于1;本文中predict_proba(x_test)[:,1]返回的是标签为0的概率。

(a).混淆矩阵

混淆矩阵如下图分别用”0“和”1“代表负样本和正样本。FP代表实际类标签为”0“，但预测类标签为”1“的样本数量。其余，类似推理。

(b).假正率和真正率

假正率（False Positive Rate，FPR）是实际标签为”0“的样本中，被预测错误的比例。真正率（True Positive Rate，TPR）是实际标签为”1“的样本中，被预测正确的比例。其公式如下：

(3).ROC曲线

下图的黑色线即为ROC曲线，ROC曲线是一系列threshold下的（FPR，TPR）数值点的连线。此时的threshold的取值分别为测试数据集中各样本的预测概率。但，取各个概率的顺序是从大到小的。然后也就是有了不同的RPR、TPR，且测试样本中的数据点越多，曲线越平滑：

AUC(Area Under roc Cure)，顾名思义，其就是ROC曲线下的面积，在此例子中AUC=0.62。AUC越大，说明分类效果越好。

下面我们来看看RF重要的Bagging框架的参数，主要有以下几个:

(1) n_estimators:

也就是最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，计算量会太大，并且n_estimators到一定的数量后，再增大n_estimators获得的模型提升会很小，所以一般选择一个适中的数值。默认是100。

(2) oob_score:

即是否采用袋外样本来评估模型的好坏。默认识False。个人推荐设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。

(3) criterion:

即CART树做划分时对特征的评价标准。分类模型和回归模型的损失函数是不一样的。分类RF对应的CART分类树默认是基尼系数gini,另一个可选择的标准是信息增益。回归RF对应的CART回归树默认是均方差mse，另一个可以选择的标准是绝对值差mae。一般来说选择默认的标准就已经很好的。

从上面可以看出，RF重要的框架参数比较少，主要需要关注的是 n_estimators ，即RF最大的决策树个数。

下面我们再来看RF的决策树参数，它要调参的参数如下:

(1) RF划分时考虑的最大特征数max_features:

(2) 决策树最大深度max_depth:

默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。

(3) 内部节点再划分所需最小样本数min_samples_split:

这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

(4) 叶子节点最少样本数min_samples_leaf:

这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

(5)叶子节点最小的样本权重和min_weight_fraction_leaf：

这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。

(6) 最大叶子节点数max_leaf_nodes:

通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。

(7) 节点划分最小不纯度min_impurity_split:
这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。

上面决策树参数中最重要的包括最大特征数 max_features ，最大深度 max_depth ，内部节点再划分所需最小样本数 min_samples_split 和叶子节点最少样本数 min_samples_leaf

GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。这两个名字都非常好理解。网格搜索，搜索的是参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这其实是一个训练和比较的过程。

GridSearchCV可以保证在指定的参数范围内找到精度最高的参数，但是这也是网格搜索的缺陷所在，他要求遍历所有可能参数的组合，在面对大数据集和多参数的情况下，非常耗时。

通过RF框架以及RF决策树参数能够了解到重点需要调节以下的参数

主要需要关注的是 n_estimators ，即RF最大的决策树个数。

决策树参数中最重要的包括最大特征数 max_features ，最大深度 max_depth ，内部节点再划分所需最小样本数 min_samples_split 和叶子节点最少样本数 min_samples_leaf

输出结果为:

6.3最佳的弱学习器迭代次数，接着我们对决策树最大深度max_depth和内部节点再划分所需最小样本数min_samples_split进行网格搜索

输出结果

6.4最大特征数max_features做调参

输出结果:

6.5根据模型最佳参数进行测试

输出结果:0.7805947388486466，相比没有调参前，模型有不少的提高的，方便观察，用图形来看下ROC曲线图

6.6观察模型的重要特征

6.7最大召回率

最后得出我们想要的结果，精准率在 0.97 下，召回率 0.046

参考文章:

1.sklearn中predict_proba的用法例子

2.Python机器学习笔记 Grid SearchCV(网格搜索)

3.scikit-learn随机森林调参小结

4.ROC曲线和AUC值的计算

⑷ 蚂蚁森林设置步数怎么弄

开启蚂蚁森林行走能量步骤如下：

1、首先打开支付宝手机客户端。

阅读全文

与数据森林怎么设置相关的资料

热点内容

验证机顶盒信息需要多久发布：2025-02-09 13:01:27 浏览：615

同行恶意败坏产品如何处理发布：2025-02-09 13:00:43 浏览：911

俯卧撑一天做多少合适官方数据发布：2025-02-09 12:53:15 浏览：73

版本信息里哪个是屏幕信息发布：2025-02-09 12:42:05 浏览：627

潍坊旧货市场在哪里都卖什么发布：2025-02-09 12:42:04 浏览：147

如何避免产品刺伤发布：2025-02-09 12:35:09 浏览：807

以前收到的信息如何删除发布：2025-02-09 12:28:45 浏览：104

自己配眼镜框需要哪些数据发布：2025-02-09 12:20:15 浏览：983

嘉寓的基本信息是什么发布：2025-02-09 12:20:15 浏览：643

山楂树下如何做代理发布：2025-02-09 12:18:39 浏览：354

信息类是什么样子发布：2025-02-09 12:16:42 浏览：503

酱香型酒代理多少钱发布：2025-02-09 12:12:04 浏览：418

刚毕业程序员进公司一般怎么安排发布：2025-02-09 12:09:28 浏览：152

九州证券股票交易佣金是多少发布：2025-02-09 11:56:42 浏览：950

纺纱厂技术人员都有哪些发布：2025-02-09 11:55:59 浏览：425

如何查看一个程序的ip 发布：2025-02-09 11:51:00 浏览：196

基金交易不分红怎么办发布：2025-02-09 11:50:18 浏览：997

汽车美容抛光技术没人教怎么办发布：2025-02-09 11:49:24 浏览：786

头条二十亿参加活动产品有哪些发布：2025-02-09 11:47:17 浏览：826

省市总代理需要多少钱发布：2025-02-09 11:44:20 浏览：509