⑴ 怎么用excel做森林图
打开文件表格之后,选择需要我们设置森林图的数据源之后,插入图表之后选择森林图就可以了。
⑵ 支付宝蚂蚁森林怎么设置自动收取
蚂蚁森林自动收取的方法:
1、首先打开支付宝,再点开蚂蚁森林,在蚂蚁森林的首页,右上角点开三个小点图标。
2、点击三个小点图标之后,选择设置,点击打开。
3、然后在设置页面,就可以看到能量可收取提醒,滑动打开它。
4、在它的下面还可以设置提醒时间,点开提醒时间就可以选择提醒时间段。
5、还有一个隐私设置,只要把这个隐藏能量球数值打开,别人也看不到能量球数值了。
6、还可以利用蚂蚁积分兑换能量保护罩哦,在蚂蚁森林首页有一个道具。
7、点开这个道具,就可以看到有个积分兑换,200积分就可以换取一个一天时间长的保护罩,这样好友就无法偷取能量值了。
拓展资料
蚂蚁森林是一项旨在带动公众低碳减排的公益项目,每个人的低碳行为在蚂蚁森林里可计为"绿色能量"。"绿色能量"积累到一定程度,就可以用手机申请在生态亟需修复的地区种下一棵真树,或者在生物多样性亟需保护的地区“认领”保护权益。
蚂蚁森林在各地的生态修复项目,是由蚂蚁集团向公益机构捐赠资金,由公益机构组织种植养护等具体工作,并由当地林业部门进行业务监管,所有项目都有对应的捐赠协议、验收报告。
2019年9月19日,中国“蚂蚁森林”项目获联合国“地球卫士奖” 。
据生态环境部2021年“全国低碳日”主场活动公布的数据:蚂蚁森林从2016年上线5年来,已累计带动超过6.13亿人参与低碳生活,产生“绿色能量”2000多万吨。
为了激励社会公众的低碳生活,5年来蚂蚁森林参与到全国11个省份的生态修复工作,累计种下3.26亿棵树,其中在甘肃、内蒙古均超过1亿棵。
同时,蚂蚁森林还在全国10个省份设立了18个公益保护地,守护野生动植物1500多种。通过在各地的生态环保项目,蚂蚁森林累计创造了种植、养护、巡护等238万人次的绿色就业机会,为当地群众带来劳动增收3.5亿元。
蚂蚁集团公开声明:每年投入蚂蚁森林数亿的费用属于纯公益捐赠。蚂蚁森林种下的树一经捐出,就属于国家、属于社会,未来如果这些树木产生碳汇,将全部用于公益。蚂蚁森林从未参与过碳交易。
如果蚂蚁森林里记录的个人碳减排量未来能交易,产生的所有收益将属于用户个人,不属于蚂蚁森林。
支付宝第一波集福活动:2017年1月18日扫福字可以获得3张福卡,1月19日扫福字只能获得1张福卡。
1月20日0点,上线第二波集福活动——蚂蚁森林浇水得福卡。官方确认活动期间最多获得16张福卡,1月20日-27日一共8天时间,这代表大家每天获得福卡的数量是1-2张随机哦。
2018年9月30日,根据支付宝页面的消息,蚂蚁森林与ofo的合作将在10月10日到期,此后ofo骑行将无法获得蚂蚁森林能量。
⑶ 数据挖掘实战之随机森林算法使用
阅读路线:
近来有同学问道,有没有数据挖掘的案例可以来练习下,主要是来通过案例来知道算法是如何使用的。
下面就以 港股打新 这个金融项目为例,来做个预测,先来说下什么是打新;打新,就是用资金参与新股申购,如果中签的话,就买到了即将上市的股票。
此次分析的目的是为了深入打新数据,找到最优算法,挖掘出影响打新的关键因素,找到可能要破发的新股,从而减少新股破发的风险,提高盈利。
打新的本质,也即是在股票上市后卖出,赚取其中的差价。一般在买到的第一天就会卖掉,当然第一天上升的股票有涨有跌,为了能够减少风险,会根据历史数据来做个预判,这里把涨幅10%以下记为0,涨幅10%以上记为1,很明显这也是二分类的预测问题
对于本项目而言,最终的评价标准是要求在精确度达到97%的情况下,最大化召回率。这里是要求尽可能提高召回率,自己本身对风险比较厌恶,宁可错杀,也不会愿意申购上市就要的破发的新股
对于评价标准,一般用的是PR曲线和ROC曲线。ROC曲线有一个突出优势,就是不受样本不均衡的影响 ROC曲线不受样本不均衡问题的影响
1.数据总体情况
港股数据主要来自两个方面, 利弗莫尔证券数据 和 阿思达克保荐人近两年数据 ,处理之后是这样的:
数据一共有17个特征,除了目标变量is_profit,还有16个特征。
以上的数据指标可以梳理为两类,一类是股票相,如 关,一类是保荐人指标,
2.数据处理方面不用管
一般特征工程主要从以下方面来进行:衍生特征、异常值处理、缺失值处理、连续特征离散化、分类变量one-hot-encode、标准化等,本篇文章主要讲解随机森林算法使用,暂不对特征工程做过多的展示了
从 使用随机森林默认的参数 带来的模型结果来看,auc指标是0.76,效果还可以。
为了更好的理解上述,这里有几个知识点需要来解释下:
返回的是一个n行k列的数组,第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率。所以每一行的和应该等于1;本文中predict_proba(x_test)[:,1]返回的是标签为0的概率。
(a).混淆矩阵
混淆矩阵如下图分别用”0“和”1“代表负样本和正样本。FP代表实际类标签为”0“,但预测类标签为”1“的样本数量。其余,类似推理。
(b).假正率和真正率
假正率(False Positive Rate,FPR)是实际标签为”0“的样本中,被预测错误的比例。真正率(True Positive Rate,TPR)是实际标签为”1“的样本中,被预测正确的比例。其公式如下:
(3).ROC曲线
下图的黑色线即为ROC曲线,ROC曲线是一系列threshold下的(FPR,TPR)数值点的连线。此时的threshold的取值分别为测试数据集中各样本的预测概率。但,取各个概率的顺序是从大到小的。然后也就是有了不同的RPR、TPR,且测试样本中的数据点越多,曲线越平滑:
AUC(Area Under roc Cure),顾名思义,其就是ROC曲线下的面积,在此例子中AUC=0.62。AUC越大,说明分类效果越好。
下面我们来看看RF重要的Bagging框架的参数,主要有以下几个:
(1) n_estimators:
也就是最大的弱学习器的个数。一般来说n_estimators太小,容易欠拟合,n_estimators太大,计算量会太大,并且n_estimators到一定的数量后,再增大n_estimators获得的模型提升会很小,所以一般选择一个适中的数值。默认是100。
(2) oob_score:
即是否采用袋外样本来评估模型的好坏。默认识False。个人推荐设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。
(3) criterion:
即CART树做划分时对特征的评价标准。分类模型和回归模型的损失函数是不一样的。分类RF对应的CART分类树默认是基尼系数gini,另一个可选择的标准是信息增益。回归RF对应的CART回归树默认是均方差mse,另一个可以选择的标准是绝对值差mae。一般来说选择默认的标准就已经很好的。
从上面可以看出,RF重要的框架参数比较少,主要需要关注的是 n_estimators ,即RF最大的决策树个数。
下面我们再来看RF的决策树参数,它要调参的参数如下:
(1) RF划分时考虑的最大特征数max_features:
(2) 决策树最大深度max_depth:
默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。一般来说,数据少或者特征少的时候可以不管这个值。如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,具体的取值取决于数据的分布。常用的可以取值10-100之间。
(3) 内部节点再划分所需最小样本数min_samples_split:
这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
(4) 叶子节点最少样本数min_samples_leaf:
这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
(5)叶子节点最小的样本权重和min_weight_fraction_leaf:
这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝。 默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。
(6) 最大叶子节点数max_leaf_nodes:
通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。如果加了限制,算法会建立在最大叶子节点数内最优的决策树。如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制,具体的值可以通过交叉验证得到。
(7) 节点划分最小不纯度min_impurity_split:
这个值限制了决策树的增长,如果某节点的不纯度(基于基尼系数,均方差)小于这个阈值,则该节点不再生成子节点。即为叶子节点 。一般不推荐改动默认值1e-7。
上面决策树参数中最重要的包括最大特征数 max_features , 最大深度 max_depth , 内部节点再划分所需最小样本数 min_samples_split 和叶子节点最少样本数 min_samples_leaf
GridSearchCV的名字其实可以拆分为两部分,GridSearch和CV,即网格搜索和交叉验证。这两个名字都非常好理解。网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个训练和比较的过程。
GridSearchCV可以保证在指定的参数范围内找到精度最高的参数,但是这也是网格搜索的缺陷所在,他要求遍历所有可能参数的组合,在面对大数据集和多参数的情况下,非常耗时。
通过RF框架以及RF决策树参数能够了解到重点需要调节以下的参数
主要需要关注的是 n_estimators ,即RF最大的决策树个数。
决策树参数中最重要的包括最大特征数 max_features , 最大深度 max_depth , 内部节点再划分所需最小样本数 min_samples_split 和叶子节点最少样本数 min_samples_leaf
输出结果为:
6.3最佳的弱学习器迭代次数,接着我们对决策树最大深度max_depth和内部节点再划分所需最小样本数min_samples_split进行网格搜索
输出结果
6.4最大特征数max_features做调参
输出结果:
6.5根据模型最佳参数进行测试
输出结果:0.7805947388486466,相比没有调参前,模型有不少的提高的,方便观察,用图形来看下ROC曲线图
6.6观察模型的重要特征
6.7最大召回率
最后得出我们想要的结果,精准率在 0.97 下,召回率 0.046
参考文章:
1.sklearn中predict_proba的用法例子
2.Python机器学习笔记 Grid SearchCV(网格搜索)
3.scikit-learn随机森林调参小结
4.ROC曲线和AUC值的计算
⑷ 蚂蚁森林设置步数怎么弄
开启蚂蚁森林行走能量步骤如下:
1、首先打开支付宝手机客户端。