導航:首頁 > 數據處理 > 數據森林怎麼設置

數據森林怎麼設置

發布時間:2022-12-30 20:00:25

⑴ 怎麼用excel做森林圖

打開文件表格之後,選擇需要我們設置森林圖的數據源之後,插入圖表之後選擇森林圖就可以了。

⑵ 支付寶螞蟻森林怎麼設置自動收取

螞蟻森林自動收取的方法:
1、首先打開支付寶,再點開螞蟻森林,在螞蟻森林的首頁,右上角點開三個小點圖標。
2、點擊三個小點圖標之後,選擇設置,點擊打開。
3、然後在設置頁面,就可以看到能量可收取提醒,滑動打開它。
4、在它的下面還可以設置提醒時間,點開提醒時間就可以選擇提醒時間段。
5、還有一個隱私設置,只要把這個隱藏能量球數值打開,別人也看不到能量球數值了。
6、還可以利用螞蟻積分兌換能量保護罩哦,在螞蟻森林首頁有一個道具。
7、點開這個道具,就可以看到有個積分兌換,200積分就可以換取一個一天時間長的保護罩,這樣好友就無法偷取能量值了。
拓展資料
螞蟻森林是一項旨在帶動公眾低碳減排的公益項目,每個人的低碳行為在螞蟻森林裡可計為"綠色能量"。"綠色能量"積累到一定程度,就可以用手機申請在生態亟需修復的地區種下一棵真樹,或者在生物多樣性亟需保護的地區「認領」保護權益。
螞蟻森林在各地的生態修復項目,是由螞蟻集團向公益機構捐贈資金,由公益機構組織種植養護等具體工作,並由當地林業部門進行業務監管,所有項目都有對應的捐贈協議、驗收報告。
2019年9月19日,中國「螞蟻森林」項目獲聯合國「地球衛士獎」 。
據生態環境部2021年「全國低碳日」主場活動公布的數據:螞蟻森林從2016年上線5年來,已累計帶動超過6.13億人參與低碳生活,產生「綠色能量」2000多萬噸。
為了激勵社會公眾的低碳生活,5年來螞蟻森林參與到全國11個省份的生態修復工作,累計種下3.26億棵樹,其中在甘肅、內蒙古均超過1億棵。
同時,螞蟻森林還在全國10個省份設立了18個公益保護地,守護野生動植物1500多種。通過在各地的生態環保項目,螞蟻森林累計創造了種植、養護、巡護等238萬人次的綠色就業機會,為當地群眾帶來勞動增收3.5億元。
螞蟻集團公開聲明:每年投入螞蟻森林數億的費用屬於純公益捐贈。螞蟻森林種下的樹一經捐出,就屬於國家、屬於社會,未來如果這些樹木產生碳匯,將全部用於公益。螞蟻森林從未參與過碳交易。
如果螞蟻森林裡記錄的個人碳減排量未來能交易,產生的所有收益將屬於用戶個人,不屬於螞蟻森林。
支付寶第一波集福活動:2017年1月18日掃福字可以獲得3張福卡,1月19日掃福字只能獲得1張福卡。
1月20日0點,上線第二波集福活動——螞蟻森林澆水得福卡。官方確認活動期間最多獲得16張福卡,1月20日-27日一共8天時間,這代表大家每天獲得福卡的數量是1-2張隨機哦。
2018年9月30日,根據支付寶頁面的消息,螞蟻森林與ofo的合作將在10月10日到期,此後ofo騎行將無法獲得螞蟻森林能量。

⑶ 數據挖掘實戰之隨機森林演算法使用

閱讀路線:

近來有同學問道,有沒有數據挖掘的案例可以來練習下,主要是來通過案例來知道演算法是如何使用的。

下面就以 港股打新 這個金融項目為例,來做個預測,先來說下什麼是打新;打新,就是用資金參與新股申購,如果中簽的話,就買到了即將上市的股票。

此次分析的目的是為了深入打新數據,找到最優演算法,挖掘出影響打新的關鍵因素,找到可能要破發的新股,從而減少新股破發的風險,提高盈利。

打新的本質,也即是在股票上市後賣出,賺取其中的差價。一般在買到的第一天就會賣掉,當然第一天上升的股票有漲有跌,為了能夠減少風險,會根據歷史數據來做個預判,這里把漲幅10%以下記為0,漲幅10%以上記為1,很明顯這也是二分類的預測問題

對於本項目而言,最終的評價標準是要求在精確度達到97%的情況下,最大化召回率。這里是要求盡可能提高召回率,自己本身對風險比較厭惡,寧可錯殺,也不會願意申購上市就要的破發的新股

對於評價標准,一般用的是PR曲線和ROC曲線。ROC曲線有一個突出優勢,就是不受樣本不均衡的影響 ROC曲線不受樣本不均衡問題的影響

1.數據總體情況

港股數據主要來自兩個方面, 利弗莫爾證券數據 和 阿思達克保薦人近兩年數據 ,處理之後是這樣的:

數據一共有17個特徵,除了目標變數is_profit,還有16個特徵。

以上的數據指標可以梳理為兩類,一類是股票相,如 關,一類是保薦人指標,

2.數據處理方面不用管
一般特徵工程主要從以下方面來進行:衍生特徵、異常值處理、缺失值處理、連續特徵離散化、分類變數one-hot-encode、標准化等,本篇文章主要講解隨機森林演算法使用,暫不對特徵工程做過多的展示了

使用隨機森林默認的參數 帶來的模型結果來看,auc指標是0.76,效果還可以。

為了更好的理解上述,這里有幾個知識點需要來解釋下:

返回的是一個n行k列的數組,第i行第j列上的數值是模型預測第i個預測樣本的標簽為j的概率。所以每一行的和應該等於1;本文中predict_proba(x_test)[:,1]返回的是標簽為0的概率。

(a).混淆矩陣

混淆矩陣如下圖分別用」0「和」1「代表負樣本和正樣本。FP代表實際類標簽為」0「,但預測類標簽為」1「的樣本數量。其餘,類似推理。

(b).假正率和真正率

假正率(False Positive Rate,FPR)是實際標簽為」0「的樣本中,被預測錯誤的比例。真正率(True Positive Rate,TPR)是實際標簽為」1「的樣本中,被預測正確的比例。其公式如下:

(3).ROC曲線

下圖的黑色線即為ROC曲線,ROC曲線是一系列threshold下的(FPR,TPR)數值點的連線。此時的threshold的取值分別為測試數據集中各樣本的預測概率。但,取各個概率的順序是從大到小的。然後也就是有了不同的RPR、TPR,且測試樣本中的數據點越多,曲線越平滑:

AUC(Area Under roc Cure),顧名思義,其就是ROC曲線下的面積,在此例子中AUC=0.62。AUC越大,說明分類效果越好。

下面我們來看看RF重要的Bagging框架的參數,主要有以下幾個:

(1) n_estimators:

也就是最大的弱學習器的個數。一般來說n_estimators太小,容易欠擬合,n_estimators太大,計算量會太大,並且n_estimators到一定的數量後,再增大n_estimators獲得的模型提升會很小,所以一般選擇一個適中的數值。默認是100。

(2) oob_score:

即是否採用袋外樣本來評估模型的好壞。默認識False。個人推薦設置為True,因為袋外分數反應了一個模型擬合後的泛化能力。

(3) criterion:

即CART樹做劃分時對特徵的評價標准。分類模型和回歸模型的損失函數是不一樣的。分類RF對應的CART分類樹默認是基尼系數gini,另一個可選擇的標準是信息增益。回歸RF對應的CART回歸樹默認是均方差mse,另一個可以選擇的標準是絕對值差mae。一般來說選擇默認的標准就已經很好的。

從上面可以看出,RF重要的框架參數比較少,主要需要關注的是 n_estimators ,即RF最大的決策樹個數。

下面我們再來看RF的決策樹參數,它要調參的參數如下:

(1) RF劃分時考慮的最大特徵數max_features:

(2) 決策樹最大深度max_depth:

默認可以不輸入,如果不輸入的話,決策樹在建立子樹的時候不會限制子樹的深度。一般來說,數據少或者特徵少的時候可以不管這個值。如果模型樣本量多,特徵也多的情況下,推薦限制這個最大深度,具體的取值取決於數據的分布。常用的可以取值10-100之間。

(3) 內部節點再劃分所需最小樣本數min_samples_split:

這個值限制了子樹繼續劃分的條件,如果某節點的樣本數少於min_samples_split,則不會繼續再嘗試選擇最優特徵來進行劃分。默認是2.如果樣本量不大,不需要管這個值。如果樣本量數量級非常大,則推薦增大這個值。

(4) 葉子節點最少樣本數min_samples_leaf:

這個值限制了葉子節點最少的樣本數,如果某葉子節點數目小於樣本數,則會和兄弟節點一起被剪枝。 默認是1,可以輸入最少的樣本數的整數,或者最少樣本數占樣本總數的百分比。如果樣本量不大,不需要管這個值。如果樣本量數量級非常大,則推薦增大這個值。

(5)葉子節點最小的樣本權重和min_weight_fraction_leaf:

這個值限制了葉子節點所有樣本權重和的最小值,如果小於這個值,則會和兄弟節點一起被剪枝。 默認是0,就是不考慮權重問題。一般來說,如果我們有較多樣本有缺失值,或者分類樹樣本的分布類別偏差很大,就會引入樣本權重,這時我們就要注意這個值了。

(6) 最大葉子節點數max_leaf_nodes:

通過限制最大葉子節點數,可以防止過擬合,默認是"None」,即不限制最大的葉子節點數。如果加了限制,演算法會建立在最大葉子節點數內最優的決策樹。如果特徵不多,可以不考慮這個值,但是如果特徵分成多的話,可以加以限制,具體的值可以通過交叉驗證得到。

(7) 節點劃分最小不純度min_impurity_split:
這個值限制了決策樹的增長,如果某節點的不純度(基於基尼系數,均方差)小於這個閾值,則該節點不再生成子節點。即為葉子節點 。一般不推薦改動默認值1e-7。

上面決策樹參數中最重要的包括最大特徵數 max_features , 最大深度 max_depth , 內部節點再劃分所需最小樣本數 min_samples_split 和葉子節點最少樣本數 min_samples_leaf

GridSearchCV的名字其實可以拆分為兩部分,GridSearch和CV,即網格搜索和交叉驗證。這兩個名字都非常好理解。網格搜索,搜索的是參數,即在指定的參數范圍內,按步長依次調整參數,利用調整的參數訓練學習器,從所有的參數中找到在驗證集上精度最高的參數,這其實是一個訓練和比較的過程。

GridSearchCV可以保證在指定的參數范圍內找到精度最高的參數,但是這也是網格搜索的缺陷所在,他要求遍歷所有可能參數的組合,在面對大數據集和多參數的情況下,非常耗時。

通過RF框架以及RF決策樹參數能夠了解到重點需要調節以下的參數

主要需要關注的是 n_estimators ,即RF最大的決策樹個數。

決策樹參數中最重要的包括最大特徵數 max_features , 最大深度 max_depth , 內部節點再劃分所需最小樣本數 min_samples_split 和葉子節點最少樣本數 min_samples_leaf

輸出結果為:

6.3最佳的弱學習器迭代次數,接著我們對決策樹最大深度max_depth和內部節點再劃分所需最小樣本數min_samples_split進行網格搜索

輸出結果

6.4最大特徵數max_features做調參

輸出結果:

6.5根據模型最佳參數進行測試

輸出結果:0.7805947388486466,相比沒有調參前,模型有不少的提高的,方便觀察,用圖形來看下ROC曲線圖

6.6觀察模型的重要特徵

6.7最大召回率

最後得出我們想要的結果,精準率在 0.97 下,召回率 0.046

參考文章:

1.sklearn中predict_proba的用法例子

2.Python機器學習筆記 Grid SearchCV(網格搜索)

3.scikit-learn隨機森林調參小結

4.ROC曲線和AUC值的計算

⑷ 螞蟻森林設置步數怎麼弄

開啟螞蟻森林行走能量步驟如下:

1、首先打開支付寶手機客戶端。

閱讀全文

與數據森林怎麼設置相關的資料

熱點內容
怎麼判斷篩子是不是有程序 瀏覽:786
產假代理老闆怎麼調薪 瀏覽:343
unikit是什麼產品 瀏覽:82
縣城代理餓了么怎麼樣 瀏覽:768
海拉爾有哪些證券交易所 瀏覽:199
中國海外客源市場前景怎麼樣 瀏覽:715
掌嗨號注冊信息怎麼查 瀏覽:174
長安新民3村旁邊有哪些市場 瀏覽:799
銀行基金交易有哪些規定 瀏覽:874
白酒代理公司需要什麼資質 瀏覽:265
購買產品的基本要素包括哪些 瀏覽:457
離譜的產品有哪些 瀏覽:172
美股上升多少停止交易 瀏覽:460
頂尚堂產品怎麼樣 瀏覽:566
域名交易類型有哪些 瀏覽:797
經濟信息化部門是哪些 瀏覽:226
到哪個網站查看房產信息 瀏覽:226
什麼技術指標最穩 瀏覽:776
程序員走哪個方向 瀏覽:668
朴朴小程序已評價在哪裡查看 瀏覽:945