導航:首頁 > 數據處理 > 稀疏數據有哪些

稀疏數據有哪些

發布時間:2023-01-18 04:46:37

A. matlab稀疏數據什麼意思

就是大多數元素都是0;
如果在矩陣中,多數的元素為0,稱此矩陣為稀疏矩陣

B. 消除稀疏數據偏差,CTR平滑的方法與其參數估計過程

在我們設計特徵時,許多時候排序對象的反饋ctr(如某個ad,文章,在一段時間內的統計ctr)是個重要的特徵。
當數據當中有許多新的對象(如ad,文章),或者不置信的數據時(某些ad,文章的展現次數過小,沒有置信的統計ctr),其反饋ctr就會有較大偏差(Bias),影響該特徵的預估能力。

比如新投放的廣告沒有得到足夠的曝光:
1、當其沒有點擊時(或者較少),ctr過低,導致ctr過度低估。
2、當其曝光一兩次,正好有一兩次點擊時,ctr過高,導致高估。

1、貝葉斯平滑(也是個經典的概率圖模型)
【總體過程假設了兩個參數,alpha,beta,以及中間參數ctr。先通過最大似然求出alpha和beta,然後對於任意一個文章,我們通過其當前的click,view和算出來的alpha,beta,計算其後驗概率的期望值,作為平滑後的ctr】

步驟如下:
    a、首先我們假設每個文章的ctr符合一個beta分布,即ctr~B(alpha,beta).
即P(ctr | a ,b ) = beta(a,b) * ctr^(a-1) * (1-ctr) ^ (b - 1)
【這里相當於假設每個文章或者ad為一個硬幣,每個硬幣有著其固有的質量分配(非均勻硬幣),我們有很多硬幣,這些硬幣為正的概率分布,整體符合一個beta分布】

    b、對於我們觀察到的展現點擊行為,是以某ctr為參數的伯努利分布。(這里可以以一個ad為單位來觀測[即我們假設某個文章,ad的點擊概率是相對固定的],則view次展現得到click次點擊的概率如下)
則其概率為P(click, view | ctr) = ctr^click * (1 - ctr) ^ (view - click)

    c、我們用所有文章的view和click的數據,我們可以寫出似然函數:
【包含theta】
Likelihood_Pi(click ,view | ctr)= p(click, view | theta) * p(ctr)
【將alpha,beta帶入,對ctr進行積分消除ctr】
Likelihood_Pi(click ,view | a ,b ) = Integral_ctr { p( click, view | ctr) * p( ctr | a ,b ) } d_ctr
【整體的似然為其乘積】
Likelihood_ALL = Likelihood_P1 * Likelihood_P2 ...* Likelihood_Pn

    d、對alpha(a),beta(b) 求偏導,然後通過固定點迭代法,我們可以求出近似的alpha,beta
對於n重伯努利實驗,其計算後驗的過程和 拋硬幣與Bayesian 中所述一致。這里我們就不詳細推導,直接使用其結論:
推導過後可以得出,Beta先驗n重伯努利實驗的後驗概率也為Beta分布(根據 Beta分布 )
且:其後驗概率為Beta(α+hits,β+misses)
而:Beta(a,b)的期望為 a / a + b
所以,對於觀測view和click後,得到後驗的ctr的期望為 (click + alpha) / (view + alpha + beta)
【這里也可以得出,所有文章的整體的ctr,接近於a/(a+b)】

PS:參數預估的過程可以參考貝葉斯網路的參數預估。
PSS:貝葉斯平滑,主要是以文章為單位觀測,增加了單個文章多次展現呈多重伯努利分布的假設。這個假設完善了對展現過少的不是特別置信的ctr數據分布的覆蓋。

2、先驗值平滑
一般來說,可以根據廣告,或者文章的類型(或者任何一個相對總體可以更精確的維度,比如廣告主,定向人群類型,等等)來進行ctr統計,獲得cate_click 和cate_view
直接使用ctr = (click + alpha* cate_click) / (view + alpha * cate_view )
alpha可以設置一個較小的值,當數據量少時,其ctr接近分類的ctr,有足夠數據量後接近其真實反饋ctr。
【alpha從某種程度上說,表現了你對統計值的信心。alpha越小,越相信當前數據的ctr,alpha越大,越相信先驗值的ctr。】
【從公式的形式來看,這種方式無非是省略了對beta分布的預估過程,使用相對更經驗主義的值來平滑】

refer
這里有詳細的公式推導過程
用概率鏈式法則,概率圖模型化簡。
https://www.cnblogs.com/coshaho/p/9658135.html

C. 什麼叫「稀疏數據」

「稀疏數據」即含零元素特別多,可以參考「稀疏矩陣」的定義。
如果在矩陣中,多數的元素為0,稱此矩陣為稀疏矩陣(sparse matrix)。
只要是無用元素(無益於增加數據信息量的元素很多),都可以稱其為數據稀疏。

D. 什麼是稀疏特徵

用一組多維向量表示的數據,若其在這些向量上大部分分量都為0,則這組特性為該數據的稀疏特性。

E. 什麼是稀疏

自然界真正的稀疏性可能可以從其他幾個方面性質來討論。
兩個假設:1,數據內元素位置的改變不改變稀疏測量度;2,稀疏度由元素的幅度決定。
衡量稀疏度的幾個條件有:
對應的數學表示:
數學中常見函數的這些性質分析和總結:
將稀疏測度以被測向量的長度量化,可以得到:
今年來討論的Kolmogorov complexity和minimum description
length也是稀疏的測度之一。

閱讀全文

與稀疏數據有哪些相關的資料

熱點內容
信息技術ps題是怎麼給分的 瀏覽:563
本科研究論文數據一般為多少 瀏覽:269
excel替換後的數據怎麼作圖 瀏覽:623
市場經濟制度監督什麼作用 瀏覽:553
管家婆軟體怎麼在代理品牌加貨 瀏覽:853
模切技術後期工資怎麼樣 瀏覽:116
花唄如何支付交易費用 瀏覽:478
安幕茵代理公司怎麼樣 瀏覽:414
銀行系統交易碼四位數是什麼意思 瀏覽:712
什麼技術能帶回家 瀏覽:520
專利中多個技術點什麼意思 瀏覽:314
寬頻數據掉了怎麼修 瀏覽:620
貴港水果批發市場在哪裡 瀏覽:614
氣溫高溫差大是可以養什麼水產品 瀏覽:802
正大飼料黑河代理是哪裡 瀏覽:642
excel如何輸入規律數據 瀏覽:961
如何落實產品一致性檢查 瀏覽:987
民房交易在什麼地方辦理 瀏覽:368
程序後面加點什麼意思 瀏覽:347
小程序每日交作業怎麼批改 瀏覽:100