① 信息的價值如何衡量,如何才能正確實現其價值
衡量信息的價值通常有兩種方法:
按花費的社會必要勞動量來計算:
V=C+P,C:生產該信息所花成本,V: 信息產品的價值,P:利潤。
2.按使用效果來衡量:
此方法認為信息的價值體現在決策過程中因用了該信息後所增加的收益,但應該從收益中減去獲取信息所花的費用 ,得到的是凈收益。
社會必要勞動時間,在卡爾·馬克思的《資本論》中是指「在現有社會正常的生產條件下,在社會平均的勞動熟練程度和勞動強度下,製造某種使用價值所需要的勞動時間。」
這里所說的現有的正常的生產條件,是指現時某一生產部門大多數產品生產已經達到的技術裝備水平。社會必要勞動時間等於某一時期製造某種使用價值所需要的勞動時間/當期該種使用價值總產量,社會必要勞動時間的量綱是時間單位/使用價值數量單位。
這意味著,社會產品是不斷發展的物質的社會存在。社會必要勞動時間獲得了抽象勞動的量的規定性,而抽象勞動本身(一定歷史形態的商品生產勞動)則表達為一定的社會勞動時間的差別。這種同質基礎上的量的差別,說明的是總勞動的歷史生成性。
一句話,抽象勞動是抽象規定的賦予,是勞動二重性發展規定的社會顯性化。
② 信息量的大小如何衡量
信息量的大小與聲音強弱也無關,比如把收音機開得響些,你得到的信息也不會由此而增加。資訊理論的研究表明,信息量的大小與事件發生的可能性的概率有關。
信息量不能用得到消息的次數來度量,因為千萬個消息可能委復著相同的內容;不能用文字的多少來度量,文字再多,全是廢話,信息量並不會增大。
信息量指的是什麼
信息多少的量度。1928年R.V.L.哈特萊首先提出信息定量化的初步設想,他將消息數的對數定義為信息量。若信源有m種消息,且每個消息是以相等可能產生的,則該信源的信息量可表示為I=logm。
對信息量作深入而系統研究,還是從1948年C.E.仙農的奠基性工作開始的。在來信洎頭息論筿中,認為信源輸出的消息是隨機的。
即在未收到消息之前,是不能肯定信源到底發送什麼樣的消息。而通信的目的也就是要使接收者在接收到消息後,盡可能多的解除接收者對信源所存在的疑義(不定度),因此這個被解除的不定度實際上就是在通信中所要傳送的信息量。
③ 怎樣衡量信息量的大小呢
如果用統計學的術語來描述,就是出現概率小的事件信息量多。因此,事件出現得概率越小,信息量愈大。即信息量的多少是與事件發生頻繁(即概率大小)成反比。
例題:向空中投擲硬幣,落地後有兩種可能的狀態,一個是正面朝上,另一個是反面朝上,每個狀態出現的概率為1/2。如投擲均勻的正六面體的骰子,則可能會出現的狀態有6個,每一個狀態出現的概率均為1/6。試通過計算來比較骰子狀態的不肯定性與硬幣狀態的不肯定性的大小。
信息量的簡介:
信息量是指信息多少的量度。1928年R.V.L.哈特萊首先提出信息定量化的初步設想,他將消息數的對數定義為信息量。若信源有m種消息,且每個消息是以相等可能產生的,則該信源的信息量可表示為I=logm。但對信息量作深入而系統研究,還是從1948年C.E.香農的奠基性工作開始的。
在資訊理論中,認為信源輸出的消息是隨機的。即在未收到消息之前,是不能肯定信源到底發送什麼樣的消息。而通信的目的也就是要使接收者在接收到消息後,盡可能多的解除接收者對信源所存在的疑義(不定度),因此這個被解除的不定度實際上就是在通信中所要傳送的信息量。
④ 數學之美系列四:怎樣度量信息
信息是個很抽象的概念。我們常常說信息很多,或者信息較少,但卻很難說清楚信息到底有多少。比如一本五十萬字的中文書到底有多少信息量。直到 1948 年,香農提出了「信息熵」(shāng) 的概念,才解決了對信息的量化度量問題。 一條信息的信息量大小和它的不確定性有直接的關系。比如說,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情,就需要了解大量的信息。相反,如果我們對某件事已經有了較多的了解,我們不需要太多的信息就能把它搞清楚。所以,從這個角度,我們可以認為,信息量的度量就等於不確定性的多少。 那麼我們如何量化的度量信息量呢?我們來看一個例子,馬上要舉行世界盃賽了。大家都很關心誰會是冠軍。假如我錯過了看世界盃,賽後我問一個知道比賽結果的觀眾「哪支球隊是冠軍」? 他不願意直接告訴我, 而要讓我猜,並且我每猜一次,他要收一元錢才肯告訴我是否猜對了,那麼我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號,從 1 到 32, 然後提問: 「冠軍的球隊在 1-16 號中嗎?」 假如他告訴我猜對了, 我會接著問: 「冠軍在 1-8 號中嗎?」 假如他告訴我猜錯了, 我自然知道冠軍隊在 9-16 中。 這樣只需要五次, 我就能知道哪支球隊是冠軍。所以,誰是世界盃冠軍這條消息的信息量只值五塊錢。 當然,香農不是用錢,而是用 「比特」(bit)這個概念來度量信息量。 一個比特是一位二進制數,計算機中的一個位元組是八個比特。在上面的例子中,這條消息的信息量是五比特。(如果有朝一日有六十四個隊進入決賽階段的比賽,那麼「誰世界盃冠軍」的信息量就是六比特,因為我們要多猜一次。) 讀者可能已經發現, 信息量的比特數和所有可能情況的對數函數 log 有關。 (log32=5, log64=6。) 有些讀者此時可能會發現我們實際上可能不需要猜五次就能猜出誰是冠軍,因為象巴西、德國、義大利這樣的球隊得冠軍的可能性比日本、美國、韓國等隊大的多。因此,我們第一次猜測時不需要把 32 個球隊等分成兩個組,而可以把少數幾個最可能的球隊分成一組,把其它隊分成另一組。然後我們猜冠軍球隊是否在那幾只熱門隊中。我們重復這樣的過程,根據奪冠概率對剩下的候選球隊分組,直到找到冠軍隊。這樣,我們也許三次或四次就猜出結果。因此,當每個球隊奪冠的可能性(概率)不等時,「誰世界盃冠軍」的信息量的信息量比五比特少。香農指出,它的准確信息量應該是 = -(p1*log p1 + p2 * log p2 + ...+p32 *log p32), 其中,p1,p2 ,...,p32 分別是這 32 個球隊奪冠的概率。香農把它稱為「信息熵」 (Entropy),一般用符號 H 表示,單位是比特。有興趣的讀者可以推算一下當 32 個球隊奪冠概率相同時,對應的信息熵等於五比特。有數學基礎的讀者還可以證明上面公式的值不可能大於五。對於任意一個隨機變數 X(比如得冠軍的球隊),它的熵定義如下: 變數的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。 有了「熵」這個概念,我們就可以回答本文開始提出的問題,即一本五十萬字的中文書平均有多少信息量。我們知道常用的漢字(一級二級國標)大約有 7000 字。假如每個字等概率,那麼我們大約需要 13 個比特(即 13 位二進制數)表示一個漢字。但漢字的使用是不平衡的。實際上,前 10% 的漢字占文本的 95% 以上。因此,即使不考慮上下文的相關性,而只考慮每個漢字的獨立的概率,那麼,每個漢字的信息熵大約也只有 8-9 個比特。如果我們再考慮上下文相關性,每個漢字的信息熵只有5比特左右。所以,一本五十萬字的中文書,信息量大約是 250 萬比特。如果用一個好的演算法壓縮一下,整本書可以存成一個 320KB 的文件。如果我們直接用兩位元組的國標編碼存儲這本書,大約需要 1MB 大小,是壓縮文件的三倍。這兩個數量的差距,在資訊理論中稱作「冗餘度」(rendancy)。 需要指出的是我們這里講的 250 萬比特是個平均數,同樣長度的書,所含的信息量可以差很多。如果一本書重復的內容很多,它的信息量就小,冗餘度就大。 不同語言的冗餘度差別很大,而漢語在所有語言中冗餘度是相對小的。這和人們普遍的認識「漢語是最簡潔的語言」是一致的。 在下一集中, 我們將介紹信息熵在信息處理中的應用以及兩個相關的概念互信息和相對熵。 對中文信息熵有興趣的讀者可以讀我和王作英教授在電子學報上合寫的一篇文章《語信息熵和語言模型的復雜度》
⑤ 確定信息度量尺度的原則是
信息度量尺度的原則是:
1、一個量的引進,他的出發點必須基本合理,對這個量的度量對象、意義、與內容有一個較為明確而又合理的解釋。
2、一個量的引進是否有意義,最終還要看它能否解決問題,解決了什麼樣的問題,以及它在解決這些問題中的作用與特徵。
3、理解一個量的含義,既要從它原始定義的出發點來理解,又要從它最終解決問題的意義上來理解。
4、信息量由許多不同的量組成,他們從多個角度來說明信息的度量問題。
⑥ 如何度量信息的存在 為什麼信息量的大小與信息的出現概率有關
為了引出後面機器學習的一個演算法——決策樹,我想先講點基礎知識,那就是信息熵。
信息是一個比較抽象的概念,我們常說某句話信息量很大,或者某句話看不懂在說什麼。直觀上來說,信息是可以量化的。
生活中有些事情是具有不確定性的,比如說預測明天股票的漲勢。假如你告訴我,明天世界盃足球賽要開始了,這兩者似乎沒有太大的關聯,那「世界盃足球賽開始」這條信息對於股票漲勢的信息量是很小的。但是,假如世界盃足球賽開始,大家都不關注股票了,那就沒有人坐莊,那這條信息的信息量就變大了很多。
而有些事情本來就是具有確定性的,比如太陽從東邊升起。假如你告訴我,明天太陽會從東邊升起,那這句話就沒有什麼信息量,因為沒有什麼比這個更確定的事了。
那麼,信息量的大小和什麼有關呢?
1、可能出現的結果數量。
2、事件發生的概率。
如果一個事件只有可能,那麼無論傳遞任何信息,都不會帶來什麼信息量。如果一個事件發生的概率越小,事件發生所帶來的信息量就越大,反之亦然。
信息熵的定義:
假設有離散隨機變數X={x1,x2,...,Xn},設pi=P{X=xi},則有:
I(xi)表示xi的自信息量,即事件xi發生所帶來信息量的大小。H(x)為事件X的信息熵,即事件X={x1,x2,...xm}的平均信息量,熵是對信息量的一個期望。
有了信息熵的定義,我們可以解決現實中的許多問題。比如英語中的26個英文字母,假設每個字母出現的概率是相等的,那麼其中一個字母的自信息量大小就是:
這個公式以2為底數,對應單位為bit,表示該信息的大小需要多少位二進制數可以衡量。
而對於中文來說,我們常知道的漢子大約有7000多個,假設每個字等概率出現,我們大約需要13個比特來表示一個漢字。但由於每個漢字的使用出現的頻率是不一樣的,有些常用的詞類似「的」出現的頻率很高,即使這樣每個漢字的信息熵也要 8-9 個比特信息。
這也是為什麼英文書翻譯成中文,總是厚厚的一本。
用公式來解決具體實際問題——稱小球問題。
問題:有10個小球,其中有一個小球偏重,用一個天平,需要至少用多少次天平才能把小球找出來?
這個問題大家也比較熟悉,現在我們利用信息熵公式來解決這種問題。
(1)每次使用天平,都會有三種可能性,左偏,右偏和平衡。而且這三種情況的概率是相等得,即每次使用天平可以得到log3的信息量。
(2)要從10個小球中,取出偏重的小球,每個小球都是等概率的,所以這個事件所攜帶的信息量是log10。
答案是我們最少需要log10/log3(約等於2.09),所以至少需要3次。
⑦ 信息的價值如何衡量如何才能正確地實現其價值
衡量信息的價值通常有兩種方法:
1.按花費的社會必要勞動量來計算
V=C+P
C:生產該信息所花成本
V: 信息產品的價值
P:利潤
2.按使用效果來衡量
此方法認為信息的價值體現在決策過程中因用了該信息後所增加的收益,但應該從收益中減去獲取信息所花的費用 ,得到的是凈收益。