① 求 資訊理論與編碼 學習心得
學習資訊理論與編碼感想
多媒體信息是未來人類獲取信息最主要的載體,因此它已成為目前世界上技術開發和研究的熱點。視頻信息作為多媒體信息中最被關注、數據量最大的一員,現在也正面臨著一場其意義不亞於從模擬到數字的技術進步革新:從傳統的矩形DCT變換編碼到根據視頻內容、劃分對象、分別變換編碼的新的編碼方法。
一、傳統的編碼方式
傳統的視頻編碼是以視頻信號的數字量為編碼對象的,與視頻信息的內容無關,無論是M-JPEG、MPEG-1還是MPEG-2,都是以DCT矩形變換塊為變換編碼單元,對DCT塊內圖像的亮度和色度進行特徵取樣,提取像素;採用幀間編碼、運動估測技術,在參考幀幀內DCT編碼的基礎上,對DCT塊內圖像的像素特徵進行差值預測編碼。基於矩形DCT編碼的視頻編碼在設計思想上只考慮到對信號數據進行處理的需要(比如小的比特率以利於傳輸、高的比特率以保證質量),但未考慮視頻信息--圖像內容本身的含義和重要性,以及視頻信息應用者的主觀需求(比如部分內容的提取功能)。另外,這種基?quot;塊"的壓縮演算法在低碼率時容易產生"方塊效應"和"抽幀",大大縮小了視頻信息的應用領域。
小波變換是一種新的變換編碼方法,它與DCT變換相比,考慮到了視頻信號對不同應用環境的自適應性(不同的清晰度與比特率),可以將基礎圖像層與增強圖像層分離編碼傳輸,用戶可根據實際情況選擇是否打開增強圖像層。但無論用戶選擇是或否,被傳送的視頻信息卻都是一樣的。
二、 基於內容對象的編碼
1、 VO與VOP概念的引入
傳統的視頻編碼方式是將整個視頻信號作為一個內容單體來處理,其本身不可再分割,而這與人類對視覺信息的判別法則,也就是大腦對視神經導入的視覺信號的處理方法是完全不同的。這就決定了我們不可能將一個視頻信息完整的從視頻信號中提取出來,比如:將加有台標和字幕的視頻恢復成無台標、字幕的視頻。解決問題的惟一途徑就是在編碼時就將不同的視頻信息載體--視頻對象VO(Video Objects)區分開,獨立編碼傳送,將圖像序列中的每一幀,看成是由不同的VO加上活動的背景所組成。VO可以是人或物,也可以是計算機生成的2D或3D圖形。VO具有音頻屬性,其屬性賦值可能?quot;有"或者是"無"。但音頻的具體內容數據是獨立於視頻編碼、傳輸的。VO概念的引入,更加符合人腦對視覺信息的處理方式,並使視頻信號的處理方式從數字化進展到智能化。提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用和更多的內容交互功能成為可能。
現代圖像編碼理論指出,人眼捕獲圖像信息的本質是"輪廓-紋理",即人眼感興趣的是VO的一些表面特性,如形狀、運動、紋理等。VO的表面往往是不規則的、千變萬化的,但可將其視為一定視角下,n個形狀規則的、具有一定紋理的剖面的組合的連續運動,這些剖面的組合稱為視頻對象面VOP(Video Object Profile)。VOP描述了VO在一定視角條件下的表面特性。VOP的編碼主要由兩部分組成:一個是形狀編碼,另一個是紋理和運動信息編碼。VOP紋理編碼和運動的預測、補償在原理上同MPEG-2基本一致,而形狀編碼技術則是首次應用在圖像編碼領域。
2、新的編碼技術
合成VO的獨立編碼 在以前,2D或3D動畫被看作是視頻的一部分,並一概以視頻的方法來處理。實際上,根據合成VO的合成機理和特性,大部分合成VO都可以用通用的有關圖形文本的多種表達方式來描述。非復雜性合成VO將被視為一種獨立於視頻的數據類型來編碼,並定義了其描述框架、通用的數據流結構和靈活的介面。而復雜性合成VO和自然VO的編碼方法,將採用以下的編碼方法。
基於矩形窗口的VOP分割 考慮到與現有標準的兼容,目前已得到應用的VO編碼技術,比如MPEG4,仍採用了基於矩形窗口的內容分割法。編碼時,首先利用像素特徵統計,將每一個VOP都限定在一個矩形窗口內,稱之為VOP窗口(VOP Window),取窗的原則為:長、寬均為16像素的整數倍(便於對現有標準的兼容和將來的擴展),同時保證VOP窗口中非VOP的宏塊數目最少。目前標准中的視頻幀可認為是一個無VOP的特例,在編碼過程中將形狀編碼模塊屏蔽掉就可以了。在一個VOP窗口內,VOP剖面的形狀也是採用8×8像素的矩形形狀。針對不同的VOP,可以根據不同的應用場合和運動、變化的特點,採用固定的或可變的VOP幀頻(即VOP刷新頻率)。
矩形窗口分割法並不能體現VOP的具體形狀信息。為了確認採用矩形窗口分割法的VOP的形狀信息,就引入了形狀編碼技術。形狀編碼其實並不是什麼新技術,它在計算機圖形學、計算機視覺領域早有應用。而目前的視頻編碼標准中的點陣圖技術其實就是形狀編碼的簡單特例。點陣圖採用矩陣的形式來表示二值(0或1)的形狀信息,具有較高的編碼效率和較低的運算復雜度。VOP的形狀信息有兩類:邊緣信息和灰度信息。邊緣信息用0、1來表示VOP的形狀,0表示非VOP區域,1表示VOP區域。對於包含一定透明度的VOP區域,可以用灰度信息(取值0~255之間)來表示透明程度,其中0表示完全透明,255表示完全不透明。對於模糊邊緣部分,可將其視為灰度信息從周圍已知VOP區域的灰度值向0值的過渡區域,採用內插法確定其形狀信息。
基於小波變換的VOP分割 基於矩形窗口的VOP分割依舊存在"塊效應"問題,而基於小波變換的VOP分割則可以很好的解決這個問題,而且由於這種分割方法的本身就包含了VOP的形狀信息,所以無需另對形狀信息進行判別與編碼。基於小波變換的VOP分割方法是目前最為活躍的視頻編碼課題研究領域,各種演算法不斷的被發表,但基本上可以劃分為兩類方法:
1、利用圖像灰度特徵分割:不同的圖像具有不同的灰度分布,利用小波變換,將圖像變換到小波域,產生各層、各子帶圖像。小波變換後,大部分的能量是集中在低頻子帶圖像上,即大面積的平均灰度區域信息主要在低頻子帶圖像中體現。根據資訊理論的原理,確定多個灰度閾值,可以將具有不同灰度的VOP從低頻子帶圖像中分離。同時再利用高頻子帶圖像以及模糊數學模型,確定每一個VOP的邊緣信息。利用圖像灰度特徵分割的小波變換,是沿掃描方向的單方向變換。
2、利用圖像紋理特徵分割:紋理是一種局部特徵反復出現的結果,它體現了圖像的局部頻域信息。對於一幅數字圖像,進行多方向的小波變換是可行的,比如對一幀畫面進行垂直方向或對角線方向的小波變換。經過多種小波變換後可得到不同方向的各子帶圖像,它們各自蘊涵著不同紋理的局部頻譜信息和紋理走向等信息。對具有相同頻譜特徵的圖像局部進行聚類分析,並根據紋理頻譜和紋理走向確定該聚類的紋理邊緣。根據資訊理論原理和運動估測,將運動矢量具有相關性的聚類二次歸類於不同的對象(即VOP),並影射成不同灰度顯示。多級小波變換的結果最多可線性的影射成0~255灰度級顯示。進行小波變換的方向越多,各方向的夾角越小,圖像分割也就越准確,但計算量也隨之迅速膨脹。根據局域紋理中心頻率的變化自適應地選擇小波變換的級數(幾個方向的變換)和方向,有助於在圖像分割的准確性和計算量之間達到平衡。正如本文前面所述,人眼捕獲圖像信息的本質?quot;輪廓-紋理",故基於多方向小波變換的提取圖像特徵、分割紋理圖像的方法符合人眼視覺生理的特點,是紋理圖像分析的重要發展方向。
無論是哪一種方法,當得到不同VOP的不同灰度表示之後,通過類似於鍵技術的多通道處理,即可得到多個原始的彩色VOP。目前實驗表明,基於小波變換的圖像分割在邊界上仍有些模糊,但總體效果還是相當滿意的,達到了分割紋理圖像的目的。
VOP運動信息編碼和運動補償 人眼在觀看圖像時,會自動跟蹤人所感興趣的VOP。即人看的不是時間軸上的信息,而是VOP的運動軌跡---光流軸上的信息。光流軸是VOP上的一點在活動圖像上的運動軌跡,它在不同的幀中位於不同的空間位置,其意義在於:VOP自身的各種變化都將映射於光流軸上的一點。光流軸信息的獨立編碼將帶來諸多好處:(1)在編碼時,對於剛性VOP,由於它在運動中不會發生形狀和紋理上的變化,故該VOP只需要完成一次采樣、編碼,而後就只需發出幾個運動矢量指明它的光流軸即可;對於非剛性VOP,只需在發生變化時才需要重新采樣、編碼,這就使得不同的VOP採用不同的VOP幀頻成為可能,將編碼的數據率最低限度的降低。(2)VOP在運動中的各種變化都將"留跡"於光流軸,當在進行運動補償時,比如不同制式之間的轉換或者慢動作的製作,就可以根據光流軸映射信息,採用內插法得出時間軸上某一確定點的VOP狀態,達到無損轉換的目的。(3)在時間軸上,簡單的將一個圖像序列的兩路信號疊加,隨即噪波和圖像的活動部分都得不到增強;若在光流軸上進行信號疊加,活動圖像的降噪問題就得到了簡單解決。
VOP的運動估測是指:分析兩個或更多幀上的VOP,確定光流軸,以判斷下一幀中VOP可能出現的位置。VOP的運動補償是指:根據VOP光流軸的取向和光流軸上VOP自身變化得映射信息,矯正VOP在時間軸上的運動矢量。運動預測和運動補償技術可以去除圖像信息中的時間冗餘成分,VOP的運動信息編碼可視為從像素向任意形狀的VOP的延伸。
紋理編碼 在已得到實際應用的MPEG-4中,VOP的紋理編碼基本上仍採用基於8×8像素塊的DCT方法,有3種模式:幀內編碼模式(I-VOP)、幀間預測編碼模式(P-VOP)和幀間雙向預測編碼模式(B-VOP)。編碼時,對於完全位於VOP內的像素塊,則採用經典的DCT方法;對於完全位於VOP之外的像素塊則不進行編碼;對於部分在VOP內,部分在VOP外的像素塊則首先採用圖像填充技術來獲取VOP之外的像素值,之後再進行DCT編碼。
依據視覺特性的紋理編碼目前仍處於理論研究階段,其目標是:建立常見紋理局部特徵符號集,定義描述紋理分布、走向的多媒體語言。以人臉為例:人臉定義參數(FDP)描述了特定人臉紋理形狀模型與通用人臉模型之間的差別,通過接收到的各種FDP,能把通用的人臉模型變換成由其形狀和紋理確定的特定人臉。人臉動畫參數(FAP)描述了特定的人臉表情與中性表情的變化關系,通過接收到的各種FAP能生成人臉的各種表情以及與聲音同步的嘴唇活動等。這樣的合成編碼不僅可極大地提高編碼效率(可獲得1kbps的超低碼率),而且為製作新的人臉等對象提供了方便。
分級編碼 多媒體的應用場合具有不同的信道帶寬、處理能力、顯示能力及用戶需求,要求在解碼端支持時域、空間及質量的上伸縮性,即分級編碼。分級編碼可以通過視頻對象層VOL(Video Object Layer)的數據結構來實現。每一種分級編碼都至少有2層VOL,低層稱為基本層,高層稱為增強層。空間伸縮性可通過增強層強化基本層的空間解析度來實現,因此在對增強層中的VOP進行解碼之前,必須先對基本層中相應的VOP進行解碼。同樣對於時域伸縮性,可通過增強層來增加視頻序列中某個VO(特別是運動的VO)的幀率,使其與其餘區域相比更為平滑。
三、 新的技術標准--MPEG 4
首次採用VO編碼技術的視頻編碼標準是由MPEG 4。MPEG 4於1999年年初正式成為國際標准(標准號為ISO/IEC 14496),在1999年12月的後繼版本中增加了可變形、半透明視頻對象及其工具的先進功能,它進一步提高了編碼效率,並與第一版反向兼容。
1、MPEG 4標準的構成
1) DMIF(The Dellivery Multimedia Integration Framework):多媒體傳送整體框架協議。MPEG-4標准將眾多的多媒體應用集成於一個完整的框架內,旨在為多媒體通信及應用環境提供靈活的演算法及工具,用於實現音視頻數據的有效編碼及更為靈活的存取。它解決了多領域中多媒體應用個性化交互操作的問題。
2) 解碼器:定義了MPEG-4系統特殊的解碼模式(SDM),要求特殊的緩沖區和實時模式。
3) 音頻編碼:支持自然聲音和合成聲音,支持音頻的對象特徵。
4) 視頻編碼:支持自然和合成的視覺對象,合成的視覺對象包括2D、3D動畫和人面部表情動畫等。
5) 場景描述BIFS(Binary Format for Scene description):關於一組VO的時空結構關系的參數信息,主要描述了各VO在一具體背景下的相互關系與同步等問題,以及VO及其背景的知識產權保護等問題。BIFS與VO對象特徵信息的編碼、傳輸是相對獨立的。場景描述信息編碼及其的獨立傳輸是實現用戶端編輯操作的關鍵:在解碼之後和場景合成之前,用戶可以通過對BIFS參數的重新設置來對VO 進行多種編輯操作,如增減、縮放、平移,甚至一些特技效果。
下面的表格反映了MPEG體系的部分技術指標。MPEG-4是高比率有損壓縮(比如將一個9 GB的DVD視頻壓縮拷貝到只有700MB空間的CD-ROM上),其圖像質量始終無法與MPEG-2相比。當MPEG-4與MPEG-2的碼率輸出相同時,其質量仍稍遜於MPEG-2。同時,MPEG 4對硬體的要求也較高。事實上,我們注意到MPEG-4在保證令人滿意的圖像質量的情況下,更注重較低的數據率和靈活的交互功能。
2、MPEG 4編碼器
MPEG 4編碼簡化原理圖如圖一。
對於輸入視頻序列,通過分析確認n個視覺目的對象為編碼對象,將其認定為n個VO(n=1,2,3…),對每一個VO編碼後形成這個VO的VOP數據流。VOP的編碼包括對運動(採用運動預測方法)及形狀、紋理(採用變換編碼方法)的編碼。由於VOP具有任意形狀,因此要求編碼方案可以處理形狀(Shape)和透明(Transparency)信息,這就是與只能處理矩形幀序列的現有視頻編碼標準的根本區別。在MPEG-4中,矩形幀被認為是VOP的一個特例,這時編碼系統不用處理形狀信息,退化為類似於MPEG-1、MPEG-2的傳統編碼系統,同時也實現了與現有標準的兼容。除去VO的其餘圖像部分--背景,仍採用傳統的矩形DCT變換編碼;VO場景描述信息(VO自身信息,如VO對象的知識產權、和VO間的位置、邏輯關系等)也要進行編碼,最後和VOP流、背景一起送入MPEG 4幀復合器,生成MPEG 4流輸出。
需指出的是:在VO分割後,每一個VO都需要一個VOP編碼通道,在圖一中只畫出了一個。多個VOP幀發生器的輸出在MPEG 4幀復合器中可實現靈活地多路復用編碼或同步並行傳輸編碼,以適應各種傳輸環境和要求。MPEG 4解碼是以上編碼過程的逆過程。可以看出,獨立於背景的VO編碼可以實現接收端的用戶對VO對象進行選擇性地操作。
3、MPEG 4視頻編碼功能與特點
MPEG 4標準的制定有兩個目標:低比特率的多媒體通信和多工業的多媒體通信的綜合。即MPEG-4遵循靈活的編碼工具框架體系,設計了一個開放的編碼系統,對於不同的應用採用不同的編碼演算法,以達到低比特率通信的目標。MPEG-4解碼器是可編程的,相應的解碼信息可與內容本身一起傳輸下載。與現有的MPEG-1和MPEG-2視頻壓縮相比,MPEG-4視頻有一些重要的改進:
1)基於內容的交互功能: MPEG-4提供了全新的交互方式,根據製作者的具體自由度設計,在有限的時間內可實現對多媒體VO的時域隨機存取(從不同的源獲取內容或向不同的源發送內容)、快速搜索、改變場景的視角、改變場景中物體的位置、大小和形狀,或對該對象進行置換甚至清除。
2)支持自然及合成信息的混合編碼(NHC:Synthetic and Natural Hybrid Coding):MPEG-4支持合成信息的編碼,可對合成的VO及其活動信息進行參數化描述。對於頻繁出現的視覺對象則分別定義了它們的紋理形狀和動畫參數。
3)高效編碼:包括視頻VO數據的高效編碼和多個並發數據的有效同步編碼。
4)基於內容的伸縮性:是指分級編碼後,紋理、圖像和視頻基於內容的伸縮性,視頻序列中時域、空間及質量的伸縮性,表現為時域實時或非實時、數據率大小及重建的圖像質量上。
5)可變的最終輸出:不同的碼率意味著支持不同的功能集。功能集的底層是VLBV核心(VLBV:Very Low Bit Rate Video),它為最低達5-64kbits/s視頻操作與應用提供演算法與工具,支持較低的空間解析度(低於352×288像素)和較低的幀頻(低於15Hz)。VLBV核心功能包括:矩形圖像序列的有效編碼、多媒體資料庫的搜索和隨機存取。MPEG-4的HBV(HBV: High Bit Rate Video,范圍在64kbits/s-4Mbits/s之間)同樣支持上述功能,但它同時還支持較高的空間與時間解析度。其輸入可以是ITU-R 601的標准信號,因此其典型應用為數字電視廣播與互動式檢索。
與MPEG-1和MPEG-2相比,MPEG-4的特點是其更適於互動式AV服務以及遠程監控。MPEG-4是第一個允許用戶端操作的的視頻編碼標准。MPEG 4的特點非常適合於互聯網上的互動式影視服務:可適應各種應用終端的物理網路環境,可實現對視音頻內容的交互操作,具有下載解碼能力(在一定的硬體基礎上,可下載解碼工具,對不同編碼方式的內容進行解碼處理)。MPEG-4的設計目標還有更廣的適應性和可擴展性:網際網路多媒體應用、互動式視頻游戲、實時可視通信、互動式存儲媒體應用、廣播電視、演播室技術及電視後期製作、多媒體內容存儲和檢索、採用面部動畫技術的虛擬會議、多媒體郵件、移動通信條件下的多媒體應用、可視化合作實驗室場景應用、遠程視頻監控、通過ATM網路等進行的遠程資料庫業務等等。
從矩形幀到VOP,MPEG-4順應了現代圖像壓縮編碼的發展潮流,即從基於DCT的傳統編碼向基於對象和內容的現代編碼的轉變。從這個意義上講,MPEG-4視頻編碼技術翻開了圖像編碼史上嶄新的一頁。
四、 MPEG 4視頻產品
在2001 NAB會展上,多家公司推出了他們的MPEG 4產品。Amnis公司推出了基於IP平台的MPEG4視頻流技術,展示了可以重放MPEG1, MPEG2和MPEG4的桌面軟體。Envivo 公司陳列了他們的應用於IP網路或MPEG2節目數據廣播的MPEG4端到端解決方案。該方案是純軟體的,支持視頻、音頻和合成的2D動畫的MPEG4方式編碼,以及對MPEG 4文件的版權保護。Optibase公司推出的MGW系列是一個插件式的多通道流伺服器系列,可插入不同的編碼模塊以適應不同的需求,其中MGW 4000是支持MPEG4(兼容MPEG1和MPEG2)的流伺服器。Optibase還推出了支持多媒體和交互MPEG4流的IP實時編碼、分配平台。最後,Optibase展示了從MPEG 1到MPEG 4的實時轉碼技術。Philips 提供了一個從製作到重放的、端到端的網上MPEG-4解決方案:包括互動內容編輯器(支持網上MPEG-4視頻流的搜索、剪輯和編輯)、實時軟體MPEG-4編碼器(甚至支持簡單視頻和AAC音頻的無線編碼)、通用多點分配IP平台和解碼軟體(WebCine' player支持Win95,Win2000和NT操作系統;WinCE用於手提電腦;Trimedia是一個網上廣播機頂盒)。SUN 公司也推出了他們的通用MPEG-4流伺服器。
微軟在它現在的WIN98和WIN2000操作系統中也已加入了一個MPEG-4的播放器,叫做Divx。它可以回放仍是以.AVI為後綴的MPEG 4文件。Divx可以附加到MPEG-4的數據流中,並可以進行設置以適應不同的使用要求。Divx視頻編碼技術是由 Microsoft MPEG4 V3 修改而來,使用MPEG 4壓縮演算法,打破了ASF的種種協定。但MPEG4畢竟是一種高比率有損壓縮,其圖象質量始終無法和 DVD 的 MPEG2 相比,即便是在MPEG4碼率和DVD碼率差不多時,總體效果還是有距離(在雜亂的細節上稍有模糊)。所以目前的MPEG4 只能面向於娛樂和欣賞方面的市場。
市場上的第一張DIVX-MPEG4格式的影碟《活火熔城》,長98分鍾,採用512×288 16:9格式,幀頻24幀/秒,64KB立體聲音頻。影片由720×480 16:9 30幀/秒的MPEG2制式轉刻,刻在單張CD碟片上。
六、結 尾
在最後結束本文的時候,作者還想說一些與本文有關的闡述文字。由於工程實現與商機、市場的原因,我們所獲得的工程技術成果經常是落後於科學家已經得心應手、並能信手拈來的實際的最前沿科技成果。MPEG-4標准即是多因素集合作用的結果,如果不考慮對已有產品的兼容,它還可以做得更好。
VOP編碼方式是視頻信號處理技術從數字化進入智能化得初探。另外,已VOP技術為依託,也使得模式識別技術從對符號的識別進入到對圖形識別的更新的領域。資料表明,此類研究已經更進一步的逼近人腦對視覺信息的處理方式。人類永遠不停的在揭示自然界無窮奧妙的同時,也更深入的探索人類自身。