⑴ 多媒體數據最終是以什麼形式存在的
二進制代碼
多媒體數據的五大特點
1.數據類型復雜
多媒體數據實際上是由多種不問類型的數據組成的,通常包括文本、圖形、圖像、聲音、視頻圖像、動畫等不同數據類型,而且同一類型數據可以有不同的表示方法。例如,可以用編碼形式表示,也可用二進制非編碼形式表示:可以用內部數據結構(如圖形數據常用圖段、層次、邊界、幾何結構等多種小同數據結構)表示,也可採用無結構的點陣圖形式來表示。特別是,這些內部數據結構都隨具體應用而變化。多媒體數據返一復雜性不僅使多媒體數據的建立、存儲、檢索以及數據處理技術各不相同,而且使多媒體計算機系統的功能較普通微機、工作站的功能要復雜得多。
2.數據信息量大
現以聲音和視頻圖像數據為例加以說明。對聲音數據進行采樣並量化時,通常採用44.1kHz的采樣頻率,而為了達到較大的動態范圍和信噪比,每一樣本需用16位二進制數表示,這樣,對一路雙聲道立體聲而言,信息量為每秒176KB或每分鍾10.6MB。圖形(圖像)和視頻圖像的信息量與屏幕解析度「方向像素數xy方向像素數)、表示每一像素的數據的位數、幀刷新頻率以及是否壓縮等因素有關。多媒體數據的大信息量的特點導致一系列技術難點需要解決,主要包括:高速處理器技術、大容暈存儲技術(包括內存幀存和外存)、具有高壓縮比的實時圖像數據壓縮和解壓縮技術以及高速通信網路技術等。
3.數據的實時性要求高
多媒體數據中的聲音和視頻圖像數據都是與時間有關的信息,很多場合要求實時處理,如聲音和視頻力偶信息的實時壓縮與解壓縮、傳輸與同步等。另外,在編輯、檢索、顯示等交互操作方面都要求有實時操作系統支持。因此,多媒體計算機系統要求有很高的運算速度,除通用的高速處理晶元外,很多演算法均需要專用硬體如音效卡、視頻卡等的支持。因而,高速專用集成電路是多媒體計算機的重要組成部分,它們的應用不僅增強了多媒體數據的處理的實時性。還使用系統軟體的實時性設計得到簡化。
4.數據的分布性廣
由於多媒體數據的多樣性,多媒體應用的開發工作要求各種專業人員介入,包括計算機開發、文字寫作、影視製作、廣告宣傳及動畫設計等方面的人員協同工作,因而原始素材往往分布在不同的空間和時間里,這使得分布式多媒體資料庫的建立和管理以及多媒體通信的應用成為多媒體計算機系統的關鍵技術。
5.數據的交互性要求強
多媒體技術的特點之一就是很強的人機互動性,這也是它有別於傳統聲像技術之處。在多媒體技術的實際應用中,主要方法是「選擇和視聽」。如,用滑鼠單擊屏幕上的文字、圖片或視頻圖像上的某一區域,調用文字、圖像、聲音、實物圖片或解釋性的視頻圖像片斷,或調用其它背景材料供用戶觀看和決策,按用戶所希望的順序重新組織有關材料等,這些應用方法的基礎是人機交互技術,這種交互操作是一種實時操作,要求整個系統的軟體、硬體系統都能實時響應。
⑵ 誰能告訴我一些關於AVI視頻的具體信息(比如解析度、幀率等)它們分別屬於哪種編碼格式。
AVI簡介
AVI英文全稱為Audio Video Interleaved,即音頻視頻交錯格式。是將語音和影像同步組合在一起的文件格式。它對視頻文件採用了一種有損壓縮方式,但壓縮比較高,因此盡管面面質量不是太好,但其應用范圍仍然非常廣泛。AVI支持256色和RLE壓縮。AVI信息主要應用在多媒體光碟上,用來保存電視、電影等各種影像信息。
它於1992年被Microsoft公司推出,隨Windows3.1一起被人們所認識和熟知。所謂「音頻視頻交錯」,就是可以將視頻和音頻交織在一起進行同步播放。這種視頻格式的優點是圖像質量好,可以跨多個平台使用,其缺點是體積過於龐大,而且更加糟糕的是壓縮標准不統一,最普遍的現象就是高版本Windows媒體播放器播放不了採用早期編碼編輯的AVI格式視頻,而低版本Windows媒體播放器又播放不了採用最新編碼編輯的AVI格式視頻,所以我們在進行一些AVI格式的視頻播放時常會出現由於視頻編碼問題而造成的視頻不能播放或即使能夠播放,但存在不能調節播放進度和播放時只有聲音沒有圖像等一些莫名其妙的問題,如果用戶在進行AVI格式的視頻播放時遇到了這些問題,可以通過下載相應的解碼器來解決。是目前視頻文件的主流。 這種格式的文件隨處可見,比如一些游戲、教育軟體的片頭,多媒體光碟中,都會有不少的AVI 。
現在,在WINDOWS 95或98里都能直接播放AVI,而且它自己的格式也有好幾種,最常見的有 Intel Indeo(R)Video R3.2、Microsoft video 等。
avi含三部分:文件頭、數據塊和索引塊。
其中數據塊包含實際數據流,即圖像和聲音序列數據。這是文件的主體,也是決定文件容量的主要部分。視頻文件的大小等於該文件的數據率乘以該視頻播放的時間長度,索引塊包括數據塊列表和它們在文件中的位置,以提供文件內數據隨機存取能力。文件頭包括文件的通用信息,定義數據格式,所用的壓縮演算法等參數。
nAVI格式
nAVI是newAVI的縮寫,是一個名為ShadowRealm的地下組織發展起來的一種新視頻格式(與我們上面所說的AVI 格式沒有太大聯系)。它是由Microsoft ASF壓縮演算法的修改而來的,但是又與下面介紹的網路影像視頻中的ASF視頻格式有所區別,它以犧牲原有ASF視頻文件視頻「流」特性為代價而通過增加幀率來大幅提高ASF視頻文件的清晰度。
DV-AVI格式
DV的英文全稱是Digital Video Format,是由索尼、松下、JVC等多家廠商聯合提出的一種家用數字視頻格式。目前非常流行的數碼攝像機就是使用這種格式記錄視頻數據的。它可以通過電腦的IEEE 1394埠傳輸視頻數據到電腦,也可以將電腦中編輯好的的視頻數據回錄到數碼攝像機中。這種視頻格式的文件擴展名一般是.avi,所以也叫DV-AVI 格式。
目前(07年10月)AVI圖象反轉的原因很可能是暴風影音和windows media player沖突,下載一個完整的DIVX解碼器可以解決。
1992年初Microsoft公司推出了AVI技術及其應用軟體VFW(Video for Windows)。在AVI文件中,運動圖像和伴音數據是以交織的方式存儲,並獨立於硬體設備。這種按交替方式組織音頻和視像數據的方式可使得讀取視頻數據流時能更有效地從存儲媒介得到連續的信息。構成一個AVI文件的主要參數包括視像參數、伴音參數和壓縮參數等:
AVI沒有MPEG這么復雜,從WIN3.1時代,它就已經面世了。它最直接的優點就是兼容好、調用方便而且圖象質量好,因此也常常與DVD相並稱。但它的缺點也是十分明顯的:體積大。也是因為這一點,我們才看到了MPEG-1和MPEG-4的誕生。2小時影像的AVI文件的體積與MPEG-2相差無計,不過這只是針對標准解析度而言的:根據不同的應用要求,AVI的解析度可以隨意調。窗口越大,文件的數據量也就越大。降低解析度可以大幅減低它的體積,但圖象質量就必然受損。與MPEG-2格式文件體積差不多的情況下,AVI格式的視頻質量相對而言要差不少,但製作起來對電腦的配置要求不高,經常有人先錄制好了AVI格式的視頻,再轉換為其他格式。
[編輯本段]參數
視像參數
1、視窗尺寸(Video size):根據不同的應用要求,AVI的視窗大小或解析度可按4:3的比例或隨意調整:大到全屏640×480,小到160×120甚至更低。窗口越大,視頻文件的數據量越大。
2、幀率(Frames per second):幀率也可以調整,而且與數據量成正比。不同的幀率會產生不同的畫面連續效果。
伴音參數
在AVI文件中,視像和伴音是分別存儲的,因此可以把一段視頻中的視像與另一段視頻中的伴音組合在一起。AVI 文件與WAV文件密切相關,因為WAV文件是AVI文件中伴音信號的來源。伴音的基本參數也即WAV文件格式的參數,除此以外,AVI文件還包括與音頻有關的其他參數:
1、視像與伴音的交織參數(Interlace Audio Every X Frames)AVI格式中每X幀交織存儲的音頻信號,也即伴音和視像交替的頻率X是可調參數,X的最小值是一幀,即每個視頻幀與音頻數據交織組織,這是CD-ROM上使用的默認值。交織參數越小,回放AVI文件時讀到內存中的數據流越少,回放越容易連續。因此,如果AVI文件的存儲平台的數據傳輸率較大,則交錯參數可設置得高一些。當AVI文件存儲在硬碟上時,也即從硬碟上讀AVI文件進行播放時,可以使用大一些的交織頻率,如幾幀,甚至1秒。
2、同步控制(Synchronization)
在AVI文件中,視像和伴音是同步得很好的。但在MPC中回放AVI文件時則有可能出現視像和伴音不同步的現象。
壓縮參數
在採集原始模擬視頻時可以用不壓縮的方式,這樣可以獲得最優秀的圖像質量。編輯後應根據應用環境環擇合適的壓縮參數。
[編輯本段]數字視頻
AVI及其播放器VFW已成為了PC機上最常用的視頻數據格式,是由於其具有如下的一些顯著特點:
一、提供無硬體視頻回放功能
AVI格式和VFW軟體雖然是為當前的MPC設計的,但它也可以不斷提高以適應MPC的發展。根據AVI格式的參數,其視窗的大小和幀率可以根據播放環境的硬體能力和處理速度進行調整。在低檔MPC機上或在網路上播放時,VFW的視窗可以很小,色彩數和幀率可以很低;而在Pentium級系統上,對於64K色、320×240的壓縮視頻數據可實現每秒25幀的回放速率。這樣,VFW就可以適用於不同的硬體平台,使用戶可以在普通的MPC上進行數字視頻信息的編輯和重放,而不需要昂貴的專門硬體設備。
二、實現同步控制和實時播放
通過同步控制參數,AVI可以通過自調整來適應重放環境,如果MPC的處理能力不夠高,而AVI文件的數據率又較大,在WINDOWS環境下播放該AVI文件時,播放器可以通過丟掉某些幀,調整AVI的實際播放數據率來達到視頻、音頻同步的效果。
三、可以高效地播放存儲在硬碟和光碟上的AVI文件
由於AVI數據的交叉存儲,VFW播放AVI數據時只需佔用有限的內存空間,因為播放程序可以一邊讀取硬碟或光碟上的視頻數據一邊播放,而無需預先把容量很大的視頻數據載入到內存中。在播放AVI視頻數據時,只需在指定的時間內訪問少量的視頻圖像和部分音頻數據。這種方式不僅可以提高系統的工作效率,同時也可以實現迅速地載入和快速地啟動播放程序,減少播放AVI視頻數據時用戶的等待時間。
四、提供了開放的AVI數字視頻文件結構
AVI文件結構不僅解決了音頻和視頻的同步問題,而且具有通用和開放的特點。它可以在任何Windows環境下工作,而且還具有擴展環境的功能。用戶可以開發自己的AVI視頻文件,在Windows環境下可隨時調用。
五、AVI文件可以再編輯
AVI一般採用幀內有損壓縮,可以用一般的視頻編輯軟體如Adobe Premiere或MediaStudio進行再編輯和處理。
⑶ 在計算機中,多媒體數據最終是以( )存儲的
在計算機中,多媒體數據最終是以二進制代碼存儲的。
二進制代碼語言或稱為機器語言,計算機可以直接識別,不需要進行任何翻譯的語言。每台機器的指令,其格式和代碼所代表的含義都是硬性規定的,故稱之為面向機器的語言,也稱為機器語言。它是第一代的計算機語言,機器語言對不同型號的計算機來說一般是不同的。
直接用二進制代碼指令表達的計算機語言,指令是用0和1組成的一串代碼,它們有一定的位數,並分成若干段,各段的編碼表示不同的含義,例如某台計算機字長為16位,即有 16個二進制數組成一條指令或其它信息。16個0和1可組成各種排列組合,通過線路變成電信號,讓計算機執行各種不同的操作。
(3)多媒體數據最終幀數在哪裡擴展閱讀:
多媒體信息(數據)的類型及特點
(1)文本
文本是以文字和各種專用符號表達的信息形式,它是現實生活中使用得最多的一種信息存儲和傳遞方式。用文本表達信息給人充分的想像空間,它主要用於對知識的描述性表示,如闡述概念、定義、原理和問題以及顯示標題、菜單等內容。
(2)圖像
圖像是多媒體軟體中最重要的信息表現形式之一,它是決定一個多媒體軟體視覺效果的關鍵因素。
(3)動畫
動畫是利用人的視覺暫留特性,快速播放一系列連續運動變化的圖形圖像,也包括畫面的縮放、旋轉、變換、淡入淡出等特殊效果。通過動畫可以把抽象的內容形象化,使許多難以理解的教學內容變遷生動有趣。合理使用動畫可以達到事半功倍的效果。
(4)聲音
聲音是人們用來傳遞信息、交流感情最方便、最熟悉的方式之一。在多媒體課件中,按其表達形式,可將聲音分為講解、音樂、效果三類。
(5)視頻影像
視頻影像具有時序性與豐富的信息內涵,常用於交待事物的發展過程。視頻非常類似於我們熟知的電影和電視,有聲有色,在多媒體中充當起重要的角色。
⑷ 怎樣用carplay 愛奇藝
carplay是某果公司基於iPhone和汽車用品推出的車載手機互聯系統,讓手機內容投射到汽車多媒體顯示屏上,主要應用於地圖導航、來(去)電接聽、多媒體播放、游戲娛樂等。現在主流汽車基本都支持carplay,但是大多數車企在考慮到駕駛員和乘客安全的情況下,只開放了諸如地圖導航、來電接聽、音樂播放等功能,涉及駕駛隱患的視頻播放、游戲娛樂等功能都被進行了隱藏。那麼,如果是在停車等待的過程中,想看看MV、偶爾來把游戲,該怎麼辦,怎麼才能打發等待的漫長時間,這里簡單來說說。
開啟分步閱讀模式
工具材料:
iPhone手機一部
支持carplay的汽車一台
操作方法
01
1.iPhone手機一部,要求系統版本必須低於ios10.3.3。(因為需要越獄,ios10.3.3以上版本越獄基本已經沒有希望了,就目前來看)
02
2.對手機進行越獄,這里就不做過多闡述了,需要注意的是不完美越獄和完美越獄都可以。
03
3.越獄後需要添加saurik源
04
4.需要安裝NGXPlay插件,剛才添加的源力就有,直接搜索安裝就可以。
05
5.插件安裝完成後,需要進入該插件進行簡單的設置,將【啟用】按鈕打開,進入【應用程式】。
06
6.打開【啟用按鈕】,【模式】有兩種,mirror和native,mirror意為只顯示不能在汽車中控屏上操作,native意為既可顯示又可操作。打開【自動橫向】和【鏡像完整畫面】,【鏡像幀數】默認即可。設置完成後即可在汽車中控屏上看到被車企限制隱藏了的其他應用,可視或可操作。
⑸ 視頻幀數保持在多少以上才可以保持視頻畫面流暢
通常在二十四幀以上
原因一:人類肉眼的「視覺暫留」和「腦補」現象,前者是指人類視網膜在光信號消失後,「殘像」還會保留一定時間的現象;後者是大腦自行補足畫面中間幀的「腦補」功能。它們的混合作用,讓我們誤以為每秒24幀回放的照片是連續的。
原因二:電影規格本身也經歷了16到24幀的轉變,這個數字以後估計也會繼續增長。而PAL/NTSC/SECAM三種電視信號規格,把幀數定在每秒25幀和30幀的原因,其實只是因為不同地區的供電頻率不同(50Hz和60Hz)。
但當物體移去時,視神經對物體的印象不會立即消失,而要延續1/24秒左右的時間,人眼的這種性質被稱為「眼睛的視覺暫留」。
每一幀都是靜止的圖象,快速連續地顯示幀便形成了運動的假象,因此高的幀率可以得到更流暢、更逼真的動畫。
(5)多媒體數據最終幀數在哪裡擴展閱讀:
游戲的一秒幀數要高於電影、動畫等。
原因是動態模糊,動態模糊是指相機快門慢於物體運動而導致的運動軌跡拖影。3D游戲和電影的重要差別:電影是現實光影的記錄,而3D游戲是3D模型形狀/位置的實時渲染,前者會有動態模糊,而後者不會。
⑹ 高清視頻的幀率
你把你播放的視頻拖入到MediaInfo(查看多媒體編碼信息)工具中,你就能看到能夠支持播放的視頻編碼和幀率等種種信息。
幀數簡單地說,幀數就是在1秒鍾時間里傳輸的圖片的幀數,也可以理解為圖形處理器每秒鍾能夠刷新幾次,通常用fps(Frames Per Second)表示。每一幀都是靜止的圖象,快速連續地顯示幀便形成了運動的假象。高的幀率可以得到更流暢、更逼真的動畫。每秒鍾幀數 (fps) 愈多,所顯示的動作就會愈流暢。一般來說30fps是可以接受的,所以要避免動作不流暢的最低fps是30。除了30fps外,有些計算機視頻格式,例如 AVI,每秒只能提供15幀。我們之所以能夠利用攝像頭來看到連續不斷的影像,是因為影像感測器不斷攝取畫面並傳輸到屏幕上來,當傳輸速度達到一定的水平時,人眼就無法辨別畫面之間的時間間隙,所以大家可以看到連續動態的畫面。
每秒的幀數(fps)或者說幀率表示圖形處理器場景時每秒鍾能夠更新幾次。高的幀率可以得到更流暢、更逼真的動畫。一般來說30fps就是可以接受的,但是將性能提升至60fps則可以明顯提升交互感和逼真感,但是一般來說超過75fps一般就不容易察覺到有明顯的流暢度提升了。如果幀率超過屏幕刷新率只會浪費圖形處理的能力,因為顯示器不能以這么快的速度更新,這樣超過刷新率的幀率就浪費掉了。
電腦中所顯示的畫面,都是由顯卡來進行輸出的,因此屏幕上每個像素的填充都得由顯卡來進行計算、輸出。當畫面的解析度是1024×768時,畫面的刷新率要達到24幀/秒,那麼顯卡在一秒鍾內需要處理的像素量就達到了「1024×768×24=18874368」。如果要求畫面的刷新率達到50 幀/秒,則數據量一下子提升到了「1024×768×50=39321600」。
FPS與解析度、顯卡處理能力的關系如下:處理能力=解析度×刷新率
⑺ 在計算機中,多媒體數據最終是以什麼存儲的
01010010......二進制
⑻ 在計算機內, 多媒體數據最終是以( )形式存在的。
在計算機內,
多媒體數據最終是以(二進位的數字)形式存在的。
⑼ 多媒體在資料庫中如何存儲
多媒體資料庫
多媒體資料庫是資料庫技術與多媒體技術結合的產物。多媒體資料庫不是對現有的數據進行界面上的包裝,而是從多媒體數據與信息本身的特性出發,考慮將其引入到資料庫中之後而帶來的有關問題。多媒體資料庫從本質上來說,要解決三個難題。第一是信息媒體的多樣化,不僅僅是數值數據和字元數據,要擴大到多媒體數據的存儲、組織、使用和管理。第二要解決多媒體數據集成或表現集成,實現多媒體數據之間的交叉調用和融合,集成粒度越細,多媒體一體化表現才越強,應用的價值也才越大。第三是多媒體數據與人之間的交互性。沒有交互性就沒有多媒體,要改變傳統資料庫查詢的被動性,能以多媒體方式主動表現。
簡單的說
就是計算機存放電影,音樂以及其他非文本數據的地方
⑽ 一道計算聲音的數據量的問題
這個問題太專業了,算比較麻煩你自己看看吧
文件壓縮技術的日新月異使得MP3成為時下最燙手的音樂格式,優質的音樂隨著0與1 的排列迅速散布到世界各地,撼動人心。何謂MP3?MP3的全稱是MPEG Audio Layer 3,它是一種高效的計算機音頻編碼方案,它以較大的壓縮比將音頻文件轉換成較小的擴展名為.MP3的文件,基本保持原文件的音質。MP3是 ISO/MPEG標準的一部分,ISO/MPEG標准描述了使用高性能感知編碼方案的音頻壓縮,此標准一直在不斷更新以滿足「質高量小」的追求,現已形成 MPEG Layer 1、Layer 2、Layer 3三個音頻編碼解碼方案。MPEG Layer 3壓縮率可達1:10至1:12,1M的MP3文件可播放1分鍾,而1分鍾CD音質的WAV文件(44100Hz,16bit,雙聲道,60秒)要佔用 10M空間,這樣算來,一張650M的MP3光碟播放時間應在10小時以上,而同樣容量的一張CD盤播放時間在70分鍾左右。MP3的優勢是CD難以比擬的。
2 MP3原理淺析
2.1 MPEG Audio標准
MPEG(Moving Picture Experts Group)是ISO下的一個動態圖象專家組,它制定的MPEG標准廣泛應用於各種多媒體中。MPEG標准包括視頻和音頻標准,其中音頻標准已制定出 MPEG-1、MPEG-2、MPEG-2 AAC和MPEG-4。
MPEG-1和MPEG-2標准使用同一個音頻編碼解碼族—Layer1、 2、3。MPEG-2一個新特點是採用低采樣率擴展降低數據流量,另一特點是多通道擴展,將主聲道增加為5個。MPEG-2 AAC(MPEG-2 Advanced Audio Coding)標準是Fraunhofer IIS同AT&T公司於1997年推出的,旨在顯著減少數據流量,MPEG-2 AAC採用的MDCT(Modified Discrete Cosine Transform)演算法,采樣率可在8KHz到96KHz之間,聲道數可在1-48之間。
MPEG Audio Layer 1、2、3三個層使用相同的濾波器組、位流結構和頭信息,采樣頻率為32KHz、44.1KHz或48KHz。Layer 1是為數字壓縮磁帶DCC(Digital Compact Cassette)設計的,數據流量為384kbps,Layer 2在復雜性和性能間作了權衡,數據流量下降到256kbps-192kbps。Layer 3一開始就為低數據流量而設計,數據流量在128kbps-112kbps,Layer 3增加了MDCT變換,使其頻率分辨能力是Layer 2的18倍,Layer 3還使用了與MPEG Video類似的平均信息量編碼(Entropy Coding),減少了冗餘信息。MP3絕大部分使用的是MPEG-1標准。
2.2 音頻壓縮的目的
MP3格式始於80年代中期,德國 Erlangen的Fraunhofer研究所致力於高質量、低數據率的聲音編碼。讓我們來看一個例子:你想對你喜歡的一首長約4分鍾的歌曲采樣,將其存儲在磁碟上,以CD音質的WAV格式抽樣,抽樣率為44.1kHz,即每秒鍾接收44100個值,立體聲,每次抽樣數據為16位(2位元組),則這首歌占的空間為:
44100x2聲道x2位元組x60秒x4分鍾=40.4MB
如果從Internet上下載這首歌,假設傳輸率為56kbps,則下載時間為:
40.4x106x8/56x103x60=96分鍾
即使是1M的寬頻網也需5分鍾以上,由此可見,音頻壓縮對減少音頻數據的存儲空間顯得尤為重要。
2.3 MP3編碼與解碼
MP3音頻壓縮包含編碼和解碼兩個部分。編碼是將WAV文件中的數據轉換成高壓縮率的位流形式,解碼是接受位流並將其重建到WAV文件中。
MP3 採用了感知音頻編碼(Perceptual Audio Coding)這一失真演算法。人耳感受聲音的頻率范圍是20Hz-20kHz,MP3截掉了大量的冗餘信號和無關的信號,編碼器通過混合濾波器組將原始聲音變換到頻率域,利用心理聲學模型,估算剛好能被察覺到的雜訊水平,再經過量化,轉換成Huffman編碼,形成MP3位流。解碼器要簡單得多,它的任務是從編碼後的譜線成分中,經過反量化和逆變換,提取出聲音信號。MP3編碼和解碼流程如圖1所示。
2.4 修正的離散餘弦變換
修正的離散餘弦變換(MDCT)是指將一組時域數據轉換成頻域數據,以得知時域變化情況。MDCT是對DCT演算法的改進,。早期的快速演算法是快速付立葉變換(FFT),但FFT有復數運算,MDCT都是實數運算,便於編程。
在壓縮音頻數據時,先將原始聲音數據分成固定的分塊,然後做順向MDCT(Forward MDCT)將每塊的值轉換為512個MDCT系數,解壓時,經反向MDCT(Inverse MDCT)將512個系數還原成原始聲音數據,前後的原始聲音數據是不一致的,因為在壓縮過程中,去掉了冗餘和不相關數據。FMDCT變換公式為:
k=0,1,…,N/2-1
式中N是轉換視窗長度,即每塊樣本點數,N=8,16,…,1024,2048。
n0=(N/2+1)/2,X(n)為時域值,X(k)為頻域值。若N取1024點,則轉換成512個頻域值。
IMDCT變換公式為:
n=0,1,…,N-1
MDCT本身並不進行數據壓縮,它只是把信號映射到另一個域,量化才使數據得到壓縮。在對量化後的變換樣值進行比特分配時要考慮使整個量化塊最小,這就成為有損壓縮了。
3 MP3文件格式分析
MP3文件數據由多個幀組成,幀是MP3文件最小組成單位。每個幀又由幀頭、附加信息和聲音數據組成。每個幀播放時間是0.026秒,其長度隨位率的不同而不等。有些MP3文件末尾有些額外位元組存放非聲音數據的說明信息。MP3文件結構如圖2所。
3.1 幀頭格式
幀頭長4位元組,對於固定位率的MP3文件,所有幀的幀頭格式一樣其數據結構如下:
typedef FrameHeader{
unsigned int sync:11;//同步信息
unsigned int version:2;//版本
unsigned int layer:2;//層
unsigned int protection:1;// CRC校驗
unsigned int bitrate:4;//位率
unsigned int frequency:2;//頻率
unsigned int padding:1;//幀長調節
unsigned int private:1;//保留字
unsigned int mode:2;//聲道模式
unsigned int mode extension:2;//擴充模式
unsigned int right:1;// 版權
unsigned int original:1;//原版標志
unsigned int emphasis:2;//強調模式
}HEADER, *LPHEADER;
幀頭4位元組使用說明見表1。
表1 MP3幀頭位元組使用說明
名稱 長度(位) 說 明
同步
信息 11 第1、2位元組 所有位均為1,第1位元組恆為FF。
版本 2 00-MPEG 2.5 01-未定義
10-MPEG 2 11-MPEG 1
層 2 00-未定義 01-Layer 3
10-Layer 2 11-Layer 1
CRC
校驗 1 0-校驗 1-不校驗
位率 4 第3位元組 取樣率,單位是kbps,例如採用MPEG-1 Layer 3,64kbps是,值為0101。
頻率 2 采樣頻率,對於MPEG-1:
00-44.1kHz 01-48kHz
10-32kHz 11-未定義
幀長
調節 1 用來調整文件頭長度,0-無需調整,1-調整,具體調整計算方法見下文。
保留字 1 沒有使用。
聲道
模式 2 第4位元組 表示聲道,
00-立體聲 01-Joint Stereo
10-雙聲道 11-單聲道
擴充
模式 2 當聲道模式為01是才使用。
版權 1 文件是否合法,0-不合法 1-合法
原版
標志 1 是否原版, 0-非原版 1-原版
強調
方式 2 用於聲音經降噪壓縮後再補償的分類,很少用到,今後也可能不會用。
00-未定義 01-50/15ms
10-保留 11-CCITT J.17
MP3幀長取決於位率和頻率,計算公式為:
幀長= 144×bitrate∕frequency+padding
例如:位率為64kbps,頻率為44.1kHz,padding為1時,幀長為210位元組。幀頭後面是可變長度的附加信息,對於標準的MP3文件來說,其長度是32位元組,緊接其後的是壓縮的聲音數據,當解碼器讀到此處時就進行解碼了。
對於固定位率(CBR,Constant Bitrate)的MP3文件,並不是所有的幀都是等長的,有的幀可能多一個或幾個位元組。還有一種可變位率(VBR, Variable Bitrate)的MP3文件,是為了使MP3文件長度最小同時又保證聲音質量,與CBR文件相比,除了第一幀不同外,其餘的都一樣。VBR的第一幀不包含聲音數據,其長度是156個位元組,用來存放標準的聲音幀頭(4位元組)、VBR文件標識、幀數、文件位元組數等信息,具體結構說明見表2。
表2 VBR文件第一幀結構
字 節 說 明
1-4 與CBR相同的標准聲音幀頭
5-40 存放VBR文件標識「Xing」(58 69 6E 67),此標識具體位置視採用的MPEG標准和聲道模式而定。標識的前後位元組沒有使用。
36-39 MPEG-1和非單聲道(常見)
21-24 MPEG-1和單聲道
21-24 MPEG-2和非單聲道
13-16 MPEG-2和單聲道
41-44 標志,說明是否存儲了幀數、文件長度、目錄表和VBR規模信息,如果存儲了,則01 02 04 08。
45-48 幀數(包括第一幀)
49-52 文件長度
53-152 目錄表,用來按時間進行位元組定位。
153-156 VBR規模,用於位率變動
3.2 ID3標准
MP3 幀頭中除了存儲一些象private、right、original的簡單音樂說明信息以外,沒有考慮存放歌名、作者、專輯名、年份等復雜信息,而這些信息在MP3應用中非常必要。1996年,FricKemp在「Studio 3」項目中提出了在MP3文件尾增加一塊用於存放歌曲的說明信息,形成了ID3標准,至今已制定出ID3 V1.0,V1.1,V2.0,V2.3和V2.4標准。版本越高,記錄的相關信息就越豐富詳盡。
ID3 V1.0標准並不周全,存放的信息少,無法存放歌詞,無法錄入專輯封面、圖片等。V2.0是一個相當完備的標准,但給編寫軟體帶來困難,雖然贊成此格式的人很多,在軟體中真正實現的卻極少。絕大多數MP3仍使用ID3 V1.0標准。此標準是將MP3文件尾的最後128個位元組用來存放ID3信息,這128個位元組使用說明見表3。
表3 ID3 V1.0文件尾說明
位元組 長度
(位元組) 說 明
1-3 3 存放「TAG」字元,表示ID3 V1.0標准,緊接其後的是歌曲信息。
4-33 30 歌名
34-63 30 作者
64-93 30 專輯名
94-97 4 年份
98-127 30 附註
128 1 MP3音樂類別,共147種。
3.3 文件實例
在VC++中打開一個名為test.mp3文件,其內容如下:
000000 FF FB 52 8C 00 00 01 49 09 C5 05 24 60 00 2A C1
000010 19 40 A6 00 00 05 96 41 34 18 20 80 08 26 48 29
000020 83 04 00 01 61 41 40 50 10 04 00 C1 21 41 50 64
……
0000D0 FE FF FB 52 8C 11 80 01 EE 90 65 6E 08 20 02 30
0000E0 32 0C CD C0 04 00 46 16 41 89 B8 01 00 08 36 48
0000F0 33 B7 00 00 01 02 FF FF FF F4 E1 2F FF FF FF FF
……
0001A0 DF FF FF FB 52 8C 12 00 01 FE 90 58 6E 09 A0 02
0001B0 33 B0 CA 85 E1 50 01 45 F6 19 61 BC 26 80 28 7C
0001C0 05 AC B4 20 28 94 FF FF FF FF FF FF FF FF FF FF
……
001390 7F FF FF FF FD 4E 00 54 41 47 54 45 53 54 00 00
0013A0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
……
0013F0 00 00 00 00 04 19 14 03 00 00 00 00 00 00 00 00
001400 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
001410 00 00 00 00 00 00 4E
該文件長度1416H(5.142K),幀頭為:FF FB 52 8C,轉換成二進制為:
11111111 11111011
01010010 10001100
對照表1可知,test.mp3幀頭信息見表4。
表4 test.mp3文件幀頭信息
名稱 位值 說 明
同步信息 11111111111 第1位元組恆為FF,11位均為1。
版本 11 MPEG 1
層 01 Layer 3
CRC校驗 1 不校驗
位率 0101 64kbps
頻率 00 44.1kHz
幀長調節 1 調整,幀長是210位元組。
保留字 0 沒有使用。
聲道模式 10 雙聲道
擴充模式 00 未使用。
版權 1 合法
原版標志 1 原版
強調方式 00 未定義
第1397H開始的三個位元組是54 41 47,存放的是字元「TAG」,表示此文件有ID3 V1.0信息。
139AH開始的30個位元組存放歌名,前4個非00位元組是54 45 53 54,表示「TEST」;
13F4H開始的4個位元組是04 19 14 03,存放年份「04/25/2003」;
最後1個位元組是4E,表示音樂類別,代號為78,即「Rock&Roll」;
其它位元組均為00,未存儲信息。
4 結束語
聲音作為一類重要的多媒體數據,人們總是在不斷尋求更高效率的壓縮方法和新的聲音文件格式。MP3文件中使用了MDCT變換,它是一種結構簡單、易於編程的准最佳變換,,避免了最佳變換(K-L)難以求解協方差矩陣特徵值及特徵向量的困擾。通過對MP3文件格式的分析,不難發現它的欠缺。MP3文件每個幀都有4位元組的相同幀頭,對於一個含有大量幀的MP3文件來說,需要一定的空間開銷。ID3存放音樂說明信息,幀頭中的private、right等信息也是說明信息,音樂的說明信息有些零亂的感覺。
無論如何,MP3的發展勢不可擋,MP3已成為公認的聲音數據格式,MP3正與JPEG圖像、PDF文檔成為多媒體信息處理領域的熱點。