⑴ 多媒体数据最终是以什么形式存在的
二进制代码
多媒体数据的五大特点
1.数据类型复杂
多媒体数据实际上是由多种不问类型的数据组成的,通常包括文本、图形、图像、声音、视频图像、动画等不同数据类型,而且同一类型数据可以有不同的表示方法。例如,可以用编码形式表示,也可用二进制非编码形式表示:可以用内部数据结构(如图形数据常用图段、层次、边界、几何结构等多种小同数据结构)表示,也可采用无结构的位图形式来表示。特别是,这些内部数据结构都随具体应用而变化。多媒体数据返一复杂性不仅使多媒体数据的建立、存储、检索以及数据处理技术各不相同,而且使多媒体计算机系统的功能较普通微机、工作站的功能要复杂得多。
2.数据信息量大
现以声音和视频图像数据为例加以说明。对声音数据进行采样并量化时,通常采用44.1kHz的采样频率,而为了达到较大的动态范围和信噪比,每一样本需用16位二进制数表示,这样,对一路双声道立体声而言,信息量为每秒176KB或每分钟10.6MB。图形(图像)和视频图像的信息量与屏幕分辨率“方向像素数xy方向像素数)、表示每一像素的数据的位数、帧刷新频率以及是否压缩等因素有关。多媒体数据的大信息量的特点导致一系列技术难点需要解决,主要包括:高速处理器技术、大容晕存储技术(包括内存帧存和外存)、具有高压缩比的实时图像数据压缩和解压缩技术以及高速通信网络技术等。
3.数据的实时性要求高
多媒体数据中的声音和视频图像数据都是与时间有关的信息,很多场合要求实时处理,如声音和视频力偶信息的实时压缩与解压缩、传输与同步等。另外,在编辑、检索、显示等交互操作方面都要求有实时操作系统支持。因此,多媒体计算机系统要求有很高的运算速度,除通用的高速处理芯片外,很多算法均需要专用硬件如声卡、视频卡等的支持。因而,高速专用集成电路是多媒体计算机的重要组成部分,它们的应用不仅增强了多媒体数据的处理的实时性。还使用系统软件的实时性设计得到简化。
4.数据的分布性广
由于多媒体数据的多样性,多媒体应用的开发工作要求各种专业人员介入,包括计算机开发、文字写作、影视制作、广告宣传及动画设计等方面的人员协同工作,因而原始素材往往分布在不同的空间和时间里,这使得分布式多媒体数据库的建立和管理以及多媒体通信的应用成为多媒体计算机系统的关键技术。
5.数据的交互性要求强
多媒体技术的特点之一就是很强的人机互动性,这也是它有别于传统声像技术之处。在多媒体技术的实际应用中,主要方法是“选择和视听”。如,用鼠标单击屏幕上的文字、图片或视频图像上的某一区域,调用文字、图像、声音、实物图片或解释性的视频图像片断,或调用其它背景材料供用户观看和决策,按用户所希望的顺序重新组织有关材料等,这些应用方法的基础是人机交互技术,这种交互操作是一种实时操作,要求整个系统的软件、硬件系统都能实时响应。
⑵ 谁能告诉我一些关于AVI视频的具体信息(比如分辨率、帧率等)它们分别属于哪种编码格式。
AVI简介
AVI英文全称为Audio Video Interleaved,即音频视频交错格式。是将语音和影像同步组合在一起的文件格式。它对视频文件采用了一种有损压缩方式,但压缩比较高,因此尽管面面质量不是太好,但其应用范围仍然非常广泛。AVI支持256色和RLE压缩。AVI信息主要应用在多媒体光盘上,用来保存电视、电影等各种影像信息。
它于1992年被Microsoft公司推出,随Windows3.1一起被人们所认识和熟知。所谓“音频视频交错”,就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好,可以跨多个平台使用,其缺点是体积过于庞大,而且更加糟糕的是压缩标准不统一,最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频,而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频,所以我们在进行一些AVI格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放,但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题,如果用户在进行AVI格式的视频播放时遇到了这些问题,可以通过下载相应的解码器来解决。是目前视频文件的主流。 这种格式的文件随处可见,比如一些游戏、教育软件的片头,多媒体光盘中,都会有不少的AVI 。
现在,在WINDOWS 95或98里都能直接播放AVI,而且它自己的格式也有好几种,最常见的有 Intel Indeo(R)Video R3.2、Microsoft video 等。
avi含三部分:文件头、数据块和索引块。
其中数据块包含实际数据流,即图像和声音序列数据。这是文件的主体,也是决定文件容量的主要部分。视频文件的大小等于该文件的数据率乘以该视频播放的时间长度,索引块包括数据块列表和它们在文件中的位置,以提供文件内数据随机存取能力。文件头包括文件的通用信息,定义数据格式,所用的压缩算法等参数。
nAVI格式
nAVI是newAVI的缩写,是一个名为ShadowRealm的地下组织发展起来的一种新视频格式(与我们上面所说的AVI 格式没有太大联系)。它是由Microsoft ASF压缩算法的修改而来的,但是又与下面介绍的网络影像视频中的ASF视频格式有所区别,它以牺牲原有ASF视频文件视频“流”特性为代价而通过增加帧率来大幅提高ASF视频文件的清晰度。
DV-AVI格式
DV的英文全称是Digital Video Format,是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。目前非常流行的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的IEEE 1394端口传输视频数据到电脑,也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是.avi,所以也叫DV-AVI 格式。
目前(07年10月)AVI图象反转的原因很可能是暴风影音和windows media player冲突,下载一个完整的DIVX解码器可以解决。
1992年初Microsoft公司推出了AVI技术及其应用软件VFW(Video for Windows)。在AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等:
AVI没有MPEG这么复杂,从WIN3.1时代,它就已经面世了。它最直接的优点就是兼容好、调用方便而且图象质量好,因此也常常与DVD相并称。但它的缺点也是十分明显的:体积大。也是因为这一点,我们才看到了MPEG-1和MPEG-4的诞生。2小时影像的AVI文件的体积与MPEG-2相差无计,不过这只是针对标准分辨率而言的:根据不同的应用要求,AVI的分辨率可以随意调。窗口越大,文件的数据量也就越大。降低分辨率可以大幅减低它的体积,但图象质量就必然受损。与MPEG-2格式文件体积差不多的情况下,AVI格式的视频质量相对而言要差不少,但制作起来对电脑的配置要求不高,经常有人先录制好了AVI格式的视频,再转换为其他格式。
[编辑本段]参数
视像参数
1、视窗尺寸(Video size):根据不同的应用要求,AVI的视窗大小或分辨率可按4:3的比例或随意调整:大到全屏640×480,小到160×120甚至更低。窗口越大,视频文件的数据量越大。
2、帧率(Frames per second):帧率也可以调整,而且与数据量成正比。不同的帧率会产生不同的画面连续效果。
伴音参数
在AVI文件中,视像和伴音是分别存储的,因此可以把一段视频中的视像与另一段视频中的伴音组合在一起。AVI 文件与WAV文件密切相关,因为WAV文件是AVI文件中伴音信号的来源。伴音的基本参数也即WAV文件格式的参数,除此以外,AVI文件还包括与音频有关的其他参数:
1、视像与伴音的交织参数(Interlace Audio Every X Frames)AVI格式中每X帧交织存储的音频信号,也即伴音和视像交替的频率X是可调参数,X的最小值是一帧,即每个视频帧与音频数据交织组织,这是CD-ROM上使用的默认值。交织参数越小,回放AVI文件时读到内存中的数据流越少,回放越容易连续。因此,如果AVI文件的存储平台的数据传输率较大,则交错参数可设置得高一些。当AVI文件存储在硬盘上时,也即从硬盘上读AVI文件进行播放时,可以使用大一些的交织频率,如几帧,甚至1秒。
2、同步控制(Synchronization)
在AVI文件中,视像和伴音是同步得很好的。但在MPC中回放AVI文件时则有可能出现视像和伴音不同步的现象。
压缩参数
在采集原始模拟视频时可以用不压缩的方式,这样可以获得最优秀的图像质量。编辑后应根据应用环境环择合适的压缩参数。
[编辑本段]数字视频
AVI及其播放器VFW已成为了PC机上最常用的视频数据格式,是由于其具有如下的一些显着特点:
一、提供无硬件视频回放功能
AVI格式和VFW软件虽然是为当前的MPC设计的,但它也可以不断提高以适应MPC的发展。根据AVI格式的参数,其视窗的大小和帧率可以根据播放环境的硬件能力和处理速度进行调整。在低档MPC机上或在网络上播放时,VFW的视窗可以很小,色彩数和帧率可以很低;而在Pentium级系统上,对于64K色、320×240的压缩视频数据可实现每秒25帧的回放速率。这样,VFW就可以适用于不同的硬件平台,使用户可以在普通的MPC上进行数字视频信息的编辑和重放,而不需要昂贵的专门硬件设备。
二、实现同步控制和实时播放
通过同步控制参数,AVI可以通过自调整来适应重放环境,如果MPC的处理能力不够高,而AVI文件的数据率又较大,在WINDOWS环境下播放该AVI文件时,播放器可以通过丢掉某些帧,调整AVI的实际播放数据率来达到视频、音频同步的效果。
三、可以高效地播放存储在硬盘和光盘上的AVI文件
由于AVI数据的交叉存储,VFW播放AVI数据时只需占用有限的内存空间,因为播放程序可以一边读取硬盘或光盘上的视频数据一边播放,而无需预先把容量很大的视频数据加载到内存中。在播放AVI视频数据时,只需在指定的时间内访问少量的视频图像和部分音频数据。这种方式不仅可以提高系统的工作效率,同时也可以实现迅速地加载和快速地启动播放程序,减少播放AVI视频数据时用户的等待时间。
四、提供了开放的AVI数字视频文件结构
AVI文件结构不仅解决了音频和视频的同步问题,而且具有通用和开放的特点。它可以在任何Windows环境下工作,而且还具有扩展环境的功能。用户可以开发自己的AVI视频文件,在Windows环境下可随时调用。
五、AVI文件可以再编辑
AVI一般采用帧内有损压缩,可以用一般的视频编辑软件如Adobe Premiere或MediaStudio进行再编辑和处理。
⑶ 在计算机中,多媒体数据最终是以( )存储的
在计算机中,多媒体数据最终是以二进制代码存储的。
二进制代码语言或称为机器语言,计算机可以直接识别,不需要进行任何翻译的语言。每台机器的指令,其格式和代码所代表的含义都是硬性规定的,故称之为面向机器的语言,也称为机器语言。它是第一代的计算机语言,机器语言对不同型号的计算机来说一般是不同的。
直接用二进制代码指令表达的计算机语言,指令是用0和1组成的一串代码,它们有一定的位数,并分成若干段,各段的编码表示不同的含义,例如某台计算机字长为16位,即有 16个二进制数组成一条指令或其它信息。16个0和1可组成各种排列组合,通过线路变成电信号,让计算机执行各种不同的操作。
(3)多媒体数据最终帧数在哪里扩展阅读:
多媒体信息(数据)的类型及特点
(1)文本
文本是以文字和各种专用符号表达的信息形式,它是现实生活中使用得最多的一种信息存储和传递方式。用文本表达信息给人充分的想象空间,它主要用于对知识的描述性表示,如阐述概念、定义、原理和问题以及显示标题、菜单等内容。
(2)图像
图像是多媒体软件中最重要的信息表现形式之一,它是决定一个多媒体软件视觉效果的关键因素。
(3)动画
动画是利用人的视觉暂留特性,快速播放一系列连续运动变化的图形图像,也包括画面的缩放、旋转、变换、淡入淡出等特殊效果。通过动画可以把抽象的内容形象化,使许多难以理解的教学内容变迁生动有趣。合理使用动画可以达到事半功倍的效果。
(4)声音
声音是人们用来传递信息、交流感情最方便、最熟悉的方式之一。在多媒体课件中,按其表达形式,可将声音分为讲解、音乐、效果三类。
(5)视频影像
视频影像具有时序性与丰富的信息内涵,常用于交待事物的发展过程。视频非常类似于我们熟知的电影和电视,有声有色,在多媒体中充当起重要的角色。
⑷ 怎样用carplay 爱奇艺
carplay是某果公司基于iPhone和汽车用品推出的车载手机互联系统,让手机内容投射到汽车多媒体显示屏上,主要应用于地图导航、来(去)电接听、多媒体播放、游戏娱乐等。现在主流汽车基本都支持carplay,但是大多数车企在考虑到驾驶员和乘客安全的情况下,只开放了诸如地图导航、来电接听、音乐播放等功能,涉及驾驶隐患的视频播放、游戏娱乐等功能都被进行了隐藏。那么,如果是在停车等待的过程中,想看看MV、偶尔来把游戏,该怎么办,怎么才能打发等待的漫长时间,这里简单来说说。
开启分步阅读模式
工具材料:
iPhone手机一部
支持carplay的汽车一台
操作方法
01
1.iPhone手机一部,要求系统版本必须低于ios10.3.3。(因为需要越狱,ios10.3.3以上版本越狱基本已经没有希望了,就目前来看)
02
2.对手机进行越狱,这里就不做过多阐述了,需要注意的是不完美越狱和完美越狱都可以。
03
3.越狱后需要添加saurik源
04
4.需要安装NGXPlay插件,刚才添加的源力就有,直接搜索安装就可以。
05
5.插件安装完成后,需要进入该插件进行简单的设置,将【启用】按钮打开,进入【应用程式】。
06
6.打开【启用按钮】,【模式】有两种,mirror和native,mirror意为只显示不能在汽车中控屏上操作,native意为既可显示又可操作。打开【自动横向】和【镜像完整画面】,【镜像帧数】默认即可。设置完成后即可在汽车中控屏上看到被车企限制隐藏了的其他应用,可视或可操作。
⑸ 视频帧数保持在多少以上才可以保持视频画面流畅
通常在二十四帧以上
原因一:人类肉眼的“视觉暂留”和“脑补”现象,前者是指人类视网膜在光信号消失后,“残像”还会保留一定时间的现象;后者是大脑自行补足画面中间帧的“脑补”功能。它们的混合作用,让我们误以为每秒24帧回放的照片是连续的。
原因二:电影规格本身也经历了16到24帧的转变,这个数字以后估计也会继续增长。而PAL/NTSC/SECAM三种电视信号规格,把帧数定在每秒25帧和30帧的原因,其实只是因为不同地区的供电频率不同(50Hz和60Hz)。
但当物体移去时,视神经对物体的印象不会立即消失,而要延续1/24秒左右的时间,人眼的这种性质被称为“眼睛的视觉暂留”。
每一帧都是静止的图象,快速连续地显示帧便形成了运动的假象,因此高的帧率可以得到更流畅、更逼真的动画。
(5)多媒体数据最终帧数在哪里扩展阅读:
游戏的一秒帧数要高于电影、动画等。
原因是动态模糊,动态模糊是指相机快门慢于物体运动而导致的运动轨迹拖影。3D游戏和电影的重要差别:电影是现实光影的记录,而3D游戏是3D模型形状/位置的实时渲染,前者会有动态模糊,而后者不会。
⑹ 高清视频的帧率
你把你播放的视频拖入到MediaInfo(查看多媒体编码信息)工具中,你就能看到能够支持播放的视频编码和帧率等种种信息。
帧数简单地说,帧数就是在1秒钟时间里传输的图片的帧数,也可以理解为图形处理器每秒钟能够刷新几次,通常用fps(Frames Per Second)表示。每一帧都是静止的图象,快速连续地显示帧便形成了运动的假象。高的帧率可以得到更流畅、更逼真的动画。每秒钟帧数 (fps) 愈多,所显示的动作就会愈流畅。一般来说30fps是可以接受的,所以要避免动作不流畅的最低fps是30。除了30fps外,有些计算机视频格式,例如 AVI,每秒只能提供15帧。我们之所以能够利用摄像头来看到连续不断的影像,是因为影像传感器不断摄取画面并传输到屏幕上来,当传输速度达到一定的水平时,人眼就无法辨别画面之间的时间间隙,所以大家可以看到连续动态的画面。
每秒的帧数(fps)或者说帧率表示图形处理器场景时每秒钟能够更新几次。高的帧率可以得到更流畅、更逼真的动画。一般来说30fps就是可以接受的,但是将性能提升至60fps则可以明显提升交互感和逼真感,但是一般来说超过75fps一般就不容易察觉到有明显的流畅度提升了。如果帧率超过屏幕刷新率只会浪费图形处理的能力,因为显示器不能以这么快的速度更新,这样超过刷新率的帧率就浪费掉了。
电脑中所显示的画面,都是由显卡来进行输出的,因此屏幕上每个像素的填充都得由显卡来进行计算、输出。当画面的分辨率是1024×768时,画面的刷新率要达到24帧/秒,那么显卡在一秒钟内需要处理的像素量就达到了“1024×768×24=18874368”。如果要求画面的刷新率达到50 帧/秒,则数据量一下子提升到了“1024×768×50=39321600”。
FPS与分辨率、显卡处理能力的关系如下:处理能力=分辨率×刷新率
⑺ 在计算机中,多媒体数据最终是以什么存储的
01010010......二进制
⑻ 在计算机内, 多媒体数据最终是以( )形式存在的。
在计算机内,
多媒体数据最终是以(二进位的数字)形式存在的。
⑼ 多媒体在数据库中如何存储
多媒体数据库
多媒体数据库是数据库技术与多媒体技术结合的产物。多媒体数据库不是对现有的数据进行界面上的包装,而是从多媒体数据与信息本身的特性出发,考虑将其引入到数据库中之后而带来的有关问题。多媒体数据库从本质上来说,要解决三个难题。第一是信息媒体的多样化,不仅仅是数值数据和字符数据,要扩大到多媒体数据的存储、组织、使用和管理。第二要解决多媒体数据集成或表现集成,实现多媒体数据之间的交叉调用和融合,集成粒度越细,多媒体一体化表现才越强,应用的价值也才越大。第三是多媒体数据与人之间的交互性。没有交互性就没有多媒体,要改变传统数据库查询的被动性,能以多媒体方式主动表现。
简单的说
就是计算机存放电影,音乐以及其他非文本数据的地方
⑽ 一道计算声音的数据量的问题
这个问题太专业了,算比较麻烦你自己看看吧
文件压缩技术的日新月异使得MP3成为时下最烫手的音乐格式,优质的音乐随着0与1 的排列迅速散布到世界各地,撼动人心。何谓MP3?MP3的全称是MPEG Audio Layer 3,它是一种高效的计算机音频编码方案,它以较大的压缩比将音频文件转换成较小的扩展名为.MP3的文件,基本保持原文件的音质。MP3是 ISO/MPEG标准的一部分,ISO/MPEG标准描述了使用高性能感知编码方案的音频压缩,此标准一直在不断更新以满足“质高量小”的追求,现已形成 MPEG Layer 1、Layer 2、Layer 3三个音频编码解码方案。MPEG Layer 3压缩率可达1:10至1:12,1M的MP3文件可播放1分钟,而1分钟CD音质的WAV文件(44100Hz,16bit,双声道,60秒)要占用 10M空间,这样算来,一张650M的MP3光盘播放时间应在10小时以上,而同样容量的一张CD盘播放时间在70分钟左右。MP3的优势是CD难以比拟的。
2 MP3原理浅析
2.1 MPEG Audio标准
MPEG(Moving Picture Experts Group)是ISO下的一个动态图象专家组,它制定的MPEG标准广泛应用于各种多媒体中。MPEG标准包括视频和音频标准,其中音频标准已制定出 MPEG-1、MPEG-2、MPEG-2 AAC和MPEG-4。
MPEG-1和MPEG-2标准使用同一个音频编码解码族—Layer1、 2、3。MPEG-2一个新特点是采用低采样率扩展降低数据流量,另一特点是多通道扩展,将主声道增加为5个。MPEG-2 AAC(MPEG-2 Advanced Audio Coding)标准是Fraunhofer IIS同AT&T公司于1997年推出的,旨在显着减少数据流量,MPEG-2 AAC采用的MDCT(Modified Discrete Cosine Transform)算法,采样率可在8KHz到96KHz之间,声道数可在1-48之间。
MPEG Audio Layer 1、2、3三个层使用相同的滤波器组、位流结构和头信息,采样频率为32KHz、44.1KHz或48KHz。Layer 1是为数字压缩磁带DCC(Digital Compact Cassette)设计的,数据流量为384kbps,Layer 2在复杂性和性能间作了权衡,数据流量下降到256kbps-192kbps。Layer 3一开始就为低数据流量而设计,数据流量在128kbps-112kbps,Layer 3增加了MDCT变换,使其频率分辨能力是Layer 2的18倍,Layer 3还使用了与MPEG Video类似的平均信息量编码(Entropy Coding),减少了冗余信息。MP3绝大部分使用的是MPEG-1标准。
2.2 音频压缩的目的
MP3格式始于80年代中期,德国 Erlangen的Fraunhofer研究所致力于高质量、低数据率的声音编码。让我们来看一个例子:你想对你喜欢的一首长约4分钟的歌曲采样,将其存储在磁盘上,以CD音质的WAV格式抽样,抽样率为44.1kHz,即每秒钟接收44100个值,立体声,每次抽样数据为16位(2字节),则这首歌占的空间为:
44100x2声道x2字节x60秒x4分钟=40.4MB
如果从Internet上下载这首歌,假设传输率为56kbps,则下载时间为:
40.4x106x8/56x103x60=96分钟
即使是1M的宽带网也需5分钟以上,由此可见,音频压缩对减少音频数据的存储空间显得尤为重要。
2.3 MP3编码与解码
MP3音频压缩包含编码和解码两个部分。编码是将WAV文件中的数据转换成高压缩率的位流形式,解码是接受位流并将其重建到WAV文件中。
MP3 采用了感知音频编码(Perceptual Audio Coding)这一失真算法。人耳感受声音的频率范围是20Hz-20kHz,MP3截掉了大量的冗余信号和无关的信号,编码器通过混合滤波器组将原始声音变换到频率域,利用心理声学模型,估算刚好能被察觉到的噪声水平,再经过量化,转换成Huffman编码,形成MP3位流。解码器要简单得多,它的任务是从编码后的谱线成分中,经过反量化和逆变换,提取出声音信号。MP3编码和解码流程如图1所示。
2.4 修正的离散余弦变换
修正的离散余弦变换(MDCT)是指将一组时域数据转换成频域数据,以得知时域变化情况。MDCT是对DCT算法的改进,。早期的快速算法是快速付立叶变换(FFT),但FFT有复数运算,MDCT都是实数运算,便于编程。
在压缩音频数据时,先将原始声音数据分成固定的分块,然后做顺向MDCT(Forward MDCT)将每块的值转换为512个MDCT系数,解压时,经反向MDCT(Inverse MDCT)将512个系数还原成原始声音数据,前后的原始声音数据是不一致的,因为在压缩过程中,去掉了冗余和不相关数据。FMDCT变换公式为:
k=0,1,…,N/2-1
式中N是转换视窗长度,即每块样本点数,N=8,16,…,1024,2048。
n0=(N/2+1)/2,X(n)为时域值,X(k)为频域值。若N取1024点,则转换成512个频域值。
IMDCT变换公式为:
n=0,1,…,N-1
MDCT本身并不进行数据压缩,它只是把信号映射到另一个域,量化才使数据得到压缩。在对量化后的变换样值进行比特分配时要考虑使整个量化块最小,这就成为有损压缩了。
3 MP3文件格式分析
MP3文件数据由多个帧组成,帧是MP3文件最小组成单位。每个帧又由帧头、附加信息和声音数据组成。每个帧播放时间是0.026秒,其长度随位率的不同而不等。有些MP3文件末尾有些额外字节存放非声音数据的说明信息。MP3文件结构如图2所。
3.1 帧头格式
帧头长4字节,对于固定位率的MP3文件,所有帧的帧头格式一样其数据结构如下:
typedef FrameHeader{
unsigned int sync:11;//同步信息
unsigned int version:2;//版本
unsigned int layer:2;//层
unsigned int protection:1;// CRC校验
unsigned int bitrate:4;//位率
unsigned int frequency:2;//频率
unsigned int padding:1;//帧长调节
unsigned int private:1;//保留字
unsigned int mode:2;//声道模式
unsigned int mode extension:2;//扩充模式
unsigned int right:1;// 版权
unsigned int original:1;//原版标志
unsigned int emphasis:2;//强调模式
}HEADER, *LPHEADER;
帧头4字节使用说明见表1。
表1 MP3帧头字节使用说明
名称 长度(位) 说 明
同步
信息 11 第1、2字节 所有位均为1,第1字节恒为FF。
版本 2 00-MPEG 2.5 01-未定义
10-MPEG 2 11-MPEG 1
层 2 00-未定义 01-Layer 3
10-Layer 2 11-Layer 1
CRC
校验 1 0-校验 1-不校验
位率 4 第3字节 取样率,单位是kbps,例如采用MPEG-1 Layer 3,64kbps是,值为0101。
频率 2 采样频率,对于MPEG-1:
00-44.1kHz 01-48kHz
10-32kHz 11-未定义
帧长
调节 1 用来调整文件头长度,0-无需调整,1-调整,具体调整计算方法见下文。
保留字 1 没有使用。
声道
模式 2 第4字节 表示声道,
00-立体声 01-Joint Stereo
10-双声道 11-单声道
扩充
模式 2 当声道模式为01是才使用。
版权 1 文件是否合法,0-不合法 1-合法
原版
标志 1 是否原版, 0-非原版 1-原版
强调
方式 2 用于声音经降噪压缩后再补偿的分类,很少用到,今后也可能不会用。
00-未定义 01-50/15ms
10-保留 11-CCITT J.17
MP3帧长取决于位率和频率,计算公式为:
帧长= 144×bitrate∕frequency+padding
例如:位率为64kbps,频率为44.1kHz,padding为1时,帧长为210字节。帧头后面是可变长度的附加信息,对于标准的MP3文件来说,其长度是32字节,紧接其后的是压缩的声音数据,当解码器读到此处时就进行解码了。
对于固定位率(CBR,Constant Bitrate)的MP3文件,并不是所有的帧都是等长的,有的帧可能多一个或几个字节。还有一种可变位率(VBR, Variable Bitrate)的MP3文件,是为了使MP3文件长度最小同时又保证声音质量,与CBR文件相比,除了第一帧不同外,其余的都一样。VBR的第一帧不包含声音数据,其长度是156个字节,用来存放标准的声音帧头(4字节)、VBR文件标识、帧数、文件字节数等信息,具体结构说明见表2。
表2 VBR文件第一帧结构
字 节 说 明
1-4 与CBR相同的标准声音帧头
5-40 存放VBR文件标识“Xing”(58 69 6E 67),此标识具体位置视采用的MPEG标准和声道模式而定。标识的前后字节没有使用。
36-39 MPEG-1和非单声道(常见)
21-24 MPEG-1和单声道
21-24 MPEG-2和非单声道
13-16 MPEG-2和单声道
41-44 标志,说明是否存储了帧数、文件长度、目录表和VBR规模信息,如果存储了,则01 02 04 08。
45-48 帧数(包括第一帧)
49-52 文件长度
53-152 目录表,用来按时间进行字节定位。
153-156 VBR规模,用于位率变动
3.2 ID3标准
MP3 帧头中除了存储一些象private、right、original的简单音乐说明信息以外,没有考虑存放歌名、作者、专辑名、年份等复杂信息,而这些信息在MP3应用中非常必要。1996年,FricKemp在“Studio 3”项目中提出了在MP3文件尾增加一块用于存放歌曲的说明信息,形成了ID3标准,至今已制定出ID3 V1.0,V1.1,V2.0,V2.3和V2.4标准。版本越高,记录的相关信息就越丰富详尽。
ID3 V1.0标准并不周全,存放的信息少,无法存放歌词,无法录入专辑封面、图片等。V2.0是一个相当完备的标准,但给编写软件带来困难,虽然赞成此格式的人很多,在软件中真正实现的却极少。绝大多数MP3仍使用ID3 V1.0标准。此标准是将MP3文件尾的最后128个字节用来存放ID3信息,这128个字节使用说明见表3。
表3 ID3 V1.0文件尾说明
字节 长度
(字节) 说 明
1-3 3 存放“TAG”字符,表示ID3 V1.0标准,紧接其后的是歌曲信息。
4-33 30 歌名
34-63 30 作者
64-93 30 专辑名
94-97 4 年份
98-127 30 附注
128 1 MP3音乐类别,共147种。
3.3 文件实例
在VC++中打开一个名为test.mp3文件,其内容如下:
000000 FF FB 52 8C 00 00 01 49 09 C5 05 24 60 00 2A C1
000010 19 40 A6 00 00 05 96 41 34 18 20 80 08 26 48 29
000020 83 04 00 01 61 41 40 50 10 04 00 C1 21 41 50 64
……
0000D0 FE FF FB 52 8C 11 80 01 EE 90 65 6E 08 20 02 30
0000E0 32 0C CD C0 04 00 46 16 41 89 B8 01 00 08 36 48
0000F0 33 B7 00 00 01 02 FF FF FF F4 E1 2F FF FF FF FF
……
0001A0 DF FF FF FB 52 8C 12 00 01 FE 90 58 6E 09 A0 02
0001B0 33 B0 CA 85 E1 50 01 45 F6 19 61 BC 26 80 28 7C
0001C0 05 AC B4 20 28 94 FF FF FF FF FF FF FF FF FF FF
……
001390 7F FF FF FF FD 4E 00 54 41 47 54 45 53 54 00 00
0013A0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
……
0013F0 00 00 00 00 04 19 14 03 00 00 00 00 00 00 00 00
001400 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
001410 00 00 00 00 00 00 4E
该文件长度1416H(5.142K),帧头为:FF FB 52 8C,转换成二进制为:
11111111 11111011
01010010 10001100
对照表1可知,test.mp3帧头信息见表4。
表4 test.mp3文件帧头信息
名称 位值 说 明
同步信息 11111111111 第1字节恒为FF,11位均为1。
版本 11 MPEG 1
层 01 Layer 3
CRC校验 1 不校验
位率 0101 64kbps
频率 00 44.1kHz
帧长调节 1 调整,帧长是210字节。
保留字 0 没有使用。
声道模式 10 双声道
扩充模式 00 未使用。
版权 1 合法
原版标志 1 原版
强调方式 00 未定义
第1397H开始的三个字节是54 41 47,存放的是字符“TAG”,表示此文件有ID3 V1.0信息。
139AH开始的30个字节存放歌名,前4个非00字节是54 45 53 54,表示“TEST”;
13F4H开始的4个字节是04 19 14 03,存放年份“04/25/2003”;
最后1个字节是4E,表示音乐类别,代号为78,即“Rock&Roll”;
其它字节均为00,未存储信息。
4 结束语
声音作为一类重要的多媒体数据,人们总是在不断寻求更高效率的压缩方法和新的声音文件格式。MP3文件中使用了MDCT变换,它是一种结构简单、易于编程的准最佳变换,,避免了最佳变换(K-L)难以求解协方差矩阵特征值及特征向量的困扰。通过对MP3文件格式的分析,不难发现它的欠缺。MP3文件每个帧都有4字节的相同帧头,对于一个含有大量帧的MP3文件来说,需要一定的空间开销。ID3存放音乐说明信息,帧头中的private、right等信息也是说明信息,音乐的说明信息有些零乱的感觉。
无论如何,MP3的发展势不可挡,MP3已成为公认的声音数据格式,MP3正与JPEG图像、PDF文档成为多媒体信息处理领域的热点。