导航:首页 > 信息技术 > 哪些文字处理技术

哪些文字处理技术

发布时间:2022-04-26 22:23:18

㈠ 什么是计算机文字处理

计算机处理文字技术是编辑工作中的基本功。全方位阐明了文字的输入、审校、格式设置、编排、网络传输及文字乱码的处理。
计算机处理文字的软件以Word为主,以计算机文字处理系统(WPS)为辅助!
计算机文字处理的书很多,大部分的计算机基础课程中都有所讲述,不会的同志们可以买一本书好好的学习一下!

㈡ 在文字处理(word)领域,涉及到哪些技术

终身受益的十个WORD技巧
现在是讲效率的年代,使用Word来进行平时的办公处理也是一样,那么,我们怎样才能够在Word中“快”起来呢?那就请这位作者给我们带来的Word中快速操作的10个技巧,小编看完后也觉得相当实用。
1.快速定位到上次编辑位置
用WPS编辑文件时有一个特点,就是当你下次打开一WPS文件时,光标会自动
定位到你上一次存盘时的位置。不过,Word却没有直接提供这个功能,但是,当我们在打开Word文件后,如果按下Shift+F5键您就会发现光标已经快速定位到你上一次编辑的位置了。
小提示:其实Shift+F5的作用是定位到Word最后三次编辑的位置,即Word会记录下一篇文档最近三次编辑文字的位置,可以重复按下Shift+F5键,并在三次编辑位置之间循环,当然按一下Shift+F5就会定位到上一次编辑时的位置了。
2.快速插入当前日期或时间
有时写完一篇文章,觉得有必要在文章的末尾插入系统的当前日期或时间,一般人是通过选择菜单来实现的。其实我们可以按Alt+Shift+D键来插入系统日期,而按下Alt+Shift+T组合键则插入系统当前时间,很快!
3.快速多次使用格式刷
Word中提供了快速多次复制格式的方法:双击格式刷,你可以将选定格式复制到多个位置,再次单击格式刷或按下Esc键即可关闭格式刷。
4.快速打印多页表格标题
选中表格的主题行飞,选择“表格”菜单下的“标题行重复”复选框,当你预览或打印文件时,你就会发现每一页的表格都有标题了,当然使用这个技巧的前提是表格必须是自动分页的。
5.快速将文本提升为标题
首先将光标定位至待提升为标题的文本,当按Alt+Shift+←键,可把文本提升为标题,且样式为标题1,再连续按Alt+Shift+→键,可将标题1降低为标题2、标题3……标题9。
6.快速改变文本字号
Word的字号下拉菜单中,中文字号为八号到初号,英文字号为5磅到72磅,这对于一般的办公人员来说,当然已经绰绰有余了。但在一些特殊情况下,比如打印海报或机关宣传墙报时常常要用到更大的字体,操作起来就有些麻烦了。其实,我们完全也可以快速改变文本的字号:先在Word中选中相关汉字,然后用鼠标单击一下工具栏上的字号下拉列表框,直接键入数值,即可快速改变您的字体大小。而且这个技巧在Excel和WPS 2000/Office中同样适用。
小提示:其实,小编还有两种快速更改Word文本字号的方法:
(1)选中文字后,按下Ctrl+Shift+>键,以10磅为一级快速增大所选定文字字号,而按下Ctrl+Shift+<键,则以10磅为一级快速减少所选定文字字号;
(2)选中文字后,按Ctrl+]键逐磅增大所选文字,按Ctrl+[键逐磅缩小所选文字。
7.快速设置上下标注
首先选中需要做上标文字,然后按下组合键Ctrl+Shift+=就可将文字设为上标,再按一次又恢复到原始状态;按Ctrl+=可以将文字设为下标,再按一次也恢复到原始状态。
小提示:详见本刊前期《Word XP中神奇的Ctrl键》一文,掌握一些快捷按键对快速、高效操作Word很有借鉴意义。
8.快速取消自动编号
虽然Word中的自动编号功能较强大,但是据笔者试用,发现自动编号命令常常出现错乱现象。其实,我们可以通过下面的方法来快速取消自动编号。
(1)当Word为其自动加上编号时,您只要按下Ctrl+Z键反悔操作,此时自动编号会消失,而且再次键入数字时,该功能就会被禁止了;
(2)选择“工具”→“自动更正选项”命令,在打开的“自动更正”对话框中,单击“键入时自动套用格式”选项卡,然后取消选择“自动编号列表”复选框(如图1),最后单击“确定”按钮完成即可;
9.快速选择字体
为了达到快速选择字体的目的,我们可以将常用字体以按钮形式放置在工具栏上。首先右击Word工具栏,选择“自定义“命令,打开“自定义”对话框,在“自定义”对话框中选择“命令”选项卡,并移动光标条到类别栏中的“字体”项,看到平时经常使用的字体,把它拖到工具栏成为按钮,以后要快速选择字体,只要先选中文本,再按下工具栏上字体按钮即可,省去了从字体下拉列表框中众多字体中选择的麻烦。
10.快速去除Word页眉下横线
快速去除Word页眉下的那条横线可以用下面的四种方法:一是可以将横线颜色设置成“白色”;二是在进入页眉和页脚时,设置表格和边框为“无”;第三种方法是进入页眉编辑,然后选中段落标记并删除它;最后一种方法是将“样Word 中表格的制作
一、创建表格
(1)表格→插入→表格…
(2)在弹出的“插入表格”对话框中,输入行数和列数,其它参数不动。
(3)单击“确定”按钮
二、在表格中输入内容
1、确定插入点位置
方法1:用鼠标单击所需单元格来定位光标。
方法2:利用上下左右光标键来定位光标。
方法3:利用Tab跳格键来定位光标。
2、在单元格中输入内容
(1)利用光标定位单元格后。
(2)在单元格中输入字符,汉字或插入图片。
三、选定表格中的对象
1、选定一个单元格: 2、选定多个单元格3、选定一行4、选定一列5、选中整个表格
注意:除了前面介绍的几种方法之外,还可以用“表格”菜单中“选定”子菜单中的相应命令来选择。
四、插入行或列
1、插入行:(1)先选中行。(2)单击“表格→插入→行(在上方)或行(在下方)”。
2、插入列:(1)先选中列。(2)单击“表格→插入→列(在左侧)或行(在右侧)”。
五、删除行或列
1、删除行:(1)先选中行。(2)单击“表格→删除→行”。
2、删除列:(1)先选中列。(2)单击“表格→删除→列”。
六、调整行高和列宽
1、调整行高
方法1:将鼠标指针移到要调整的表格线上,等鼠标指针变成“G”时向下拖动鼠标。
方法2:在“表格→表格属性→行”中调整。
2、调整列宽
方法1:将鼠标指针移到要调整的表格线上,等鼠标指针变成“F”时向左或向右拖动鼠标。
方法2:在“表格→表格属性→列”中调整。
3、调整单元格的列宽
选择单元格→拖动表格线。
七、合并和拆分单元格
1、合并单元格
(1)选中要合并的多个单元格。(2)单击“表格→合并单元格”命令。
2、拆分单元格
(1)选中要拆分的一个单元格。(2)单击“表格→拆分单元格”命令,在弹出的对话框中输入行数和列数。(3)单击“确定”按钮。
八、绘制斜线表头
(1)将光标放至表格的任意一个单元格中。(2)单击“表格→绘制斜线表头”命令。
(3)在弹出的对话框中,选择表头的样式或字号,在输入行标题和列标题。
(4)单击“确定”按钮。
九、设置文本对齐方式
(1)选定要对齐文本的单元格。(2)右击单元格对齐方式选择一种对齐方式
十、边框和底纹
1、表格加边框:(1)选择要加边框的行、列或表格。(2)单击“格式→边框和底纹。
2、表格加底纹(1)选择要加底的行、列或表格。(2)单击“格式→边框和底纹”命令。
十一、表格自动套用格式
表格表格自动套用格式。

㈢ 什么是超文本处理技术

超文本(Hypertext)是用超链结的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户接口范式,用以显示文本及与文本之间相关的内容。现时超文本普遍以电子文档方式存在,其中的文字包含有可以链结到其他位置或者文档的连结,允许从当前阅读位置直接切换到超文本连结所指向的位置。超文本的格式有很多,目前最常使用的是超文本标记语言(Hyper Text Markup Language,HTML)及富文本格式 (Rich Text Format,RTF)。我们日常浏览的网页上的链结都属于超文本。

㈣ 在我们的日常生活中哪些运用了文字处理技术

电视剧,广告,电子显示屏,手机

㈤ word软件的编辑技术有哪些

通常情况下,我们在使用办公软件进行文档的编辑时,需要用到文字处理办公软件。目前,微软推出的Word办公软件,就我们在办公生活中最常见的一款文字处理软件。下面,软件直销网的编辑将我们在使用中,积累的一些比较实用的技巧整理成文,带给大家,希望对大家有所帮助。

一:在Word中批量转换文档

如果我们需要将很多Word生成的DOC文件,转化为TXT文件使用,而苦于往返于“打开/另存为”之间。那么,我们可以巧妙的在Word中批量的转换文档的。只要我们试着单击“文件”——“建立新文件”命令,打开"新建"文件对话框(注意不能单击快捷栏上的“新建”图标或直接按“Ctrl+N”快捷键, 这样Word会使用其默认模板建立一个新文件,而不会打开“新建”文件对话框),点击“其它文档”标签,并双击其中的“转换向导”项目(但如果你的机器中没有安装此模板,系统会自动启动Office2000或XP的安装程序,并会提示你插入Office2000光盘),再顺着向导一步一步操作。利用该向导,既可以将Word2000/XP中所有支持的文件格式批量转换成Word2000/XP格式,也可以将Word2000/XP格式批量转换至 Word2000/XP中所有支持的文件格式,包括RTF文件:WEB页文件:WPS文件:Lotus 1-2-3:Microsoft工作表:Outlook工作薄等,相信这个强大的功能会给你带来很大的方便。

二:快速还原图片文件

其实,我们利用Word办公软件,还可以非常方便地制作出图文并茂的作品,不过有时往往出于特殊需要(如出版:发行等),要求把其中内嵌的图片还原出来。这时,我们固然可以使用Word2000打开该文件,然后选中相应图像后复制,再启动画图程序进行粘贴,最后存盘。这对于仅含有一个两个图片的文件尚可, 如果你的文档中已经内置了图片文件而且比较多,那么一个一个地拷贝:粘贴,相对来说比较麻烦。其实,只要我们单击“文件”——“另存为Web页”命令,Word就会自动地把其中内置的图片以 “image001.jpg”:“image002.jpg”:“image003.jpg”:“image004.jpg”等文件,存放在以另存后的 WEB页为文件名加上“.files”的文件夹下(与在IE中保存的网页一样),非常方便。

三:让Word认识WPS2000/WPS Office文件

现在,在我们的个人电脑上最为流行的文字处理软件,除了常见的Word办公软件外,还有国产的WPS2000和WPS Office办公软件。软件直销网小编发现在WPS2000/Office中,不需要安装任何转换器,就可以直接读取由Word97/2000/XP产生的文档。不过,在Word97/2000/XP中,却无法读取WPS Office文档。其实,以前我们曾记得在Office2000安装光盘上,有一个WPS2WORD.EXE的程序,利用它就可以使Word读取 WPS2000文件。

不过,经软件直销网小编试验,发现安装此转换器,无法使Word读取WPS Office文件。软件直销网小编在金山公司的网站上,发现他们已经推出了WPS Office的转换器,我们可以从http://www.wps.com.cn/download/patch/wps2word.exe上下载。双击它会弹出所示的界面,点下“确定”钮,该程序会自动判断出你有没有安装过转换器,并会自动为你安装。以后打开Word后,在“打开”对话框中的“文件类型” 框中选择“WPS文件(*.wps)”列表项,选择需要编辑的WPS文件,点击“打开”后,即可直接打开WPS Office文件了,当然也能够读取WPS97/2000文件了。

四:Word 2000的两种水印

1,文字水印

插入文字水印的步骤:单击“格式”菜单的“背景”子菜单中的“水印”命令,可以插入不同颜色:样式:大小:方向和字体的水印,还可以根据需要选择或输入要作为水印的文字。

编辑文字水印的方法:单击“视图”,选中“页眉和页脚”(出现“页眉和页脚”工具栏),把鼠标移到文字水印处单击,再单击“艺术字”工具栏,可以设置艺术字格式:艺术字形状:对艺术字作方位旋转:进行绕排等编辑操作,选中水印文字,单击右键,选择“设置艺术字格式——版式”,选择“衬于文字下方”,满意后,打开“视图”菜单,取消对“页眉和页脚”的选中(即去掉该项目前面的钩)。

2,图片水印

单击“插入——图片”,视图片的来源选“剪贴图”或“来自文件”,选定图片后向文档中插入图片。在图片插入处单击鼠标左键,出现“图片工具栏”(如果没有,请依次打开“视图——工具栏——图片”)。在“图片工具栏”要进行的几个关键编辑操作是:“文字绕排”选“衬于文字下方”,“图像控制”选“水印”。此外,还可以对图片亮度:对比度:尺寸等进行设置,满意后在文档其它处单击即退出水印编辑,一幅图片水印就制作好了。

五:实现Word个性模板

我们都知道,用Word办公软件建立的文件默认页面是A4大小,即宽210毫米:高297毫米。不过,有时由于工作的需要,我们不希望用A4大小的纸张, 这样每次都必须打开“页面设置”对话框进行设置。同时,Word中默认生成的文档文件,是不自动缩进的,必须使用手工调整它们的缩进,非常麻烦。其实,巧妙利用Word的模板文件功能,可以设置Word的默认页面大小和自动缩进,从而实现个性模板。

1,进入WordXP的模板文件夹,在Windows 9x和Windows Me下为C:\Windows\Application Data\Microsoft\Templates文件夹下,而在Windows 2000和Windows NT上为C:\Documents and Settings\用户名\Application Data\Microsoft\Templates文件夹下(此文件夹为隐藏文件夹,你必须对文件夹选项进行设置才能够进入,详见Windows手册), 你会看到在此文件夹中有一个normal.dot文件,此文件就是Word的默认模板文件。双击它,系统就会自动调用WordXP打开它。

2,单击“文件”——“页面设置”,调出页面设置对话框,将页面大小及上下左右边距,设置自己所需的值。软件直销网小编经常使用它来写作,每次左右拖动滚动条,来查看文章不太方便,所以把宽度设置小了一些,为15厘米,高度不变,仍为24厘米。

3,单击“格式”——“段落”,在段落设置对话框中选择“缩进和间距”标签,点击“特殊格式”下拉框,选择“首行缩进”,并设置度量值为0.7厘米(相当于两个汉字字符),即设置每段自动缩进两格(中国人用中文的特色)。

4,单击“文件”——“保存”命令,选择保存类型为文档模板文件,由于此时normal.dot原模板已经启动,所以无法直接保存为normal.dot文件。在此,软件直销网小编将它保存为normal1.dot文件。

5,再次进入C:\Windows\Application Data\Microsoft\Templates文件夹下,这时会看到两个模板文件normal.dot和normal1.dot。选中 normal.dot文件(老模板文件),按下F2键,选择“重命名”,将它重新命名为oldnormal.dot文件。按照此法,再将新的模板文件 normal1.dot重命名为normal.dot文件。

6,上面的制作步骤完成后,使用起来就方便多了。单击快捷栏上的“新建”图标或直接按“Ctrl+N”快捷键,即可以用你刚才的设置,来进行文件处理了。

六:给Word文件减肥

现在,我们的个人电脑上是Microsoft Windows的天下,软件也越做越大,连一些文字资料的文件也不例外。如我们在Word中打一点儿字,动不动就几十k字节,文件一多,给我们交流:使用都带来了不便(尤其是上网发附件)。其实,只要我们使用“文件”菜单下的“另存为”命令,Word则会重新将信息进行整理存盘,这样会使得文件的容量大大减少。如果你嫌每次都要“另存为”太麻烦的话,可以打开Word,单击“工具”菜单中的“选项”命令,再单击“保存”选项卡,在设置窗口中取消选择“快速保存”选项,以后Word就会在每次保存文件时,自动进行信息整理并存盘,实现“减肥”操作“一劳永逸”。另外,如果我们使用了Word的嵌入字体技术, 则在选中“嵌入TrueType字体”后,还应选中“只嵌入所用字符”复选框,否则Word会把所用到的TrueType字体一同“打包”,使得文件增大。

七:一次保存多个文件

在WPS2000/Office中,有一个“保存所有文件”命令,这个命令非常有用,只要执行该命令,即相当于将所有的文件进行存盘操作,免去了一个文件窗口一个文件窗口切换:存盘之苦。其实,我们也可以在Word中一次保存多个文件:只要在要保存文件时,按下Shift键就可以发现,原来的“保存”命令已经变成了“全部保存”命令了。此时单击这个命令,相当于WPS2000中的“保存所有文件”命令,即一次性将所有打开的文件进行存盘。

八:合并Word文件

我们在使用Word制作文档时,经常要与别人合作,一般情况下,我们都是把别人的文件拷贝过来打印,这虽然方便,不过不利于文件的管理。试着单击“插入” 菜单下的“文件”命令,在弹出的窗口中选择“Word文件”,再找到同事的文件,点击“插入”钮,同事的文件已经历历在目了,而且图片:表格:字体:字号:格式都丝毫没有任何变化。

九:修复文件

我们在进行文档的处理时,最怕的就是遇到突然停电,而自己的文件没有保存:文件找到却无法打开的情况吗?那时候的你一定比失恋更痛苦!其实,在Word中设计了一个修复程序,只不过它比较隐蔽,你没有注意罢了。巧妙地使用它,能够把你的工作成果恢复过来。请点击“文件”——“打开”,在打开文件对话框中的文件类型下拉框中,选择“从任意文件中恢复文本”项(请将鼠标向下拖动,否则无法看到这个项目),再点击原先打不开的文件,耐心等待一会儿,凡是能够被恢复的文本,都会出现在Word窗口中,这时候就麻烦你按一下存盘图标吧!

十:更改文件默认存盘格式

在Word默认情况下,我们都将文件存为Word的DOC格式。不过,有时候我们出于特殊的需要,如投稿时需要TXT格式:多媒体软件中需要RTF格式等。把Word文档存为其余的格式固然很方便,只要单击“文件”——“另存为”命令,然后在保存对话框中选择欲保存的类型再点击“保存”钮就行了。不过, 每次这样做未免有些麻烦。其实,只要我们单击“工具”——“选项”,打开设置窗口,点击“保存”标签,在“将Word文件保存为”下拉框中的“Word文件(*.doc)”改为自己想要的格式,以后每次存盘时,Word就会自动将文件存为你所预先设定的格式了。

㈥ 什么是OCR,它的功能是什么

OCR是光学字符识别的缩写,OCR技术简单来说就是将文字信息转换为图像信息,然后再利用文字识别技术将图像信息转化为可以使用的输入技术。

OCR的功能:

1、OCR识别技术不仅具有可以自动判断、拆分、 识别和还原各种通用型印刷体表格,还在表格理解上做出了令人满意的实用结果。

2、OCR能够自动分析文稿的版面布局,自动分栏、并判断出标题、横栏、图像、表格等相应属性,并判定识别顺序,能将识别结果还原成与扫描文稿的版面布局一致的新文本。

3、OCR还可以支持表格自动录入技术,可自动识别特定表格的印刷或打印汉字、字母、数字,可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出。提高了表格录入效率,可节省大量人力。

(6)哪些文字处理技术扩展阅读:

OCR技术的使用范围:

OCR通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。

相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据, 通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

参考资料来源:网络-OCR技术

㈦ 什么是OCR技术

OCR (Optical Character Recognition,光学字符识别)技术是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
比如厦门云脉公司基于成熟的OCR技术,推出了文档识别、身份证识别、票据识别、名片识别、银行卡识别、车牌识别等OCR识别应用......

㈧ 什么是中文信息处理技术

文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。例如,在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。在汉字的情况下,一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。
计算机之所以能有较高的运算和处理能力,是由于它利用了电子处理技术以及二进制数运算这一法则。计算机中的运算器,利用半导体器件的两个状态(通和断)的变化,代表二进制数字串中的一个二进制数位上的“1”或“0”的变化,从而能够高速地执行二进制数的数值或逻辑运算。实际上,计算机无论做数值的或任何种类信息的运算或处理,最基本的运算操作就是这种二进制数的演算。
在本节中先讨论英文信息的处理。英文信息处理技术中,要考虑以下各种字母、数字和一些必需的符号:
● A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个字母。
● 0,1,2,…,9,共10个阿拉伯数字。
● +,−,×,=,>,<,…,!,?,*,[,( ,{,…,共32个图形符号。
● 用于计算机动作控制的控制符号,共34个。
以上共计128个字母、数字、符号统称为字符。对于这些字符,应制定统一的字符代码标准,以便各种不同型号的计算机系统都遵守这一标准,从而使各个计算机系统之间能够互相交换信息。对于字符代码的标准,在20世纪60年代已由美国国家标准局制定了美国国家标准信息交换码(英文缩写为ASCII,这是一种用7位二进制数表示的代码,7位二进制数共可得到128种编码即27=128,正好分配给128个字符)。实际上每个字符使用一个字节(byte)的信息量,而一个字节包含8位二进制数,实际使用其中的7位,尚留出一位,作为每个字符信息的奇偶校验位。
国际标准组织(ISO)依据美国标准的ASCII码,制定了英文字符编码的国际标准,即ISO 646,为世界各国的计算机产业界从事计算机设备的工业生产以及信息处理技术的国际化、通用化提供了依据。中国在1975年由当时的第四机械工业部颁布了依据ISO 646制定的7位字符的编码标准(代号为GB1988),其中除了个别货币符号有改动外,其余内容完全相同。
文字信息处理的全过程大致包含如下三个环节:
(1)文字信息的输入。通常是通过键盘把组成英文词汇的各个英文字母逐个地输入。这一过程中,键盘的作用是把输入的每个字母、数字或符号转换成它们所对应的代码,供下一步信息处理用。键盘同时也是使用或操作计算机的人和计算机系统之间的界面。因此,键盘要设计得方便人们的使用和操作,以提供良好的人机界面。
(2)文字信息的处理。文字信息处理包括多种不同的处理要求。例如,在文稿的编辑操作中有对文字(或文字中包含的字母)的增、删、改操作;有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中,有分类、合并、比较、排序、检索以及对齐等操作。这些种类的操作都可以通过预先编制相应的处理程序来实现。
(3)文字信息的输出。文字信息处理完毕后,要把处理结果的代码信息转换成文字的形式输出,输出方式包括显示和打印。为此,在计算机系统中要存储有关文字的字形信息。计算机中存储的文字字形,是以点阵式字形的形式表示的。通常,英文字符信息用5×7或7×9的点阵表示,如图1-2所示。这样的字形点阵信息和计算机中二进制数的存储相对应,即有笔画经过的点用二进制数1表示,无笔画的点用二进制数0表示。因此,在计算机中存储的字形信息实际上也是一串二进制数。在英文信息处理系统中,字形信息的存储问题比较容易解决。因为只需存储大、小写52个字母,10个阿拉伯数字,加上一些图形符号,共94个字符。用容量不大的存储器芯片,即可解决全部字符点阵信息的存储。计算机输出处理结果时,根据每个字符的代码计算字形信息在存储器中的存储地址,按照这一地址读出字符的点阵信息,供显示器或打印机输出。
中文是联合国六种工作语言之一,是中国56个民族所使用的主语言,也是世界上1/5以上人口的主语言。汉字是中国30种文字中使用最广的文字,方块汉字是其基本表现形式。
与英文相比较,中文的特点表现在字、词、语块、句子、句模和篇章等以下七个方面。
(1)中文字的特点:①字多。一级汉字有3755个,可覆盖现代所用汉字的99.9%,二级汉字有3008个,一、二级汉字可覆盖现代所用汉字的99.99%以上,最常用的汉字有560个,940个常用字,700个次常用字,扫盲标准有1500个字,占现代常用字使用频度(参见王还,常宝儒《现代汉语频率词典》[16])的95%,一般用字形20 902个(ISO/IEC 10646(UCS)),汉字字模已有10万字头,但人们估计现代有15万字头。大学毕业生一般可认识4千汉字,中文系毕业生可认识5千字左右,极少数专家可认识9千字。②形美。中文字由象形字变化而来,是一个二维结构图形,形态多样、美观、自然。③音少。不同的发音只有410余种,加上四声变化,总共1295种。④义众。每个字常有2~5种意义,多的达6~9种意义。同一个汉字在不同情况下使用,可以代表多种含义。⑤类难。同样的字在不同情况下用作不同类型。⑥序隐。字的排列顺序不如英文字母确定、明显。
(2)中文词的特点:①定义糊。能够独立运用的有特定的音、形、义的最小句法单位(印欧语系中最小的句法单位是语素——morpheme)(参见高家莺、范可育、费锦昌《现代汉字学》[18])。②词类混。中文词在不同用法中类型变化较多,相对西文词来说,词类容易混。③切分难。中文句子、词是由中文单字所组成的,而字与字,词与词之间并无分隔符,不容易进行字与词的切分。④词频集中。常用词,包括常用单字词的使用频度很高,覆盖面较大,相对集中。⑤词长短。中文词含义丰富,但比较简练,长度相对英文词较短。⑥词义众。中文词的含义较多,一词多义比较普遍。⑦识别易。常用词的构成比较有规律,相对容易识别出。如四字词(例如成语),两字词,单字词等。⑧构成与复合便。中文词可以通过中文单字进行灵活地组合,组词方便。⑨组句活。中文词可以通过灵活组合形成中文句子。⑩词库多。中文词量大,不同行业有不同词库。
(3)中文语块(即语义块)乃是能够自由造句的基本语义构成单位。语义块是句子的语义构成成分和单位,它不同于传统语言学的短语。语义块是语义,即语言深层的定义,而短语是语法,即语言表层的定义。语义块这一概念的提出便于描述句子的构成。语义块分为主语义块和辅语义块两大类,前者是句义的“必不可少”的成分,后者是句义的“可有可无”的成分。主语义块有4种:特征E、作用者A、对象B和内容C,其中特征语义块E决定句类。辅语义块有7种:方式Ms(Means)、工具In(Instrument)、途径Wy(Way)、比照Re(Refer)、条件Cn(Condition)、因Pr(Premise)、果Rt(Result) (参见苗传江着《HNC理论的句类》[21] )。
(4)中文句的特点:①切分难。句乃能独立交际的最小完整语法单位,要完整切分出来有一定难度。②句型多。句子的句法结构模式称为“句型”,这是从句法的平面对句子进行分类。中文句子的句型变化较多,可以达到不同的语言效果。③简练。相对于英文,在中文句子中不需要用冠词等来进行修饰,比较简练。④重意合。中文句子的组句比较重视字、词在意义上的合适搭配。
(5)句模:句子的语义结构模式称为“句模”,这是从句子的语义平面对句子进行分类。句模的特点是数量不多,不足200个(参见胡裕树着《试论句子类型的研究》[22]、杨成凯着《句法、语义、语用三平面说的方法论分析》[23])。
(6)中文篇章的特点:①简练。构成中文篇章有不同语言单位,其语言描述精炼,表达力强。②文体众多。中文发展历史悠久,有诗歌、散文等多种文体形式。
(7)中文与英文最大的不同在于中文表述较为简练,节省了词的分隔符、性、数、格、时态、形态等的变化,动词可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散型。国内有一种观点,认为中文的特点可用3S表示,即简(Simple)、短(Short)、直(Straight)。但又有三大问题:同音字太多,四声变化与南腔北调。
从信息编码角度来看中文信息处理系统,可以抽象为五层结构模型。
第一层 外部码输入层
此层可以分为如下四类输入方式。
1.键盘编码输入
键盘编码输入是依据一定的中文编码输入方法,提供人通过键盘向计算机系统输入信息的代码,即键盘码。键盘码由所用的具体编码输入方法所决定,一般为不定长的编码,码长多少与所用编码方案相关。汉字输入编码目前国内外有近500种。这500种可以分为下面几种类型:
● 字形码,根据汉字字形特征而编制的汉字输入编码。
● 字音码,根据汉字字音特征而编制的汉字输入编码。
● 音形码,以字音特征为主字形特征为辅编制的汉字输入编码。
● 形音码,以字形特征为主字音特征为辅编制的汉字输入编码。
● 整字码,以一个汉字为一键位的汉字输入编码。
2.文字识别输入
文字识别输入按被识别字符特点可分为手写体识别输入和印刷体识别输入;按识别系统可分为联机识别输入(或称在线识别输入)和脱机识别输入(或称脱线识别输入)。识别的字体可以是单体或多体。
3.语音识别输入
语音识别输入按说话人特点可分为说话人有关识别输入和说话人无关识别输入;按被识别语音特征可分为字符语音识别、孤立词汇语音识别、连接语音识别和连续语音识别。语音识别输入与文字识别输入通常属中文自然输入或智能输入方法。
4.交换码输入
交换码是提供机器系统之间,人机之间等实现信息交换的一种代码,由标准化机构制订,颁布执行。列举如下。

国际标准:
● ISO 646信息处理 信息交换用ISO 七位编码字符集。
● ISO 2022信息处理 ISO 七位和八位编码字符集 代码扩充技术。
● ISO 4873信息处理 信息交换用ISO八位编码字符集 编码的结构和规则。
● ISO 6429信息处理 ISO 七位和八位编码字符集 字符成形设备用的增补控制 功能。
● ISO /IEC 10646.1—1993 信息处理—通用多八位编码字符集(UCS)。
国家标准:
● GB 1988 等效采用ISO 646。
● GB 2311 等效采用ISO 2022。
● GB 2312 《信息交换用汉字编码字符集 基本集》。
● GB/T 7589 《信息交换用汉字编码字符集 第二辅助集》。
● GB/T 7590 《信息交换用汉字编码字符集 第四辅助集》。
● GB 18030—2000 《信息交换用汉字编码字符集 基本集的扩充》。
● GB 13000—1993 《信息技术 通用多八位编码字符集(UCS)》,等同采用ISO /IEC 10646.1—1993国际标准。

第二层 外部码向内部码转换层
此层功能是将第一层中各式各样的输入信息转换成一致的内部码,供第三层处理用。

第三层 内部码处理层
内部码通常包括下列几种:
(1)运算码 提供各种字符运算和系统内部处理的代码,比如排序、合并等运算。
(2)存储码 提供存储字符及其属性信息用的代码,由它通过输出设备把汉字内部码转换成汉字字形输出。
(3)地址码 输出汉字时,先要把汉字内部码变换成相应汉字的地址码,再由地址码映射成该汉字的字形信息。
(4)控制码 在中文系统中,为控制某些汉字设备的动作,若有必要,可以从扩充的控制符中加以定义,作为专用的控制符使用。
(5)语音码 提供存储中文语音信息的编码,供语音合成输出。
这几种代码反映了字符处理特征。从信息处理角度来看,内部码以等长码为佳。上述各种内部码相差甚大,但从编码体系结构上应该一致。

第四层 内部码向外部码转换层
此层功能是将第三层中各种内部码处理结果,按照需要转换成相应外部码输出,供第五层输出用。

第五层 外部码输出层
此层可以分为四类输出方式:
(1)文字显示输出
向各种显示设备提供字符显示功能。
(2)文字印刷输出
提供各种印刷设备所需的字符印刷功能。
(3)语音合成输出
提供具有一定可懂度、自然度和保真度的男声或女声合成语音输出。语音合成输出和语音识别输入都是信息系统智能化基本特征之一。
(4)交换码输出
将内部码转换成相应交换码,比如字符交换码、字音交换码和字形交换码等,送往通信道共和另一个系统交换使用。

㈨ 多媒体信息处理的四中关键技术有哪些

多媒体信息处理的四中关键技术:

1、数据压缩和编码技术:数据压缩和编码技术是多媒体技术的关键技术之一。在处理音频和视频信号时,如果每一幅图像都不经过任何压缩直接进行数字化编码,那么其容量是非常巨大的,现有计算机的存储空间和总线的传输速度都很难适应。

2、数字图像技术:在图像、文字和声音这三种形式的媒体中,图像包含的信息量是最大的。人们的知识绝大部分是通过视觉获得的。图像的特点是只能通过人的视觉感受,并且非常依赖于人的视觉器官。数字图像技术就是对图像进行计算机处理,使其更适合于人眼或仪器分辨,并获取其中的信息。

5、多媒体通信技术:多媒体通信技术突破了计算机、通信、广播和出版的界限,使它们融为一体,利用通信网络综合性地完成文本、图片、动画、音频、视频等多媒体信息的传输和交换。

阅读全文

与哪些文字处理技术相关的资料

热点内容
桃木在哪里批发市场 浏览:768
金融ic卡产品有哪些 浏览:555
如何代理酒店房间 浏览:916
嘉兴西湖龙井茶代理多少钱 浏览:761
excel中如何对应另一列数据 浏览:839
服务岗比专业技术岗怎么样 浏览:520
数据质量值怎么算 浏览:736
一窗通签章信息错误是什么情况 浏览:118
哪个市场能买到刀鳅 浏览:975
母亲大人大寿如何发信息邀请短信 浏览:856
华为配件产品有哪些 浏览:879
北京证券交易所跌幅是多少 浏览:578
数据库是哪个主机 浏览:574
为什么大型并购交易不如小型的 浏览:985
二十七八岁了学什么技术好 浏览:661
什么时期的文物不能在市场交易 浏览:155
诗黛尔微商怎么代理 浏览:736
定了车票怎么没来信息 浏览:132
肇庆市职业学校学什么技术吃香 浏览:424
数据模型在电脑哪里 浏览:171