㈠ 什麼是計算機文字處理
計算機處理文字技術是編輯工作中的基本功。全方位闡明了文字的輸入、審校、格式設置、編排、網路傳輸及文字亂碼的處理。
計算機處理文字的軟體以Word為主,以計算機文字處理系統(WPS)為輔助!
計算機文字處理的書很多,大部分的計算機基礎課程中都有所講述,不會的同志們可以買一本書好好的學習一下!
㈡ 在文字處理(word)領域,涉及到哪些技術
終身受益的十個WORD技巧
現在是講效率的年代,使用Word來進行平時的辦公處理也是一樣,那麼,我們怎樣才能夠在Word中「快」起來呢?那就請這位作者給我們帶來的Word中快速操作的10個技巧,小編看完後也覺得相當實用。
1.快速定位到上次編輯位置
用WPS編輯文件時有一個特點,就是當你下次打開一WPS文件時,游標會自動
定位到你上一次存檔時的位置。不過,Word卻沒有直接提供這個功能,但是,當我們在打開Word文件後,如果按下Shift+F5鍵您就會發現游標已經快速定位到你上一次編輯的位置了。
小提示:其實Shift+F5的作用是定位到Word最後三次編輯的位置,即Word會記錄下一篇文檔最近三次編輯文字的位置,可以重復按下Shift+F5鍵,並在三次編輯位置之間循環,當然按一下Shift+F5就會定位到上一次編輯時的位置了。
2.快速插入當前日期或時間
有時寫完一篇文章,覺得有必要在文章的末尾插入系統的當前日期或時間,一般人是通過選擇菜單來實現的。其實我們可以按Alt+Shift+D鍵來插入系統日期,而按下Alt+Shift+T組合鍵則插入系統當前時間,很快!
3.快速多次使用格式刷
Word中提供了快速多次復制格式的方法:雙擊格式刷,你可以將選定格式復制到多個位置,再次單擊格式刷或按下Esc鍵即可關閉格式刷。
4.快速列印多頁表格標題
選中表格的主題行飛,選擇「表格」菜單下的「標題行重復」復選框,當你預覽或列印文件時,你就會發現每一頁的表格都有標題了,當然使用這個技巧的前提是表格必須是自動分頁的。
5.快速將文本提升為標題
首先將游標定位至待提升為標題的文本,當按Alt+Shift+←鍵,可把文本提升為標題,且樣式為標題1,再連續按Alt+Shift+→鍵,可將標題1降低為標題2、標題3……標題9。
6.快速改變文本字型大小
Word的字型大小下拉菜單中,中文字型大小為八號到初號,英文字型大小為5磅到72磅,這對於一般的辦公人員來說,當然已經綽綽有餘了。但在一些特殊情況下,比如列印海報或機關宣傳牆報時常常要用到更大的字體,操作起來就有些麻煩了。其實,我們完全也可以快速改變文本的字型大小:先在Word中選中相關漢字,然後用滑鼠單擊一下工具欄上的字型大小下拉列表框,直接鍵入數值,即可快速改變您的字體大小。而且這個技巧在Excel和WPS 2000/Office中同樣適用。
小提示:其實,小編還有兩種快速更改Word文本字型大小的方法:
(1)選中文字後,按下Ctrl+Shift+>鍵,以10磅為一級快速增大所選定文字字型大小,而按下Ctrl+Shift+<鍵,則以10磅為一級快速減少所選定文字字型大小;
(2)選中文字後,按Ctrl+]鍵逐磅增大所選文字,按Ctrl+[鍵逐磅縮小所選文字。
7.快速設置上下標注
首先選中需要做上標文字,然後按下組合鍵Ctrl+Shift+=就可將文字設為上標,再按一次又恢復到原始狀態;按Ctrl+=可以將文字設為下標,再按一次也恢復到原始狀態。
小提示:詳見本刊前期《Word XP中神奇的Ctrl鍵》一文,掌握一些快捷按鍵對快速、高效操作Word很有借鑒意義。
8.快速取消自動編號
雖然Word中的自動編號功能較強大,但是據筆者試用,發現自動編號命令常常出現錯亂現象。其實,我們可以通過下面的方法來快速取消自動編號。
(1)當Word為其自動加上編號時,您只要按下Ctrl+Z鍵反悔操作,此時自動編號會消失,而且再次鍵入數字時,該功能就會被禁止了;
(2)選擇「工具」→「自動更正選項」命令,在打開的「自動更正」對話框中,單擊「鍵入時自動套用格式」選項卡,然後取消選擇「自動編號列表」復選框(如圖1),最後單擊「確定」按鈕完成即可;
9.快速選擇字體
為了達到快速選擇字體的目的,我們可以將常用字體以按鈕形式放置在工具欄上。首先右擊Word工具欄,選擇「自定義「命令,打開「自定義」對話框,在「自定義」對話框中選擇「命令」選項卡,並移動游標條到類別欄中的「字體」項,看到平時經常使用的字體,把它拖到工具欄成為按鈕,以後要快速選擇字體,只要先選中文本,再按下工具欄上字體按鈕即可,省去了從字體下拉列表框中眾多字體中選擇的麻煩。
10.快速去除Word頁眉下橫線
快速去除Word頁眉下的那條橫線可以用下面的四種方法:一是可以將橫線顏色設置成「白色」;二是在進入頁眉和頁腳時,設置表格和邊框為「無」;第三種方法是進入頁眉編輯,然後選中段落標記並刪除它;最後一種方法是將「樣Word 中表格的製作
一、創建表格
(1)表格→插入→表格…
(2)在彈出的「插入表格」對話框中,輸入行數和列數,其它參數不動。
(3)單擊「確定」按鈕
二、在表格中輸入內容
1、確定插入點位置
方法1:用滑鼠單擊所需單元格來定位游標。
方法2:利用上下左右游標鍵來定位游標。
方法3:利用Tab跳格鍵來定位游標。
2、在單元格中輸入內容
(1)利用游標定位單元格後。
(2)在單元格中輸入字元,漢字或插入圖片。
三、選定表格中的對象
1、選定一個單元格: 2、選定多個單元格3、選定一行4、選定一列5、選中整個表格
注意:除了前面介紹的幾種方法之外,還可以用「表格」菜單中「選定」子菜單中的相應命令來選擇。
四、插入行或列
1、插入行:(1)先選中行。(2)單擊「表格→插入→行(在上方)或行(在下方)」。
2、插入列:(1)先選中列。(2)單擊「表格→插入→列(在左側)或行(在右側)」。
五、刪除行或列
1、刪除行:(1)先選中行。(2)單擊「表格→刪除→行」。
2、刪除列:(1)先選中列。(2)單擊「表格→刪除→列」。
六、調整行高和列寬
1、調整行高
方法1:將滑鼠指針移到要調整的表格線上,等滑鼠指針變成「G」時向下拖動滑鼠。
方法2:在「表格→表格屬性→行」中調整。
2、調整列寬
方法1:將滑鼠指針移到要調整的表格線上,等滑鼠指針變成「F」時向左或向右拖動滑鼠。
方法2:在「表格→表格屬性→列」中調整。
3、調整單元格的列寬
選擇單元格→拖動表格線。
七、合並和拆分單元格
1、合並單元格
(1)選中要合並的多個單元格。(2)單擊「表格→合並單元格」命令。
2、拆分單元格
(1)選中要拆分的一個單元格。(2)單擊「表格→拆分單元格」命令,在彈出的對話框中輸入行數和列數。(3)單擊「確定」按鈕。
八、繪制斜線表頭
(1)將游標放至表格的任意一個單元格中。(2)單擊「表格→繪制斜線表頭」命令。
(3)在彈出的對話框中,選擇表頭的樣式或字型大小,在輸入行標題和列標題。
(4)單擊「確定」按鈕。
九、設置文本對齊方式
(1)選定要對齊文本的單元格。(2)右擊單元格對齊方式選擇一種對齊方式
十、邊框和底紋
1、表格加邊框:(1)選擇要加邊框的行、列或表格。(2)單擊「格式→邊框和底紋。
2、表格加底紋(1)選擇要加底的行、列或表格。(2)單擊「格式→邊框和底紋」命令。
十一、表格自動套用格式
表格表格自動套用格式。
㈢ 什麼是超文本處理技術
超文本(Hypertext)是用超鏈結的方法,將各種不同空間的文字信息組織在一起的網狀文本。超文本更是一種用戶介面範式,用以顯示文本及與文本之間相關的內容。現時超文本普遍以電子文檔方式存在,其中的文字包含有可以鏈結到其他位置或者文檔的連結,允許從當前閱讀位置直接切換到超文本連結所指向的位置。超文本的格式有很多,目前最常使用的是超文本標記語言(Hyper Text Markup Language,HTML)及富文本格式 (Rich Text Format,RTF)。我們日常瀏覽的網頁上的鏈結都屬於超文本。
㈣ 在我們的日常生活中哪些運用了文字處理技術
電視劇,廣告,電子顯示屏,手機
㈤ word軟體的編輯技術有哪些
通常情況下,我們在使用辦公軟體進行文檔的編輯時,需要用到文字處理辦公軟體。目前,微軟推出的Word辦公軟體,就我們在辦公生活中最常見的一款文字處理軟體。下面,軟體直銷網的編輯將我們在使用中,積累的一些比較實用的技巧整理成文,帶給大家,希望對大家有所幫助。
一:在Word中批量轉換文檔
如果我們需要將很多Word生成的DOC文件,轉化為TXT文件使用,而苦於往返於「打開/另存為」之間。那麼,我們可以巧妙的在Word中批量的轉換文檔的。只要我們試著單擊「文件」——「建立新文件」命令,打開"新建"文件對話框(注意不能單擊快捷欄上的「新建」圖標或直接按「Ctrl+N」快捷鍵, 這樣Word會使用其默認模板建立一個新文件,而不會打開「新建」文件對話框),點擊「其它文檔」標簽,並雙擊其中的「轉換向導」項目(但如果你的機器中沒有安裝此模板,系統會自動啟動Office2000或XP的安裝程序,並會提示你插入Office2000光碟),再順著向導一步一步操作。利用該向導,既可以將Word2000/XP中所有支持的文件格式批量轉換成Word2000/XP格式,也可以將Word2000/XP格式批量轉換至 Word2000/XP中所有支持的文件格式,包括RTF文件:WEB頁文件:WPS文件:Lotus 1-2-3:Microsoft工作表:Outlook工作薄等,相信這個強大的功能會給你帶來很大的方便。
二:快速還原圖片文件
其實,我們利用Word辦公軟體,還可以非常方便地製作出圖文並茂的作品,不過有時往往出於特殊需要(如出版:發行等),要求把其中內嵌的圖片還原出來。這時,我們固然可以使用Word2000打開該文件,然後選中相應圖像後復制,再啟動畫圖程序進行粘貼,最後存檔。這對於僅含有一個兩個圖片的文件尚可, 如果你的文檔中已經內置了圖片文件而且比較多,那麼一個一個地拷貝:粘貼,相對來說比較麻煩。其實,只要我們單擊「文件」——「另存為Web頁」命令,Word就會自動地把其中內置的圖片以 「image001.jpg」:「image002.jpg」:「image003.jpg」:「image004.jpg」等文件,存放在以另存後的 WEB頁為文件名加上「.files」的文件夾下(與在IE中保存的網頁一樣),非常方便。
三:讓Word認識WPS2000/WPS Office文件
現在,在我們的個人電腦上最為流行的文字處理軟體,除了常見的Word辦公軟體外,還有國產的WPS2000和WPS Office辦公軟體。軟體直銷網小編發現在WPS2000/Office中,不需要安裝任何轉換器,就可以直接讀取由Word97/2000/XP產生的文檔。不過,在Word97/2000/XP中,卻無法讀取WPS Office文檔。其實,以前我們曾記得在Office2000安裝光碟上,有一個WPS2WORD.EXE的程序,利用它就可以使Word讀取 WPS2000文件。
不過,經軟體直銷網小編試驗,發現安裝此轉換器,無法使Word讀取WPS Office文件。軟體直銷網小編在金山公司的網站上,發現他們已經推出了WPS Office的轉換器,我們可以從http://www.wps.com.cn/download/patch/wps2word.exe上下載。雙擊它會彈出所示的界面,點下「確定」鈕,該程序會自動判斷出你有沒有安裝過轉換器,並會自動為你安裝。以後打開Word後,在「打開」對話框中的「文件類型」 框中選擇「WPS文件(*.wps)」列表項,選擇需要編輯的WPS文件,點擊「打開」後,即可直接打開WPS Office文件了,當然也能夠讀取WPS97/2000文件了。
四:Word 2000的兩種水印
1,文字水印
插入文字水印的步驟:單擊「格式」菜單的「背景」子菜單中的「水印」命令,可以插入不同顏色:樣式:大小:方向和字體的水印,還可以根據需要選擇或輸入要作為水印的文字。
編輯文字水印的方法:單擊「視圖」,選中「頁眉和頁腳」(出現「頁眉和頁腳」工具欄),把滑鼠移到文字水印處單擊,再單擊「藝術字」工具欄,可以設置藝術字格式:藝術字形狀:對藝術字作方位旋轉:進行繞排等編輯操作,選中水印文字,單擊右鍵,選擇「設置藝術字格式——版式」,選擇「襯於文字下方」,滿意後,打開「視圖」菜單,取消對「頁眉和頁腳」的選中(即去掉該項目前面的鉤)。
2,圖片水印
單擊「插入——圖片」,視圖片的來源選「剪貼圖」或「來自文件」,選定圖片後向文檔中插入圖片。在圖片插入處單擊滑鼠左鍵,出現「圖片工具欄」(如果沒有,請依次打開「視圖——工具欄——圖片」)。在「圖片工具欄」要進行的幾個關鍵編輯操作是:「文字繞排」選「襯於文字下方」,「圖像控制」選「水印」。此外,還可以對圖片亮度:對比度:尺寸等進行設置,滿意後在文檔其它處單擊即退出水印編輯,一幅圖片水印就製作好了。
五:實現Word個性模板
我們都知道,用Word辦公軟體建立的文件默認頁面是A4大小,即寬210毫米:高297毫米。不過,有時由於工作的需要,我們不希望用A4大小的紙張, 這樣每次都必須打開「頁面設置」對話框進行設置。同時,Word中默認生成的文檔文件,是不自動縮進的,必須使用手工調整它們的縮進,非常麻煩。其實,巧妙利用Word的模板文件功能,可以設置Word的默認頁面大小和自動縮進,從而實現個性模板。
1,進入WordXP的模板文件夾,在Windows 9x和Windows Me下為C:\Windows\Application Data\Microsoft\Templates文件夾下,而在Windows 2000和Windows NT上為C:\Documents and Settings\用戶名\Application Data\Microsoft\Templates文件夾下(此文件夾為隱藏文件夾,你必須對文件夾選項進行設置才能夠進入,詳見Windows手冊), 你會看到在此文件夾中有一個normal.dot文件,此文件就是Word的默認模板文件。雙擊它,系統就會自動調用WordXP打開它。
2,單擊「文件」——「頁面設置」,調出頁面設置對話框,將頁面大小及上下左右邊距,設置自己所需的值。軟體直銷網小編經常使用它來寫作,每次左右拖動滾動條,來查看文章不太方便,所以把寬度設置小了一些,為15厘米,高度不變,仍為24厘米。
3,單擊「格式」——「段落」,在段落設置對話框中選擇「縮進和間距」標簽,點擊「特殊格式」下拉框,選擇「首行縮進」,並設置度量值為0.7厘米(相當於兩個漢字字元),即設置每段自動縮進兩格(中國人用中文的特色)。
4,單擊「文件」——「保存」命令,選擇保存類型為文檔模板文件,由於此時normal.dot原模板已經啟動,所以無法直接保存為normal.dot文件。在此,軟體直銷網小編將它保存為normal1.dot文件。
5,再次進入C:\Windows\Application Data\Microsoft\Templates文件夾下,這時會看到兩個模板文件normal.dot和normal1.dot。選中 normal.dot文件(老模板文件),按下F2鍵,選擇「重命名」,將它重新命名為oldnormal.dot文件。按照此法,再將新的模板文件 normal1.dot重命名為normal.dot文件。
6,上面的製作步驟完成後,使用起來就方便多了。單擊快捷欄上的「新建」圖標或直接按「Ctrl+N」快捷鍵,即可以用你剛才的設置,來進行文件處理了。
六:給Word文件減肥
現在,我們的個人電腦上是Microsoft Windows的天下,軟體也越做越大,連一些文字資料的文件也不例外。如我們在Word中打一點兒字,動不動就幾十k位元組,文件一多,給我們交流:使用都帶來了不便(尤其是上網發附件)。其實,只要我們使用「文件」菜單下的「另存為」命令,Word則會重新將信息進行整理存檔,這樣會使得文件的容量大大減少。如果你嫌每次都要「另存為」太麻煩的話,可以打開Word,單擊「工具」菜單中的「選項」命令,再單擊「保存」選項卡,在設置窗口中取消選擇「快速保存」選項,以後Word就會在每次保存文件時,自動進行信息整理並存檔,實現「減肥」操作「一勞永逸」。另外,如果我們使用了Word的嵌入字體技術, 則在選中「嵌入TrueType字體」後,還應選中「只嵌入所用字元」復選框,否則Word會把所用到的TrueType字體一同「打包」,使得文件增大。
七:一次保存多個文件
在WPS2000/Office中,有一個「保存所有文件」命令,這個命令非常有用,只要執行該命令,即相當於將所有的文件進行存檔操作,免去了一個文件窗口一個文件窗口切換:存檔之苦。其實,我們也可以在Word中一次保存多個文件:只要在要保存文件時,按下Shift鍵就可以發現,原來的「保存」命令已經變成了「全部保存」命令了。此時單擊這個命令,相當於WPS2000中的「保存所有文件」命令,即一次性將所有打開的文件進行存檔。
八:合並Word文件
我們在使用Word製作文檔時,經常要與別人合作,一般情況下,我們都是把別人的文件拷貝過來列印,這雖然方便,不過不利於文件的管理。試著單擊「插入」 菜單下的「文件」命令,在彈出的窗口中選擇「Word文件」,再找到同事的文件,點擊「插入」鈕,同事的文件已經歷歷在目了,而且圖片:表格:字體:字型大小:格式都絲毫沒有任何變化。
九:修復文件
我們在進行文檔的處理時,最怕的就是遇到突然停電,而自己的文件沒有保存:文件找到卻無法打開的情況嗎?那時候的你一定比失戀更痛苦!其實,在Word中設計了一個修復程序,只不過它比較隱蔽,你沒有注意罷了。巧妙地使用它,能夠把你的工作成果恢復過來。請點擊「文件」——「打開」,在打開文件對話框中的文件類型下拉框中,選擇「從任意文件中恢復文本」項(請將滑鼠向下拖動,否則無法看到這個項目),再點擊原先打不開的文件,耐心等待一會兒,凡是能夠被恢復的文本,都會出現在Word窗口中,這時候就麻煩你按一下存檔圖標吧!
十:更改文件默認存檔格式
在Word默認情況下,我們都將文件存為Word的DOC格式。不過,有時候我們出於特殊的需要,如投稿時需要TXT格式:多媒體軟體中需要RTF格式等。把Word文檔存為其餘的格式固然很方便,只要單擊「文件」——「另存為」命令,然後在保存對話框中選擇欲保存的類型再點擊「保存」鈕就行了。不過, 每次這樣做未免有些麻煩。其實,只要我們單擊「工具」——「選項」,打開設置窗口,點擊「保存」標簽,在「將Word文件保存為」下拉框中的「Word文件(*.doc)」改為自己想要的格式,以後每次存檔時,Word就會自動將文件存為你所預先設定的格式了。
㈥ 什麼是OCR,它的功能是什麼
OCR是光學字元識別的縮寫,OCR技術簡單來說就是將文字信息轉換為圖像信息,然後再利用文字識別技術將圖像信息轉化為可以使用的輸入技術。
OCR的功能:
1、OCR識別技術不僅具有可以自動判斷、拆分、 識別和還原各種通用型印刷體表格,還在表格理解上做出了令人滿意的實用結果。
2、OCR能夠自動分析文稿的版面布局,自動分欄、並判斷出標題、橫欄、圖像、表格等相應屬性,並判定識別順序,能將識別結果還原成與掃描文稿的版面布局一致的新文本。
3、OCR還可以支持表格自動錄入技術,可自動識別特定表格的印刷或列印漢字、字母、數字,可識別手寫體漢字、手寫體字母、數字及多種手寫符號,並按表格格式輸出。提高了表格錄入效率,可節省大量人力。
(6)哪些文字處理技術擴展閱讀:
OCR技術的使用范圍:
OCR通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。
可應用於銀行票據、大量文字資料、檔案卷宗、文案的錄入和處理領域。適合於銀行、稅務等行業大量票據表格的自動掃描識別及長期存儲。
相對一般文本,通常以最終識別率、識別速度、版面理解正確率及版面還原滿意度4個方面作為OCR技術的評測依據;而相對於表格及票據, 通常以識別率或整張通過率及識別速度為測定OCR技術的實用標准。
參考資料來源:網路-OCR技術
㈦ 什麼是OCR技術
OCR (Optical Character Recognition,光學字元識別)技術是指電子設備檢查紙上列印的字元,通過檢測暗、亮的模式確定其形狀,然後用字元識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字元,採用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,並通過識別軟體將圖像中的文字轉換成文本格式,供文字處理軟體進一步編輯加工的技術。
比如廈門雲脈公司基於成熟的OCR技術,推出了文檔識別、身份證識別、票據識別、名片識別、銀行卡識別、車牌識別等OCR識別應用......
㈧ 什麼是中文信息處理技術
文字信息處理的實質,是先把文字信息數字化,即用一個固定的數碼代表一個字母或文字。例如,在英文信息中,以26個字母作為文字信息處理的單位,因此要對26個字母逐個地確定代替它的數碼。在漢字的情況下,一般是以一個整字作為文字信息處理的單位,因此要對每一個整字惟一地確定代表它的數碼。這一數碼統稱為代碼(code)。在計算機內部處理文字信息時,就像處理數據一樣對待。處理完畢後,再把替代的數碼還原成相應的字母或文字。利用計算機能夠調整處理數據的性能,使文字信息處理也能夠分享計算機技術的這一獨特優點,從而實現文字信息處理的高效化。
計算機之所以能有較高的運算和處理能力,是由於它利用了電子處理技術以及二進制數運算這一法則。計算機中的運算器,利用半導體器件的兩個狀態(通和斷)的變化,代表二進制數字串中的一個二進制數位上的「1」或「0」的變化,從而能夠高速地執行二進制數的數值或邏輯運算。實際上,計算機無論做數值的或任何種類信息的運算或處理,最基本的運算操作就是這種二進制數的演算。
在本節中先討論英文信息的處理。英文信息處理技術中,要考慮以下各種字母、數字和一些必需的符號:
● A,B,C,…,X,Y,Z,共26個字母,包括大寫和小寫形式,共52個字母。
● 0,1,2,…,9,共10個阿拉伯數字。
● +,−,×,=,>,<,…,!,?,*,[,( ,{,…,共32個圖形符號。
● 用於計算機動作控制的控制符號,共34個。
以上共計128個字母、數字、符號統稱為字元。對於這些字元,應制定統一的字元代碼標准,以便各種不同型號的計算機系統都遵守這一標准,從而使各個計算機系統之間能夠互相交換信息。對於字元代碼的標准,在20世紀60年代已由美國國家標准局制定了美國國家標准信息交換碼(英文縮寫為ASCII,這是一種用7位二進制數表示的代碼,7位二進制數共可得到128種編碼即27=128,正好分配給128個字元)。實際上每個字元使用一個位元組(byte)的信息量,而一個位元組包含8位二進制數,實際使用其中的7位,尚留出一位,作為每個字元信息的奇偶校驗位。
國際標准組織(ISO)依據美國標準的ASCII碼,制定了英文字元編碼的國際標准,即ISO 646,為世界各國的計算機產業界從事計算機設備的工業生產以及信息處理技術的國際化、通用化提供了依據。中國在1975年由當時的第四機械工業部頒布了依據ISO 646制定的7位字元的編碼標准(代號為GB1988),其中除了個別貨幣符號有改動外,其餘內容完全相同。
文字信息處理的全過程大致包含如下三個環節:
(1)文字信息的輸入。通常是通過鍵盤把組成英文詞彙的各個英文字母逐個地輸入。這一過程中,鍵盤的作用是把輸入的每個字母、數字或符號轉換成它們所對應的代碼,供下一步信息處理用。鍵盤同時也是使用或操作計算機的人和計算機系統之間的界面。因此,鍵盤要設計得方便人們的使用和操作,以提供良好的人機界面。
(2)文字信息的處理。文字信息處理包括多種不同的處理要求。例如,在文稿的編輯操作中有對文字(或文字中包含的字母)的增、刪、改操作;有對若干個字、整個句子或整段文字的增、刪、改操作。在對文字串的處理中,有分類、合並、比較、排序、檢索以及對齊等操作。這些種類的操作都可以通過預先編制相應的處理程序來實現。
(3)文字信息的輸出。文字信息處理完畢後,要把處理結果的代碼信息轉換成文字的形式輸出,輸出方式包括顯示和列印。為此,在計算機系統中要存儲有關文字的字形信息。計算機中存儲的文字字形,是以點陣式字形的形式表示的。通常,英文字元信息用5×7或7×9的點陣表示,如圖1-2所示。這樣的字形點陣信息和計算機中二進制數的存儲相對應,即有筆畫經過的點用二進制數1表示,無筆畫的點用二進制數0表示。因此,在計算機中存儲的字形信息實際上也是一串二進制數。在英文信息處理系統中,字形信息的存儲問題比較容易解決。因為只需存儲大、小寫52個字母,10個阿拉伯數字,加上一些圖形符號,共94個字元。用容量不大的存儲器晶元,即可解決全部字元點陣信息的存儲。計算機輸出處理結果時,根據每個字元的代碼計算字形信息在存儲器中的存儲地址,按照這一地址讀出字元的點陣信息,供顯示器或列印機輸出。
中文是聯合國六種工作語言之一,是中國56個民族所使用的主語言,也是世界上1/5以上人口的主語言。漢字是中國30種文字中使用最廣的文字,方塊漢字是其基本表現形式。
與英文相比較,中文的特點表現在字、詞、語塊、句子、句模和篇章等以下七個方面。
(1)中文字的特點:①字多。一級漢字有3755個,可覆蓋現代所用漢字的99.9%,二級漢字有3008個,一、二級漢字可覆蓋現代所用漢字的99.99%以上,最常用的漢字有560個,940個常用字,700個次常用字,掃盲標准有1500個字,占現代常用字使用頻度(參見王還,常寶儒《現代漢語頻率詞典》[16])的95%,一般用字形20 902個(ISO/IEC 10646(UCS)),漢字字模已有10萬字頭,但人們估計現代有15萬字頭。大學畢業生一般可認識4千漢字,中文系畢業生可認識5千字左右,極少數專家可認識9千字。②形美。中文字由象形字變化而來,是一個二維結構圖形,形態多樣、美觀、自然。③音少。不同的發音只有410餘種,加上四聲變化,總共1295種。④義眾。每個字常有2~5種意義,多的達6~9種意義。同一個漢字在不同情況下使用,可以代表多種含義。⑤類難。同樣的字在不同情況下用作不同類型。⑥序隱。字的排列順序不如英文字母確定、明顯。
(2)中文詞的特點:①定義糊。能夠獨立運用的有特定的音、形、義的最小句法單位(印歐語系中最小的句法單位是語素——morpheme)(參見高家鶯、范可育、費錦昌《現代漢字學》[18])。②詞類混。中文詞在不同用法中類型變化較多,相對西文詞來說,詞類容易混。③切分難。中文句子、詞是由中文單字所組成的,而字與字,詞與詞之間並無分隔符,不容易進行字與詞的切分。④詞頻集中。常用詞,包括常用單字詞的使用頻度很高,覆蓋面較大,相對集中。⑤詞長短。中文詞含義豐富,但比較簡練,長度相對英文詞較短。⑥詞義眾。中文詞的含義較多,一詞多義比較普遍。⑦識別易。常用詞的構成比較有規律,相對容易識別出。如四字詞(例如成語),兩字詞,單字詞等。⑧構成與復合便。中文詞可以通過中文單字進行靈活地組合,組詞方便。⑨組句活。中文詞可以通過靈活組合形成中文句子。⑩詞庫多。中文詞量大,不同行業有不同詞庫。
(3)中文語塊(即語義塊)乃是能夠自由造句的基本語義構成單位。語義塊是句子的語義構成成分和單位,它不同於傳統語言學的短語。語義塊是語義,即語言深層的定義,而短語是語法,即語言表層的定義。語義塊這一概念的提出便於描述句子的構成。語義塊分為主語義塊和輔語義塊兩大類,前者是句義的「必不可少」的成分,後者是句義的「可有可無」的成分。主語義塊有4種:特徵E、作用者A、對象B和內容C,其中特徵語義塊E決定句類。輔語義塊有7種:方式Ms(Means)、工具In(Instrument)、途徑Wy(Way)、比照Re(Refer)、條件Cn(Condition)、因Pr(Premise)、果Rt(Result) (參見苗傳江著《HNC理論的句類》[21] )。
(4)中文句的特點:①切分難。句乃能獨立交際的最小完整語法單位,要完整切分出來有一定難度。②句型多。句子的句法結構模式稱為「句型」,這是從句法的平面對句子進行分類。中文句子的句型變化較多,可以達到不同的語言效果。③簡練。相對於英文,在中文句子中不需要用冠詞等來進行修飾,比較簡練。④重意合。中文句子的組句比較重視字、詞在意義上的合適搭配。
(5)句模:句子的語義結構模式稱為「句模」,這是從句子的語義平面對句子進行分類。句模的特點是數量不多,不足200個(參見胡裕樹著《試論句子類型的研究》[22]、楊成凱著《句法、語義、語用三平面說的方法論分析》[23])。
(6)中文篇章的特點:①簡練。構成中文篇章有不同語言單位,其語言描述精煉,表達力強。②文體眾多。中文發展歷史悠久,有詩歌、散文等多種文體形式。
(7)中文與英文最大的不同在於中文表述較為簡練,節省了詞的分隔符、性、數、格、時態、形態等的變化,動詞可省掉語句的安排,省音節。中文語序多為聚焦型,英語1/2為發散型。國內有一種觀點,認為中文的特點可用3S表示,即簡(Simple)、短(Short)、直(Straight)。但又有三大問題:同音字太多,四聲變化與南腔北調。
從信息編碼角度來看中文信息處理系統,可以抽象為五層結構模型。
第一層 外部碼輸入層
此層可以分為如下四類輸入方式。
1.鍵盤編碼輸入
鍵盤編碼輸入是依據一定的中文編碼輸入方法,提供人通過鍵盤向計算機系統輸入信息的代碼,即鍵盤碼。鍵盤碼由所用的具體編碼輸入方法所決定,一般為不定長的編碼,碼長多少與所用編碼方案相關。漢字輸入編碼目前國內外有近500種。這500種可以分為下面幾種類型:
● 字形碼,根據漢字字形特徵而編制的漢字輸入編碼。
● 字音碼,根據漢字字音特徵而編制的漢字輸入編碼。
● 音形碼,以字音特徵為主字形特徵為輔編制的漢字輸入編碼。
● 形音碼,以字形特徵為主字音特徵為輔編制的漢字輸入編碼。
● 整字碼,以一個漢字為一鍵位的漢字輸入編碼。
2.文字識別輸入
文字識別輸入按被識別字元特點可分為手寫體識別輸入和印刷體識別輸入;按識別系統可分為聯機識別輸入(或稱在線識別輸入)和離線識別輸入(或稱脫線識別輸入)。識別的字體可以是單體或多體。
3.語音識別輸入
語音識別輸入按說話人特點可分為說話人有關識別輸入和說話人無關識別輸入;按被識別語音特徵可分為字元語音識別、孤立詞彙語音識別、連接語音識別和連續語音識別。語音識別輸入與文字識別輸入通常屬中文自然輸入或智能輸入方法。
4.交換碼輸入
交換碼是提供機器系統之間,人機之間等實現信息交換的一種代碼,由標准化機構制訂,頒布執行。列舉如下。
國際標准:
● ISO 646信息處理 信息交換用ISO 七位編碼字元集。
● ISO 2022信息處理 ISO 七位和八位編碼字元集 代碼擴充技術。
● ISO 4873信息處理 信息交換用ISO八位編碼字元集 編碼的結構和規則。
● ISO 6429信息處理 ISO 七位和八位編碼字元集 字元成形設備用的增補控制 功能。
● ISO /IEC 10646.1—1993 信息處理—通用多八位編碼字元集(UCS)。
國家標准:
● GB 1988 等效採用ISO 646。
● GB 2311 等效採用ISO 2022。
● GB 2312 《信息交換用漢字編碼字元集 基本集》。
● GB/T 7589 《信息交換用漢字編碼字元集 第二輔助集》。
● GB/T 7590 《信息交換用漢字編碼字元集 第四輔助集》。
● GB 18030—2000 《信息交換用漢字編碼字元集 基本集的擴充》。
● GB 13000—1993 《信息技術 通用多八位編碼字元集(UCS)》,等同採用ISO /IEC 10646.1—1993國際標准。
第二層 外部碼向內部碼轉換層
此層功能是將第一層中各式各樣的輸入信息轉換成一致的內部碼,供第三層處理用。
第三層 內部碼處理層
內部碼通常包括下列幾種:
(1)運算碼 提供各種字元運算和系統內部處理的代碼,比如排序、合並等運算。
(2)存儲碼 提供存儲字元及其屬性信息用的代碼,由它通過輸出設備把漢字內部碼轉換成漢字字形輸出。
(3)地址碼 輸出漢字時,先要把漢字內部碼變換成相應漢字的地址碼,再由地址碼映射成該漢字的字形信息。
(4)控制碼 在中文系統中,為控制某些漢字設備的動作,若有必要,可以從擴充的控制符中加以定義,作為專用的控制符使用。
(5)語音碼 提供存儲中文語音信息的編碼,供語音合成輸出。
這幾種代碼反映了字元處理特徵。從信息處理角度來看,內部碼以等長碼為佳。上述各種內部碼相差甚大,但從編碼體系結構上應該一致。
第四層 內部碼向外部碼轉換層
此層功能是將第三層中各種內部碼處理結果,按照需要轉換成相應外部碼輸出,供第五層輸出用。
第五層 外部碼輸出層
此層可以分為四類輸出方式:
(1)文字顯示輸出
向各種顯示設備提供字元顯示功能。
(2)文字印刷輸出
提供各種印刷設備所需的字元印刷功能。
(3)語音合成輸出
提供具有一定可懂度、自然度和保真度的男聲或女聲合成語音輸出。語音合成輸出和語音識別輸入都是信息系統智能化基本特徵之一。
(4)交換碼輸出
將內部碼轉換成相應交換碼,比如字元交換碼、字音交換碼和字形交換碼等,送往通信道共和另一個系統交換使用。
㈨ 多媒體信息處理的四中關鍵技術有哪些
1、數據壓縮和編碼技術:數據壓縮和編碼技術是多媒體技術的關鍵技術之一。在處理音頻和視頻信號時,如果每一幅圖像都不經過任何壓縮直接進行數字化編碼,那麼其容量是非常巨大的,現有計算機的存儲空間和匯流排的傳輸速度都很難適應。
2、數字圖像技術:在圖像、文字和聲音這三種形式的媒體中,圖像包含的信息量是最大的。人們的知識絕大部分是通過視覺獲得的。圖像的特點是只能通過人的視覺感受,並且非常依賴於人的視覺器官。數字圖像技術就是對圖像進行計算機處理,使其更適合於人眼或儀器分辨,並獲取其中的信息。
5、多媒體通信技術:多媒體通信技術突破了計算機、通信、廣播和出版的界限,使它們融為一體,利用通信網路綜合性地完成文本、圖片、動畫、音頻、視頻等多媒體信息的傳輸和交換。