|
圖書數(shù)字化中處理數(shù)據(jù)流程的技術(shù)要點(diǎn) 【內(nèi)容提要】 圖書數(shù)字化大致有影印出版和電子出版兩種類型。影印出版指的是將圖書掃描或拍照,生成圖像格式文件,經(jīng)圖像修復(fù)處理后生成電子書。該類型的復(fù)制書與原版基本無差別,生產(chǎn)成本較低,缺點(diǎn)是不能進(jìn)行內(nèi)容檢索。 圖書數(shù)字化大致有影印出版和電子出版兩種類型。影印出版指的是將圖書掃描或拍照,生成圖像格式文件,經(jīng)圖像修復(fù)處理后生成電子書。該類型的復(fù)制書與原版基本無差別,生產(chǎn)成本較低,缺點(diǎn)是不能進(jìn)行內(nèi)容檢索。電子出版指的是使用OCR(光學(xué)字符識別)技術(shù),把紙質(zhì)圖書資料轉(zhuǎn)化為多種格式的原式原樣的電子圖書,通過先進(jìn)的生產(chǎn)流程管理系統(tǒng),將文本的錯誤率控制在一定范圍內(nèi),達(dá)到出版質(zhì)量的水平。電子出版的圖書可實(shí)現(xiàn)全文內(nèi)容檢索,但是工序多、工藝復(fù)雜、成本高。本文將重點(diǎn)探討斷版書影印出版的數(shù)字化復(fù)制。 影印出版的數(shù)據(jù)處理流程包含圖書掃描、圖像數(shù)據(jù)處理、文件串聯(lián)、文件存儲等步驟
|