古籍都是不可再生的寶貴的財(cái)富。正由于其彌足珍貴,普通的讀者是不可能接觸到這些稀世珍品,據(jù)國家圖書館善本部張志清副主任介紹,一部古籍每翻閱一次都會(huì)使它“折壽”60年。另一方面,古籍由于年代久遠(yuǎn),紙張極易風(fēng)化粉碎、殘破、變形、霉變,形成不可挽回的損失。由于人為破壞和自然災(zāi)害,許多典籍早已蕩然無存。明代葉盛說:“夫天地間物,以余觀之,難聚而易散者,莫書若也。”
如何保護(hù)珍貴的歷史文化典籍,如何使之走下神壇,讓這些“昔日王榭堂前燕,飛入尋常百姓家”,讓一般人能領(lǐng)略其博大精深;如何弘揚(yáng)中華文化,讓全世界的華人、漢學(xué)家方便了解研究中國的文學(xué)作品以及歷史、軍事和哲學(xué);如何使文史研究工作者能夠快速找到所需資料,提高他們的研究效率……是圖書館界和IT界的共同的心聲和夢(mèng)想,也是每一個(gè)關(guān)注民族文化的國人的夢(mèng)想。
高科技手段被認(rèn)為是目前保護(hù)古籍的理想選擇。中國從1985年起,開始用縮微照相方式復(fù)制古籍,到目前已搶救了兩萬多種古代文書??s微膠卷或平片有經(jīng)濟(jì)、耐用等優(yōu)點(diǎn),一直是保存檔案資料的一種有效手段。但縮微膠片的使用需要專用設(shè)備,伴隨而來的是難以管理和不易使用的缺點(diǎn)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,古籍“數(shù)字化”也已經(jīng)成為一種新的保護(hù)和利用的辦法。
國際圖聯(lián)文獻(xiàn)保護(hù)中心主任M·T·G瓦拉莫夫女士認(rèn)為:“在較長的一段時(shí)期里,縮微技術(shù)和光盤、數(shù)字化技術(shù)之間不是誰會(huì)取代誰的問題,至少縮微技術(shù)還在發(fā)展,世界上不少圖書館仍在進(jìn)行大規(guī)模的文獻(xiàn)縮微計(jì)劃,以美國報(bào)紙拍攝計(jì)劃(USNewspaperProgram)為例,這項(xiàng)以國會(huì)圖書館為主體的計(jì)劃,要求將美國及其托管領(lǐng)地出版的所有報(bào)紙實(shí)現(xiàn)縮微化”。
從技術(shù)的角度,縮微膠卷也為古籍的數(shù)字化提供方便、簡(jiǎn)捷的資料的來源。
古籍的數(shù)字化和上網(wǎng),是中華優(yōu)秀文明由紙張等媒質(zhì)流傳方式轉(zhuǎn)為數(shù)字信息等現(xiàn)代方式傳播的重要步驟,是對(duì)傳統(tǒng)的中華文化傳播和繼承方式的革命。古籍的數(shù)字化和上網(wǎng),是互聯(lián)網(wǎng)上中文信息完整性的重要保障,對(duì)確立中華文化在互聯(lián)網(wǎng)上的整體優(yōu)勢(shì)地位和樹立文化大國形象具有不可替代的地位。傳統(tǒng)古籍的數(shù)字化和上網(wǎng)還具有現(xiàn)實(shí)的價(jià)值,可以有效地解決古籍保存與使用之間的矛盾。古籍通常是1911年以前抄寫、出版的圖書,包括民國時(shí)期出版的古人所著的線裝圖書,往往具有重要的史料價(jià)值和很高的文化價(jià)值。許多古籍保存單位嚴(yán)格限制古籍的使用,以達(dá)到古籍保護(hù)的目的,但同時(shí)也使古籍的研究利用受到影響。古籍的數(shù)字化和網(wǎng)上發(fā)布,使研究者可以在網(wǎng)絡(luò)終端上瀏覽古籍,還能避免直接接觸對(duì)古籍造成的損壞,能有效地解決古籍保存和使用的矛盾,為中外學(xué)者方便地研究古籍提供便利,對(duì)古籍研究工作必將產(chǎn)生巨大的推動(dòng)作用。
目前國內(nèi)古籍?dāng)?shù)字化的現(xiàn)狀
2002年4月16-20日,來自中、日、韓、英、美及澳大利亞等國圖書機(jī)構(gòu)和研究單位的近百位專家、學(xué)者齊聚一堂,參加了在北京嘉苑飯店舉行的為期五天的“《永樂大典》編纂600周年國際研討會(huì)”。會(huì)上,中外學(xué)者回顧了600年間尤其是20世紀(jì)以來收藏、保護(hù)、研究《永樂大典》的狀況,會(huì)議期間《永樂大典》的數(shù)字化問題成為與會(huì)專家最為關(guān)注、討論最熱烈的話題。這次會(huì)議充分展示了國際上中文古籍的數(shù)字化的現(xiàn)有的技術(shù)水平和發(fā)展的前景。
目前我國古籍?dāng)?shù)字化的工作取得了一定的成績,已經(jīng)完成或正在進(jìn)行的有關(guān)古籍?dāng)?shù)字化的項(xiàng)目主要分為全文本方式和圖像方式兩大類:
全文本方式數(shù)字化
電子版《四庫全書》,由上海人民出版社、香港迪志公司、北京書同文公司合作開發(fā),選用國際標(biāo)準(zhǔn)ISO/IEC10646(GB13000/Unicode)作為數(shù)字化的字符集,采用XML語言作為文獻(xiàn)內(nèi)容的標(biāo)識(shí)語言,使用OCR技術(shù)實(shí)現(xiàn)圖文數(shù)碼轉(zhuǎn)換,使用數(shù)據(jù)庫加知識(shí)工具庫多種信息關(guān)聯(lián)的全文檢索引擎。書同文公司是大陸最大的致力于古籍?dāng)?shù)字化的公司,現(xiàn)擁有《四庫全書》、《四部叢刊》、《康熙字典》的電子版。目前在制作《永樂大典》和《歷代石刻史料匯編》的全文檢索版。
北京大學(xué)中文系《全唐詩》網(wǎng)上電子檢索系統(tǒng),由211工程資助、北京大學(xué)中文系李鐸博士主持開發(fā),歷時(shí)一年完成。該項(xiàng)目主體部分由《全唐詩》及《全唐詩補(bǔ)編》組成,輔助項(xiàng)由《樂府詩集》、《玉臺(tái)新詠》、《文選》等組成。參考類則由重要唐代史料《新唐書》、《舊唐書》、《唐才子傳》、《歷代詩話》、《唐詩紀(jì)事》等資料組成,共1700萬字。全部文獻(xiàn)錯(cuò)誤率控制在三萬分之一以下(共五校),《全唐詩》文本控制在五萬分之一以下(共六校)。所有文獻(xiàn)均使用Unicode內(nèi)碼,在Windows2000平臺(tái)上,不需要任何轉(zhuǎn)碼工具,全球任何語言的操作系統(tǒng)均可在網(wǎng)上直接檢索《全唐詩》及相關(guān)資料,并且兼容Windows9x,WindowsNT,Unix,Linux等平臺(tái)。檢索系統(tǒng)由兩個(gè)版面組成,一是瀏覽界面,它提供以原書為序?yàn)g覽,瀏覽內(nèi)容只限于《全唐詩》。另一界面是檢索界面,此界面是本系統(tǒng)的核心,可以檢索全部資料。主體部分除全文檢索功能外,另有詩題檢索、作者檢索、體裁檢索、音韻檢索等功能,檢索結(jié)果顯示詩歌全文(以首為單位)、作者小傳、詩文校注、詩歌體裁、原書頁碼、冊(cè)、卷等。
“中國基本古籍庫”光盤工程,由北京大學(xué)劉俊文先生主持,是北京大學(xué)的重點(diǎn)項(xiàng)目,1998年經(jīng)全國高校古委會(huì)的批準(zhǔn)立項(xiàng),正式啟動(dòng)。著名學(xué)者季羨林、國家圖書館館長任繼愈擔(dān)任編纂委員會(huì)主任,兩院院士羅霈霖、工程院院士李國杰擔(dān)任技術(shù)委員會(huì)主任,由北大方正技術(shù)研究院提供技術(shù)支持。全套光盤庫共500張,根據(jù)中國古籍自身的特點(diǎn),參照國際通行的圖書分類法分為哲科、史地、藝文、綜合4個(gè)子庫,20個(gè)大類,近百個(gè)細(xì)目。范圍涉及先秦至民國的重要典籍1萬余種,每種典籍有1個(gè)通行版本的全文信息,另附1-2個(gè)珍貴版本的圖像數(shù)據(jù),預(yù)計(jì)全文20億字,版本圖像2千萬頁?;究梢詽M足文史和其他方面研究者的研究需求。適用于中、英、日、韓多語種操作平臺(tái),并提供多重檢索功能。用戶只需懂得一些基本的電腦操作方法,就可在極短的時(shí)間內(nèi),查找所需的資料,每次檢索均可在5秒內(nèi)完成。
臺(tái)灣中央研究院《漢籍電子文獻(xiàn)》,始于1984年7月,前身是為開發(fā)二十五史全文數(shù)據(jù)庫而成立的“史籍自動(dòng)化計(jì)劃”,現(xiàn)已完成的數(shù)據(jù)庫,共約一億兩千萬字,其中較大型的是二十五史、醫(yī)藥文獻(xiàn)、明實(shí)錄、歷代史料筆記叢刊和十三經(jīng),這些數(shù)據(jù)庫已包括中國唐代以前的大部份重要文獻(xiàn)(道教資料除外);正在建設(shè)中的數(shù)據(jù)庫多達(dá)一億八千萬字,準(zhǔn)備逐步將宋代以下的重要文獻(xiàn)數(shù)字化。所有文獻(xiàn)通過人工與機(jī)器共進(jìn)行3次校對(duì)。在制作技術(shù)上得到中央研究院計(jì)算中心的支持。使用者可以在一秒之內(nèi),查到二十五史數(shù)據(jù)庫中四千萬字的任何字詞。
“國際敦煌學(xué)項(xiàng)目”(The International Dun huang Project,簡(jiǎn)稱IDP),旨在通過國際合作促進(jìn)敦煌寫卷的研究與保護(hù)。由英國圖書館開發(fā),開始于1993年。項(xiàng)目計(jì)劃逐步將全世界各國各收藏單位的敦煌文獻(xiàn)數(shù)字化。目前可在線查看英國圖書館收藏的3萬余件中亞寫本和印本文件,以及15000余件殘卷的高質(zhì)量彩色圖片。2001年3月,中國國家圖書館與英國國家圖書館簽署五年合作項(xiàng)目,加入此項(xiàng)目。中國國家圖書館國際敦煌學(xué)項(xiàng)目的數(shù)字化內(nèi)容主要包括:1、館藏敦煌文獻(xiàn)數(shù)字化。使用掃描圖像展示寫卷的全部內(nèi)容——正面、背面,甚至沒有文字的地方,圖像的清晰度與看原卷沒有區(qū)別。同時(shí)使用國際敦煌學(xué)項(xiàng)目提供的專門設(shè)計(jì)的4D數(shù)據(jù)庫詳細(xì)描述寫卷的物理性質(zhì)。2、研究論著目錄數(shù)據(jù)。包含四個(gè)專題書目數(shù)據(jù)庫:敦煌吐魯番學(xué)日文論著目錄數(shù)據(jù)庫;敦煌吐魯番學(xué)西文論著目錄數(shù)據(jù)庫;敦煌文獻(xiàn)研究論著目錄數(shù)據(jù)庫和敦煌吐魯番學(xué)學(xué)者檔案數(shù)據(jù)庫。3、中國國內(nèi)散藏敦煌文獻(xiàn)聯(lián)合目錄。