自20世紀90年代初以來,數(shù)字技術已從根本上改變了我們的生活方式。如今,我們即將開始全面轉型——將所有以模擬形式記錄的人類知識,轉換為數(shù)字形式?!段磥碇啊穾黄鸹厥淄簦瑫诚胛磥?。
巴伐利亞州立圖書館的藏書,正在被掃描并上傳到互聯(lián)網(wǎng)。
楚澤(Zuse)、歐洲核子研究中心(CERN)和扎克伯格(Zuckerberg)——這三個名字標志著數(shù)字革命進程中的重要里程碑。早在1941年,Konrad Zuse在柏林研制出了世界上**臺可以正常工作的計算機。他稱這臺外形龐大的數(shù)字計算機器為“Zuse Z3”。1991年,就職于瑞士歐洲核子研究中心的Tim Berners-Lee開發(fā)的萬維網(wǎng),向全球公眾開放。Web技術進一步變革了人們的通信方式,為谷歌、亞馬遜以及不計其數(shù)的其他企業(yè),鋪平了道路。后來,2004年,Mark Zuckerberg創(chuàng)建了名為臉書()的社交網(wǎng)絡。如今,得益于臉書及類似網(wǎng)絡,近20億人獲得了數(shù)字身份。
計算機、Web和臉書,都基于數(shù)字技術。數(shù)字化的含義,就是將模擬信息,如文本、聲音、圖像和視頻等,轉換為易于存儲的、由大量零和一組成的二進制代碼。一經(jīng)創(chuàng)造,這樣的數(shù)字項就能被無限量地復制,而質(zhì)量絲毫不受影響,并且可以通過互聯(lián)網(wǎng),轉瞬間傳遍全球。數(shù)字技術為企業(yè)創(chuàng)造了全新的銷售渠道類型,但它也帶來了新的問題,如違法拷貝數(shù)據(jù)。始于20世紀90年代的互聯(lián)網(wǎng)熱潮,掀起了一場前所未有的數(shù)字化浪潮。1993年,在全球范圍內(nèi),只有大約3%的信息以數(shù)字形式存儲,但到2007年,這個比例已經(jīng)飆升至94%。而且,這一趨勢愈演愈烈,每天都有大量新的數(shù)據(jù)被數(shù)字化。
數(shù)字世界*重要的先驅之一是德國發(fā)明家Rudolf Hell,他被譽為“圖形行業(yè)的愛迪生”,曾被授予“德意志聯(lián)邦共和國大十字勛章(Grand Merit Cross)”,并且曾榮獲“古騰堡大獎(Gutenberg Prize)”和“魏納獎(Werner-von-Siemens-Ring)”。Hell是公認的傳真機和掃描機之父。1980年,他將突破性的Chromacom數(shù)字圖像處理系統(tǒng)商業(yè)化。20世紀80年代初期,當時還是西門子子公司的HELL公司,受雇于梵蒂岡圖書館,掃描并以數(shù)字形式復制珍貴典籍,以便向公眾開放閱讀。20世紀90年代,數(shù)字化進程變得更加廣泛,也更具系統(tǒng)性。譬如,1990年,西門子利多富公司為莫斯科的克里姆林宮博物館安裝了一套數(shù)字處理系統(tǒng),有史以來**次,以數(shù)字形式為俄羅斯沙皇的全部藝術藏品編目錄。然后,將所生成的數(shù)字圖像和信息,記錄并分類保存到圖像數(shù)據(jù)庫中。
掃描半開的書籍。如今,許多機構都想為其所擁有的全部模擬信息,制作數(shù)字拷貝。在這方面,坐落于慕尼黑的巴伐利亞州立圖書館堪稱典范,其數(shù)字化中心擁有各式各樣的設備,在德國*。巴伐利亞州立圖書館的副館長Klaus Ceynowa說:“我們使用了26套不同的掃描系統(tǒng),包括4臺每小時能夠處理*多2000頁的全自動掃描機器人。我們有兩名操作人員,每人看管兩臺機器人。這個系統(tǒng)不止是速度快,為了保護書籍,書籍只需翻開60度。該系統(tǒng)的掃描棱鏡就可插入半開的書頁之間。它能清楚無誤地讀取頁面內(nèi)容,然后翻頁,繼續(xù)執(zhí)行掃描?!?
巴伐利亞州立圖書館的全部藏書(左圖)正在被轉換為數(shù)字形式。目前,已有一款應用程序,可用于閱讀其*珍貴的文化寶藏。
自2007年起,巴伐利亞州立圖書館一直在與谷歌公司合作開展“谷歌數(shù)字圖書館”項目,通過這個項目,巴伐利亞州立圖書館的100萬冊藏書,將實現(xiàn)數(shù)字化并放到互聯(lián)網(wǎng)上供公眾閱讀。其所涉及的書籍,均成書于1601年至1874年期間,不再受版權保護。Ceynowa解釋道:“每個星期,經(jīng)谷歌在其位于德國的掃描中心將之轉換為數(shù)字形式后,我們要發(fā)布大約5000冊圖書。谷歌承擔掃描費用,并將數(shù)字拷貝提供給我們,以保存在我們自有的數(shù)據(jù)庫中。1601年之前和1874年之后的所有著作,包括從中世紀傳下來的極其寶貴的手抄文稿,均在我們自己的數(shù)字化中心進行轉換。按計劃,谷歌項目將在今年年底之前結束。我們已經(jīng)將幾乎全部100萬冊藏書,上傳至我們網(wǎng)站的數(shù)字圖書館,任何人都可以在這里閱讀這些書籍?!?
盡管如此,巴伐利亞州立圖書館的全面數(shù)字化進程遠未走到終點。Ceynowa表示:“我們的工作只是開始,因為我們迄今為止所做的事,為連接和重新組合數(shù)字信息創(chuàng)造了不同的可能性?!卑头ダ麃喼萘D書館已經(jīng)開發(fā)了數(shù)款移動應用程序,包括一款名為“Ludwig II”的應用程序。這款應用程序允許人們按其所在位置,定制查閱與路德維希二世的“童話城堡”有關的歷史資料、圖像和文獻。譬如,當人們站在路德維希二世在慕尼黑建造的Residenz宮殿的正前方時,他們可以利用其智能電話的照相模式,來獲取這座宮殿著*的Wintergarden的實時圖像——這座花園早已湮沒在歷史的塵埃中。Wintergarden是一座建在Residenz宮殿屋頂?shù)幕▓@,奇花異草掩映其間,人工湖泊波光粼粼——通過這款應用程序,人們可以欣賞到這美輪美奐的歷史景色。
現(xiàn)已可在網(wǎng)上閱讀巴伐利亞州立圖書館的近百萬藏書。
民事登記數(shù)字化。博物館和圖書館只是*后一批充分享用全面數(shù)字化益處的機構;政府機關和工業(yè)企業(yè)早已開始利用這項技術?,F(xiàn)在,德國的16個聯(lián)邦州均計劃將其所有民事登記數(shù)字化。為此,過去兩年來,西門子中央研究院在Bernt Andrassy博士的指導下,受托開展了一項可行性研究。Andrassy解釋道:“德國的土地基本上被劃分為若干區(qū)塊。登記制度向這些區(qū)塊分配了一定的權利。因此,登記制度是德國土地使用的中央監(jiān)管機制。目前,各聯(lián)邦州已經(jīng)掃描并歸檔了過去50年來的全部登記文件,西門子中央研究院為它們提供了所需的重要系統(tǒng)組件。我們收集了大量數(shù)據(jù),總共多達約5億頁pdf文件?!?
這個宏大的數(shù)字化項目,提出了艱巨的挑戰(zhàn)。譬如,西門子團隊不得不開發(fā)自動化軟件,以識別單個單詞,理解關鍵問題,以及發(fā)現(xiàn)掃描文件內(nèi)的關聯(lián),包括打字文件、劣質(zhì)文件拷貝和含有多處修改的文件。Andrassy解釋道:“這款軟件必須知道的一件事,是文件的那個部分含有房地產(chǎn)所有者姓名,哪些部分有關于房地產(chǎn)面積、是否貸款以及由哪家銀行發(fā)放貸款的信息?!睘榱私鉀Q這些問題,專家不得不費盡心力編寫程序。Andrassy說:“我們的軟件可以識別出所要求的信息,并自動填入輸入掩碼。操作人員僅需檢查數(shù)據(jù)填寫是否完整?!蹦壳埃髀?lián)邦州計劃為這個龐大的歸檔工程發(fā)布招標公告?!按械怯浫繉崿F(xiàn)數(shù)字化之后,每個州都將設立其自有用戶的門戶網(wǎng)站,以便具有合法利益的個人和機構,快速、簡便地調(diào)閱有關文件——譬如,公證機構、銀行和稅務機關等?!?
勃蘭登堡州立檔案館保存的一份1743年的手寫登記(左圖)和法蘭克福區(qū)的一名員工展示的當代電子登記(右圖)。
誤讀可能導致數(shù)百萬損失。Andrassy在登記數(shù)字化項目中獲得的經(jīng)驗,也適用于工業(yè)領域。Andrassy表示:“我們正在研制一款軟件包,它能自動登記招標公告中的客戶要求,然后,將之與以往項目留下的數(shù)字化文檔中的數(shù)據(jù)進行比對。這樣的招標公告文件通常采用pdf格式,并且往往厚達上千頁。過去,必須人工摘錄每一項技術規(guī)格,然后由專家評估,如輪機*大轉速,或下午4點以后聯(lián)合循環(huán)發(fā)電廠的*大允許噪聲級等?!?
但是,要求和技術規(guī)格列表通常很長,哪怕誤讀一個句子,也會在日后導致數(shù)百萬歐元的損失??紤]到這一點,慕尼黑的專家開發(fā)了一項可靠的搜索系統(tǒng)技術,它能發(fā)現(xiàn)所做的每一處變更,并通知用戶。其*終目的是,讓這款程序將技術規(guī)格作為語義對象,來理解并正確解讀。Andrassy解釋道:“我們所開發(fā)的軟件,分為三個工作階段,我們分別稱之為‘標書檢索’、‘標書比對’和‘標書追蹤’。**個步驟是一個非常高效的過程,允許用戶找到招標文件中的技術規(guī)格。在第二個步驟中,軟件將從以往項目的文件中檢索類似的技術規(guī)格。這樣一來,就可以利用以前所做的相應評估,從而避免錯誤。在*后一個步驟中,軟件將在招標文件的所有新版本中,跟蹤所確定的技術規(guī)格?!?
這種方法的優(yōu)點顯而易見,因為自動評估大大加快了評估過程,并且有助于盡早發(fā)現(xiàn)在類似項目中犯下的錯誤。此外,這個系統(tǒng)支持客戶在*后一刻作出更改,并且快速分析其后果,并將之整合到項目中。
轉瞬間完成檔案梳理。全面數(shù)字化僅僅是開端。不論是圖書館、政府機關,還是工廠,都在創(chuàng)造大量數(shù)字知識,可以采用全新的方式來使用這些知識。因此,今后幾年乃至幾十年的開發(fā)工作,將側重于基于軟件的工具,這些工具需要在轉瞬間完成數(shù)字檔案篩查、理解語義關聯(lián)、以及分類并重新組合信息。Ceynowa表示:“譬如,學者將能夠快速確定‘novel’一詞*早見于哪部手稿。他們不必鉆進故紙堆,查遍世界各地圖書館中的數(shù)百份文件,就能得到答案。這將徹底變革某些研究學科?!?
Andrassy補充道:“可以更加快速地查閱諸如司法判例,以及以往對罕見疾病的醫(yī)療診斷等信息。盡管如此,智能數(shù)據(jù)采掘仍然無法替代人,不過它能為人們給予支持。換句話說,要打造出能夠讀懂客戶的pdf文件,將之與數(shù)據(jù)庫進行比對,然后立即知道它要制造什么物品及如何制造該物品的自治工廠,還有很長一段路要走?!?