新一代業務數字化轉型先鋒
資訊推薦
聯系我們
地址:北京市海淀區學院南路五十五號中軟大廈A座2層
聯系電話:010-62146979
公司郵箱:market@ca-css.com
傳真:010-62144804
國際互聯網信息保存聯盟年會參會報告

以下文章來源于“中國國家圖書館·中國國家數字圖書館網站”

?

背景解讀或引言:國家圖書館于2007年加入國際互聯網保存聯盟(IIPC),本文是國家圖書館代表團于2015年參加國際互聯網信息保存聯盟大會形成的總結報告。報告指出國際信息技術發達國家在該領域已深耕多年,積累了豐富的實踐經驗和保存了大量的互聯網內容。

?

以下為正文:

  2015年4月27日-5月1日,由數字資源部研究館員張煒和信息技術部工程師童忠勇組成的代表團,參加了在美國斯坦福大學召開的國際互聯網信息保存聯盟會議。會議期間,代表團還參觀了美國互聯網檔案館(Internet Archive)。

?

  一、互聯網信息保存聯盟介紹

?

  國際互聯網保存聯盟(IIPC)是2003年在法國國家圖書館成立的國際性組織,該組織致力于推動網絡存檔資源的廣泛獲取和利用,進而促進學術研究和文化遺產保護。目前該組織成員有49個,涵蓋國家圖書館、區域組織、非盈利基金會、學校圖書館和檔案館等,其中始創成員11個,分別為:法國國家圖書館、英國國家圖書館、芬蘭國家圖書館、瑞典國家圖書館、冰島國家與大學圖書館、加拿大圖書館和檔案館、美國國會圖書館、挪威國家圖書館、澳大利亞國家圖書館、丹麥皇家圖書館以及美國互聯網檔案館。我館于2007年7月成為該組織成員。

?

  二、參會基本情況

?

  國際互聯網信息保存聯盟會議每年舉辦一次,本次會議主題既有針對網頁存檔的前沿技術探討,也有成員機構的實踐經驗分享。從形式上分為公開會議和工作組會議。

?

 ?。ㄒ唬┕_會議的主要內容

?

  軟件保存

?

  Google首席互聯網專家Vinton Cerf先生以《數字牛皮紙:經過若干世紀的數字對象交互》(Digital Vellum:Interacting with Digital Objects Over Centuries)為主題,進行主旨發言,闡述如何保存創建的數字對象的有效內容??▋然仿〈髮W計算機科學學院Mahadev Satyanarayanan教授針對“橄欖檔案”做了相關報告。

?

  網絡全局

?

  丹麥奧胡斯大學副教授Niels Brügger和丹麥網絡檔案(Netarchive)高級研究員Ditte Laursen從分析法與方法學角度闡釋了如何進行丹麥國家網絡域名發展研究項目。英國國家圖書館網絡存檔技術負責人Andy Jackson介紹了“英國網絡檔案”十年以來的保存成績及工作回顧。

?

  小數據與大數據研究

?

  德克薩斯AM大學副教授Cathy Marshall進行主旨發言,題為《我們是否該存檔Facebook?為什么用戶錯了而美國國家安全局正確》,芝加哥Loyola大學助理教授Meghan Dougherty、奧胡斯大學Annette Markham以及荷蘭Groningen大學助理教授Susan Aasman介紹了日常生活中“小數據”的存檔,倫敦大學歷史研究所教授Jane Winters、英國國家圖書館網絡存檔項目負責人于虹、牛津互聯網研究所研究助理Josh Cowls分享英國主域“大數據”藝術與人文項目概況、檔案訪問開發和使用方法。

?

  訪問服務

?

  美國原子能研究中心洛斯阿拉莫斯國家實驗室的Herbert VandeSompel從增加可視化、支持第三方開發、增加穩健性、增加范圍四個方面詳述了“紀念品”(Memento)及其基礎設施現狀。葡萄牙網絡檔案的Daniel Gomes以網絡檔案信息檢索為題作了報告,他提到自1996年以來,全球網絡信息檔案項目共有17PB資源、5340億個文件。

?

  爬蟲以外的新存檔應用

?

  Ilya Kreymer針對建設新的存檔服務“網絡記錄器”(WebRecorder)做了報告。每個用戶都可使用“網絡記錄器”記錄網頁、下載上傳并回放WARC。弗吉尼亞理工大學Zhiwu Xie從動機、技術背景、UWS系統架構、演示、未來工作五個方面介紹了存檔交易記錄的不間斷網絡服務(Uninterruptable Web Service,UWS)。

?

  網絡信息采集內容分析

?

  弗吉尼亞理工大學的Mohamed Farag以《網絡檔案內容分析:災難事件案例研究》為題做了報告,從建設事件檔案、事件模型與展示、評估檔案質量、質量評估工具與結果、未來工作五個方面展開論述。

?

  丹麥皇家圖書館的Eld Zierau針對確認本國頂級域名以外的互聯網上的本國內容進行報告,解釋分別從互聯網檔案館和丹麥互聯網檔案獲取采集數據的不同辦法及流程,并對兩種結果進行對比分析。

?

  研究數據集以及數字化考古的采集

?

  互聯網檔案館的Jefferson Bailey針對作為研究數據集的網絡檔案進行報告,詳論了網絡數據的詮釋學,以及研究服務的三種數據集及其優點:網絡檔案轉化為關鍵元數據(WAT)、縱向圖形分析(LGA)、網絡檔案命名實體(WANE)。

?

  斯坦福大學圖書館Ahmed AlSum介紹了借助Wget和一些手動更改恢復美國的舊網站,,將1992-1999年的SLAC網站備份材料轉化成WARK和CDX文件,讓它們如當初采集的一樣。只有實現了這種轉換,老舊的網站才能在Open Wayback系統中得以正確再現。

?

  WARC格式數據標準

?

  亞歷山大圖書館的Youssef Eldakar介紹了如何進行網絡檔案的復件刪除記錄WARCRefer。Clément Oury主持了WARC標準修訂討論。丹麥皇家圖書館的Eld Zierau針對作為所有保存數據材料的包裝格式WARC為題,作了報告。

?

  WARC的標準化過程始于2006年,2009年獲得ISO28500認證。

?

 ?。ǘ┕ぷ鹘M會議的主要內容

?

  采集工作組

?

  IIPC“采集工作組的三位成員Sara Aubry,Roger Coram和Kristinn Siguresson分別作了三場相關報告。Sara Aubry的報告題目為《收費墻號模式下的數字報紙采集》,Roger Coram以《使用PhantomJS補充爬行》為題作了報告。于虹還對Open Wayback 2.X.X版本的開發和發布作了報告。Tom Cramer作了題目為《數字圖書館應用程序界面與合作軟件開發》的報告。

?

  訪問工作組

?

  有六場報告,討論議題分別為數據挖掘和WAT文件的格式、工具與使用案例;網絡檔案的全文檢索和Apache Solr軟件。Perter Stirling的報告題目為《法國國家圖書館使用WAT繪制第一次世界大戰》,Sara Aubry和Vinay Goel以《創建WAT文件的WAT格式與工具》為題,介紹了WAT格式以及它和WARC格式之間的關系、創建WAT文件的JAVA庫。

?

  Vinay Goel和Andy Jackson針對WAT格式在互聯網檔案館和英國國家圖書館的應用和挑戰做了主題報告。Apache Solr所屬公司Lucidworks員工以Apache Solr為主題,說明Apache Solr是世界最受歡迎的檢索途徑。

?

  Andy Jackson闡述了英國國家圖書館網絡檔案的全文檢索架構、檢索詞設置、訪問系統特性、用戶界面索引架構、Hadoop索引架構、存儲分區與Solr云,其中檢索詞設置包括詞干提取、多種詞匯過濾、同義詞、關鍵詞等。哥倫比亞大學人權檔案研究中心的Alex Thurman介紹了“哥倫比亞大學人權網絡檔案”基于Solr4.2版本的全文本檢索與元數據檢索。

?

  三、參觀情況

?

  會議于4月29日安排參會代表們參觀了美國互聯網檔案館。該檔案館成立于1996年,由Alexa創始人布魯斯特·卡利創辦。提供數字數據如網站、音樂、動態圖像、和數百萬書籍的永久性免費存儲及獲取。位于舊金山靠近著名的金門大橋,由創辦人購買的一個教堂改建而成。由于聯盟就是由IA發起成立的,所以聯盟的LOGO就是這所教堂的正門外觀。教堂二層大廳被設計成了報告廳,高高的拱形圓頂、精美的圖畫,一排排用于禱告的椅子,都在訴說著它過去的歷史,同時該檔案館也定期收錄并永久保存全球網站上可以抓取的信息,目前其存儲的網頁數據總量已經將近9PB,并以每周20TB的速度增長。也為其他國家的類似項目提供技術和存儲上的支持。

?

  四、幾點建議

?

  一是對網絡信息保存重視程度的亟待提高。

?

  對網絡信息進行保存,能夠及時、有效地記錄時代文明發展脈絡,提煉、積累與傳承中華優秀文明最新成果及其生動展現形式,有利于講好中國故事,傳播中國聲音,提升我國在信息環境下的文化軟實力,不斷增強中華文化競爭力。與國外發達國家相比,我國網絡信息保存工作整體差距還較大,應重點加強社會上下對網絡信息保存工作的認識,加大在政策法規、資金投入等方面對網絡信息保存的支持力度,使我國網絡信息保存工作為國家安全、政府決策、經濟發展和社會管理等方面提供科學權威的智力支持。

?

  二是要勇于走出去借鑒和學習最新的經驗和技術。

?

  雖然國家圖書館網絡信息保存項目經過了將近10年的建設,但是在網絡信息的存檔方面,我們跟其他國家圖書館和文化機構在技術能力、研發能力、政策保障、宣傳等方面差距還很大,在軟硬件配置和功能開發上都還處于比較淺層和簡單的應用水平。當前美國、英國等網絡信息保存工作較為成熟和完善的機構組織大多為IIPC成員,此次參會和對當地的走訪參觀收獲和感悟良多,一些工作細節也在溝通中得以解決。希望通過增加這樣的學習機會,使網絡信息采集工作在與國際同行的“知己知彼”交流中從采集策略的制定、到技術應用的研發、再到網絡信息資源的展示和服務能夠得到質的提升。

?

  三是積極開展全方位的合作,借力發展全國網絡信息采集工作。

?

  通過多種渠道來加大我館網絡保存保護項目的宣傳力度,包括在國際方面,積極參加IIPC年會并與國際同行開展交流,了解國際最新技術和實踐進展,擴大我館在國際上影響力,增強與國外相關組織機構的合作可能性。在國內,可經過中國圖書館學會成立網絡信息保存保護專門委員會,聘請專家智囊團為項目建設出謀劃策,推動業界對該領域的關注與研究。同時,利用數字圖書館推廣工程平臺使業界了解相關工作的意義和必要性,并通過國家圖書館的示范效應,帶動公共圖書館共同加入網絡信息采集與保存工作中,形成以國家圖書館為中心,各省市圖書館為節點的多層級、分布式的資源組織與服務體系。


掃一掃關注冠群微信

版權所有 北京冠群信息技術股份有限公司 Copyright ? 2019-2022
犀牛云提供企業云服務
久久久国色天香亚洲女人天堂,99久久免费高清热精品6国色天香,亚洲精品永久WWW国色天香,视频一区亚洲视频无码韩国色