圖書館存儲公共數字資源

查一下國家圖書館的百度百科就能知道所以然。

國家圖書館是世界最大、最先進的國家圖書館之一，也是亞洲最大圖書館?；ヂ摼W時代，隨著信息創(chuàng)造、傳播和存儲的數字化，國家圖書館與時俱進，1995年就按照數字化、網絡化建設的思路，制定了《國家圖書館網絡建設發(fā)展規(guī)劃（1997-2000）》。2001年11月，國家圖書館二期工程暨國家數字圖書館工程正式立項。截至2017年12月，館藏數字資源總量達1323.35TB，包括電子圖書、期刊、報紙、特藏專藏和視聽文獻。

換言之，圖書館早已不是人們印象中的一個存滿紙質圖書的物理空間，而是一個以各種載體儲存人類創(chuàng)作信息的地方，圖書館的本質就是信息存儲空間。在軟件工程里面，library也有“信息庫”的意思，它包含構建應用所需的一切，如源代碼、資源文件等等。我大學讀的是軟件工程，一個室友留校在圖書館工作，當初以為他放棄了本業(yè)，現在看來，我誤會他了，圖書館數字化的大趨勢下，計算機、信息化、數字化都變得越來越重要。

互聯網公司有海量信息存儲在自己的數據庫，就像人人家里都有藏書一樣，但在社會中扮演書籍收藏和公共文化服務的則是圖書館，這樣再來看“國家圖書館互聯網信息戰(zhàn)略保存項目”就更容易理解。

按照官方說法：

“國家圖書館互聯網信息戰(zhàn)略保存項目”是一個旨在“建設覆蓋全國的分級分布式中文互聯網信息資源采集與保存體系，通過與國內重點數字文化生產和保存機構的合作，推動互聯網信息的社會化保存與服務，構建國家互聯網信息資源戰(zhàn)略保障體系?！?/p>

翻譯一下，就是國家圖書館啟動一個項目，希望可以采集和存儲有價值的中文互聯網信息，再將這些信息用于社會，比如政策決策和學術研究等非商業(yè)用途。

用國家圖書館官方公布的話術來說就是：

“互聯網信息成為人類文明和社會記憶的新載體，客觀反映著一定時期內政治、經濟、文化和社會等方面的變遷。易逝性和不可再生性，使互聯網信息的采集和保存尤為迫切，而隨著移動互聯網和物聯網的普及，互聯網信息的規(guī)模爆炸式增長，調動社會力量參與也成為互聯網信息采集和保存的趨勢?！?/p>

現已成為阿里副總裁的涂子沛在《大數據》一書也曾分享，美國政府運轉的底層基礎其實就是數據，“社會計算是大數據時代最大的亮點?！边@本書拿到了國家圖書館文津圖書獎，想必對國家圖書館管理層也有所啟發(fā)。

國家圖書館從2003年開始嘗試對互聯網資源進行采集和保存，2009年成立互聯網信息保存保護中心，對國內外政治、經濟、文化、科技等領域重要網站和重大專題資源進行采集保存，截至2018年，全國各級公共圖書館累計采集網站23000余個?！巴七M數字資源建設與保存工作”是國家圖書館“十三五”規(guī)劃的重要工作之一。在這樣的整體規(guī)劃下，國家圖書館啟動了互聯網信息戰(zhàn)略保存項目。

首家互聯網信息戰(zhàn)略保存基地同日在新浪掛牌，由國家圖書館與新浪共建。國家圖書館相關負責人透露：

“在中國境內開展互聯網業(yè)務、并在相關領域處于領先地位的企業(yè)機構，均可申請成為互聯網信息戰(zhàn)略保存基地共建主體。共建主體需確保其提供的信息數據完整、有效、安全，并擁有合法所有權、知識產權或已獲得相應授權。”

換言之，大多數互聯網公司都可加入這一項目，這是國家圖書館牽頭的一次社會化數據共享、存儲和應用實驗。

美國國會圖書館存儲Twitter

美國圖書館行業(yè)一直走在世界前列，一方面，圖書館歷史久、數量多、規(guī)格高，比如每個大城市都有歷史古老且富麗堂皇的公共圖書館，很多城市圖書館已成為旅游者打卡地。另一方面，受益于發(fā)達的IT產業(yè)，圖書館擁抱數字化技術較為積極。

美國國會圖書館是美國四個官方國家圖書館之一,是美國歷史最悠久的聯邦文化機構,已經成為世界上最大的知識寶庫。2010年，它就與Twitter達成一項合作協(xié)議，后者向前者提供所有公開的推文，已被刪除和屏蔽的除外，其認為，Twitter上簡短的信息可以將“國家故事”中微小、但卻非常重要的部分反映出來。

美國國會圖書館與Twitter的“Twitter保存項目”通過總部位于科羅拉多州博爾德市的社交媒體聚合網站Gnip落地，Gnip發(fā)現要做好這件看似簡單的“信息存儲”的事并不容易。

首先，數據高速膨脹。項目啟動三年后，2013年Gnip終于實現了對1700億條推文的存儲，當時已需要每天存儲用戶創(chuàng)造的4億條內容，這對存儲空間的消耗十分驚人。移動互聯網時代，隨著越來越多人使用Twitter，每天產生的內容高速膨脹，而且短視頻等新的內容形式被不斷引入——數據大爆炸是整個互聯網面臨的問題。

其次，數據峰值問題。Gnip直言，這一項目真正的挑戰(zhàn)來自高峰時期對tweets 的收集，比如2011年3月日本海嘯期等事件的爆發(fā)，當時，每秒鐘產生的tweet信息數量有好幾千。

再次，數據利用問題。碎片化的數據多且雜，要利用它們就需要大數據挖掘等技術。美國國會圖書館的想法是，先把數據存下來再說，怎么用來不及考慮，甚至連歸類都來不及做，到現在，這些數據也僅僅是存儲下來而已。

最后，數據開放問題。既然是公共圖書館，最大價值就是對全社會開放，數字內容也不例外。在美國國會圖書館啟動“Twitter保存項目”后，全世界研究人員都很感興趣，他們很快收到來自世界各地研究人員的約400個查詢請求，查詢的主題涉及文化、政治、醫(yī)療、經濟等諸多方面，然而數據量太大，技術實現不了——即使對2006年和2010年間產生的tweet查閱一邊也需要24個小時。

美國國會圖書館在2013年公布的白皮書中寫到：

“讓研究人員獲得這些數據的技術水平要明顯落后于這些數據的產生和傳播的技術水平。現在技術不足，而開發(fā)這些技術的成本非常高?！?/p>

當時，美國政府開始推行財政緊縮政策，國會圖書館經費緊張，此前其在數據收集上已花費一大筆資金，沒有更多資金投入到數據的挖掘、利用和開放上。2018年，這一項目再次遇到困難，Twitter信息爆炸式增長，服務器不堪重負，美國國會圖書館表示將不再收集Twitter上所有公開推文，而是保存他們認為重要的（比如特朗普的？），到現在為止，這一項目也僅限于數據存儲，依然未能實現對數據的挖掘、利用和開放，當然我們不用懷疑這樣做的價值：數據就是資產，未來終可挖掘。

不只是美國，澳大利亞、法國、瑞典和荷蘭等國都在90年代啟動了國家級的互聯網數據收集策略，相對而言，中國“國家圖書館互聯網信息戰(zhàn)略保存項目”雖然來得較晚，卻有望基于當下更加成熟的技術和更加獨特的模式，實現互聯網信息存儲、利用和開放的多贏。

國家圖書館憑什么存儲整個互聯網？

或許是看到了美國國會圖書館與Twitter合作遇到的困難，“國家圖書館互聯網信息戰(zhàn)略保存項目”采取了截然不同的模式。

與美國國會圖書館將Twitter內容存儲到合作方的服務器不同，“國家圖書館互聯網信息戰(zhàn)略保存項目”采取社會化、分布式和分級式的數據保存機制，國家圖書館根據保存規(guī)范、數據遴選機制和服務需要提供使用需求，互聯網公司負責內容存儲，這樣可以避免數據的重復存儲。

將所有互聯網數據進行二次存儲本身就不現實。互聯網內容十分多元，比如首家參與到這一項目的微博，覆蓋的數據類型比Twitter更多樣，不只是有短文字，還有短視頻、圖片和文章等大雜燴內容，財報顯示，2018年12月微博月活已達4.62億，12月日均活躍用戶數突破2億關口，微博上的存量內容，截至2018年12月已有多達2000多億條博文、500多億張圖片、4億個視頻和近5000億互動，每天博文增量超過1億，數據量巨大。如此海量數據，再轉存到單獨服務器即不可能，亦無必要。

正是基于社會化存儲的模式，“國家圖書館互聯網信息戰(zhàn)略保存項目”不像美國國會圖書館只與Twitter一樣“點對點”合作，而是“點對多”合作。國家圖書館牽頭，任何符合條件的互聯網公司都可申請加入其中。隨著移動互聯網的普及，互聯網正時時刻刻對真實世界進行映射，不僅是微博的博文，快手記錄真實世界的短視頻、知乎的帖子，都是寶貴的社會信息資源，都可以成為“國家圖書館互聯網信息戰(zhàn)略保存項目”保存的目標。

尤為重要的是，“國家圖書館互聯網信息戰(zhàn)略保存項目”不只是單純地保存數據，而是“保存、利用和開放”三管旗下，國家圖書館擅長的是學術和公信力，而不是技術，因此具體的應用依然是國圖提需求，互聯網公司負責信息處理。

比如在與新浪的合作中，互聯網數據分析報告、政府公開信息分析報告、社會群體的公益性信息服務，都有可能成為這些信息的用途。今天，AI技術特別是自然語言處理技術比前幾年已經成熟很多，擁有信息流、搜索等業(yè)務的微博和新浪在自然語言處理技術上也有深厚積累，這意味著，它們有能力對平臺上的海量互聯網內容進行挖掘，滿足公共社會的非商業(yè)公益查詢需求。

從“國家圖書館互聯網信息戰(zhàn)略保存項目”的設計來看，應該是看到美國國會圖書館與Twitter的合作模式的弊端后，進行的全新機制設計。雖然這一項目沒有形式上的“保存”，但事實上卻實現了互聯網公開信息的“歸檔”，同時可以實現利用和開放。

跟美國國會圖書館看中Twitter“小卻重要”內容能反映社會進程的邏輯一樣，國家圖書館首先與微博合作也是看中其UGC社會化屬性。微博上每個用戶以不同形式從個體視角記錄生活、探索世界和討論話題，形成了海量信息，這部分信息和其他互聯網平臺的信息是差異化的，而在國家圖書館此前對互聯網信息的采集和保護中，這類信息也不是重點，是從結構上豐富了國家圖書館的館藏信息，所以具有更大的價值。

不僅如此，最近幾年已經發(fā)生過很多因為公眾在微博上的參與而引起關注、最后推動事件獲得解決的案例，比如2017年網友舉報有人駕駛越野車追趕藏羚羊的案件、2018年的“疫苗造假事件”等?？梢哉f，微博不但是能全面反映社會發(fā)展進程的互聯網平臺，而且用戶在微博上發(fā)布的內容，本身就是社會發(fā)展進程的一部分。這種獨特的價值是其他平臺無法取代的。

如果“國家圖書館互聯網信息戰(zhàn)略保存項目”項目能夠成功，對于很多已經和即將開展互聯網信息保存的國家來說，應該會成為又一個“中國式樣本”。

如果覺得文章不錯，可以+我luochaozhuli進群（備注：進群）交流。

歡迎關注 BT商業(yè)科技（bttimes）

免責聲明：本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網站出現的信息，均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后，將會依法盡快聯系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。

美國“存儲Twitter”，中國也要給博文“建檔”

圖書館存儲公共數字資源

美國國會圖書館存儲Twitter

國家圖書館憑什么存儲整個互聯網？

下一篇

美國“存儲Twitter”，中國也要給博文“建檔”

圖書館存儲公共數字資源

美國國會圖書館存儲Twitter

國家圖書館憑什么存儲整個互聯網？

下一篇

國家圖書館憑什么存儲整個互聯網？