基于云計(jì)算的圖書館大數(shù)據(jù)服務(wù)探析
鄧新龍 2021/4/7 17:39:14
(接上頁)基礎(chǔ)設(shè)施服務(wù)。
在以云計(jì)算為基礎(chǔ)的統(tǒng)一構(gòu)架搭建完畢之后,圖書館可以不同類型業(yè)務(wù)系統(tǒng)數(shù)據(jù)等自有系統(tǒng)數(shù)據(jù)體系以及與數(shù)據(jù)填報(bào)系統(tǒng)相關(guān)的館情指標(biāo)體系、區(qū)域公共數(shù)字文化工程項(xiàng)目應(yīng)用為數(shù)據(jù)采集源頭。從不同類型以數(shù)據(jù)訪問接口為基礎(chǔ)的系統(tǒng)入手,開展基礎(chǔ)數(shù)據(jù)采集。以江蘇省公共圖書館為例,其數(shù)據(jù)來源主要包括項(xiàng)目基礎(chǔ)數(shù)據(jù)、全省館情指標(biāo)數(shù)據(jù)兩類。前者主要指圖書館自有系統(tǒng)數(shù)據(jù)內(nèi)容,包括圖創(chuàng)系統(tǒng)、圖星系統(tǒng)、匯文系統(tǒng)、Aleph500、力博系統(tǒng)等與館藏、讀者、流通、書目、訂購等核心數(shù)據(jù)庫表相關(guān)的系統(tǒng);后者則是設(shè)計(jì)一套涵蓋功能布局、場館建筑、館藏資源、設(shè)備設(shè)施、機(jī)構(gòu)信息、讀者服務(wù)、人員經(jīng)費(fèi)等與圖書館事業(yè)開展情況相關(guān)的指標(biāo)體系,采集公共圖書館、社區(qū)圖書館等合作分館、流通點(diǎn)數(shù)據(jù),并每間隔12個(gè)月進(jìn)行一次基本館情數(shù)據(jù)的更新,以便更加系統(tǒng)的判斷大數(shù)據(jù)服務(wù)能力。
2、處理及云儲(chǔ)存
在數(shù)據(jù)采集后,可以利用數(shù)據(jù)ETL處理工具,對(duì)采集的數(shù)據(jù)進(jìn)行轉(zhuǎn)換、分析、清晰、加載、集成處理[5]。同時(shí)將與讀者行為、館藏資源相關(guān)的數(shù)據(jù)信息進(jìn)行規(guī)范化、完整性校驗(yàn)以及標(biāo)準(zhǔn)化、歸一化處理,保障數(shù)據(jù)可以達(dá)到優(yōu)質(zhì)水平。具體操作時(shí),圖書館不僅需要對(duì)讀者狀態(tài)、館藏文獻(xiàn)類型、復(fù)本數(shù)據(jù)、借閱信息等數(shù)據(jù)字段進(jìn)行統(tǒng)一化處理,而且需要利用MARC解析構(gòu)建統(tǒng)一的字段形式。同時(shí)設(shè)置館藏的規(guī)則,配置中心標(biāo)準(zhǔn)化,為異常數(shù)據(jù)清洗、數(shù)據(jù)去重、數(shù)據(jù)合并提供良好的條件。
在數(shù)據(jù)信息歸一化處理后,可以開展數(shù)據(jù)存儲(chǔ)。即在HDFS分布式文件系統(tǒng)應(yīng)用的基礎(chǔ)上,將歸一化處理后的讀者行為、訪問時(shí)間、館藏資源信息存儲(chǔ)在HBase高性能、面向列分布式數(shù)據(jù)庫內(nèi)。為順利將異構(gòu)圖書館系統(tǒng)數(shù)據(jù)庫內(nèi)的館藏、書目、流通數(shù)據(jù)導(dǎo)出、讀者合并處理至系統(tǒng)數(shù)據(jù)倉庫內(nèi),圖書館應(yīng)盡量利用整合、分析、映射手段,將多個(gè)系統(tǒng)、多個(gè)數(shù)據(jù)庫、多個(gè)表結(jié)構(gòu)構(gòu)建為統(tǒng)一的倉庫結(jié)構(gòu),并在后臺(tái)對(duì)用戶手機(jī)號(hào)、身份證號(hào)、名稱等隱私信息進(jìn)行DES數(shù)據(jù)加密。
3、可視化展現(xiàn)
在云空間內(nèi),利用Spark工具,開展內(nèi)存級(jí)服務(wù)數(shù)據(jù)的批量化處理。具體數(shù)據(jù)包括圖書館資源結(jié)構(gòu)、資源發(fā)展、資源標(biāo)簽的特征提取以及資源群體畫像、個(gè)體畫像。同時(shí)經(jīng)Spark Steaming與相關(guān)業(yè)務(wù)有機(jī)關(guān)聯(lián),結(jié)合讀者對(duì)云空間的訪問行為、借閱行為歷史分析結(jié)果,進(jìn)行借閱量、資源訪問量、熱點(diǎn)資源、借閱率的匯總分析,在保障大規(guī)模流式數(shù)據(jù)處理系統(tǒng)的高效率運(yùn)用的同時(shí),為資源服務(wù)布局、資源采購、資源優(yōu)化調(diào)整提供數(shù)據(jù)支持。進(jìn)而根據(jù)業(yè)務(wù)主題,開展多維度大數(shù)據(jù)挖掘、剖析,經(jīng)豐富動(dòng)態(tài)的可視化圖表在多終端可視化平臺(tái)上展現(xiàn)結(jié)果[6]。比如,在云空間內(nèi),對(duì)讀者、資源、館情、時(shí)間等指標(biāo)數(shù)據(jù)開展個(gè)性化分析、聚類分析或分類分析,經(jīng)云空間與可視化平臺(tái)接口開發(fā),實(shí)現(xiàn)區(qū)域內(nèi)紙質(zhì)文獻(xiàn)的統(tǒng)一檢索、館情指標(biāo)數(shù)據(jù)采集以及讀者閱讀數(shù)據(jù)的終端分析查詢、大屏幕展示。其中在讀者屬性信息、活躍程度、行為信息、價(jià)值個(gè)性化分析方面,圖書館可以依據(jù)讀者自然屬性(籍貫、性別、年齡等)以及圖書館屬性特征(讀者狀態(tài)、讀者類別等),利用數(shù)據(jù)推薦與挖掘算法,挖掘讀者行為信息數(shù)據(jù)(借閱行為、資源閱讀特征、檢索行為、閱讀偏好等)。根據(jù)挖掘結(jié)果開展群體用戶畫像、個(gè)體用戶畫像,判斷用戶類型與相關(guān)文獻(xiàn)吸引力關(guān)注度,或者判斷讀者行為找尋其他相似行為讀者群體傾向,為業(yè)務(wù)主題范疇拓展、服務(wù)維度重構(gòu)提供依據(jù)。
在這個(gè)基礎(chǔ)上,圖書館可以依托云系統(tǒng),設(shè)計(jì)數(shù)據(jù)標(biāo)簽體系,進(jìn)行讀者、資源等數(shù)據(jù)分析結(jié)果進(jìn)行自定義標(biāo)簽管理。在自定義標(biāo)簽管理工作開展一段時(shí)間后,以讀者屬性標(biāo)簽、資源屬性標(biāo)簽為對(duì)象,開展關(guān)聯(lián)分析,并將關(guān)聯(lián)分析后的精細(xì)化標(biāo)簽融入某一標(biāo)簽下一級(jí)別體系內(nèi),更加全面地發(fā)現(xiàn)讀者個(gè)性化服務(wù)需求以及資源服務(wù)價(jià)值特征。
總結(jié):
綜上所述,云計(jì)算應(yīng)用基礎(chǔ)上的圖書館大數(shù)據(jù)服務(wù)是以高質(zhì)量的全媒體資源為核心,在現(xiàn)代化、智能化、巨量化數(shù)據(jù)資源推動(dòng)下,實(shí)現(xiàn)館員與受眾的同步感知,切實(shí)助力圖書館創(chuàng)新形態(tài)發(fā)展。因此,圖書館可以受眾需求為根本出發(fā)點(diǎn),以數(shù)字化發(fā)展為本質(zhì)追求,以巨量數(shù)據(jù)共享為最終目標(biāo),發(fā)掘云計(jì)算技術(shù)優(yōu)勢,智能化調(diào)動(dòng)館內(nèi)服務(wù)資源,實(shí)現(xiàn)圖書館服務(wù)價(jià)值的最大化,提高受眾群體綜合滿意度。
參考文獻(xiàn):
[1] 陸康. 智慧服務(wù)環(huán)境下高校圖書館大數(shù)據(jù)應(yīng)用價(jià)值研究[J]. 高校圖書館工作, 2019(005):36-41.
[2] 徐芳, 馬麗. 圖情檔領(lǐng)域大數(shù)據(jù)的研究現(xiàn)狀與發(fā)展趨勢分析[J]. 圖書館研究與工作, 2020(002):12-17.
[3] 劉中研, 楊清云. 大數(shù)據(jù)背景下基于云計(jì)算的圖書館信息服務(wù)變革與創(chuàng)新[J]. 內(nèi)蒙古科技與經(jīng)濟(jì), 2019(013):160-161. (未完,下一頁)
|