基于網(wǎng)格的面向?qū)I(yè)內(nèi)容的Web信息檢索體系結(jié)構(gòu)
(作者未知) 2009/10/18
摘要:利用網(wǎng)格、集群系統(tǒng)、XML等技術(shù)對分散的Web信息資源按地區(qū)按專業(yè)從邏輯上進(jìn)行了有效的組織和管理,設(shè)計了一個基于網(wǎng)格的面向?qū)I(yè)內(nèi)容的Web信息檢索體系結(jié)構(gòu),為用戶高效地獲取面向?qū)I(yè)內(nèi)容的信息資源提供了一種。
關(guān)鍵詞:網(wǎng)格計算,集群系統(tǒng),XML, Agent, Web
1、引言
近年來,互聯(lián)網(wǎng)得到了迅速的,網(wǎng)上信息資源愈來愈龐大,且信息具有量大、分散、異構(gòu)等特性,因此,傳統(tǒng)的Web信息檢索工具開始暴露出它性能低下的一面,具體體現(xiàn)在現(xiàn)有的信息檢索工具對用戶的要求常常是找出了幾千甚至上萬條記錄,根本無法從中再細(xì)找,或者找到的內(nèi)容和要找的內(nèi)容不是一個專業(yè)領(lǐng)域的,造成信息無效的現(xiàn)象。但隨著人們信息意識的增強,對信息內(nèi)容及信息服務(wù)的需求也在不斷的演變和發(fā)展,對獲取信息的專業(yè)化、實效性等方面有了新的要求。如何針對專業(yè)領(lǐng)域中特定的用戶群為他們提供專業(yè)的、度身量造的信息服務(wù),使用戶在盡可能短的時間內(nèi)有效的找到最需要的信息內(nèi)容是大家普遍關(guān)注的一個。本文利用網(wǎng)格計算、集群系統(tǒng)、XML等技術(shù)設(shè)計了一個基于網(wǎng)格的面向?qū)I(yè)內(nèi)容的Web信息檢索體系結(jié)構(gòu),它能將地理位置分散的、異構(gòu)的信息按地區(qū)按專業(yè)內(nèi)容從邏輯上進(jìn)行合理的組織和管理,為用戶快速、有效地獲取自己所需要的信息提供了一種方法。
2、基于網(wǎng)格的面向?qū)I(yè)內(nèi)容的Web信息檢索體系結(jié)構(gòu)的設(shè)計
網(wǎng)格計算是近年來國際上興起的一種重要信息技術(shù),其目的是將網(wǎng)上各種資源組織在一個統(tǒng)一的大框架下,為解決大型復(fù)雜計算、數(shù)據(jù)服務(wù)和各種信息服務(wù)提供一個方便用戶使用的虛擬平臺,實現(xiàn)互聯(lián)網(wǎng)上所有資源的全面連通,實現(xiàn)信息資源的全面共享。
為解決不同領(lǐng)域復(fù)雜計算與海量信息服務(wù)問題,人們以網(wǎng)絡(luò)互連為基礎(chǔ)構(gòu)造了不同的網(wǎng)格,他們在體系結(jié)構(gòu),要解決的問題類型等方面各不相同,但網(wǎng)格計算至少需要具有三種基本功能:資源管理、任務(wù)管理、任務(wù)調(diào)度。本文設(shè)計的信息檢索體系結(jié)構(gòu),圍繞網(wǎng)格計算的基本功能及信息檢索的特點,主要有以下三個層次組成:見圖1
(1) 網(wǎng)格結(jié)點:結(jié)點是網(wǎng)格計算資源的提供者,本系統(tǒng)主要是由一系列的集群系統(tǒng)組成,它們在地理位置上是分布的,構(gòu)成了一個分布檢索群體,作為信息共享的基礎(chǔ)結(jié)構(gòu)平臺。集群系統(tǒng)負(fù)責(zé)整個集群范圍內(nèi)的信息管理,維護(hù)和查詢。
(2) 網(wǎng)格計算中間件:中間件是信息資源管理和用戶任務(wù)調(diào)度、任務(wù)管理的工具。它是整個網(wǎng)格信息資源管理的核心部分,它根據(jù)用戶的信息請求任務(wù),在整個網(wǎng)格內(nèi)負(fù)責(zé)信息資源的匹配、定位,實現(xiàn)用戶任務(wù)到集群系統(tǒng)的映射。
(3) 網(wǎng)格用戶層:主要為用戶提供接口,支持用戶對所需要的信息資源進(jìn)行描述、創(chuàng)建、提交等。
本系統(tǒng)的主要思想是在邏輯上將地理位置分散的、異構(gòu)的信息劃分、組建成多個集群系統(tǒng),集群系統(tǒng)對集群內(nèi)的資源進(jìn)行管理和任務(wù)調(diào)度,再利用網(wǎng)格中間件對各集群系統(tǒng)進(jìn)行管理,從而形成對整個網(wǎng)格資源的管理,并對用戶的信息需求進(jìn)行統(tǒng)一的管理和調(diào)度。這種管理模型既可以尊重各個集群系統(tǒng)的本地信息管理策略,又可利用中間件在全局意義上對網(wǎng)格信息資源進(jìn)行管理。
2.1 集群系統(tǒng)的設(shè)計
由于Web信息資源數(shù)量十分龐大,用戶在利用現(xiàn)有搜索引擎檢索信息時面臨一個海量數(shù)據(jù)的查詢問題,往往造成在消耗巨大的通信資源后依然存在資源查不準(zhǔn)、查不全的問題;趩我幌到y(tǒng)映射的Web服務(wù)器集群系統(tǒng)能把若干服務(wù)器用局域網(wǎng)連接成一個整體,并使其從客戶端看來就如同一臺服務(wù)器在服務(wù),這使得在邏輯上合并、組織地理位置分布的信息資源成為可能。因此本文首先考慮采用分布協(xié)作策略,將Web信息資源按地區(qū)按專業(yè)內(nèi)容分割,一方面使信息資源數(shù)量相對縮小,便于數(shù)據(jù)的組織、管理和維護(hù),另一方面按專業(yè)內(nèi)容易于制定一個公用的XML規(guī)范,便于集群內(nèi)各類信息資源的描述,從而可建立一個基于XML的面向?qū)I(yè)內(nèi)容的信息集成系統(tǒng)。集群系統(tǒng)的具體結(jié)構(gòu)見圖2。
集群服務(wù)器主要由接口Agent,基于專業(yè)內(nèi)容的XML信息集成系統(tǒng)、資源服務(wù)Agent、資源發(fā)布Agent等組成。其中接口Agent根據(jù)任務(wù)提供的接口參數(shù)登記、接收、管理各種信息資源請求任務(wù),并提供安全認(rèn)證和授權(quán)。資源服務(wù)Agent根據(jù)信息資源請求任務(wù),利用XML信息集成系統(tǒng)提供的數(shù)據(jù),為用戶提供實際的資源檢索操作,并將檢索結(jié)果信息發(fā)送給用戶。資源發(fā)布Agent用于向網(wǎng)格中間件提供本地信息資源的邏輯數(shù)據(jù)及接口參數(shù)。
下面主要說明基于專業(yè)內(nèi)容的XML信息集成系統(tǒng)的構(gòu)造方法:
XML(the eXtensible Markup Language)是 W3C于1998年宣布作為Internet上數(shù)據(jù)表示和數(shù)據(jù)交換的新標(biāo)準(zhǔn),它是一種(未完,下一頁)
|