WEB中圖像的檢索技術(shù)研究
資源天下 2018/10/29 17:23:28
(接上頁)索引擎必須能夠處理以下幾個(gè)問題:
(1)網(wǎng)頁分類
(2)自然語言處理
(3)搜索策略調(diào)度和協(xié)作
(4)面向特定用戶搜索。
所以,現(xiàn)在有很多的網(wǎng)絡(luò)檢索工具,就是說搜索引擎使用了智能的檢索手段用來增強(qiáng)它的檢索能力,而圖片檢索正是其中的一大塊內(nèi)容。
隨著網(wǎng)上多媒體的越來越廣泛應(yīng)用,對圖像的檢索需求將會(huì)越迫切。未來的圖像檢索技術(shù)將是網(wǎng)絡(luò)技術(shù)和基于內(nèi)容的圖像庫檢索技術(shù)的融合。隨著多媒體信息處理技術(shù)的日趨發(fā)展和深化,圖像信息加工、處理和檢索標(biāo)準(zhǔn)的陸續(xù)出臺(tái),網(wǎng)上的圖像檢索技術(shù)也會(huì)日趨完善,而圖像搜索引擎也將成為網(wǎng)絡(luò)新寵。
第二章 基于Web的圖像搜索
在網(wǎng)絡(luò)技術(shù)和計(jì)算機(jī)技術(shù)迅猛發(fā)展、多媒體應(yīng)用愈發(fā)普及的現(xiàn)在,圖像檢索和圖像應(yīng)用已成了當(dāng)今網(wǎng)頁中不可缺少的一個(gè)重要部分。在能夠?qū)崿F(xiàn)對網(wǎng)頁中文本信息提取的同時(shí),如何再為用戶抽取所需的圖片資料是信息檢索中一個(gè)值得研究的問題,F(xiàn)有的檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索,往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象,特別是在網(wǎng)絡(luò)信息時(shí)代,利用關(guān)鍵詞匹配很難滿足人們檢索的要求。當(dāng)然現(xiàn)在的人們也可以利用圖像的內(nèi)容特征去搜索所需的圖片信息,但現(xiàn)在這項(xiàng)技術(shù)就是到現(xiàn)在也還不夠成熟,其搜索效率還是不能令人滿意。
如今在Web中處理圖像檢索有很多成熟的技術(shù),如基于Web的數(shù)據(jù)倉庫、Web數(shù)據(jù)挖掘、Web數(shù)據(jù)源集成技術(shù)等。為此,必須為Web建立適當(dāng)?shù)臄?shù)據(jù)模型,利用數(shù)據(jù)模型有效地從Web中獲取信息。為了處理Web的中文數(shù)據(jù),還必須使用一系列中文自然語言處理技術(shù)。比較基礎(chǔ)的技術(shù)有自動(dòng)分詞、人名和機(jī)構(gòu)名的自動(dòng)識(shí)別、自動(dòng)標(biāo)引等,其他像信息抽取、自動(dòng)文摘、文檔自動(dòng)分類、中文概念詞的自動(dòng)發(fā)現(xiàn)以及概念詞之間的語義關(guān)系的確定等技術(shù)都必不可少。實(shí)現(xiàn)上述技術(shù)需要扎實(shí)的積累和自然語言處理功底。
而如何利用現(xiàn)有成熟的傳統(tǒng)的圖片檢索手段,研究出快捷方便而且能迅速提高檢索效率的方法,本文將依據(jù)現(xiàn)有的搜索引擎和檢索手段的研究找到網(wǎng)頁中文本與圖像之間的內(nèi)在特點(diǎn)和聯(lián)系,改進(jìn)原有的文本搜索使用的模式和方法,提出新的文本相似的匹配算法,并引入檢索的反饋技術(shù),把這些技術(shù)引入到圖像檢索中,使得搜索手段更易于實(shí)現(xiàn)和提高檢索效率。
2.1文本與圖像之間的關(guān)系
............
為決定ITW,IAW,ICW,PTW在相似度的計(jì)算中的權(quán)值,測試了從0.1~ 1.0的所有系數(shù)。最終可以得出ICW,ITW,IAW,PTW的權(quán)值分別為0.4、0.3、0.2、0.1時(shí),可以比較合理地反映出圖像和這些文本的相關(guān)性,從而保證檢索準(zhǔn)確性。
結(jié)束語
在了解了搜索引擎搜索原理公式以及反饋原理之后,我們就能夠依據(jù)其理論做出相應(yīng)的搜索引擎,并且能作出搜索效果。但是為了更好的使用,還需要去仔細(xì)的給文檔進(jìn)行更好的分類,更多的對引擎進(jìn)行反饋訓(xùn)練的查詢等等,使得Web搜索引擎能具有更加好的智能性以及個(gè)性化特色。
附件下載:WEB中圖像的檢索技術(shù)研究
|