WEB中圖像的檢索技術(shù)研究
資源天下 2018/10/29 17:23:28
第一章 前言
1.1引言
伴隨網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,圖片的來源不斷在擴(kuò)大,容量超大的高速存儲系統(tǒng)給圖片的海量存儲給予了基本保障,各行業(yè)對圖像的趨于增多,圖像資源管理和搜索也愈發(fā)重要。但由于網(wǎng)絡(luò)本身架構(gòu)、管理的種種問題,想在網(wǎng)絡(luò)精準(zhǔn)、高效地找到所需的圖像,卻變成了件非常不易之事。
由于網(wǎng)絡(luò)現(xiàn)在的問題:內(nèi)容沒有良好的架構(gòu);網(wǎng)絡(luò)海量信息不斷的增多。由此,便出現(xiàn)了搜索引擎。雖然搜索引擎的出現(xiàn)給用戶提供了不少的便捷,但是離精準(zhǔn)、快速、全面的檢索到自己所想要的圖像還是有一段距離,所以對圖像搜索的研究還要下大力氣研究。
依照現(xiàn)有的搜索引擎和國內(nèi)外有關(guān)研究人員的種種資料表明,現(xiàn)在的網(wǎng)絡(luò)資源和搜索引擎的特點如下:
(1)搜索的數(shù)據(jù)種類多樣,如視頻、圖片、文字等。存取協(xié)議也是種類繁多,如HTTP、FTP、News等等;
(2)索引數(shù)據(jù)量巨大,從而導(dǎo)致不可能有某一個數(shù)據(jù)庫可以包括整個網(wǎng)絡(luò)的索引,當(dāng)下最大的搜索引擎,其索引也僅僅覆蓋了網(wǎng)絡(luò)的一小部分而已;
(3)資源消耗過大,系統(tǒng)需將HTML文檔傳送到本地之后再進(jìn)行分析,占用昂貴的網(wǎng)絡(luò)和CPU資源,從而增加被搜索結(jié)點的壓力。此外由于搜索引擎大多是集中式的,所以搜索引擎服務(wù)器對硬件配置的要求也極高,這樣才能處理巨大的數(shù)據(jù)量以及及時響應(yīng)用戶的檢索請求;
(4)不能有效解決搜索失效的問題,大多時候,搜索引擎會返回?zé)o用的查詢結(jié)果;
(5)各種檢索工具各行其事,無法相互協(xié)作,共享資源,也是一種資源的浪費(fèi)。
1.2現(xiàn)今的圖像檢索技術(shù)
近些年伴隨著用戶對圖像搜索需求不斷的增長,各類圖像搜索引擎由此誕生,它們以不同的搜索方式為用戶提供各類檢索途徑,使得網(wǎng)上圖像地檢索變得簡單,雖然還不太完善,但已經(jīng)可以滿足大多數(shù)用戶的要求。
1.2.1搜索引擎的工作原理
最初的搜索引擎結(jié)構(gòu),是讓Spider不停的從Web收集數(shù)據(jù),存儲在搜索引擎數(shù)據(jù)庫當(dāng)中。用戶靠搜索引擎服務(wù)器的Web接口,發(fā)出搜索請求,讓W(xué)eb Server通過CGI或者其它技術(shù)訪問數(shù)據(jù)庫,并且將用戶搜索請求變成相對應(yīng)的數(shù)據(jù)存取語句,發(fā)送給引擎處理,然后把結(jié)果通過網(wǎng)頁顯示反饋給用戶。
網(wǎng)絡(luò)檢索的基本原理其實就是通過Spider定期在web上運(yùn)行,發(fā)現(xiàn)新的數(shù)據(jù),把其取回到本地數(shù)據(jù)庫中,讓用戶查詢的請求可通過查詢本地的數(shù)據(jù)庫得到。
常用的網(wǎng)絡(luò)信息檢索實現(xiàn)機(jī)制可分為兩種,通過手工方式對網(wǎng)頁進(jìn)行索引是一種方法,但它的缺陷是Web覆蓋率低,且不能保證是最新的息。查詢匹配就是對用戶寫入的關(guān)鍵字和網(wǎng)頁描述、標(biāo)題來匹配,并非是通過對全文匹配進(jìn)行的。對網(wǎng)頁進(jìn)行自動的索引是第二種,這類方法能自動實現(xiàn)文檔分類,這種方法是采用信息提取技術(shù)?墒窃诜诸惥珳(zhǔn)性上也許不如手工進(jìn)行的分類。
對當(dāng)下所有運(yùn)行中的搜索工具來講,基本上都會有一個機(jī)器人定期的訪問一些站點,以檢查這些站點最近變化,同時找到新的站點。一般站點都會有個robot.txt文件來標(biāo)注服務(wù)器不希望機(jī)器人訪問的區(qū)域,機(jī)器人都必須遵守這規(guī)定。假如是自動索引,機(jī)器人在得到一個頁面以后,需根據(jù)該頁面的內(nèi)容進(jìn)行索引,依據(jù)它的關(guān)鍵字把它歸到一個類中。頁面信息是通過元數(shù)據(jù)這類形式來保存的,經(jīng)典的元數(shù)據(jù)有標(biāo)題、IP地址、該頁面簡要的介紹、關(guān)鍵字抑或是索引短語、文件大小和最后更新的日期等等。雖然元數(shù)據(jù)有一定的標(biāo)準(zhǔn),但是很多站點都是使用自己的模板。文檔提取的機(jī)制、索引策略這些對搜索引擎(web)的有效性有巨大的聯(lián)系。高級搜索選項包括:布爾方法、短語匹配、自然語言的處理。一個檢索所產(chǎn)生的結(jié)果按照提取機(jī)制的不同被分成不同等級提交給用戶,以關(guān)聯(lián)度的大小排序。每個提取出來的文檔元數(shù)據(jù)會顯示給用戶。也會包括該文檔所在的URL地址。
此外有些關(guān)于某個主題專門的搜索引擎,只針對某個主題的內(nèi)容來進(jìn)行檢索和處理,如此一來信息的取全率、精準(zhǔn)度也相對會較高。
當(dāng)前,圖片搜索引擎大多通過以下兩類方法來識別圖像:
(1)自動查找圖像檔。通過IMGSRC和HREF(HTML標(biāo)簽)來檢查是否有可顯示的圖片文件,IMGSRC表達(dá)的是“顯示下面的圖像文件”,導(dǎo)向嵌入式的圖片;HREF則是用來表示“下面是一個鏈接”,導(dǎo)向被鏈接的圖片。引擎通過檢查擴(kuò)展名來判斷這個導(dǎo)向是否是圖片文件,假若文件擴(kuò)展名是.png、.jpg、.gif等,則說明是一個可顯示的圖片文件。
(2)人工干預(yù)找出圖片。進(jìn)行歸類,靠人工對網(wǎng)上的圖像及站點進(jìn)行篩選。這類方法可產(chǎn)生精準(zhǔn)的查詢體系,可是勞動強(qiáng)度過大,因此處理圖像的數(shù)量有限。
由于圖像與文本不同,要人們按照自身的(未完,下一頁)
附件下載:WEB中圖像的檢索技術(shù)研究
|
|
相關(guān)專業(yè)論文
|
|
推薦專業(yè)論文
|
|
|
|