WEB中圖像的檢索技術(shù)研究
資源天下 2018/10/29 17:23:28
(接上頁(yè))理解來(lái)說(shuō)明其蘊(yùn)含的意義,比文字更趨于感性。因此對(duì)于計(jì)算機(jī),圖像檢索的難度比文本的查詢的難度要高出很多。
1.2.2 圖像搜索引擎檢索途徑
1.關(guān)鍵詞檢索
傳統(tǒng)圖像檢索技術(shù)是靠關(guān)鍵字精確的匹配來(lái)檢索,即輸入關(guān)鍵字,輸出圖片。它包括兩種途徑:
(1)基于圖片外部信息進(jìn)行搜索。即依據(jù)圖片的文件名、目錄名、路徑名、以及圖像周圍文本的信息等等外部信息來(lái)進(jìn)行檢索,這是當(dāng)前圖片搜索引擎使用最多的方法。當(dāng)找到圖像文件后,搜索引擎通過(guò)查看文件名或者路徑名來(lái)確定文件內(nèi)容,當(dāng)然也可以通過(guò)查看圖片標(biāo)題來(lái)匹配檢索關(guān)鍵詞。
(2)基于手工標(biāo)注的檢索。通過(guò)手工對(duì)圖像的內(nèi)容(如顏色對(duì)比、反差、景深等)進(jìn)行描述和分類,將圖像標(biāo)注為一系列關(guān)鍵字,并且建立索引。檢索時(shí),將主要在這些關(guān)鍵詞中搜索用戶輸入的關(guān)鍵字。這種查詢方法是比較準(zhǔn)確的,大都可以獲得蠻好的查準(zhǔn)率,但是需人工參加,勞動(dòng)強(qiáng)度高,因此限制了可處理圖像的數(shù)量。此外,由于圖片所包含的信息量很龐大,不同類型用戶對(duì)同一張圖片的看法又不盡相同,就像一萬(wàn)個(gè)讀者有一萬(wàn)個(gè)哈姆雷特一般,從而導(dǎo)致了對(duì)圖像標(biāo)注缺乏統(tǒng)一標(biāo)準(zhǔn)。
2. 圖像可視屬性檢索
基于圖像內(nèi)容的搜索主要是由圖片分析軟件自動(dòng)提取圖片的顏色、類型等特征,從而建立特征數(shù)據(jù)庫(kù),其輸入的弱國(guó)為用戶要查找圖片的大致特征或示例,則通過(guò)一定相似匹配規(guī)則,輸出為與該圖片具有相近特征的圖片,按相似的程度來(lái)排列,以供用戶選擇,從而解決了在傳統(tǒng)圖像檢索技術(shù)中一般用戶難以完成的圖像特征描述、提取與識(shí)別等難題。
這是基于圖片本身特征的檢索,適用于檢索明確目標(biāo)的查詢要求,可是目前這種較為成熟的檢索技術(shù)主要是應(yīng)用于圖片數(shù)據(jù)庫(kù)檢索。在圖片搜索引擎中應(yīng)用這類檢索技術(shù)還有困難,但是有部分圖像搜索引擎開(kāi)始嘗試使用這種檢索方法。
1.2.3對(duì)幾個(gè)基本引擎的簡(jiǎn)單分析
(1)InfoSeek是一個(gè)簡(jiǎn)單而又功能強(qiáng)大的索引,它的優(yōu)點(diǎn)是有面向主題搜索而且可擴(kuò)展的分類?梢园阉阉麝P(guān)鍵字和相似的分類目錄主題短語(yǔ)互相作為參照,而且那些主題短語(yǔ)會(huì)自動(dòng)加入到你的查詢中。使你的檢索有更好的主題相關(guān)性。以此同時(shí)它也支持對(duì)圖片的查詢。能夠漫游Web、Usenet、Usenet FAQs等等。不過(guò)不支持布爾操作,但可以使用"+"和"-"。
(2)AltaVista 是個(gè)大容量的,基于機(jī)器人索引的搜索引擎。能夠幫你在萬(wàn)維網(wǎng)上搜索你所需的網(wǎng)頁(yè),文本,圖像,視頻音頻。AltaVista 支持多種語(yǔ)言和簡(jiǎn)單的自然語(yǔ)言搜索查詢。AltaVista 覆蓋面約為萬(wàn)維網(wǎng)上可索引的網(wǎng)頁(yè)之30%
(3)Scour自稱是第一個(gè)基于web的多媒體搜索引擎。嚴(yán)格講,它并非是個(gè)圖像搜索引擎,但是可以將檢索局限在圖像搜索上。
Scour工作原理是在文件名、路徑名、ALT標(biāo)簽中搜索關(guān)鍵詞。主要使用關(guān)鍵詞搜索,可以用符號(hào)"+"或"-"來(lái)增加、排除關(guān)鍵詞,使用較少關(guān)鍵詞會(huì)更有效。在高級(jí)模式中,可以將檢索結(jié)果圖像鎖定在GIF、PNG、JPEG等格式中。檢索結(jié)果顯示簡(jiǎn)圖、圖像類型(如GIF、JPG)、大小、最后查找日期、檢索詞匹配數(shù)量、標(biāo)引使用關(guān)鍵詞、成功下載可靠程度等,并且同時(shí)給出圖像文件的URL和源站點(diǎn)URL。
主要缺點(diǎn)是標(biāo)引的深度太淺,查準(zhǔn)率比較低,但查全率比較好。
(4) Amazing Picture Machine是由NCRTEC開(kāi)發(fā)的一個(gè)"真——人工建立完全關(guān)鍵詞式索引"。最大特點(diǎn)就是人工干預(yù),關(guān)鍵詞檢索是其主要的檢索手段。
Amazing Picture Machine搜索的結(jié)果顯示一個(gè)簡(jiǎn)短標(biāo)題、有關(guān)圖像說(shuō)明、文件大小、文件類型以及象素多少等,但是不顯示簡(jiǎn)圖。單擊標(biāo)題可以得到原圖像,但需由該URL回溯才可找出源站點(diǎn)。
由于是人工干預(yù)檢索過(guò)程,查準(zhǔn)率極好,但事物的作用是相對(duì)的,人工干預(yù)也限制了它的查全率。它檢索范圍很有限,只包括web上人工選擇的部分站點(diǎn)。
(5)Lycos對(duì)所收錄圖像進(jìn)行了非常詳盡的內(nèi)容描述,并且支持短語(yǔ)檢索,從而使得其查準(zhǔn)率獲得很大提高。它根據(jù)文件的擴(kuò)展名識(shí)別圖像,在描述詞、文件名、目錄名、ALT字段中查詢到檢索詞。結(jié)果顯示信息非常豐富,包括簡(jiǎn)圖、圖像大小、最后檢索的日期、圖像文件名、圖像內(nèi)容的描述詞、圖像所在頁(yè)面等。點(diǎn)擊簡(jiǎn)圖可以得到原圖以及更多的信息,如著作權(quán)人和版權(quán)信息的相關(guān)圖像。比較而言其檢索效果很好,速度也快。
1.2.4 搜索引擎基本要點(diǎn)
(1)索引文檔容量:當(dāng)今最大的搜索引擎有可能包含超100,000,000個(gè)的鏈接,但是這個(gè)也只是整個(gè)Web網(wǎng)上很小的一部分。因?yàn)槭占Y料的機(jī)器人,只(未完,下一頁(yè))
附件下載:WEB中圖像的檢索技術(shù)研究
|