幾種信息檢索模型比較
(作者未知) 2011/6/23
摘要:對信息檢索模型研究的主要內(nèi)容和構(gòu)建策略進(jìn)行了描述,給出了幾種常用的信息檢索模型相關(guān)性算法,分析了它們的優(yōu)缺點,并就存在的問題進(jìn)行了探討,總結(jié)了信息檢索模型的研究現(xiàn)狀和發(fā)展趨勢。
關(guān)鍵詞:信息檢索模型;相關(guān)性;查詢;搜索引擎
Abstract:This article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information retrieval.And in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been researched.In addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this article.
Keywords:Information retrieval models;Relativity;Inquiry;Search engine
當(dāng)前,隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,信息檢索系統(tǒng)及其核心技術(shù)搜索引擎的性能和效率問題已成為人們研究和關(guān)注的焦點。影響一個搜索引擎系統(tǒng)的性能有很多因素,但最主要的是信息檢索模型,其研究內(nèi)容包括文檔和查詢的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。本文從研究文檔與用戶查詢“相關(guān)性”匹配的角度出發(fā),對信息檢索模型研究的主要內(nèi)容和構(gòu)建策略進(jìn)行了詳細(xì)的描述,并給出了幾種常用的信息檢索模型相關(guān)性算法,分析了它們的優(yōu)缺點及存在的問題,總結(jié)了當(dāng)前信息檢索模型的研究現(xiàn)狀和發(fā)展趨勢,其目的在于提高信息檢索、查詢的性能和效率。
一、構(gòu)建信息檢索模型的策略
當(dāng)前,構(gòu)建信息檢索模型的主要策略有以下兩個:
(一)通用的信息檢索模型
構(gòu)建一個通用的信息檢索模型,研究優(yōu)化的匹配算法,提高查詢速度、查全率和查準(zhǔn)率,最大程度地滿足一般用戶的查詢需求。
(二)用戶興趣模型
根據(jù)特定用戶查詢興趣要求構(gòu)建用戶興趣模型或共同興趣模型,能夠盡可能地滿足特殊用戶查詢的需求。它可以構(gòu)建一個適合行業(yè)或?qū)I(yè)應(yīng)用語義要求信息獲取模型。如google就能推斷用戶的使用意圖,提供動態(tài)的、即時的用戶“個性化定制”信息,幫助用戶快速、準(zhǔn)確地定位到所需要的信息。
二、常用的信息檢索相關(guān)性算法
(一)布爾模型
布爾模型是基于特征項的嚴(yán)格匹配模型,文本查詢的匹配規(guī)則遵循布爾運(yùn)算的法則。用戶可以根據(jù)檢索項在文檔中的布爾邏輯關(guān)系提交查詢,搜索引擎則根據(jù)事先建立的倒排文件結(jié)構(gòu),確定查詢結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關(guān),要么與查詢無關(guān)。查詢結(jié)果一般不進(jìn)行相關(guān)性排序。
在布爾模型中,一個文檔通過一個關(guān)鍵詞條的集合來表示,這些詞條都來自一個詞典。在查詢與文檔匹配的過程中,主要看該文檔中的詞條是否滿足查詢條件。布爾模型用文檔的檢索狀態(tài)值作為一種評價查詢和文檔相似性的一種方法。這里,首先定義關(guān)鍵詞集合S,關(guān)鍵詞為t1,t2,…,tn。
這些關(guān)鍵詞可以和邏輯操作符AND,OR和NOT形成不同的條件查詢。如果得到條件表達(dá)式的值為True,該文檔相對于此條查詢的檢索狀態(tài)值為1;如果若干文檔相對于此條查詢的檢索狀態(tài)值都為1,則可以認(rèn)為,這些文檔與此用戶的查詢是相關(guān)的。
布爾模型的主要優(yōu)點有兩點:一是實現(xiàn)起來比較容易,速度快,計算的代價相對較少。二是查詢語言表達(dá)簡單,用戶可以使用任意復(fù)雜的查詢表達(dá)式,易于表示同義關(guān)系(如:聾教育OR特殊教育)和詞組(如:計算機(jī)AND基礎(chǔ)AND課程改革)。它的缺點是,由于所有檢索到的與用戶查詢條件相關(guān)的文檔具有相同的檢索狀態(tài)值,則不能對查詢結(jié)果按照相關(guān)性進(jìn)行排序;另外關(guān)鍵詞也沒有考慮權(quán)重的影響,缺乏定量分析和靈活性以及不能表述模糊匹配。而為了克服布爾型信息獲取模型查詢結(jié)果的無序性,在查詢結(jié)果處理中引進(jìn)了模糊邏輯運(yùn)算,將所檢索的數(shù)據(jù)庫文檔信息與用戶的查詢(未完,下一頁)
|