建立倒排索引文檔源代碼
|
資料類別
|
計(jì)算機(jī)軟件圖書 |
|
課程(專業(yè))
|
信息檢索 |
關(guān)鍵詞
|
倒排|索引|文檔|源代碼 |
適用年級(jí)
|
本科 |
身份要求
|
普通會(huì)員 |
金 幣
|
20 。金幣如何獲得?) |
文件格式
|
txt |
文件大小
|
10K |
發(fā)布時(shí)間
|
2011-12-20 14:08:00 |
預(yù)覽文件
|
無(wú) |
下載次數(shù)
|
0 |
發(fā)布人 |
鳳舞九天jl |
內(nèi)容簡(jiǎn)介:
*本程序試驗(yàn)更新和建立倒排索引,該程序添加了英文索引處理,
在索引目錄下存儲(chǔ)$curfile.txt文件,記錄當(dāng)前寫的索引文件
2006_10_4 程序重新復(fù)查內(nèi)存情況,主要為了解決倒排索引中可能存在的內(nèi)存泄漏問(wèn)題,另外去掉內(nèi)存中不相關(guān)的函數(shù)
2006_10_8寫更新倒排程序,其中idx.txt文件每生成多篇文檔后寫一次idx.txt文件。
對(duì)于$curfile.txt文件,第一行記錄當(dāng)前寫的倒排文件的名字,第二行記錄已經(jīng)更新過(guò)的文件的名字,
下一次更新時(shí)從該文件開始更新
基于以上要求,修改程序思路如下:
1、去掉建立倒排索引時(shí)對(duì)idx.txt文件寫的操作,idx.txt文件只在更新時(shí)生成
2、寫?yīng)毩⒌母潞瘮?shù),該函數(shù)是對(duì)當(dāng)前目錄下的所有大于$update.txt中記錄的文件(除idx.txt和$curfile.txt)文件內(nèi)容
進(jìn)行重新整理的過(guò)程,重整主要是將相同的詞放在一起。
建倒排索引時(shí)不寫idx.txt
*/
#include "stdio.h"
#include "seng.h"
#include "string.h"
#include "math.h"
#include "malloc.h"
#include "stdlib.h"
#include "assert.h"
#include "direct.h"
#define MALCSIZE 100 /*一次分配的內(nèi)存大小*/
#define RELCSIZE 100 /*當(dāng)一次分配的內(nèi)存不夠時(shí),二次分配時(shí)的加數(shù)*/
#define SHORTSIZE 20 /*一個(gè)詞的最大詞長(zhǎng)10*/
#define INDEXNUMBER 6768 /*簡(jiǎn)體中文字的個(gè)數(shù)*/
#define GBLWBTMNUM 161 /*簡(jiǎn)體中文國(guó)標(biāo)碼低位最小值*/
#define GBLWTOPNUM 254 /*簡(jiǎn)體中文國(guó)標(biāo)碼低位最大值*/
#define GBHTBTMNUM 176 /*簡(jiǎn)體中文國(guó)標(biāo)碼高位最小值*/
#define GBHTTOPNUM 247 /*簡(jiǎn)體中文國(guó)標(biāo)碼高位最大值*/
#define MAXPATHL 50 /*最大路徑*/
#define MAXPATH 50 /*最大路徑*/
#define MAXWORD 80 /*最長(zhǎng)的詞長(zhǎng)為40,一篇文檔中最多出現(xiàn)的相同的字頭的詞的個(gè)數(shù)*/
#define MAXWORDONE 50 /*以某一個(gè)字開頭的可能有的詞數(shù)*/
#define MAXLINEFILE 3 /*倒排索引文件的最大行數(shù)*/
/* #define MAXWORDLEN 50 最大詞長(zhǎng)*/
#define MAXNUMBER 50 /*最大文檔數(shù)*/
#define MAXFILENAME 20 /*最大文檔數(shù)*/
#define MAXPOS 400 /*一個(gè)詞在一篇文章中最多出現(xiàn)的次數(shù)*/
#define LOWERA 97 /*字母a所對(duì)應(yīng)的的ASCII碼*/
#define DIFLOWHIGA 32 /*大寫字母和小寫字母ASCII碼的差值*/
#define MAXLINELEN 1000 /*倒排文檔中每行最多出現(xiàn)的字符個(gè)數(shù)*/
#define MAXBUFFER 2000 /*最大緩存區(qū), 要注意大小*/
int realloccount = 10;
相關(guān)說(shuō)明:
1. 如您下載的資料不止一份,建議您注冊(cè)成為本站會(huì)員。會(huì)員請(qǐng)登錄后下載。
2. 會(huì)員購(gòu)買金幣50元以下,0.7元/個(gè),50元以上,0.5元/個(gè)。具體請(qǐng)看:下載與付款。
3. 會(huì)員48小時(shí)內(nèi)下載同一文件,不重復(fù)扣金幣。
4. 下載后請(qǐng)用WinRAR或 WinZIP解壓縮后使用。
5. 如仍有其他下載問(wèn)題,請(qǐng)看常見問(wèn)題解答。
下載地址:
|
|
|