Web數(shù)據(jù)挖掘現(xiàn)狀分析
(作者未知) 2010/9/10
摘 要:隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,如何在這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息成為數(shù)據(jù)挖掘研究的熱點(diǎn)。Web數(shù)據(jù)挖掘是目前數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)很重要的研究領(lǐng)域,文章介紹了Web數(shù)據(jù)挖掘研究領(lǐng)域的現(xiàn)狀及發(fā)展。
關(guān)鍵詞:數(shù)據(jù)挖掘;Web挖掘
Abstract:With the rapid development and popularization of Internet / Web technology, a wide range of information can be accessed in the network at very low cost. The focus of data mining is How to find useful information in the world’s largest data collection. Web mining is a very important research in the field of data mining. This paper outlines the areas of Web data mining research and its status quo and development.
Key words: data mining;web mining
數(shù)據(jù)挖掘(Data Mining,DM)是指從大量數(shù)據(jù)中提取或“挖掘”知識(shí),即從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量數(shù)據(jù)中挖掘知識(shí)的過程。隨著以數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)為基礎(chǔ)的信息系統(tǒng)在各行各業(yè)的應(yīng)用,海量數(shù)據(jù)不斷產(chǎn)生,隨之而來的問題,便是如此多的數(shù)據(jù)讓人難以消化,無法從表面上看出他們所蘊(yùn)涵的有用信息。如何從大量的數(shù)據(jù)中找到真正有用的信息成為人們關(guān)注的焦點(diǎn),數(shù)據(jù)挖掘技術(shù)也正是伴隨著這種需求從研究走向應(yīng)用。各種類似Google、百度等的搜索引擎也層出不窮,Web數(shù)據(jù)挖掘的應(yīng)用在現(xiàn)實(shí)中不斷體現(xiàn)。
1 Web挖掘概述
近年來,隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息能以非常低的成本在網(wǎng)絡(luò)上獲得,而從中取得的數(shù)據(jù)量便難以計(jì)算,而且Internet/WWW的發(fā)展趨勢(shì)繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強(qiáng)大支持,因此,如何在WWW這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息,無疑將成為數(shù)據(jù)挖掘研究的熱點(diǎn)。而Web挖掘便是指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。它建立在對(duì)大量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,采用相應(yīng)的數(shù)據(jù)挖掘算法,在具體的應(yīng)用模型上進(jìn)行數(shù)據(jù)的提取、篩選、轉(zhuǎn)換、挖掘和模式分析,最后作出歸納性的推理。Web挖掘研究覆蓋了多個(gè)研究領(lǐng)域,包括數(shù)據(jù)庫(kù)技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。
2 Web挖掘流程
與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動(dòng)態(tài)的,并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如下:
(1)查找資源。從目標(biāo)Web文檔中得到數(shù)據(jù)。這些信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)等。
(2)信息選擇和預(yù)處理。從取得的Web資源中剔除無用信息,將信息進(jìn)行必要的整理。例如,從Web文檔中自動(dòng)去除廣告連接和多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段,并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。
(3)模式發(fā)現(xiàn):自動(dòng)進(jìn)行模式發(fā)現(xiàn)?梢栽谕粋(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。
(4)模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式。可以是機(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來完成。
Web挖掘作為一個(gè)完整的技術(shù)體系,在進(jìn)行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當(dāng)重要。信息獲得(IR)的目的在于找到相關(guān)Web文檔,它只是把文檔中的數(shù)據(jù)看成未經(jīng)排序的詞組的集合;而信息抽取(IE)的目的在于從文檔中找到需要的數(shù)據(jù)項(xiàng)目,它對(duì)文檔的結(jié)構(gòu)和表達(dá)的含義感興趣,它的一個(gè)重要任務(wù)就是對(duì)數(shù)據(jù)進(jìn)行組織整理并適當(dāng)建立索引。
3 Web數(shù)據(jù)挖掘的分類
Web數(shù)據(jù)挖掘是一項(xiàng)具有挑戰(zhàn)性的課題,它實(shí)現(xiàn)對(duì)Web存取模式、結(jié)構(gòu)和規(guī)則以及動(dòng)態(tài)的Web內(nèi)容的查找。一般來說,Web數(shù)據(jù)挖掘可分為4類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖(未完,下一頁(yè))
|