免费中文字幕午夜理论模特,久久午夜福利精品,国产精品久久久久中文,久久精品视频免费观看12

<object id="ysikk"><strike id="ysikk"></strike></object>

<menu id="ysikk"><abbr id="ysikk"></abbr></menu>

<ul id="ysikk"></ul>

<tbody id="ysikk"></tbody>

<menu id="ysikk"><noscript id="ysikk"></noscript></menu>

<acronym id="evrdd"></acronym>

<mark id="evrdd"><wbr id="evrdd"><code id="evrdd"></code></wbr></mark>

<ol id="evrdd"></ol>

教學(xué)資源下載

課件　試卷　教案　畢業(yè)論文　圖書軟件　職教研究　期刊推介　信息發(fā)布　會(huì)員賬戶

當(dāng)前位置：課件009首頁 >> 職教研究 >> 專業(yè)論文 >> 淺析ＷＥＢ日志數(shù)據(jù)挖掘技術(shù)

淺析ＷＥＢ日志數(shù)據(jù)挖掘技術(shù)

（作者未知）　2010/7/14

　　摘要：互聯(lián)網(wǎng)發(fā)展到今天已經(jīng)成為了人們生活中不可缺少的一部分了，而互聯(lián)網(wǎng)從某種意義上講也可以看作是一個(gè)龐大的數(shù)據(jù)庫，并且涉及到各個(gè)領(lǐng)域。那么在這個(gè)龐大的數(shù)據(jù)庫中，教據(jù)挖掘技術(shù)有什么用武之地呢?本文通過時(shí)互聯(lián)網(wǎng)上數(shù)據(jù)挖掘的簡單論述，說明現(xiàn)在互聯(lián)網(wǎng)上數(shù)據(jù)挖掘的一些趨勢和相關(guān)技術(shù)，并且著重分析一下其中一種互聯(lián)網(wǎng)上數(shù)據(jù)挖掘的應(yīng)用方向相關(guān)的技術(shù)一一Web使用記錄的挖掘，
　　關(guān)鍵詞：web數(shù)據(jù)挖掘；Web日志；數(shù)據(jù)預(yù)處理
　　一、引言
　　目前�；ヂ�(lián)網(wǎng)已經(jīng)和我們的生活密不可分，它可以說是一個(gè)巨大的、分布廣泛和全球性的信息服務(wù)中心。它涉及新聞、廣告、消息信息、金融信息、教育、政府、電子商務(wù)和許多其他信息服務(wù)。根據(jù)有關(guān)機(jī)構(gòu)統(tǒng)計(jì)，目前互聯(lián)網(wǎng)的數(shù)據(jù)以幾百兆字節(jié)來計(jì)算，而且增長速度很快，如果將這個(gè)龐大的數(shù)據(jù)庫用一般的統(tǒng)計(jì)分析來處理的話，顯然是有心無力的。自從數(shù)據(jù)挖掘技術(shù)成功地應(yīng)用于傳統(tǒng)數(shù)據(jù)庫領(lǐng)域之后，人們對于數(shù)據(jù)挖掘在像互聯(lián)網(wǎng)數(shù)據(jù)這樣的一些特殊數(shù)據(jù)源的應(yīng)用也寄予了厚望，并且做了許多相應(yīng)的研究和發(fā)展了相應(yīng)的技術(shù)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到互聯(lián)網(wǎng)數(shù)據(jù)上，理論上可行，但是由于互聯(lián)網(wǎng)自身的特點(diǎn)，也使它面臨一些需要克服的技術(shù)難點(diǎn)。
　　可以說，在互聯(lián)網(wǎng)上應(yīng)用數(shù)據(jù)挖掘技術(shù)的前途是光明的，但道路也是曲折的。目前互聯(lián)網(wǎng)上的數(shù)據(jù)挖掘技術(shù)主要根據(jù)挖掘的方向一般分為三類：Web內(nèi)容挖掘，Web結(jié)構(gòu)挖掘和Web使用記錄的挖掘。而結(jié)構(gòu)本來就蘊(yùn)藏在內(nèi)容中，是內(nèi)容的骨，因此有些分類方法又分為Web內(nèi)容挖掘和Web使用記錄挖掘。這里按照后一種分類方法來看一下目前的相關(guān)技術(shù)和應(yīng)用。
　　二、技術(shù)
　　 (一)Web日志
　　目前市面上比較流行的Web服務(wù)器，例如IIs通常都保存了對Web頁面的每一次訪問的日志項(xiàng)。它忠實(shí)地記錄了訪闖該Web服務(wù)器的數(shù)據(jù)流的信息。日志文件記錄些什么內(nèi)容還可以根據(jù)客戶的不同需要。來調(diào)整記錄些什么信息。
　　 (=)數(shù)據(jù)挖掘的必要性
　　通常Web服務(wù)器每天都會(huì)新開一個(gè)日志文件，在流量比較大的網(wǎng)站，這些Web文件的大小往往達(dá)到幾百兆甚至更多，因此要能有效地分析和處理這些日志文件，用數(shù)據(jù)挖掘技術(shù)是最好不過了。對于簡單的網(wǎng)站結(jié)構(gòu)，可能分析處理一個(gè)Web的日志文件就可以了，但是通常對于一些比較大的門戶網(wǎng)站來說，一個(gè)門戶網(wǎng)站往往是好幾十個(gè)甚至上百個(gè)web服務(wù)器組成一個(gè)集群來對外服務(wù)的，在分析這些網(wǎng)站的日志文件時(shí)候，就需要采取分布式的Web數(shù)據(jù)挖掘的復(fù)雜技術(shù)了�？偠灾瑢τ谶@種每天都會(huì)產(chǎn)生這么大量的數(shù)據(jù)的日志文件，數(shù)據(jù)挖掘可以起到很好的效果。
　　 (三)基于簡單結(jié)構(gòu)的Web日志挖掘方案
　　 Web服務(wù)器的簡單結(jié)構(gòu)是指那些訪問量不是很多，一般只有一個(gè)Web服務(wù)器組成的網(wǎng)站。對于這些簡單結(jié)構(gòu)的Web服務(wù)器，分析的原始數(shù)據(jù)往往就是一個(gè)Web日志文件。一般來說，對于這種情況和傳統(tǒng)的數(shù)據(jù)挖掘的處理手法有類似的地方，也大致可以分開原始數(shù)據(jù)預(yù)處理。挖掘算法和模式分析幾個(gè)主要的步驟。
　　數(shù)據(jù)預(yù)處理是一個(gè)十分關(guān)鍵的步驟，根據(jù)不同的業(yè)務(wù)，不同的情況，將海量的原始數(shù)據(jù)中抽取需要的數(shù)據(jù)，并且對于不完整的數(shù)據(jù)還需要做些處理等。Web日志挖掘的數(shù)據(jù)預(yù)處理包括依賴域的數(shù)據(jù)凈化、用戶識別、會(huì)話識別和路徑補(bǔ)充等。對日志進(jìn)行預(yù)處理的結(jié)果直接影響到挖掘算法產(chǎn)生的規(guī)則與模式。因此，預(yù)處理過程是保證web日志挖掘質(zhì)量的關(guān)鍵。
　　數(shù)據(jù)掙化：指刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)。大多數(shù)情況下。只有日志中HTML文件與用戶會(huì)話相關(guān)(但有些以瀏覽圖片或者查詢其它媒體為主的網(wǎng)頁除外)，因此可以通過檢查URI資源的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)，在實(shí)際系統(tǒng)應(yīng)用中，可以建立一個(gè)后綴名表幫助過濾刪除這些文件。經(jīng)過數(shù)據(jù)凈化，數(shù)據(jù)可以十分集中。
　　用戶識別：由于本地緩存、代理服務(wù)器和防火墻的存在，使得有效識別用戶的任務(wù)變得十分復(fù)雜。一般被采用的方法是基干日志／站點(diǎn)的方法，還可以使用一些啟發(fā)性規(guī)則。例如：如果IP地址相同，但是代理信息變了，表明用戶可能是在某個(gè)防火墻后面的內(nèi)網(wǎng)的不同用戶，則可以標(biāo)記為不同的用戶；還可以將訪問信息，引用信息和站點(diǎn)拓?fù)錂C(jī)構(gòu)結(jié)合，構(gòu)造出用戶的測覽路徑，如果當(dāng)前請求的頁砸同用戶已瀏覽的頁面沒有鏈接關(guān)系，則認(rèn)為存在IP地址相同的多個(gè)用戶。使用這些規(guī)則并不可以保證可咀準(zhǔn)確識別用戶，因此用戶識別是個(gè)難題。
　　會(huì)話識別：在跨越時(shí)間區(qū)段比較大的Web服務(wù)器日志中，用戶可能多次訪問該站點(diǎn)，會(huì)話識別的目的就是將用戶的訪問記錄分為單個(gè)會(huì)話。最簡單的方法是用超時(shí)的技術(shù)，如果兩個(gè)頁面之問請求的時(shí)聞差值超過了一定界限就認(rèn)為用戶開始了一個(gè)新的會(huì)話。例如�？梢栽O(shè)置30分鐘（未完，下一頁）
　　

頁碼選擇：1　2

相關(guān)專業(yè)論文

1 Web數(shù)據(jù)挖掘現(xiàn)狀分析
2 淺析ＷＥＢ日志數(shù)據(jù)挖掘技術(shù)

推薦專業(yè)論文

1 論高職院校學(xué)生管理引進(jìn)企業(yè)精細(xì)管
2 對職校生開設(shè)計(jì)算機(jī)選修課的幾點(diǎn)思
3 房地產(chǎn)企業(yè)關(guān)系營銷策略分析
4 構(gòu)建廉政節(jié)約型高校后勤的思路與對
5 語文閱讀理解答題技巧
6 PLC在啤酒發(fā)酵溫度控制中的應(yīng)用
7 金融危機(jī)下砍掉您的“長板”
8 中國少數(shù)民族文藝?yán)碚摳庞[詳細(xì)內(nèi)容
9 汽車美容常識
10 我國大學(xué)生職業(yè)生涯規(guī)劃教育探新
11 淺談如何改進(jìn)高職高專英語的教學(xué)方
12 低成本無刷直流電動(dòng)機(jī)無傳感器控制
13 試論中職計(jì)算機(jī)專業(yè)課程之教學(xué)模式
14 淺析會(huì)計(jì)電算化條件下的企業(yè)內(nèi)部控
15 克孜勒蘇自治州水資源及其供需發(fā)展

設(shè)為首頁加入收藏 下載與付款 上傳課件資料征集論壇與信息發(fā)布期刊雜志推介免責(zé)聲明常見問題分類說明聯(lián)系本站會(huì)員登錄

課件009教育資源網(wǎng) 版權(quán)所有

<button id="fuwsx"></button>

<small id="fuwsx"><div id="fuwsx"><source id="fuwsx"></source></div></small>