組合營(yíng)銷策略中基于約束的關(guān)聯(lián)規(guī)則挖掘方法
(作者未知) 2010/8/12
(接上頁)信息:暢銷商品A以及與A關(guān)聯(lián)的商品價(jià)格總和的最大值(max_sumprice)。
該算法的基本思想是:首先利用用戶指定商品A為約束條件對(duì)事務(wù)數(shù)據(jù)庫(kù)D進(jìn)行掃描,包含A的實(shí)例加入到實(shí)例集Dt中,其余被過濾掉。然后在經(jīng)典Apfiofi算法的頻繁項(xiàng)集生成過程中應(yīng)用受max_sumprice參數(shù)約束的剪枝策略,生成符合約束條件的頻繁K-項(xiàng)集,最后由頻繁項(xiàng)集生成受約束的關(guān)聯(lián)規(guī)則。
4.3剪枝策略
定義1
約束Ca是反單調(diào)的是指對(duì)于任意給定的不滿足Ca的項(xiàng)目集S,不存在S的超集能夠滿足Ca。
下面給出了與A相關(guān)聯(lián)商品的反單調(diào)性約束表達(dá)式:
sum_price(Bl,B2,…,Bn)≤max_sumprice。
其中,sum_price(B1,B2,…,Bn)為在頻繁項(xiàng)集的項(xiàng)(item)中與A相關(guān)聯(lián)的商品價(jià)格的總和。
證明:反證法。假設(shè)sum_price(B1,B2,…,Bn)﹥max_sumprice,且有sum_price(B1,B2,…,BnBn+1)≤max_sumprice,其中Bi﹥0。則有sum_price(B1,B2,…,Bn)﹥sum_price(B1,B2,…,BnBn+1),即:Bn+1+l﹤0,與假設(shè)Bi﹥0矛盾,故sum_price(B1,B2,…,Bn)≤max_sumprice為反單調(diào)性約束條件。由定義1可以確定,如果在Apriofi算法中生成的任何一個(gè)頻繁項(xiàng)集不滿足反單調(diào)約束條件,則它的任何超集都不滿足此約束條件。因此,在經(jīng)典的apriori算法產(chǎn)生K-1-頻繁項(xiàng)集后,我們可以直接將不滿足約束的頻繁項(xiàng)集剔除掉。這樣從客觀上,減少了頻繁項(xiàng)集生成所需要的候選項(xiàng)集的數(shù)目,成功地對(duì)候選項(xiàng)集進(jìn)行了剪枝。
4.4 UD-Apriori算法描述
輸入:事務(wù)數(shù)據(jù)庫(kù)D,A(用戶指定的商品),min_sup(最小支持度),min_conf(最小置信度),max_sumprice(頻繁項(xiàng)集的項(xiàng)中與A關(guān)聯(lián)的商品之和的最大值)。
輸出:滿足min_sup,min_conf,A,max_sumprice約束的關(guān)聯(lián)規(guī)則。
Begin
If A is unfrequent then
return;
Filter(A);
L1=L1+find_frequent_l-itemsets(D’)//產(chǎn)生頻繁1項(xiàng)集
Delete T where not contain L1;
Gen_rules(1,L1);//產(chǎn)生頻繁1項(xiàng)集規(guī)則
For(k=2;Lk-1≠φ;k++)
{Ck:apriori_gen Lk-1,min_sup,max_sumprice);//產(chǎn)生K-項(xiàng)集
Lk=subset (Ck,D’);//產(chǎn)生頻繁K-項(xiàng)集
Gen_rules(K,Lk)://產(chǎn)生頻繁K-項(xiàng)集的規(guī)則
end;procedure filter(A)//過濾事務(wù)數(shù)據(jù)庫(kù)
For all trasactions t D:
Ift contain A then
Write to D′return;
5 試驗(yàn)結(jié)果分析
本試驗(yàn)采用IBM數(shù)據(jù)生成器生成記錄型測(cè)試數(shù)據(jù)進(jìn)行算法測(cè)試,同時(shí)將每個(gè)項(xiàng)目元素進(jìn)行價(jià)格賦值。實(shí)驗(yàn)環(huán)境基于winxp平臺(tái),計(jì)算機(jī)內(nèi)存256MB,主頻2.8GHZ,測(cè)試數(shù)據(jù)各項(xiàng)參數(shù)如表2。
在數(shù)據(jù)庫(kù)291個(gè)項(xiàng)目元素中,元素最高價(jià)格為4995。在頻繁1項(xiàng)集中項(xiàng)集最高價(jià)格為4425。因此,將價(jià)格為4425的項(xiàng)i4425定為指定約束元素。基于此事務(wù)數(shù)據(jù)庫(kù)對(duì)經(jīng)典的Apriori算法及受用戶指定數(shù)據(jù)約束算法的對(duì)比測(cè)試結(jié)果如表3。
實(shí)驗(yàn)結(jié)果表明,由于受項(xiàng)i4425的約束,算法的運(yùn)行時(shí)間和生成的規(guī)則數(shù)大為減少。且由于指定了約束條件項(xiàng)i4425,使挖掘過程的指向性得到明顯提高。很好的控制了挖掘的數(shù)據(jù)規(guī)模,從而保證了在生成的關(guān)聯(lián)規(guī)則數(shù)目減少的同時(shí)更加契合用戶的意愿。
6 結(jié)論
本文根據(jù)網(wǎng)絡(luò)電子商務(wù)的特點(diǎn),結(jié)合組合營(yíng)銷策略實(shí)施中客戶的具體購(gòu)買模式,提出了一種基于約束的關(guān)聯(lián)規(guī)則挖掘算法。試驗(yàn)結(jié)果表明,這種算法由于引入了更多的用戶控制,相比經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法效率更高。挖掘結(jié)果表明,挖掘生成的關(guān)聯(lián)規(guī)則大為減少,信息指向性也更加明確,為企業(yè)實(shí)施組合營(yíng)銷策略提供了科學(xué)的依據(jù)。
|