基于數(shù)據(jù)挖掘技術(shù)的保險(xiǎn)行業(yè)決策分析研究
(作者未知) 2011/6/23
摘要:本文針對目前保險(xiǎn)行業(yè)信息管理的現(xiàn)狀,提出數(shù)據(jù)挖掘技術(shù)對保險(xiǎn)行業(yè)的重大影響,簡要說明了“保險(xiǎn)行業(yè)決策系統(tǒng)V1.0”項(xiàng)目及其對挖掘算法的改進(jìn)等。并通過實(shí)驗(yàn)論證了改進(jìn)算法的優(yōu)勢,通過分析結(jié)果展示了數(shù)據(jù)挖掘技術(shù)能使保險(xiǎn)行業(yè)有效地利用現(xiàn)有數(shù)據(jù)實(shí)現(xiàn)經(jīng)營目標(biāo),預(yù)測保險(xiǎn)業(yè)的發(fā)展趨勢,進(jìn)而在激烈的競爭中贏得先機(jī)。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;Apriori
1 引言
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,各行各業(yè)積累的數(shù)據(jù)越來越多。日益劇增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。
隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的發(fā)展,獲得某一行業(yè)有關(guān)資料已切實(shí)可行。而對于數(shù)量大、涉及面廣的數(shù)據(jù),依靠傳統(tǒng)的簡單匯總、按指定模式去分析的統(tǒng)計(jì)方法無法完成對數(shù)據(jù)的分析。因此,一種智能化的信息分析技術(shù)——“數(shù)據(jù)挖掘”(Data Mining)應(yīng)運(yùn)而生。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。通過挖掘數(shù)據(jù)倉庫中存儲的大量數(shù)據(jù),從中發(fā)現(xiàn)有意義的新的關(guān)聯(lián)模式和趨勢的過程。數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。從而使企業(yè)在激烈的市場競爭中獲得先機(jī)。就保險(xiǎn)行業(yè)而言,目前具有廣闊的市場需求。
2 項(xiàng)目說明
本項(xiàng)目開發(fā)了“保險(xiǎn)行業(yè)決策系統(tǒng)V1.0”。本系統(tǒng)操作主界面利用ASP編程實(shí)現(xiàn):數(shù)據(jù)預(yù)處理、客戶購買險(xiǎn)種分析、客戶購買習(xí)慣分析、分析結(jié)果輸出等功能;后臺數(shù)據(jù)庫利用Sql Server 2005網(wǎng)絡(luò)數(shù)據(jù)庫實(shí)現(xiàn);挖掘工具采用SPSS Clementine 11.0;在研究實(shí)驗(yàn)階段,針對Apriori算法存在的“存儲復(fù)雜度”及“大量冗余規(guī)則”兩大缺點(diǎn)進(jìn)行了算法改進(jìn),通過利用一個(gè)模式樹結(jié)構(gòu)來降低Apriori算法的存儲復(fù)雜度,并同時(shí)減少冗余規(guī)則的出現(xiàn)。
本系統(tǒng)共分:數(shù)據(jù)預(yù)處理、客戶購買險(xiǎn)種分析、客戶購買習(xí)慣分析、分析結(jié)果輸出等主要功能模塊。
(1)“數(shù)據(jù)預(yù)處理”模塊包括:上傳、數(shù)據(jù)平臺、數(shù)據(jù)處理、統(tǒng)計(jì)、生成數(shù)據(jù)集等功能。
● 上傳:可完成保險(xiǎn)總公司下設(shè)所有分公司數(shù)據(jù)的上傳。
● 數(shù)據(jù)平臺:在數(shù)據(jù)上傳前允許對數(shù)據(jù)平臺進(jìn)行選擇。
● 數(shù)據(jù)處理:對數(shù)據(jù)進(jìn)行清理、格式轉(zhuǎn)換等操作。
● 統(tǒng)計(jì):對經(jīng)過預(yù)處理的數(shù)據(jù)進(jìn)行分析,提取有效性數(shù)據(jù)。
● 生成數(shù)據(jù)集:將統(tǒng)計(jì)過程提取的有效數(shù)據(jù)生成數(shù)據(jù)集,為數(shù)據(jù)挖掘提供較高質(zhì)量的數(shù)據(jù)源。
(2)“客戶購買險(xiǎn)種分析”模塊包括:數(shù)據(jù)導(dǎo)入、參數(shù)設(shè)定、結(jié)果分析等功能。
● 數(shù)據(jù)導(dǎo)入:在此操作界面上,可通過選擇不同數(shù)據(jù)平臺將經(jīng)過“數(shù)據(jù)預(yù)處理”生成的數(shù)據(jù)集分別導(dǎo)入。
● 參數(shù)設(shè)定:在此操作界面上設(shè)定“支持度”“置信度”等參數(shù),對有效數(shù)據(jù)集中有分析價(jià)值的數(shù)據(jù)記錄范圍進(jìn)行篩選。
● 結(jié)果分析:在此操作界面上可將“客戶購買險(xiǎn)種分析”的最終分析結(jié)果以“報(bào)表”、“圖表”形式展示,此分析結(jié)果為行業(yè)提供了“同一客戶購買本公司多種(次)保險(xiǎn)”的客戶信息,進(jìn)而為行業(yè)提供了“可爭取客戶”的決策依據(jù)。
(3)“客戶購買習(xí)慣分析”模塊包括:數(shù)據(jù)導(dǎo)入、參數(shù)設(shè)定、結(jié)果分析等功能。
● 數(shù)據(jù)導(dǎo)入:此操作同(2)“客戶購買險(xiǎn)種分析”模塊中的“數(shù)據(jù)導(dǎo)入”。
● 參數(shù)設(shè)定:在此分別設(shè)定“輸入?yún)?shù)”(包括:年齡、性別、職業(yè)等客戶基本信息)及“輸出參數(shù)”(客戶購買的險(xiǎn)種信息)。
● 結(jié)果分析:通過此操作界面可展示出客戶購買習(xí)慣的分析結(jié)果,進(jìn)而為行業(yè)提供了“可保持客戶”的決策依據(jù)。
(4)“分析結(jié)果輸出”模塊包括:“客戶購買險(xiǎn)種分析”“客戶購買習(xí)慣分析”等分析結(jié)果的打印輸出功能。
3 項(xiàng)目中改進(jìn)的快速算法
由于Apriori算法存在時(shí)間空間復(fù)雜度高及產(chǎn)生大量冗余規(guī)則兩大缺陷。因此本項(xiàng)目通過利用一個(gè)模式樹結(jié)構(gòu)來降低Apriori算法的存儲復(fù)雜度,并同時(shí)減少冗余規(guī)則的出現(xiàn)。
3.1 一個(gè)模式樹的結(jié)構(gòu)
root是一個(gè)標(biāo)為“null”的根結(jié)點(diǎn),root以下是作為根結(jié)點(diǎn)的孩子的項(xiàng)(未完,下一頁)
|