數(shù)據(jù)挖掘技術(shù)應(yīng)用匯總十篇

時(shí)間:2023-03-13 11:05:25

序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)應(yīng)用范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

數(shù)據(jù)挖掘技術(shù)應(yīng)用

篇(1)

中圖法分類號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)22-6231-02

Survey on Data Mining Technology

WANG Wen

(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.

Key words: data mining; user preference; examination system; intrusion detection system

隨著時(shí)代的發(fā)展,計(jì)算機(jī)科學(xué)在以飛快的速度前進(jìn)著。在計(jì)算機(jī)科學(xué)的眾多領(lǐng)域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個(gè)領(lǐng)域。近幾十年來,隨著人工智能技術(shù)的日漸成熟,人們對(duì)人工智能的研究更加深入,對(duì)人工智能更加重視。科學(xué)界對(duì)于人工智能的重要性也已形成共識(shí)。

自進(jìn)入21世紀(jì)以來,電子數(shù)據(jù)獲取與計(jì)算機(jī)技術(shù)方面的不斷發(fā)展以及網(wǎng)絡(luò)的廣泛普及與應(yīng)用,人們?nèi)粘I钪薪邮盏臄?shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨(dú)特的知識(shí)爆炸時(shí)代。就在最近幾十年很多超大型數(shù)據(jù)庫的產(chǎn)生使得整個(gè)社會(huì)發(fā)生著天翻地覆的變化,遍及銀行存款、超級(jí)市場(chǎng)銷售、粒子物理、天文學(xué)、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計(jì)等領(lǐng)域。在這個(gè)數(shù)字化、信息化時(shí)代,這么大規(guī)模的數(shù)據(jù)庫以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫的數(shù)據(jù)管理問題將會(huì)是以后對(duì)數(shù)據(jù)處理的一個(gè)重要關(guān)注點(diǎn)。眾多科技工作者共同關(guān)注的焦點(diǎn)集中在了如何從這些大型數(shù)據(jù)庫中發(fā)現(xiàn)有用的、信息、模式以及如何實(shí)現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領(lǐng)域逐漸走進(jìn)了人們的事業(yè),并且在人們的關(guān)注和不斷研究下飛速發(fā)展,這是一個(gè)與統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)以及高性能并行計(jì)算等領(lǐng)域都有很大相關(guān)的新學(xué)科,正是計(jì)算機(jī)學(xué)科的一個(gè)研究重點(diǎn)。

1 數(shù)據(jù)挖掘的一般過程

數(shù)據(jù)挖掘一般分為如下四個(gè)步驟(圖1)。

1.1 數(shù)據(jù)預(yù)處理

收集和凈化來自各種數(shù)據(jù)源或數(shù)據(jù)倉庫的信息,并加以存儲(chǔ), 一般存于數(shù)據(jù)倉庫中。

1.2 模型搜索

利用數(shù)據(jù)挖掘在數(shù)據(jù)庫中匹配模型,這個(gè)搜索過程可以由系統(tǒng)自動(dòng)執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進(jìn)行用戶交互,由分析人員發(fā)問,自頂向下尋找以驗(yàn)證假設(shè)的正確性。一個(gè)問題的搜索過程可能用到許多模型,如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)(決策樹)、機(jī)器學(xué)習(xí)、基于實(shí)例的推理等。

1.3 評(píng)價(jià)輸出結(jié)果

一般來說,數(shù)據(jù)挖掘的搜索過程需要反復(fù)多次,當(dāng)分析人員評(píng)價(jià)輸出結(jié)果后,它們可能會(huì)形成一些新的問題,或者要求對(duì)某一方面作更精細(xì)的查詢,通過反復(fù)的搜索過程即可滿足分析人員的這種需求。

1.4 生成報(bào)告

知識(shí)的發(fā)現(xiàn)過程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示等幾個(gè)步驟組成。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫交互,把用戶關(guān)心的模式提交給廣大用戶,或作為新的知識(shí)存放在知識(shí)庫中。

2 數(shù)據(jù)挖掘應(yīng)用

2.1 數(shù)據(jù)挖掘在實(shí)現(xiàn)網(wǎng)站用戶偏好度的應(yīng)用

數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。使數(shù)據(jù)能夠被更加高效的利用,對(duì)無用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術(shù)最主要的實(shí)現(xiàn)形式,也是其最重要的應(yīng)用方式。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)相對(duì)于Web的數(shù)據(jù)而言,其結(jié)構(gòu)性很強(qiáng),是完全結(jié)構(gòu)化的數(shù)據(jù),而半結(jié)構(gòu)化則是Web上的數(shù)據(jù)最大特點(diǎn)。因而,面向單個(gè)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡(jiǎn)單許多。據(jù)統(tǒng)計(jì),網(wǎng)站上的絕大部分內(nèi)容對(duì)絕大部分用戶來說是無用的信息。事實(shí)是對(duì)于某個(gè)特定用戶來說,其關(guān)心的內(nèi)容僅是網(wǎng)站上極小部分的內(nèi)容,而網(wǎng)站上提供的更多的內(nèi)容對(duì)于這個(gè)用戶來說是其不感興趣的,并且過多的信息往往會(huì)掩蓋有用的信息,使得用戶的查詢效率降低,并且對(duì)于網(wǎng)站也不是一件利事。

對(duì)于Web數(shù)據(jù)挖掘技術(shù)而言,半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題是應(yīng)當(dāng)首要解決的問題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問題,有一個(gè)模型來清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對(duì)數(shù)據(jù)半結(jié)構(gòu)化的Web數(shù)據(jù)的特點(diǎn),尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型至關(guān)重要。并且除此定義一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型之外,一種半結(jié)構(gòu)化模型抽取技術(shù)(自動(dòng)地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù))也是應(yīng)當(dāng)提出的。因而半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)是面向Web的數(shù)據(jù)挖掘?qū)崿F(xiàn)的重要前提。

用戶瀏覽網(wǎng)站上的內(nèi)容時(shí),他會(huì)被很的多因素影響,網(wǎng)頁的外觀,信息標(biāo)題,網(wǎng)頁鏈接以及個(gè)人的興趣和習(xí)慣等等。我們可以設(shè)定合理的假設(shè),建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問題。

2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用

數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用最主要體現(xiàn)在題庫的構(gòu)建,下面分別介紹題庫的構(gòu)建中數(shù)據(jù)挖掘的應(yīng)用情況。

在設(shè)計(jì)數(shù)據(jù)庫方面,數(shù)據(jù)庫主要由題庫、答案庫和答案關(guān)鍵字庫構(gòu)成,題型庫又涵括科目、題號(hào)、題型、題目、難度、分值等字段;答案庫中包含科目、題號(hào)、分值、答案以及在同一題中有不同答案時(shí)應(yīng)提供的不同答案序號(hào)等字段;答案關(guān)鍵字庫中有題號(hào)、答案序號(hào)、權(quán)重和答案關(guān)鍵字。此后在將答案錄入答案庫。對(duì)于客觀題而言,僅僅需要錄入唯一的答案;但對(duì)于主觀題而言,則需要盡量給出多個(gè)參考答案并將每個(gè)答案的關(guān)鍵字及其所對(duì)應(yīng)的權(quán)值、答案序號(hào)輸入答案關(guān)鍵字庫。

通常有兩類數(shù)據(jù)挖掘方法:①統(tǒng)計(jì)型,應(yīng)用概率分析、相關(guān)性、聚類分析和判別分析等技術(shù)得以實(shí)現(xiàn);②通過人工智能中的機(jī)器學(xué)習(xí),經(jīng)過訓(xùn)練以及學(xué)習(xí)輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點(diǎn)都有其優(yōu)勢(shì)以及相應(yīng)的引用領(lǐng)域,最后結(jié)果的質(zhì)量和效果將受到數(shù)據(jù)挖掘技術(shù)選擇的影響,采用多種技術(shù)結(jié)合的方法,其各自的優(yōu)勢(shì)可以達(dá)到互補(bǔ)的要求,從而實(shí)現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①?zèng)Q策樹算法:為每個(gè)問題的答案構(gòu)造一個(gè)二叉樹,每個(gè)分支或者是一個(gè)新的決策點(diǎn),或者是一個(gè)葉子節(jié)點(diǎn)。在沿著決策樹從上到下的遍歷過程中,對(duì)每個(gè)問題的不同回答導(dǎo)致不同的分支,最后到達(dá)一個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)都會(huì)對(duì)應(yīng)確定的權(quán)值,通過對(duì)權(quán)值的計(jì)算判定得分;②模糊論方法:利用模糊集合理論,對(duì)實(shí)際問題進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫中的答案進(jìn)行對(duì)照,以確定答案的正確度,從而更客觀準(zhǔn)確地評(píng)定主觀題分?jǐn)?shù)。

2.3 數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)方面的應(yīng)用

入侵檢測(cè)就是通過運(yùn)用一些分析方法對(duì)從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的數(shù)據(jù)進(jìn)行分析、提煉,再根據(jù)分析結(jié)果對(duì)這些數(shù)據(jù)進(jìn)行評(píng)價(jià),從而能夠識(shí)別出正常和異常的數(shù)據(jù)或者對(duì)潛在的新型入侵做出預(yù)測(cè),以保證網(wǎng)絡(luò)的安全運(yùn)行。

基于分布式數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)要對(duì)一個(gè)網(wǎng)段上的信息進(jìn)行全面而細(xì)致的監(jiān)測(cè),同時(shí)在網(wǎng)絡(luò)上多個(gè)點(diǎn)進(jìn)行數(shù)據(jù)采集,如網(wǎng)關(guān)和特別需要保護(hù)的服務(wù)器等。整個(gè)系統(tǒng)構(gòu)成分為本地分類器、規(guī)則學(xué)習(xí)模塊和集中分類器三塊基本構(gòu)件。本地分類器負(fù)責(zé)對(duì)從網(wǎng)絡(luò)上各個(gè)點(diǎn)采集到的數(shù)據(jù)通過預(yù)處理模塊去除掉無效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進(jìn)行數(shù)據(jù)挖掘算法可識(shí)別的格式,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的初步檢測(cè)和處理。本地分類器有2個(gè)輸出:一個(gè)輸出為分類數(shù)據(jù),用于提交給規(guī)則學(xué)習(xí)模塊,另外一個(gè)為數(shù)據(jù)摘要,用于提交給集中分類器。規(guī)則學(xué)習(xí)模塊負(fù)責(zé)對(duì)標(biāo)記過的分類數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘,從而學(xué)習(xí)到新的知識(shí)。學(xué)習(xí)到的知識(shí)被直接錄入到規(guī)則庫中,這樣保證了規(guī)則庫可以根據(jù)網(wǎng)上的變化可以隨時(shí)達(dá)到更新的需求。另外一種方式是通過規(guī)則學(xué)習(xí)模塊實(shí)現(xiàn)人工訓(xùn)練系統(tǒng),從而實(shí)現(xiàn)升級(jí)規(guī)則庫的需求。最后將分布式數(shù)據(jù)挖掘的結(jié)果形成數(shù)據(jù)摘要發(fā)送給集中分類器,由集中分類器對(duì)各點(diǎn)數(shù)據(jù)摘要進(jìn)行匯集,從而做出綜合判斷,達(dá)到有效地檢測(cè)協(xié)同攻擊的效果,最后將檢測(cè)結(jié)果提交給決策模塊。

3 結(jié)束語

數(shù)據(jù)挖掘技術(shù)是人工智能學(xué)科的一個(gè)重要分支,也是現(xiàn)代計(jì)算機(jī)科學(xué)的一個(gè)研究重點(diǎn)。現(xiàn)在基于數(shù)據(jù)挖掘技術(shù)的科研可以說是碩果累累,自從人工智能這個(gè)概念被提出來之后,其發(fā)展一直是計(jì)算機(jī)學(xué)科的熱門而且其分支廣而泛,都在不同的領(lǐng)域發(fā)揮著十分重要的作用。相信在計(jì)算機(jī)研究人員的不斷努力下數(shù)據(jù)挖掘會(huì)在更多的方面服務(wù)人們,并且期待著新的理論的提出。

參考文獻(xiàn):

[1] 何克抗.建立題庫的理論[M].長(zhǎng)沙:國防科技大學(xué)出版社,1995.

[2] 劉波,段麗艷.一個(gè)基于Internet的通用題庫系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2000(1):39-44.

篇(2)

關(guān)鍵詞:

大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)分析和研究運(yùn)用數(shù)據(jù)挖掘技術(shù),也被稱為數(shù)字處理技術(shù),顧名思義,就是對(duì)于目前各大企業(yè)的內(nèi)部數(shù)據(jù),進(jìn)行整理、調(diào)整、挖掘?qū)嵤┮约霸u(píng)估等一系列處理操作,其主要的目標(biāo)是保證全局?jǐn)?shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調(diào)查的方法,而是對(duì)于全局?jǐn)?shù)據(jù)進(jìn)行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術(shù)也包含4個(gè)優(yōu)點(diǎn),即高數(shù)量、高速度、多元化以及高價(jià)值。而筆者將通過本文,就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用進(jìn)行分析和探討。

1相關(guān)概念的簡(jiǎn)介

1.1大數(shù)據(jù)的概念關(guān)于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運(yùn)作的一個(gè)重要因素。而大數(shù)據(jù)的運(yùn)用,對(duì)于消費(fèi)以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進(jìn)行人均計(jì)算,相當(dāng)于每個(gè)人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長(zhǎng)的趨勢(shì),根據(jù)統(tǒng)計(jì)計(jì)算,這一數(shù)值將會(huì)按照約為50%/年的速度增長(zhǎng)。

1.2數(shù)據(jù)挖掘作為一個(gè)新型學(xué)科,數(shù)據(jù)挖掘技術(shù)源于20世紀(jì)的80年代,那時(shí)其效用與目前存在本質(zhì)差異,科學(xué)家最初研究大數(shù)據(jù),主要是用于一些人工智能技術(shù)的開發(fā)。簡(jiǎn)而言之,技術(shù)層面上,數(shù)據(jù)挖掘就是一個(gè)對(duì)數(shù)據(jù)進(jìn)行發(fā)掘創(chuàng)新的過程,即要求目標(biāo)數(shù)據(jù)具有隱蔽性、挖掘價(jià)值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機(jī)的、模糊的數(shù)據(jù)庫中進(jìn)行挖掘;而對(duì)于商業(yè)層面上來說,數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價(jià)值信息,從而為決策提供重要的知識(shí)憑據(jù)。

2數(shù)據(jù)挖掘的研究手段

對(duì)于數(shù)據(jù)挖掘而言,不同的研究手段將是其開展的重要基礎(chǔ),而研究手段的決定,主要需要依靠科學(xué)的計(jì)算為依據(jù),分析和對(duì)比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過研究手段的改變?nèi)?yīng)付不同的問題,對(duì)于實(shí)際操作來說,就是針對(duì)不同的數(shù)據(jù)找出不同的解決方法,而常見數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預(yù)測(cè)以及關(guān)聯(lián)研究。

2.1聚類研究將抽選的數(shù)據(jù)或者對(duì)象的庫進(jìn)行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個(gè)組類,由此建立起多個(gè)組類開展研究的過程。整個(gè)過程突出的是一種無知識(shí)基礎(chǔ)、無監(jiān)督管控的學(xué)習(xí)過程。而整個(gè)過程由于分類研究有本質(zhì)的差異,因?yàn)榫垲愌芯吭谑孪雀緹o法得到目標(biāo)的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個(gè)區(qū)域,例如心理、統(tǒng)計(jì)、醫(yī)藥、銷售以及數(shù)據(jù)識(shí)別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對(duì)于前者來說,就是將目標(biāo)按照影響標(biāo)準(zhǔn)進(jìn)行劃分,即目標(biāo)如果屬于某類,必定不屬于其他類;而對(duì)于后者來說,主要取決與隸屬度的取值不同。而劃分過程可能會(huì)將目標(biāo)劃分入多個(gè)聚類中。此外聚類的計(jì)算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。

2.2分類與估測(cè)對(duì)于分類與數(shù)值估測(cè)來說,都是屬于是問題預(yù)測(cè)方式,其中前者要求估測(cè)各個(gè)類中的標(biāo)號(hào),這些標(biāo)號(hào)都是分散且無規(guī)律的,而估測(cè)方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測(cè)作為數(shù)據(jù)挖掘的起始工作,主要需要反應(yīng)已經(jīng)獲知的訓(xùn)練數(shù)據(jù)庫的特點(diǎn),從而根據(jù)以上基礎(chǔ)完成其中對(duì)每一類的情況以及特點(diǎn)完成相應(yīng)的分類操作,而整個(gè)操作也是受到督促的,對(duì)于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測(cè)主要是基于分類以及回歸基礎(chǔ),估測(cè)數(shù)據(jù)將來的動(dòng)向,即包含局勢(shì)外推、時(shí)間序列以及回歸分析幾類。

2.3關(guān)聯(lián)研究關(guān)聯(lián)研究是源于自然生物間微妙的關(guān)系,而某事情的發(fā)生和發(fā)展也會(huì)引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應(yīng)”的定義。而關(guān)聯(lián)研究的研究目標(biāo)即是研究物與物之間的微妙關(guān)系,包含一些依賴關(guān)系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來的動(dòng)向。以購物為例,分析購物者的心理規(guī)律以及習(xí)慣,可以從他們對(duì)于購物的一系列表現(xiàn),例如購物籃的物品類型、放置規(guī)律、購物消費(fèi)理念、購物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個(gè)銷售企業(yè)獲得巨大的消費(fèi)市場(chǎng)以及商機(jī)。

3大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的運(yùn)用

3.1數(shù)據(jù)準(zhǔn)備準(zhǔn)備流程需要依附于研究者已經(jīng)建立起長(zhǎng)期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫,而根據(jù)這些無規(guī)則的原始數(shù)據(jù)進(jìn)行相應(yīng)的挖掘前的準(zhǔn)備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉(zhuǎn)變,作為基礎(chǔ)的流程,數(shù)據(jù)準(zhǔn)備操作在整個(gè)流程中起到重要的基礎(chǔ)作用。

3.2數(shù)據(jù)挖掘開展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘?qū)ο蟮那闆r擇選最優(yōu)的計(jì)算方法,從而獲取其中的規(guī)律性,例如對(duì)應(yīng)采用決策樹算法、分類算法、神經(jīng)網(wǎng)絡(luò)算法以及Apriori算法等。

3.3數(shù)據(jù)挖掘的模式評(píng)估研究模式評(píng)估的對(duì)象主要是通過數(shù)據(jù)挖掘處理過程數(shù)據(jù),而評(píng)估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)變“翻譯”成通俗易懂的語言,供人們?nèi)パ芯亢退伎肌?/p>

3.4數(shù)據(jù)挖掘的知識(shí)應(yīng)用知識(shí)應(yīng)用是數(shù)據(jù)挖掘的最后一步,通常知識(shí)運(yùn)用就是一種現(xiàn)實(shí)運(yùn)用的過程,通過數(shù)據(jù)準(zhǔn)備、挖掘、研究評(píng)估,最后將結(jié)果數(shù)據(jù)或者規(guī)律用于現(xiàn)實(shí)中,從而體現(xiàn)數(shù)據(jù)的本身的價(jià)值,這就是知識(shí)應(yīng)用的內(nèi)涵。

4大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的運(yùn)用

4.1市場(chǎng)營(yíng)銷方面市場(chǎng)營(yíng)銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對(duì)于消費(fèi)者群體的消費(fèi)習(xí)慣以及行為進(jìn)行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購物消費(fèi)以外,數(shù)據(jù)挖掘技術(shù)以及拓展到了各大金融行業(yè),例如保險(xiǎn)行業(yè)、銀行行業(yè)以及電子商務(wù)行業(yè)等等。例如:在市場(chǎng)營(yíng)銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無規(guī)則、無意識(shí)的行為數(shù)據(jù),對(duì)他們進(jìn)行識(shí)別,即根據(jù)客戶的忠誠度、消費(fèi)意識(shí)進(jìn)行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。

4.2數(shù)據(jù)挖掘的科學(xué)分析科學(xué)本身就是一個(gè)尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過程,而且任何科學(xué)研究都是需要基于數(shù)據(jù)作為基礎(chǔ),所以數(shù)據(jù)挖掘?qū)τ诳茖W(xué)領(lǐng)域也具有重要的意義和價(jià)值,特別是針對(duì)一些未知的事物、領(lǐng)域或者知識(shí),通過數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對(duì)于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。

4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運(yùn)用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質(zhì)量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過程,找出影響生產(chǎn)質(zhì)量以及效率的問題,然后通過對(duì)這些問題進(jìn)行解決,提升企業(yè)經(jīng)濟(jì)效益。對(duì)于制造業(yè)而言,數(shù)據(jù)挖掘運(yùn)用主要體現(xiàn)在決策方面,即首先通過數(shù)據(jù)篩選,獲取有用的知識(shí)和數(shù)據(jù),然后采用決策樹算法,統(tǒng)計(jì)決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預(yù)測(cè)目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時(shí)間以及周期。

4.4教育方面對(duì)于教育行業(yè)來說,最重要的除了教師的教學(xué)方法以外,學(xué)生的學(xué)習(xí)情況、心理動(dòng)向以及教學(xué)評(píng)估都是十分重要的,采用數(shù)據(jù)挖掘技術(shù),則可以有效將這些數(shù)據(jù)通過分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學(xué)校教學(xué)改革時(shí)進(jìn)行參考。例如:教學(xué)質(zhì)量評(píng)估數(shù)據(jù)挖掘模塊的開發(fā),即將教學(xué)質(zhì)量相關(guān)的項(xiàng)目通過QSLSevrer進(jìn)行整合和存儲(chǔ),例如教學(xué)準(zhǔn)備、教學(xué)內(nèi)容、教學(xué)方式以及教學(xué)態(tài)度等,最后學(xué)生可以進(jìn)行自行瀏覽并且完成評(píng)估,而評(píng)估結(jié)果則會(huì)上傳系統(tǒng)進(jìn)行最后通過數(shù)據(jù)挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關(guān)聯(lián)規(guī)律。

5結(jié)語

雖然數(shù)據(jù)挖掘技術(shù)不是一項(xiàng)新興的技術(shù),但是其還具有較大的研究?jī)r(jià)值與運(yùn)用前景,特別是在特殊領(lǐng)域的運(yùn)用,對(duì)于一系列數(shù)據(jù)進(jìn)行科學(xué)冗雜的處理,然后分析其中規(guī)則價(jià)值,可以有效提升各大行業(yè)的經(jīng)濟(jì)效益。

參考文獻(xiàn)

[1]趙倩倩,程國建,冀乾宇,戎騰學(xué).大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識(shí)與技術(shù),2014,11(33):7831-7833.

篇(3)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)09-0239-02

Abstract: along with our country social improvement, economic development,meteorological services in China has been developed greatly in the process.In the process of the development of meteorological services, meteorological data along with the increasing scale and coverage. In the face of this part of the huge data, how to effectively search, its use has become a problem of great concern to the industry of our country. In this paper, the application of data mining technology in meteorological data on the study and analysis of some.

Key words: data mining; meteorological data; application

對(duì)于氣象數(shù)據(jù)的收集與分析有利于幫助我們對(duì)不同地區(qū)所具有的氣象條件以及氣象規(guī)律進(jìn)行把握,以此使我們能夠更好的對(duì)該地區(qū)某一時(shí)段下的氣象情況進(jìn)行預(yù)測(cè)。但是,這種數(shù)據(jù)的收集就會(huì)使我們所具有的氣象數(shù)據(jù)資料越來越多,難以對(duì)其進(jìn)行管理與應(yīng)用。僅僅通過我們計(jì)算機(jī)方式的應(yīng)用,也很難對(duì)這種規(guī)模較大的數(shù)據(jù)集進(jìn)行處理,在這種情況下,就需要我們能夠以數(shù)據(jù)挖掘技術(shù)的應(yīng)用更好的實(shí)現(xiàn)氣象數(shù)據(jù)的管理。

1 數(shù)據(jù)挖掘流程

1.1 確定對(duì)象

在開展數(shù)據(jù)挖掘工作中,首先需要對(duì)業(yè)務(wù)所具有的問題進(jìn)行明確的定義,幫助我們對(duì)數(shù)據(jù)挖掘的目的進(jìn)行確定。雖然對(duì)于我們后續(xù)數(shù)據(jù)的挖掘結(jié)果會(huì)具有一定的不可預(yù)測(cè)性,但是對(duì)于我們問題探索的目標(biāo)卻需要具有良好的預(yù)見性,并以此針對(duì)性目標(biāo)的確定幫助我們更好的開展后續(xù)工作。

1.2 數(shù)據(jù)準(zhǔn)備

在這個(gè)環(huán)節(jié)中,主要具有數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)選擇這三個(gè)主要步驟。其中,數(shù)據(jù)選擇是對(duì)同本次業(yè)務(wù)具有關(guān)聯(lián)的維度或者數(shù)據(jù)進(jìn)行選擇,并從中選擇出適合本次數(shù)據(jù)挖掘工作的相關(guān)數(shù)據(jù);數(shù)據(jù)預(yù)處理則是對(duì)本次研究數(shù)據(jù)所具有的質(zhì)量進(jìn)行研究,并以此幫助我們?yōu)楹罄m(xù)的進(jìn)一步分析作出準(zhǔn)備,同時(shí)對(duì)數(shù)據(jù)操作所具有的類型進(jìn)行確定;數(shù)據(jù)轉(zhuǎn)換則是要將不同類型數(shù)據(jù)通過一定的方式將其轉(zhuǎn)換為我們所需要的數(shù)據(jù)分析模型,對(duì)于該模型而言,其是針對(duì)我們?cè)型诰蛩惴ǘ⒌模@種分析模型的建立也是我們開展數(shù)據(jù)挖掘工作的重要基礎(chǔ)與重點(diǎn)環(huán)節(jié)。

1.3 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘正是我們本次工作的核心環(huán)節(jié),需要對(duì)所有數(shù)據(jù)預(yù)處理完成的、經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行全面的挖掘。在此過程中,除了需要我們以人工的方式對(duì)適合本次挖掘工作所使用的算法進(jìn)行選擇之外,其余的工作都會(huì)以自動(dòng)的方式開展。

1.4 結(jié)果解釋與評(píng)價(jià)

在我們數(shù)據(jù)挖掘工作結(jié)束之后,往往會(huì)得到一系列規(guī)則集,而這部分規(guī)則集通常需要在專業(yè)人員對(duì)其進(jìn)行一定的研究與合理的解釋才能夠被人們更好的掌握。對(duì)此,就需要我們對(duì)本次數(shù)據(jù)挖掘結(jié)果進(jìn)行適當(dāng)?shù)慕忉屌c評(píng)價(jià),進(jìn)而使其能夠具有更好的易用性以及廣泛性。

2氣象資料特點(diǎn)

2.1 數(shù)據(jù)量大

氣象資料可以說是我國歷史最為久遠(yuǎn)、保存最為系統(tǒng)且完善的一類資源信息。尤其隨著改革開放之后,我國已經(jīng)積累了數(shù)量非常多的氣象基礎(chǔ)數(shù)據(jù)以及信息,且新的氣象數(shù)據(jù)資料也以非常快的速度在每年增長(zhǎng),在我們實(shí)際處理時(shí)經(jīng)常會(huì)出現(xiàn)冗余情況。

2.2 多樣性

氣象信息具有著非常多樣化的種類,如高空氣象資料、農(nóng)業(yè)氣象資料、日地物理資料、雷達(dá)資料、氣象輻射資料、冰雪圈資料、土壤與植被資料、氣象災(zāi)害資料、地面氣象資料、水文氣象資料以及衛(wèi)星資料等等。而氣象資料所具有的載體也具有著很多種方式,如不同氣象站所的氣象原始報(bào)表,不同省市所的氣象衛(wèi)星云圖以及雷達(dá)圖等等。

2.3 多維性

在氣象資料中,通常都具有著較多的氣象要素,如高空資料以及地面資料往往具有著溫度、日照以及氣溫等很多種要素。而在每一類要素中,也都具有著其所獨(dú)特的屬性維度。也正是根據(jù)這種特點(diǎn),則使氣象資料往往具有著較為明顯的多為特征。

2.4 復(fù)雜性

氣象資料中所常見的數(shù)據(jù)類型主要有標(biāo)稱類型、二元類型、數(shù)值類型以及序列類型等等。比如降雨與否為二元類型、氣壓為數(shù)值類型等等。

2.5 連續(xù)性

在氣象站中,無論是高空站還是地面站,其所具有的氣象要素屬性值都是一種具有連續(xù)特征的數(shù)值,比如氣壓、溫度以及氣溫要素。

3 氣象資料預(yù)處理

3.1 缺失值處理

在SPSS軟件中,具有著很多種對(duì)于數(shù)據(jù)的缺失值處理方式。而對(duì)于氣象數(shù)據(jù)來說,由于其所具有的變化是一個(gè)能量的動(dòng)態(tài)變化過程,對(duì)此,我們對(duì)于氣象數(shù)據(jù)所具有的缺失值則使用Mean of nearby points方式進(jìn)行,并對(duì)其中所具有的缺失值根據(jù)鄰近三個(gè)小時(shí)所具有的數(shù)據(jù)平均值對(duì)缺失值進(jìn)行替代。

3.2 氣象資料屬性泛化

在數(shù)據(jù)維度泛化方面,需要嚴(yán)格的按照我國相關(guān)標(biāo)準(zhǔn)開展工作,比如在二氧化硫數(shù)據(jù)的泛化方面,其是否存在超標(biāo)情況則需要根據(jù)我國所制定的污染物濃度標(biāo)準(zhǔn)對(duì)其進(jìn)行泛化。即如果CO2所執(zhí)行的為一級(jí)標(biāo)準(zhǔn),那么則可以根據(jù)其每小時(shí)所具有的濃度值同標(biāo)準(zhǔn)中的參考值0.15進(jìn)行比對(duì),并以此幫助我們判斷該項(xiàng)參數(shù)是否存在超標(biāo)的現(xiàn)象。而對(duì)于其所具有的超標(biāo)、不超標(biāo)現(xiàn)象來說,我們則需要在對(duì)結(jié)果判斷之后將其標(biāo)記為(是,否)二元屬性值。

3.3 氣象資料標(biāo)準(zhǔn)化

在氣象數(shù)據(jù)資料中,不同維度間數(shù)據(jù)往往具有著不一致的量綱,而我們?cè)趯?duì)其開展定量量測(cè)以及聚類分析時(shí),也經(jīng)常由于量綱所具有的不同而對(duì)最終的分析結(jié)果產(chǎn)生較大的影響。一般情況下,氣象資料中所具有的風(fēng)向數(shù)值都會(huì)控制在0至360之間,而如果污染因子的單位為毫克,那么其所具有的范圍則會(huì)在0至1之間,我們?cè)趯?duì)聚類進(jìn)行應(yīng)用時(shí)如果以距離作為評(píng)價(jià),其主要依據(jù)則會(huì)在兩個(gè)維度中更加傾向于風(fēng)向維護(hù)。而為了能夠?qū)@部分維度間所具有的影響進(jìn)行消除,就需要我們對(duì)這部分重點(diǎn)維度開展標(biāo)準(zhǔn)化預(yù)處理。在氣象數(shù)據(jù)的標(biāo)準(zhǔn)化處理中,具有著很多種方式,Z標(biāo)準(zhǔn)化是我們應(yīng)用較多的一類方式,即均值為0,方差為1。

3.4 氣象資料維歸約

在氣象資料中有時(shí)候維度之間具有很強(qiáng)的依賴性或者說相關(guān)性,對(duì)于維度之間的這種依賴性或者相關(guān)性有時(shí)候在數(shù)據(jù)分析時(shí)候由于數(shù)據(jù)量巨大會(huì)導(dǎo)致多余的計(jì)算,所以對(duì)于一些需要把握主要的或者消除冗余的數(shù)據(jù)來進(jìn)行數(shù)據(jù)分析時(shí)就可以采用主成分分析方法或者計(jì)算相關(guān)性來消除這些冗余的屬性維度。

4 氣象資料孤立點(diǎn)分析

在氣象資料中的龐大數(shù)據(jù)中,我們?cè)趯?duì)其進(jìn)行分析時(shí)往往忽略了孤立點(diǎn)的存在,或者忽略了孤立點(diǎn)所具有的特殊意義。通常來說,人們認(rèn)為孤立點(diǎn)僅僅是噪聲數(shù)據(jù)的一種,且經(jīng)常將孤立點(diǎn)分析這項(xiàng)工作作為了數(shù)據(jù)預(yù)處理進(jìn)行處理,僅僅對(duì)其中可能對(duì)數(shù)據(jù)挖掘整體結(jié)果產(chǎn)生影響的因素進(jìn)行了剔除。但是,在氣象數(shù)據(jù)中,這部分孤立點(diǎn)往往具有著非常特殊的意義,通過孤立點(diǎn)數(shù)據(jù)的分析與檢測(cè),很容易幫助我們對(duì)很多災(zāi)害氣象進(jìn)行分析。目前,對(duì)于孤立點(diǎn)進(jìn)行分析的技術(shù)主要有以下幾種:

4.1 基于統(tǒng)計(jì)方式

首先,需要假設(shè)我們所具有的數(shù)據(jù)集能夠滿足某一種概率的分布形式,之后再根據(jù)其所具有的這種獨(dú)特概率對(duì)數(shù)據(jù)集進(jìn)行擬合,并通過不一致檢驗(yàn)方式的應(yīng)用對(duì)其中很多個(gè)數(shù)據(jù)對(duì)象開展不一致性測(cè)試。如果經(jīng)過測(cè)試發(fā)現(xiàn)其存在著不符合的情況,就可以認(rèn)為其是一個(gè)孤立點(diǎn)。

4.2 基于距離方式

在該種方式中,我們可以將對(duì)于孤立點(diǎn)的分析視作鄰居對(duì)象不充分的集合,且這種鄰居對(duì)象也是根據(jù)對(duì)象所具有的距離進(jìn)行定義的。通常來說,人們僅僅會(huì)通過DB(p,d)的應(yīng)用對(duì)全局孤立點(diǎn)進(jìn)行發(fā)現(xiàn),而對(duì)于局部孤立點(diǎn)卻很難判斷。對(duì)此,我們則可以認(rèn)為孤立點(diǎn)概念不需要以一分為二的屬性對(duì)其分離,而可以通過對(duì)象孤立度的制定對(duì)其所具有的模糊度進(jìn)行衡量。

4.3 基于密度方式

基于密度的孤立點(diǎn)分析就是探測(cè)局部密度,通過不同的密度估計(jì)策略來檢查

孤立點(diǎn)。密度即指任一點(diǎn)和 p 距離小于給定半徑 R 的領(lǐng)域空間數(shù)據(jù)點(diǎn)的個(gè)數(shù)。基于密度的孤立點(diǎn)分析最顯著的特點(diǎn)就是給定了對(duì)象是孤立點(diǎn)程度的定量量度,并且是數(shù)據(jù)具有不同密度的區(qū)域也能得到很好的處理。基于密度的孤立點(diǎn)分析較基于距離的孤立點(diǎn)分析更合理,但數(shù)據(jù)的計(jì)算復(fù)雜度較基于距離的孤立點(diǎn)分析要高許多。

4.4 基于聚類方式

聚類分析是用來發(fā)現(xiàn)數(shù)據(jù)集中強(qiáng)相關(guān)聯(lián)的對(duì)象組,而孤立點(diǎn)檢測(cè)是發(fā)現(xiàn)不與其他對(duì)象組強(qiáng)關(guān)聯(lián)的對(duì)象。因此,孤立點(diǎn)分析與聚類是兩個(gè)相互對(duì)立的過程。首先聚類所有的對(duì)象,然后評(píng)估對(duì)象屬于簇的程度,對(duì)于基原型的聚類,可以用對(duì)象到它的簇中心的距離來衡量對(duì)象屬于簇的程度。

總得來說,數(shù)據(jù)挖掘技術(shù)在我國現(xiàn)今的氣象數(shù)據(jù)處理中具有著較為重要的作用。在上文中,我們對(duì)于數(shù)據(jù)挖掘技術(shù)在氣象數(shù)據(jù)中的應(yīng)用進(jìn)行了一定的研究,而在實(shí)際操作過程中,也需要我們?cè)诼?lián)系數(shù)據(jù)類別的基礎(chǔ)上通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用獲得更好的氣象分析效果。

參考文獻(xiàn):

篇(4)

根據(jù)波特的影響企業(yè)的利益相關(guān)者理論,企業(yè)有五個(gè)利益相關(guān)者,分別是客戶、競(jìng)爭(zhēng)對(duì)手、供應(yīng)商、分銷商和政府等其他利益相關(guān)者。其中,最重要的利益相關(guān)者就是客戶。現(xiàn)代企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)不僅體現(xiàn)在產(chǎn)品上,還體現(xiàn)在市場(chǎng)上,誰能獲得更大的市場(chǎng)份額,誰就能在競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)和主動(dòng)。而對(duì)市場(chǎng)份額的爭(zhēng)奪實(shí)質(zhì)上是對(duì)客戶的爭(zhēng)奪,因此,企業(yè)必須完成從“產(chǎn)品”導(dǎo)向向“客戶”導(dǎo)向的轉(zhuǎn)變,對(duì)企業(yè)與客戶發(fā)生的各種關(guān)系進(jìn)行管理。進(jìn)行有效的客戶關(guān)系管理,就要通過有效的途徑,從儲(chǔ)存大量客戶信息的數(shù)據(jù)倉庫中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作,提高企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的有效信息。而實(shí)現(xiàn)這些有效性的關(guān)鍵技術(shù)支持就是數(shù)據(jù)挖掘,即從海量數(shù)據(jù)中挖掘出更有價(jià)值的潛在信息。正是有了數(shù)據(jù)挖掘技術(shù)的支持,才使得客戶關(guān)系管理的理念和目標(biāo)得以實(shí)現(xiàn),滿足現(xiàn)代電子商務(wù)時(shí)代的需求和挑戰(zhàn)。

一、客戶關(guān)系管理(CRM)

CRM是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理方法。它是企業(yè)通過富有意義的交流和溝通,理解并影響客戶行為,最終實(shí)現(xiàn)提高客戶獲取、客戶保留、客戶忠誠和客戶創(chuàng)利的目的。它包括的主要內(nèi)容有客戶識(shí)別、客戶關(guān)系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關(guān)系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務(wù),提高客戶滿意度,同時(shí)能提高員工的生產(chǎn)能力。

二、數(shù)據(jù)挖掘(DM)

數(shù)據(jù)挖掘(DataMining,簡(jiǎn)稱DM),簡(jiǎn)單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個(gè)通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱諱的、事先未知的、潛在有用的信息。

常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)。例如,某商場(chǎng)通過關(guān)聯(lián)分析,可以找出若干個(gè)客戶在本商場(chǎng)購買商品時(shí),哪些商品被購置率較高,進(jìn)而可以發(fā)現(xiàn)數(shù)據(jù)庫中不同商品的聯(lián)系,進(jìn)而反映客戶的購買習(xí)慣。(2)序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后(因果)關(guān)系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下)隨著購買B商品,來發(fā)現(xiàn)客戶潛在的購買模式。(3)分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識(shí)別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務(wù)水平、收入水平和工作情況,可對(duì)給定用戶進(jìn)行信用風(fēng)險(xiǎn)分析。(4)聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間所存在的有價(jià)值聯(lián)系。在商業(yè)上,聚類可以通過顧客數(shù)據(jù)將顧客信息分組,并對(duì)顧客的購買模式進(jìn)行描述,找出他們的特征,制定針對(duì)性的營(yíng)銷方案。(5)孤立點(diǎn)分析。孤立點(diǎn)是數(shù)據(jù)庫中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對(duì)象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時(shí)的輸入錯(cuò)誤等。孤立點(diǎn)分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點(diǎn)分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點(diǎn)分析發(fā)現(xiàn)電話盜用等。

三、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

1.進(jìn)行客戶分類

客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進(jìn)行客戶分類,針對(duì)不同類別的客戶,提供個(gè)性化的服務(wù)來提高客戶的滿意度,提高現(xiàn)有客戶的價(jià)值。細(xì)致而可行的客戶分類對(duì)企業(yè)的經(jīng)營(yíng)策略有很大益處。例如,保險(xiǎn)公司在長(zhǎng)期的保險(xiǎn)服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對(duì)客戶的服務(wù)歷史、對(duì)客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計(jì)學(xué)資料和生活方式等。保險(xiǎn)公司必須將這些眾多的信息資源綜合起來,以便在數(shù)據(jù)庫里建立起一個(gè)完整的客戶背景。在客戶背景信息中,大批客戶可能在保險(xiǎn)種類、保險(xiǎn)年份和保險(xiǎn)金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險(xiǎn)理念,提供有針對(duì)性的服務(wù),提高保險(xiǎn)公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。

2.進(jìn)行客戶識(shí)別和保留

(1)在CRM中,首先應(yīng)識(shí)別潛在客戶,然后將他們轉(zhuǎn)化為客戶

這時(shí)可以采用DM中的分類方法。首先是通過對(duì)數(shù)據(jù)庫中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型,然后對(duì)每一個(gè)測(cè)試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測(cè)類別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)可,就可以用這個(gè)模型對(duì)未來對(duì)象進(jìn)行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫,給潛在顧客發(fā)送用于促銷的新書宣傳冊(cè)。該數(shù)據(jù)庫內(nèi)容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購習(xí)慣、購書資金、計(jì)劃等屬性的描述,顧客被分類為“是”或“否”會(huì)成為購買書籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫中時(shí),就對(duì)該新顧客的購買傾向進(jìn)行分類,以決定是否給該顧客發(fā)送相應(yīng)書籍的宣傳手冊(cè)。

(2)在客戶保留中的應(yīng)用

客戶識(shí)別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失的過程。對(duì)企業(yè)來說,獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶的過程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。例如,某專科學(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對(duì)技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書本知識(shí),沒有實(shí)際的技能,在就業(yè)市場(chǎng)上找工作很難。針對(duì)這種情況,學(xué)校應(yīng)果斷的抽取資金,購買先進(jìn)的、有針對(duì)性的實(shí)驗(yàn)實(shí)訓(xùn)設(shè)備,同時(shí)修改教學(xué)計(jì)劃,加大實(shí)驗(yàn)實(shí)訓(xùn)課時(shí)和考核力度,培訓(xùn)相關(guān)專業(yè)的教師。

(3)對(duì)客戶忠誠度進(jìn)行分析

客戶的忠誠意味著客戶不斷地購買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠度分析中主要是對(duì)客戶持久性、牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過會(huì)員的消費(fèi)信息,如最近一次消費(fèi)、消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析,可以預(yù)測(cè)出顧客忠誠度的變化,據(jù)此對(duì)價(jià)格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。

(4)對(duì)客戶盈利能力分析和預(yù)測(cè)

對(duì)于一個(gè)企業(yè)而言,如果不知道客戶的價(jià)值,就很難做出合適的市場(chǎng)策略。不同的客戶對(duì)于企業(yè)而言,其價(jià)值是不同的。研究表明,一個(gè)企業(yè)的80%的利潤(rùn)是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價(jià)值的優(yōu)質(zhì)客戶。為了弄清誰才是有價(jià)值的客戶,就需要按照客戶的創(chuàng)利能力來劃分客戶,進(jìn)而改進(jìn)客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來分析和預(yù)測(cè)不同市場(chǎng)活動(dòng)情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場(chǎng)策略。商業(yè)銀行一般會(huì)利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶的資料進(jìn)行分析,找出對(duì)提高企業(yè)盈利能力最重要的客戶,進(jìn)而進(jìn)行針對(duì)性的服務(wù)和營(yíng)銷。

(5)交叉銷售和增量銷售

交叉銷售是促使客戶購買尚未使用的產(chǎn)品和服務(wù)的營(yíng)銷手段,目的是可以拓寬企業(yè)和客戶間的關(guān)系。增量銷售是促使客戶將現(xiàn)有產(chǎn)品和服務(wù)升級(jí)的銷售活動(dòng),目的在于增強(qiáng)企業(yè)和客戶的關(guān)系。這兩種銷售都是建立在雙贏的基礎(chǔ)上的,客戶因得到更多更好符合其需求的服務(wù)而獲益,公司也因銷售增長(zhǎng)而獲益。數(shù)據(jù)挖掘可以采用關(guān)聯(lián)性模型或預(yù)測(cè)性模型來預(yù)測(cè)什么時(shí)間會(huì)發(fā)生什么事件,判斷哪些客戶對(duì)交叉銷售和增量銷售很有意向,以達(dá)到交叉銷售和增量銷售的目的。例如,保險(xiǎn)公司的交叉營(yíng)銷策略:保險(xiǎn)公司對(duì)已經(jīng)購買某險(xiǎn)種的客戶推薦其它保險(xiǎn)產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的保險(xiǎn)險(xiǎn)種是用戶所感興趣的,否則會(huì)造成用戶的反感。

四、客戶關(guān)系管理應(yīng)用數(shù)據(jù)挖掘的步驟

1.需求分析

只有確定需求,才有分析和預(yù)測(cè)的目標(biāo),然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎(chǔ)條件。數(shù)據(jù)挖掘的實(shí)施過程也是圍繞著這個(gè)目標(biāo)進(jìn)行的。在確定用戶的需求后,應(yīng)該明確所要解決的問題屬于哪種應(yīng)用類型,是屬于關(guān)聯(lián)分析、分類、聚類及預(yù)測(cè),還是其他應(yīng)用。應(yīng)對(duì)現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評(píng)估,確定是否能夠通過數(shù)據(jù)挖掘技術(shù)來解決用戶的需求,然后將進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘的計(jì)劃。

2.建立數(shù)據(jù)庫

這是數(shù)據(jù)挖掘中非常重要也非常復(fù)雜的一步。首先,要進(jìn)行數(shù)據(jù)收集和集成,其次,要對(duì)數(shù)據(jù)進(jìn)行描述和整合。數(shù)據(jù)主要有四個(gè)方面的來源:客戶信息、客戶行為、生產(chǎn)系統(tǒng)和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)通過抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉庫,并通過OLAP和報(bào)表,將客戶的整體行為結(jié)果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫用戶。

3.選擇合適的數(shù)據(jù)挖掘工具

如果從上一步的分析中發(fā)現(xiàn),所要解決的問題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術(shù)與方法。將所要解決的問題轉(zhuǎn)化成一系列數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘主要有五種任務(wù):分類,估值預(yù)測(cè),關(guān)聯(lián)規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標(biāo)是應(yīng)用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來描述感興趣的變量。后兩種屬于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒有單一的目標(biāo)變量,目標(biāo)是在所有變量中發(fā)現(xiàn)某些聯(lián)系。

4.建立模型

建立模型是選擇合適的方法和算法對(duì)數(shù)據(jù)進(jìn)行分析,得到一個(gè)數(shù)據(jù)挖掘模型的過程。一個(gè)好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對(duì)未來的數(shù)據(jù)應(yīng)有較好的預(yù)測(cè)。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個(gè)事件或?qū)ο髿w類。回歸是通過具有已知值的變量來預(yù)測(cè)其它變量的值。時(shí)間序列是用變量過去的值來預(yù)測(cè)未來的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個(gè)反復(fù)進(jìn)行的過程,它需要不斷地改進(jìn)或更換算法以尋找對(duì)目標(biāo)分析作用最明顯的模型,最后得到一個(gè)最合理、最適用的模型。

5.模型評(píng)估

為了驗(yàn)證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對(duì)模型進(jìn)行評(píng)估。我們可以將數(shù)據(jù)中的一部分用于模型評(píng)估,來測(cè)試模型的準(zhǔn)確性,模型是否容易被理解模型的運(yùn)行速度、輸入結(jié)果的速度、實(shí)現(xiàn)代價(jià)、復(fù)雜度等。模型的建立和檢驗(yàn)是一個(gè)反復(fù)的過程,通過這個(gè)階段階段的工作,能使數(shù)據(jù)以用戶能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。

6.部署和應(yīng)用

將數(shù)據(jù)挖掘的知識(shí)歸檔和報(bào)告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)采取必要的行動(dòng),以及消除與先前知識(shí)可能存在的沖突,并將挖掘的知識(shí)應(yīng)用于應(yīng)用系統(tǒng)。在模型的應(yīng)用過程中,也需要不斷地對(duì)模型進(jìn)行評(píng)估和檢驗(yàn),并做出適當(dāng)?shù)恼{(diào)整,以使模型適應(yīng)不斷變化的環(huán)境。

參考文獻(xiàn):

[1]羅納德.S.史威福特.客戶關(guān)系管理[M].楊東龍譯.北京:中國經(jīng)濟(jì)出版社,2002

[2]馬剛:客戶關(guān)系管理[M]大連:東北財(cái)經(jīng)大學(xué)出版社,2008

[3]朱美珍:以數(shù)據(jù)挖掘提升客戶關(guān)系管理[J].高科技產(chǎn)業(yè)技術(shù)與創(chuàng)新管理,2006,(27)

篇(5)

[中圖分類號(hào)]TP[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1007-9416(2010)02-0079-02

1 前言

數(shù)據(jù)挖掘能幫助企業(yè)減少不必要投資的同時(shí)提高資金回報(bào)。數(shù)據(jù)挖掘給企業(yè)帶來的潛在的投資回報(bào)幾乎是無止境的。世界范圍內(nèi)具有創(chuàng)新性的公司都開始采用數(shù)據(jù)挖掘技術(shù)來判斷哪些是他們的最有價(jià)值客戶、重新制定他們的產(chǎn)品推廣策略,以用最小的花費(fèi)得到最好的銷售。

2 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘是一種決策支持過程,是一類深層次的數(shù)據(jù)分析方法。它主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),作出歸納性地推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。數(shù)據(jù)挖掘的商業(yè)應(yīng)用可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出預(yù)測(cè)。數(shù)據(jù)挖掘,還可以稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的信息的高級(jí)處理過程。

2.1 數(shù)據(jù)挖掘是在數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、概率與數(shù)理統(tǒng)計(jì)的基礎(chǔ)上發(fā)展起來的一種的技術(shù)。

2.1.1 數(shù)據(jù)庫技術(shù)

SQL統(tǒng)治數(shù)據(jù)庫查詢語言標(biāo)準(zhǔn)三十多年這一事實(shí)本身就與現(xiàn)在 IT 發(fā)展的節(jié)拍不符,難道我們“只會(huì)查詢”嗎?所以就有很多專家紛紛轉(zhuǎn)向數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù),從數(shù)據(jù)查詢轉(zhuǎn)向數(shù)據(jù)挖掘、從數(shù)據(jù)演繹轉(zhuǎn)向數(shù)據(jù)歸納。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)的體系結(jié)構(gòu)也過于瘦少,只有不協(xié)調(diào)的兩層,這樣的結(jié)構(gòu)就造成了只有程序員能編程,老板只能求助于這些“專家”。

2.1.2 人工智能技術(shù)

人工智能技術(shù)的三大難題:“知識(shí)獲取、知識(shí)表示、缺乏常識(shí)”直接制約了它在現(xiàn)實(shí)技術(shù)市場(chǎng)上的作為。而在與數(shù)據(jù)倉庫技術(shù)的結(jié)合上,它可以發(fā)揮重要作用,這使得它轉(zhuǎn)向數(shù)據(jù)挖掘技術(shù)。

2.1.3 概率與數(shù)理統(tǒng)計(jì)

數(shù)理統(tǒng)計(jì)技術(shù)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科。但在與數(shù)據(jù)庫技術(shù)的結(jié)合上作為有限,這從 SQL 中那可憐的幾條匯總函數(shù)便可看出。隨著數(shù)據(jù)挖掘?qū)Σ樵儭w納對(duì)演繹需求的進(jìn)化,概率與數(shù)理統(tǒng)計(jì)將獲得新的生命力。

2.2 數(shù)據(jù)挖掘中最常用的技術(shù):

2.2.1 工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)

人工神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線性預(yù)測(cè)模型,通過學(xué)習(xí)進(jìn)行模式識(shí)別。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。在結(jié)構(gòu)上,可以把一個(gè)神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層。而神經(jīng)網(wǎng)絡(luò)的知識(shí)體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,是一個(gè)分布式矩陣結(jié)構(gòu);神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上,為的是防止訓(xùn)練過度和控制訓(xùn)練的速度,如圖1所示:

2.2.2 決策樹 (Decision Tree)

決策樹方法是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個(gè)節(jié)點(diǎn),再根據(jù)概述性字段的不同取值建立樹的分支;在每個(gè)分支子集中重復(fù)建立樹的下層節(jié)點(diǎn)和分支過程。決策樹的基本組成部分:決策節(jié)點(diǎn)、分支和葉子。比如,在貸款申請(qǐng)中,要對(duì)申請(qǐng)的風(fēng)險(xiǎn)大小做出判斷,為了解決這個(gè)問題而建立的一棵決策樹,如圖2所示:

2.2.3 臨近搜索方法(Nearest Neighbor Method)

臨近搜索方法將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。

2.2.4 規(guī)則推理(Rule Induction)

從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。

2.3 數(shù)據(jù)挖掘步驟

數(shù)據(jù)挖掘的數(shù)據(jù)分析過程可以分為三個(gè)步驟:

2.3.1 確定業(yè)務(wù)對(duì)象

清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步,挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。

2.3.2 數(shù)據(jù)準(zhǔn)備(Data Preparation)

本階段又可進(jìn)一步細(xì)分為兩步:數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)分析。

(1)集成(Integration)。在這一步中,將從操作型環(huán)境中提取并集成數(shù)據(jù),解決語義二義問題,消除臟數(shù)據(jù)等等。很明顯,數(shù)據(jù)集成的目的和所利用的技術(shù)與數(shù)據(jù)倉庫的數(shù)據(jù)集成完全一致,都是為了建立統(tǒng)一的數(shù)據(jù)視圖。數(shù)據(jù)挖掘不一定需要建立在數(shù)據(jù)倉庫的基礎(chǔ)上,但如果數(shù)據(jù)挖掘與數(shù)據(jù)倉庫能協(xié)同工作,則必將大大地提高數(shù)據(jù)挖掘的工作效率。

(2)數(shù)據(jù)選擇和預(yù)分析(Data Selection and Pre-Analysis)。這一步將負(fù)責(zé)縮小數(shù)據(jù)范圍,提高數(shù)據(jù)挖掘的質(zhì)量,前面提到的驗(yàn)證型工具長(zhǎng)于對(duì)數(shù)據(jù)的細(xì)致,深入地觀察和表述,在這一步中可以發(fā)揮相當(dāng)?shù)淖饔谩?/p>

2.3.3 挖掘(Mining)

數(shù)據(jù)挖掘(Data Mining processor)綜合利用前面提到的四種數(shù)據(jù)挖掘方法分析數(shù)據(jù)庫中的數(shù)據(jù)。

2.3.4 表述(Presentation)

與驗(yàn)證型工具一樣,數(shù)據(jù)挖掘?qū)@取的信息以便于用戶理解和觀察的方式反映給用戶,這時(shí)可以利用可視化工具。由于用戶要求的不同,DM分析的數(shù)據(jù)的范圍會(huì)有所不同,這樣DM系統(tǒng)會(huì)得出不同的結(jié)論。這些基于不同數(shù)據(jù)集合的分析結(jié)果除了通過可視化工具提供給用戶外還可以存儲(chǔ)在知識(shí)庫中,供日后進(jìn)一步分析和比較。

2.3.5 評(píng)價(jià)(Assess)

如果分析人員對(duì)分析結(jié)果不滿意,可以遞歸的執(zhí)行上述三個(gè)過程,直到滿意為止。

3 數(shù)據(jù)挖掘在企業(yè)決策過程中的作用

3.1 數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘就是對(duì)海量數(shù)據(jù)進(jìn)行精加工。嚴(yán)格地說,數(shù)據(jù)挖掘是一種技術(shù),從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有價(jià)值信息、模式和趨勢(shì),然后以易于理解的可視化形式表達(dá)出來,其目的是為了提高市場(chǎng)決策能力、檢測(cè)異常模式、控制可預(yù)見風(fēng)險(xiǎn)、在經(jīng)驗(yàn)?zāi)P突A(chǔ)上預(yù)言未來趨勢(shì)等。數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域已經(jīng)不是一個(gè)新名詞,最早成功應(yīng)用于高投入、高風(fēng)險(xiǎn)、高回報(bào)的金融領(lǐng)域,正在不斷向電信、保險(xiǎn)、零售等客戶資源信息密集的行業(yè)拓展。美國財(cái)富雜志500強(qiáng)之一的第一數(shù)據(jù)公司(First Data Corp.)就在為第一國家銀行(First National Bank)、美國在線交易(Ameritrade holding Co.)、奧馬哈保險(xiǎn)公司(Mutual of Omaha Co.)等著名的金融證券和保險(xiǎn)公司提供數(shù)據(jù)挖掘的產(chǎn)品服務(wù),這些企業(yè)在風(fēng)險(xiǎn)控制、挖掘客戶、降低成本方面的年收益數(shù)以億計(jì)。

3.2 在企業(yè)決策過程中利用數(shù)據(jù)挖掘的作用

本文為全文原貌 未安裝PDF瀏覽器用戶請(qǐng)先下載安裝 原版全文

目前,商業(yè)數(shù)據(jù)挖掘的應(yīng)用重點(diǎn)集中在對(duì)企業(yè)內(nèi)部信息資源的加工處理,指導(dǎo)企業(yè)運(yùn)營(yíng)的戰(zhàn)術(shù)策略的實(shí)施。具體地說,就是在以客戶需求為價(jià)值源泉、進(jìn)銷存為價(jià)值鏈的各環(huán)節(jié)進(jìn)行數(shù)據(jù)增值分析,并將分析結(jié)果迅速向鏈條的上一環(huán)節(jié)傳遞,調(diào)整鏈條上游的執(zhí)行達(dá)到改善下游環(huán)節(jié)執(zhí)行結(jié)果的目的,最終形成以客戶終端需求為導(dǎo)向的價(jià)值增值。

部分企業(yè)資源計(jì)劃軟件中集成了對(duì)計(jì)劃、生產(chǎn)、產(chǎn)品銷售進(jìn)行數(shù)據(jù)挖掘的模塊,能夠提供商業(yè)智能的分析結(jié)果;另外,客戶需求的價(jià)值鏈終端是另一個(gè)數(shù)據(jù)挖掘技術(shù)應(yīng)用的重點(diǎn),客戶關(guān)系管理的目的就是創(chuàng)造、挽留客戶并不斷升級(jí)對(duì)客戶的服務(wù),以保證企業(yè)利潤(rùn)的持續(xù)增長(zhǎng)。“以客戶為中心”的數(shù)據(jù)挖掘內(nèi)容涵蓋了客戶需求分析、客戶忠誠度分析、客戶等級(jí)評(píng)估分析等三部分,有些還包括產(chǎn)品銷售。

客戶需求分析包括:消費(fèi)習(xí)慣、消費(fèi)頻度、產(chǎn)品類型、服務(wù)方式、交易歷史記錄、需求變化趨勢(shì)等因素分析。

客戶忠誠度分析包括:客戶服務(wù)持續(xù)時(shí)間、交易總數(shù)、客戶滿意程度、客戶地理位置分布、客戶消費(fèi)心理等因素分析。

客戶等級(jí)評(píng)估分析包括:客戶消費(fèi)規(guī)模、消費(fèi)行為、客戶履約情況、客戶信用度等因素分析。

產(chǎn)品銷售分析包括:區(qū)域市場(chǎng)、渠道市場(chǎng)、季節(jié)銷售等因素分析。

然而,數(shù)據(jù)挖掘不僅僅用于客戶關(guān)系管理,ERP更不能夠完全覆蓋數(shù)據(jù)挖掘的整個(gè)內(nèi)涵。企業(yè)數(shù)據(jù)挖掘的內(nèi)容不僅包括企業(yè)的內(nèi)部信息資源,更包括大量的企業(yè)外部信息資源。商業(yè)數(shù)據(jù)挖掘的下一個(gè)應(yīng)用熱點(diǎn)將建立在兩類信息資源充分整合的基礎(chǔ)上。

相對(duì)于內(nèi)部信息資源而言,企業(yè)外部的宏觀政策環(huán)境、市場(chǎng)需求動(dòng)向和競(jìng)爭(zhēng)對(duì)手情報(bào)等信息資源左右著企業(yè)戰(zhàn)略決策與宏觀發(fā)展規(guī)劃,也直接決定企業(yè)市場(chǎng)戰(zhàn)術(shù)策略的實(shí)施,所以對(duì)信息資源的整合利用以及競(jìng)爭(zhēng)情報(bào)分析將成為企業(yè)級(jí)數(shù)據(jù)挖掘應(yīng)用的重點(diǎn)。

以IBM為例,為了導(dǎo)正企業(yè)戰(zhàn)略決策方向,IBM于1993年提出三項(xiàng)競(jìng)爭(zhēng)策略:立即加強(qiáng)對(duì)競(jìng)爭(zhēng)對(duì)手的研究、建立一個(gè)協(xié)調(diào)統(tǒng)一的競(jìng)爭(zhēng)情報(bào)運(yùn)行機(jī)制以及將可操作的競(jìng)爭(zhēng)情報(bào)運(yùn)用于公司戰(zhàn)略、市場(chǎng)計(jì)劃及銷售策略。其新的競(jìng)爭(zhēng)策略通過研究市場(chǎng)格局和競(jìng)爭(zhēng)對(duì)手的狀況、合理定位并改善自身的產(chǎn)品和服務(wù)兩個(gè)途徑有效地提升了企業(yè)核心競(jìng)爭(zhēng)力,采用的競(jìng)爭(zhēng)情報(bào)運(yùn)行機(jī)制及競(jìng)爭(zhēng)情報(bào)規(guī)劃能夠把全公司的競(jìng)爭(zhēng)情報(bào)力量集中于主要的競(jìng)爭(zhēng)對(duì)手和主要威脅,不斷地優(yōu)化現(xiàn)有的情報(bào)資源。

隨著企業(yè)市場(chǎng)競(jìng)爭(zhēng)的日益加劇,企業(yè)競(jìng)爭(zhēng)情報(bào)已經(jīng)不限于原有意義上的數(shù)據(jù)采集、整理、分類、的概念,“在線”需求逐步超越“離線”需求,“受動(dòng)式服務(wù)”正為“主動(dòng)式、自助式”服務(wù)所取代,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為“信息分析”這個(gè)企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中核心模塊的技術(shù)支撐。“數(shù)據(jù)在線服務(wù)”和“競(jìng)爭(zhēng)情報(bào)個(gè)性化服務(wù)”將成為企業(yè)級(jí)數(shù)據(jù)挖掘應(yīng)用的新熱點(diǎn)需求,也將成為知識(shí)經(jīng)濟(jì)下新興的數(shù)據(jù)服務(wù)模式。

4 結(jié)語

數(shù)據(jù)挖掘的核心技術(shù)是人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等,但一個(gè)DM系統(tǒng)不是多項(xiàng)技術(shù)的簡(jiǎn)單組合,而是一個(gè)完整的整體,它還需要其他輔助技術(shù)的支持,才能完成數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)分析、結(jié)果表述這一系列任務(wù),最后將分析結(jié)果呈現(xiàn)在用戶面前。

[參考文獻(xiàn)]

[1] 胡百敬,SQL Server 2000 數(shù)據(jù)轉(zhuǎn)換服務(wù)[M],北京:中國鐵道出版社,2003.1.

[2] Reed Jacobson,SQL Server 2000 Analysis services 學(xué)習(xí)指南[M].北京:機(jī)械工業(yè)出版社,2001.

[3] 韓加煒J.(Han,JiaWei),數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

[4] 陳京民,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M],北京:電子工業(yè)出版社,2002.

[5] 李真文, SQL Server 2000 開發(fā)人員指南[M].北京:北京希望電子出版社,2001.

[6] 石鈞.ADO編程技術(shù)[M].北京:清華大學(xué)出版社,2001.

篇(6)

doi:10.3969/j.issn.1673-0194.2015.02.044

[中圖分類號(hào)]F270.7-TP311.13 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2015)02-0058-01

1 數(shù)據(jù)挖掘技術(shù)的分析方法

現(xiàn)在作為數(shù)據(jù)挖掘的主要工作就是分析方法,只有科學(xué)、可信賴的算法才能夠幫助數(shù)據(jù)進(jìn)行挖掘工作,找尋數(shù)據(jù)中隱藏的一些規(guī)律。只有利用不同的分析方法,才能解決各種不同的問題。而現(xiàn)在常見的分析方法有聚類分析、分類和事先推測(cè)、關(guān)聯(lián)分析。

1.1 聚類

聚類分析是將一組數(shù)據(jù)分類成相近性及有異性這樣幾個(gè)種類,這樣做的目的就是將同一種類型的數(shù)據(jù)之間的相近性發(fā)展到最大化,不同種類之間數(shù)據(jù)的相近性盡可能的降低。這項(xiàng)分析方法可以用到客戶團(tuán)體的分類、客戶背景分析、客戶購買的事先推測(cè)、市場(chǎng)細(xì)分等。聚類分析廣泛的存在于心理學(xué)、醫(yī)學(xué)、數(shù)據(jù)識(shí)別等領(lǐng)域中。

1.2 分類及事先推測(cè)

分類是將數(shù)據(jù)庫里面的數(shù)據(jù)對(duì)象的相同點(diǎn)按照分類的形式將其歸為不同的類型。這樣做的目的就是經(jīng)過分類的形式把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)反射到特點(diǎn)的一個(gè)類型。這可以用到客戶的分類、特性、滿意程度、購買趨勢(shì)等。而事先的推測(cè)是建立連續(xù)值函數(shù)模型,常見的方法有局勢(shì)外推測(cè)法、時(shí)間序列法、回歸分析的方法。

1.3 關(guān)聯(lián)分析

在自然界中,每個(gè)事物之間都有一定的聯(lián)系,如果發(fā)生一件事情,肯定會(huì)關(guān)聯(lián)到其他的相應(yīng)事件。關(guān)聯(lián)分析就是利用到來事物之間存在的聯(lián)系和相互之間的依賴性的規(guī)律,對(duì)于這些事件進(jìn)行的預(yù)測(cè)。在數(shù)據(jù)庫中的表現(xiàn)就是數(shù)據(jù)項(xiàng)之間存在的問題之間的關(guān)聯(lián),就是一個(gè)事物中的某一項(xiàng)事物可能會(huì)導(dǎo)致其他一系列事項(xiàng)的出現(xiàn)。對(duì)于企業(yè)的客戶管理有著非常大的幫助,對(duì)于數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行挖掘,找出影響市場(chǎng)的因素,為各種活動(dòng)提供依據(jù)。

1.4 特征

特征分析方法就是將數(shù)據(jù)庫里面的一組數(shù)據(jù)抽取出有關(guān)這組數(shù)據(jù)的特征式,這種特征式能夠表現(xiàn)出數(shù)據(jù)的整體的特征。就像營(yíng)銷工作人員對(duì)于客戶流失數(shù)據(jù)的提取能夠了解到原因,利用這些數(shù)據(jù)找到原因后就能幫助挽留客戶。

2 數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用

2.1 市場(chǎng)營(yíng)銷和經(jīng)營(yíng)

數(shù)據(jù)挖掘最早應(yīng)用的行業(yè)就是市場(chǎng)營(yíng)銷,市場(chǎng)營(yíng)銷行業(yè)利用數(shù)據(jù)挖掘技術(shù)對(duì)于用戶進(jìn)行分析挖掘來獲得客戶的消費(fèi)習(xí)慣和特征,這樣做的目的是來提升銷售的業(yè)績(jī)。當(dāng)然,現(xiàn)在數(shù)據(jù)挖掘不僅是在超市購物上被利用,還普及到很多的金融行業(yè)。

經(jīng)營(yíng)上使用的具體實(shí)例:一些郵件類的廣告上,可以根據(jù)數(shù)據(jù)挖掘幫助確定客戶可能會(huì)購買的產(chǎn)品,這樣可以節(jié)約很多的郵資,還能夠幫助管理客戶之間的關(guān)系,也就是經(jīng)過分析那些可能走向競(jìng)爭(zhēng)對(duì)手的客戶的特點(diǎn),這樣就能針對(duì)性的來留住顧客。購買方式:利用數(shù)據(jù)挖掘技術(shù)給零售商提供方便,零售商能夠通過這一技術(shù)確定顧客會(huì)購買哪些商品,還有就是在商店中該放那樣的商品供顧客選擇,目的是方便顧客購買,這樣能夠幫助銷售量的提高。當(dāng)然數(shù)據(jù)挖掘技術(shù)還能夠幫助用戶分析、評(píng)判促銷活動(dòng)會(huì)產(chǎn)生的成效。

2.2 電力、電信行業(yè)

隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,電網(wǎng)業(yè)務(wù)在不斷的進(jìn)步和豐富。而電信行業(yè)快速的發(fā)展,電信技術(shù)和服務(wù)成為一個(gè)巨大的混合載體,對(duì)于市場(chǎng)關(guān)系、技術(shù)服務(wù)有極大的影響。對(duì)于企業(yè)的資源進(jìn)行有效的整體和結(jié)合,形成一個(gè)非常大的關(guān)系網(wǎng)和信息數(shù)據(jù)系統(tǒng)。對(duì)這些數(shù)據(jù)進(jìn)行挖掘成為解決各種問題的有效方法,為企業(yè)的發(fā)展有著非常重要的推動(dòng)作用。

2.3 互聯(lián)網(wǎng)和云計(jì)算機(jī)

互聯(lián)網(wǎng)對(duì)于數(shù)據(jù)挖掘有很多的應(yīng)用,比如搜索引擎、電子商務(wù)等。這些都是利用數(shù)據(jù)挖掘技術(shù)在龐大的數(shù)據(jù)海洋中找尋能夠符合客戶要求的信息。常見的就是根據(jù)預(yù)測(cè)分類算法來預(yù)測(cè)出客戶應(yīng)該需要的信息。

2.4 金融行業(yè)

銀行、通信公司、保險(xiǎn)行業(yè)這些在評(píng)估客戶的信用等級(jí)上需要注意安全。數(shù)據(jù)挖掘的利用在金融行業(yè)是非常的重要,當(dāng)然數(shù)據(jù)挖掘技術(shù)在這方面取得了很好的成績(jī),可以幫助這些金融企業(yè)正確的識(shí)別出詐騙行為、控制風(fēng)險(xiǎn)。如2003年春天,廣東分行在進(jìn)行信貸電子數(shù)據(jù)分析的時(shí)候,發(fā)現(xiàn)了一些異常的現(xiàn)象,發(fā)現(xiàn)除了南海華光公司的馮某對(duì)于銀行進(jìn)行的詐騙行為,其中有74億元被騙取,這并不是通過舉報(bào)而獲得線索,而是經(jīng)過數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)馮某公司信貸出現(xiàn)的異常,然后被審計(jì)人員發(fā)現(xiàn)并驗(yàn)證這一詐騙行為,若不是數(shù)據(jù)挖掘要想發(fā)現(xiàn)這一詐騙可謂是難上加難。

3 結(jié) 語

篇(7)

前言

最近幾年,信息技術(shù)的不斷發(fā)展,使得目前三季度產(chǎn)生的數(shù)據(jù)量是以前幾百年的總和,且處于持續(xù)增長(zhǎng)的狀態(tài)。盡管激增的數(shù)據(jù)量擴(kuò)展了人們的信息范圍,然而無形中也提高了企業(yè)或個(gè)人從大量數(shù)據(jù)中挖掘出有價(jià)值信息的困難程度。針對(duì)該問題,基于云計(jì)算的大量數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)了資源配置和利用的優(yōu)化,具有虛擬性、實(shí)用性等特征,符合數(shù)據(jù)挖掘快速、準(zhǔn)確的要求。由此可見,將云計(jì)算技術(shù)應(yīng)用于數(shù)據(jù)挖掘是目前提高數(shù)據(jù)利用效率的有效方式。基于此,本文提出的以云計(jì)算為基礎(chǔ)的海量數(shù)據(jù)挖掘模型,旨在提供給各企業(yè)快速有效的數(shù)據(jù)挖掘服務(wù),從而減少生產(chǎn)成本和提升生產(chǎn)效率。

1云計(jì)算技術(shù)

1.1基本概念

至今為止,關(guān)于云計(jì)算的定義尚未有統(tǒng)一標(biāo)準(zhǔn),維基百科上關(guān)于云計(jì)算的介紹如下:云計(jì)算是通過網(wǎng)絡(luò)提供給用戶相關(guān)服務(wù)的新計(jì)算模式,主要提供可動(dòng)態(tài)變化的虛擬資源,無需用戶掌握基本支持設(shè)施的應(yīng)用和管理。也就是說,云計(jì)算是一種新商機(jī),借助價(jià)格低、可連接的計(jì)算機(jī)聯(lián)網(wǎng)進(jìn)行任務(wù)處理,為各系統(tǒng)提供數(shù)據(jù)存儲(chǔ)、運(yùn)算或其他功能。就技術(shù)面而言,云計(jì)算技術(shù)起步較早,是虛擬技術(shù)的拓展、分布計(jì)算技術(shù)的發(fā)展,是資源統(tǒng)一管理和智能控制的重要表現(xiàn)。和傳統(tǒng)計(jì)算機(jī)技術(shù)相比,云計(jì)算技術(shù)推動(dòng)了觀念創(chuàng)新和方法改進(jìn)。就商業(yè)角度而言,云計(jì)算技術(shù)的應(yīng)用目標(biāo)是提供服務(wù),用戶產(chǎn)生需求時(shí)會(huì)主動(dòng)購買和應(yīng)用,適應(yīng)企業(yè)發(fā)展和系統(tǒng)升級(jí)。通常來講,云計(jì)算技術(shù)發(fā)展衍生出三種商業(yè)契機(jī),包括服務(wù)即平臺(tái)、服務(wù)即架構(gòu)和服務(wù)即軟件三種。圖1所示是云計(jì)算商業(yè)模式邏輯圖。

1.2基于云計(jì)算技術(shù)的并行運(yùn)算模型

為了實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的并行處理,谷歌公司開發(fā)出Ma-pReduce,是一個(gè)分布并行運(yùn)算架構(gòu)或模型。某個(gè)MapReduce可分解成多個(gè)Reduce和Map任務(wù),其會(huì)將海量數(shù)據(jù)分解成多個(gè)單獨(dú)運(yùn)算的Map任務(wù),同時(shí)配發(fā)到對(duì)應(yīng)計(jì)算機(jī)進(jìn)行運(yùn)算處理,生成一定格式的中間數(shù)據(jù),最后由相關(guān)Reduce任務(wù)對(duì)其進(jìn)行合并反饋運(yùn)算結(jié)果。谷歌公司關(guān)于云計(jì)算技術(shù)的研發(fā)比較成功,其五大主要技術(shù)有分布式文件系統(tǒng)、大容量分布式數(shù)據(jù)庫、分布式鎖機(jī)制、集群管理和MapReduce。基于上述主要技術(shù),云計(jì)算方能提供大量數(shù)據(jù)挖掘服務(wù)和運(yùn)算系統(tǒng)。總而言之,云計(jì)算平臺(tái)會(huì)將大量數(shù)據(jù)分解成統(tǒng)一規(guī)格的數(shù)據(jù)模塊,并分布存儲(chǔ)在云端服務(wù)器中,之后通過MapReduce并行運(yùn)算模型進(jìn)行數(shù)據(jù)處理,其是谷歌公司在網(wǎng)絡(luò)搜索引擎方面的重大突破。盡管通過MapReduce并行運(yùn)算模型可進(jìn)行海量數(shù)據(jù)處理,然而其要求數(shù)據(jù)結(jié)構(gòu)相同、運(yùn)算過程簡(jiǎn)單。關(guān)于數(shù)據(jù)挖掘這類密集型的數(shù)據(jù)處理技術(shù),可能涉及迭代、近似求解等復(fù)雜算法,運(yùn)算過程比較困難。在這種情況下,以云計(jì)算技術(shù)為基礎(chǔ)的大量數(shù)據(jù)挖掘受到IT行業(yè)的重視,是社會(huì)熱點(diǎn)問題之一。

2基于云計(jì)算技術(shù)的海量數(shù)據(jù)挖掘

2.1數(shù)據(jù)挖掘

所謂的數(shù)據(jù)挖掘,是發(fā)現(xiàn)數(shù)據(jù)庫中有價(jià)值信息的過程,即從大量數(shù)據(jù)中挖掘出有價(jià)值或有意義的信息。就企業(yè)角度而言,數(shù)據(jù)挖掘的目的是從大量數(shù)據(jù)中發(fā)現(xiàn)有利于企業(yè)經(jīng)營(yíng)管理的信息,而且數(shù)據(jù)量越大,信息準(zhǔn)確性越高。一般而言,海量數(shù)據(jù)挖掘?qū)W(wǎng)絡(luò)環(huán)境和應(yīng)用條件要求較高,而云計(jì)算技術(shù)的應(yīng)用有效提高了數(shù)據(jù)挖掘效率。基于云計(jì)算的資源管理系統(tǒng)可存儲(chǔ)大量數(shù)據(jù),并結(jié)合數(shù)據(jù)挖掘要求來合理配發(fā)網(wǎng)絡(luò)資源,提高數(shù)據(jù)挖掘算法的延伸性,且具有一定的容錯(cuò)性,提高了數(shù)據(jù)挖掘的可靠性和安全性。

2.2云計(jì)算技術(shù)在數(shù)據(jù)挖掘中的應(yīng)用優(yōu)勢(shì)

(1)基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘可進(jìn)行分布式并行處理,提高了數(shù)據(jù)挖掘的實(shí)時(shí)性和有效性。并且適合各種規(guī)模的企業(yè),降低了中小企業(yè)數(shù)據(jù)應(yīng)用成本,減少大型企對(duì)特殊數(shù)據(jù)應(yīng)用軟件和設(shè)備的依賴性;(2)以云計(jì)算技術(shù)為基礎(chǔ)的海量數(shù)據(jù)挖掘更便捷、更快速,用戶層被隱藏起來了,不需要用戶進(jìn)行數(shù)據(jù)分類、數(shù)據(jù)分配和任務(wù)控制等操作;(3)云計(jì)算實(shí)現(xiàn)了數(shù)據(jù)挖掘的并行處理,可提升傳統(tǒng)設(shè)備的海量數(shù)據(jù)處理能力,增加了多個(gè)控制節(jié)點(diǎn),具有一定的容錯(cuò)性;(4)以云計(jì)算為基礎(chǔ)的數(shù)據(jù)挖掘?qū)崿F(xiàn)了數(shù)據(jù)應(yīng)用技術(shù)的共享,滿足了不同類型用戶的數(shù)據(jù)挖掘需要。

2.3基于云計(jì)算技術(shù)的海量數(shù)據(jù)挖掘模型

云計(jì)算技術(shù)在海量數(shù)據(jù)挖掘中的應(yīng)用體現(xiàn)在云計(jì)算提供了并行處理能力和大容量存儲(chǔ)能力,有效解決了當(dāng)前海量數(shù)據(jù)挖掘的難點(diǎn)。圖2所示是關(guān)于基于云計(jì)算技術(shù)的海量數(shù)據(jù)挖掘模型的結(jié)構(gòu)圖。據(jù)圖,以云計(jì)算技術(shù)為基礎(chǔ)的海量數(shù)據(jù)挖掘模型包括云服務(wù)層、數(shù)據(jù)運(yùn)算層和用戶層三層。云服務(wù)層是最基層,負(fù)責(zé)存儲(chǔ)海量數(shù)據(jù)和提供分布并行數(shù)據(jù)處理功能。云計(jì)算環(huán)境除了要保證數(shù)據(jù)的實(shí)用性之外,還要確保數(shù)據(jù)的安全可靠性。關(guān)于數(shù)據(jù)的存儲(chǔ),云計(jì)算采取分布存儲(chǔ)形式,提供了數(shù)據(jù)副本冗余存儲(chǔ)功能,確保在數(shù)據(jù)遺失等情況下用戶的正常運(yùn)轉(zhuǎn)。當(dāng)前,比較普遍的云計(jì)算數(shù)據(jù)存儲(chǔ)技術(shù)有開源的HDFS和非開源的GFS兩種。除此之外,云計(jì)算數(shù)據(jù)挖掘?qū)崿F(xiàn)了數(shù)據(jù)的并行處理,可在多用戶發(fā)出指令的情況下,及時(shí)回復(fù)并提供數(shù)據(jù)挖掘服務(wù)。圖2基于云計(jì)算技術(shù)的海量數(shù)據(jù)挖掘模型的架構(gòu)圖第二層是數(shù)據(jù)挖掘運(yùn)算層,主要負(fù)責(zé)數(shù)據(jù)的預(yù)處理和挖掘算法的并行處理。數(shù)據(jù)預(yù)處理是對(duì)大量無規(guī)則的數(shù)據(jù)進(jìn)行預(yù)先整理,基于云計(jì)算的MapReduce并行運(yùn)算模型只適合同一結(jié)構(gòu)的數(shù)據(jù)挖掘,常見的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)分類、數(shù)據(jù)抽調(diào)、數(shù)據(jù)約束等。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是提升數(shù)據(jù)挖掘質(zhì)量的重要保障,使海量數(shù)據(jù)挖掘更實(shí)時(shí)、更快速。用戶層是最頂層,直接面向用戶,主要負(fù)責(zé)接收用戶請(qǐng)求,同時(shí)將數(shù)據(jù)傳遞到下一層,并且將數(shù)據(jù)挖掘的運(yùn)算結(jié)果反饋給用戶。除此之外,用戶還可通過可視化界面來監(jiān)督和控制任務(wù)進(jìn)度,并實(shí)時(shí)查看任務(wù)執(zhí)行結(jié)果。基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘的流程是:用戶在輸入模塊中發(fā)出數(shù)據(jù)挖掘指令,并傳遞給系統(tǒng)服務(wù)器,服務(wù)器自動(dòng)根據(jù)用戶的挖掘指令在數(shù)據(jù)庫中調(diào)出數(shù)據(jù),同時(shí)在算法庫中調(diào)出最優(yōu)的挖掘算法,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后,傳遞到MapReduce運(yùn)算模塊進(jìn)行深入數(shù)據(jù)挖掘,最后將挖掘結(jié)果反饋到可視化界面,以便用戶查看和了解。

2.4云計(jì)算技術(shù)應(yīng)用于數(shù)據(jù)挖掘的缺陷和應(yīng)對(duì)措施

云計(jì)算技術(shù)尚處于發(fā)展階段,勢(shì)必會(huì)存在諸多問題或缺陷,以云計(jì)算為基礎(chǔ)的數(shù)據(jù)挖掘也存在如下問題:(1)用戶需求問題。以云計(jì)算技術(shù)為基礎(chǔ)的數(shù)據(jù)挖掘勢(shì)必會(huì)成為一種新服務(wù)形式,用戶需求也會(huì)更多樣化、個(gè)性化;(2)數(shù)據(jù)容量問題。就數(shù)據(jù)容量而言,未來可能要處理TB甚至PB容量以上的數(shù)據(jù),同時(shí)還包括噪音數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)和高維數(shù)據(jù)等,某種程度增加了數(shù)據(jù)挖掘的難度;(3)算法選擇問題。數(shù)據(jù)挖掘效果受算法是否最優(yōu)和是否并行化等影響顯著,算法設(shè)計(jì)、參數(shù)設(shè)置等都對(duì)數(shù)據(jù)挖掘結(jié)果有直接作用;(4)不確定性問題。數(shù)據(jù)挖掘過程中不確定因素較多,比如任務(wù)需求描述不準(zhǔn)確、數(shù)據(jù)采集和預(yù)處理不確定、算法選擇不確定等。針對(duì)上述問題,可從以下幾點(diǎn)入手加強(qiáng)云計(jì)算技術(shù)在海量數(shù)據(jù)挖掘中的應(yīng)用:(1)基本設(shè)施的構(gòu)建。要結(jié)合用戶具體的個(gè)性化要求,同時(shí)考慮各行各業(yè)的特點(diǎn),建立合適的云計(jì)算數(shù)據(jù)挖掘系統(tǒng);(2)虛擬技術(shù)為云計(jì)算在數(shù)據(jù)挖掘中的應(yīng)用提供了重要保障,未來要加強(qiáng)虛擬技術(shù)的研發(fā),并推動(dòng)其成果的最大限度應(yīng)用,可有效控制網(wǎng)絡(luò)資源的配發(fā)和控制;(3)關(guān)于各種云計(jì)算產(chǎn)品的研發(fā),要充分結(jié)合社會(huì)具體需要,引導(dǎo)大眾積極參與,從而提高數(shù)據(jù)挖掘的多樣化和個(gè)性化;(4)就可信度而言,設(shè)計(jì)和應(yīng)用的算法要具備一定的通用性,滿足后續(xù)調(diào)查和檢驗(yàn)的要求;(5)關(guān)于數(shù)據(jù)安全性方面,不可用傳統(tǒng)加密方式來保證數(shù)據(jù)安全,而要結(jié)合用戶的具體需要,在客戶端通過合適的加密方式來保證數(shù)據(jù)安全性。

篇(8)

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2012) 01-0000-02

Application Analysis of the Data Mining Technology

Zhang Yihui

(Shandong Polytechnic,Jinan250104,China)

Abstract:With the advent and popularization of the Internet age,a lot of information get together,in the quick and easy at the same time to give people the agent has brought us a problem,how is the large amount of data to digest and true and false identification,followed by information how secure is to ensure that lay their unified approach method.This is a new term-data mining technology.Data mining is a relatively new database technology,there is a wide range of practical applications demand;made a comprehensive overview of data mining technology,citing a data mining system composition and mining method.

Keywords:Data mining;Technology;Application;Analysis

何為數(shù)據(jù)挖掘,所謂數(shù)據(jù)挖掘(Data Mining)在傳統(tǒng)的定義就是提取隱含在大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。意思簡(jiǎn)單來講就是從一大堆亂七八糟的信息數(shù)據(jù)里提取一些對(duì)自己有用的數(shù)據(jù)知識(shí)。

一、數(shù)據(jù)挖掘的概念

從面的定義中我們對(duì)數(shù)據(jù)挖掘有了一個(gè)模糊的了解,其實(shí)數(shù)據(jù)挖掘技術(shù)通俗的從字面意思理解就是從數(shù)據(jù)中挖掘有用的數(shù)據(jù)。我國一些單位普遍都采用了計(jì)算機(jī)技術(shù)來處理單位的一些業(yè)務(wù),因?yàn)橛?jì)算機(jī)的分析處理數(shù)據(jù)的能力比較強(qiáng),所有產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),通過計(jì)算機(jī)來分析這一大批數(shù)據(jù)不單單是為了研究的需要,更為重要的是從這些雜亂的數(shù)據(jù)中分析提取一些對(duì)自身企業(yè)有價(jià)值的數(shù)據(jù)信息。一些企業(yè)單位要從大批量的數(shù)據(jù)中獲取對(duì)自己有用的數(shù)據(jù)來進(jìn)行企業(yè)運(yùn)作以及提高自身企業(yè)的競(jìng)爭(zhēng)能力,這就好比從礦石中提煉金子一樣,提取的都是精華。所以數(shù)據(jù)挖掘越來越得到人們的重視。

隨著數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)核心技術(shù)研究的逐步深入,其核心模塊已經(jīng)強(qiáng)有力的形成了三大的技術(shù)領(lǐng)域:數(shù)據(jù)庫技術(shù)、人工智能和數(shù)理統(tǒng)計(jì)。隨著高性能的關(guān)系數(shù)據(jù)庫引擎的廣泛數(shù)據(jù)集成和相關(guān)理論研究和相關(guān)技術(shù)的成熟,,讓數(shù)據(jù)庫挖掘技術(shù)進(jìn)入了實(shí)用階段。

在國際上,由美國人工智能協(xié)會(huì)主辦的KDD(數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),簡(jiǎn)稱KDD)已經(jīng)漸漸被人們所接受,已經(jīng)召開了數(shù)十次國際研討會(huì),隨著規(guī)模的不斷壯大,在注重多種發(fā)現(xiàn)策略和技術(shù)的集成,理論研究指導(dǎo)實(shí)踐應(yīng)用,以及多種學(xué)科之間的相互滲透的基礎(chǔ)上,研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,成為目前計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn);與國外相比,國內(nèi)研究起步較晚,主要是處在基礎(chǔ)理論上的研究。國家自然科學(xué)基金對(duì)于該領(lǐng)域的研究項(xiàng)目是1993年首次支持。目前,知識(shí)發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究在國內(nèi)的許多知名的高等院校和科研機(jī)構(gòu)已經(jīng)開展。

二、數(shù)據(jù)挖掘系統(tǒng)的組成

以下是典型的數(shù)據(jù)挖掘的幾個(gè)組成部分:

(一)數(shù)據(jù)挖掘所操作的最直接的對(duì)象就是數(shù)據(jù)庫,這些數(shù)據(jù)庫是一個(gè)或一組可以在數(shù)據(jù)上進(jìn)行數(shù)據(jù)收集、存儲(chǔ)、處理和集成的數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他類型的信息庫。

(二)數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:在數(shù)據(jù)處理過程中,根據(jù)客戶的數(shù)據(jù)挖掘請(qǐng)求的指令信息,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)反饋信息。

(三)知識(shí)庫:數(shù)據(jù)挖掘的關(guān)鍵技術(shù)就是知識(shí)庫,它是用于指導(dǎo)數(shù)據(jù)搜索、查找、分析或擬合評(píng)估模式的興趣度的領(lǐng)域知識(shí)集。另外將數(shù)據(jù)信息集中屬性或?qū)傩灾到M成不同的數(shù)據(jù)抽象層的概念分層和用戶確信方面的知識(shí)數(shù)據(jù)也包括在里面。

(四)數(shù)據(jù)挖掘引擎:用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析的一組功能模塊,這是數(shù)據(jù)挖掘系統(tǒng)的基本組成。

(五)模式評(píng)估模塊:這是數(shù)據(jù)挖掘?qū)崿F(xiàn)的關(guān)鍵所在,在數(shù)據(jù)挖掘過程中參照興趣度做度量,并與數(shù)據(jù)挖掘模塊交互配合,以便將數(shù)據(jù)搜索、歸并、聚焦在有趣模式的操作。根據(jù)所用數(shù)據(jù)挖掘方法的不同,模式評(píng)估模塊也可以使用興趣度閥值作為評(píng)定參數(shù),去過濾發(fā)現(xiàn)的模式挖掘數(shù)據(jù),也可以與數(shù)據(jù)挖掘模塊集成在一起使用。

(六)圖形用戶界面:是以圖形界面的形式給出用戶數(shù)據(jù)查詢操作或指令任務(wù),并提供中間參考信息提示、幫助搜索、確定聚焦興趣度,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘的操作模塊,是在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信的橋梁,是用戶與系統(tǒng)交互的中介。

三、數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘方法的來源主要是由人工智能和機(jī)器學(xué)習(xí)的方法發(fā)展來的,結(jié)合傳統(tǒng)的統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法以及科學(xué)計(jì)算可視化技術(shù),以數(shù)據(jù)庫為研究對(duì)象,形成的數(shù)據(jù)挖掘的方法和技術(shù)。數(shù)據(jù)挖掘是數(shù)據(jù)和信息系統(tǒng)及其應(yīng)用的學(xué)科前沿,是綜合了數(shù)據(jù)庫、專家系統(tǒng)和可視化等領(lǐng)域的相關(guān)技術(shù)的多學(xué)科和多種網(wǎng)絡(luò)技術(shù)交叉結(jié)合的新領(lǐng)域,在商業(yè)利益的強(qiáng)大推動(dòng)下,每年都有新的數(shù)據(jù)挖掘方法和模型的出現(xiàn),數(shù)據(jù)挖掘的方法和技術(shù)可以分為六大類。

(一)關(guān)聯(lián)分析(Association Analysis)。在數(shù)據(jù)處理中,隨著大量數(shù)據(jù)不停的收集、存儲(chǔ)和處理,關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘中發(fā)現(xiàn)大量數(shù)據(jù)項(xiàng)集之間有趣的關(guān)聯(lián)和相互聯(lián)系,因此許多業(yè)界人士對(duì)于通過關(guān)聯(lián)規(guī)則從相關(guān)數(shù)據(jù)庫中挖掘有用的信息,并從中組織和處理這些有用的數(shù)據(jù)是越來越感興趣。

(二)聚類方法(Clustering Approach)。在數(shù)據(jù)處理中,按一定的規(guī)則(參照距離或相似尺寸等)將數(shù)據(jù)分成一系列相互區(qū)別的數(shù)據(jù)組或數(shù)據(jù)集,這種操作不需要用戶的事先提示相關(guān)操作和背景知識(shí)而去直接挖掘、發(fā)現(xiàn)有意義的數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)模式的方法。

(三)決策樹方法(Decision Tree Approach)。該方法是一種常用于預(yù)測(cè)模型的算法,具有信息描述簡(jiǎn)單、查找速度快的特點(diǎn),適合于大規(guī)模的數(shù)據(jù)挖掘。建立決策樹的過程:首先根據(jù)信息論中的信息增益尋找數(shù)據(jù)庫中具有最大信息量的字段,從中找到潛在的、有價(jià)值的信息,然后建立決策樹的節(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的各個(gè)分枝,然后在每個(gè)分枝子集上分別遞歸上述過程,即可。

(四)神經(jīng)網(wǎng)絡(luò)方法(Neural Network Approach)。神經(jīng)網(wǎng)絡(luò)由于本身的特性適合解決數(shù)據(jù)挖掘問題,因此,近年來越來越被關(guān)注。以HEBB學(xué)習(xí)規(guī)則和MP模型為基礎(chǔ)的模擬人腦神經(jīng)元方法,建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型:反饋式網(wǎng)絡(luò)模型、前饋式網(wǎng)絡(luò)模型和自組織網(wǎng)絡(luò)模型。

(五)遺傳算法(Genetic Algorithms)。遺傳算法是模擬生物自然選擇與遺傳機(jī)理的(進(jìn)化過程)隨機(jī)的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個(gè)基本算子組成的仿生全局優(yōu)化方法。遺傳算法所具有的特有性質(zhì)已在數(shù)據(jù)挖掘中發(fā)揮了顯著作用。

(六)可視化方法(Visualization Approach)。可視化方法增強(qiáng)人們認(rèn)識(shí)能力,拓寬了傳統(tǒng)的圖表展示功能,增強(qiáng)了用戶對(duì)數(shù)據(jù)反饋的感知度,使用戶對(duì)數(shù)據(jù)的剖析更加清楚。例如,在數(shù)據(jù)庫表中,將多維數(shù)據(jù)變成多種線性圖形(如線圖、柱圖),增加直觀性,使用戶更好、更快速的理解和掌握,并充分揭示數(shù)據(jù)的內(nèi)涵、內(nèi)在本質(zhì)及規(guī)律起了很大的作用。

四、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

數(shù)據(jù)挖掘所應(yīng)用的領(lǐng)域非常廣泛,目前,數(shù)據(jù)挖掘應(yīng)用最集中的領(lǐng)域包括醫(yī)療保健、金融、司法、市場(chǎng)、零售業(yè)、制造業(yè)、工程與科學(xué)等。但每個(gè)領(lǐng)域又有其特定的應(yīng)用問題和應(yīng)用背景。

(一)醫(yī)療保健。在我過國,醫(yī)療保健行業(yè)有大量的數(shù)據(jù)需要處理。這個(gè)行業(yè)中數(shù)據(jù)挖掘最關(guān)鍵的任務(wù)是進(jìn)行數(shù)據(jù)處理理,系統(tǒng)可以從大型多變的數(shù)據(jù)庫中發(fā)現(xiàn)并整理,預(yù)測(cè)醫(yī)療保健費(fèi)用。由實(shí)驗(yàn)室開發(fā)的解釋保健數(shù)據(jù),在定量范圍內(nèi)解釋偏差,生成報(bào)表。

(二)金融。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)中的應(yīng)用不但指的是對(duì)金融事務(wù)數(shù)據(jù)的開采,能夠發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并且還可以融市場(chǎng)的變化趨勢(shì)。

(三)司法。在司法方面,數(shù)據(jù)挖掘技術(shù)可應(yīng)用在案件調(diào)查、詐騙監(jiān)測(cè)、洗錢認(rèn)證、犯罪組織分析等工作中,這將給司法工作帶來巨大的收益,例如:美國財(cái)政部開發(fā)的系統(tǒng),對(duì)各類金融事務(wù)進(jìn)行監(jiān)測(cè),識(shí)別洗錢、詐騙等。

(四)數(shù)字城市。數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)字城市建設(shè)中的數(shù)據(jù)整合系統(tǒng)是指通過對(duì)不同的數(shù)據(jù)庫資源進(jìn)行連接,根據(jù)需要獲取不同的數(shù)據(jù)庫資源的數(shù)據(jù)內(nèi)容,組合形成所需要的數(shù)據(jù)資源,支持分析決策。在這種機(jī)制下,即實(shí)現(xiàn)了數(shù)據(jù)集市的建立,又解決了與城市信息化建設(shè)中業(yè)已建成的各種信息系統(tǒng)運(yùn)行上獨(dú)立,數(shù)據(jù)上統(tǒng)一的問題。

(五)制造業(yè)。制造業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。例如進(jìn)行彩色掃描儀的生產(chǎn)過程分析。他們基于大約公司個(gè)參數(shù)建立了一個(gè)自動(dòng)數(shù)據(jù)收集系統(tǒng),產(chǎn)生了難以手工處理的大量數(shù)據(jù),通過使用,工程師們能夠?qū)?shù)據(jù)進(jìn)行分析并對(duì)最重要的參數(shù)進(jìn)行認(rèn)定。

五、利用WEKA編寫算法

作為數(shù)據(jù)挖掘愛好者自然要對(duì)WEKA的源代碼進(jìn)行分析并以及改進(jìn),努力寫出自己的數(shù)據(jù)挖掘算法。我一直覺得對(duì)于機(jī)器學(xué)習(xí)算法來說,weka是很有特色的工具,算法非常多。而且還有諸如clementine之類的數(shù)據(jù)流處理工具。相比之下,clementine的算法就會(huì)失色很多。但是weka的可視化做的不好。這是它的缺點(diǎn)。如果在weka的基礎(chǔ)上再做些二次開發(fā),加強(qiáng)可視化的應(yīng)用應(yīng)該很不錯(cuò)。最近看到一本書叫《可視化數(shù)據(jù)》,作者竟然包裝了java的圖形庫,自己創(chuàng)作出了個(gè)processing語言來做數(shù)據(jù)可視化,似乎效果不錯(cuò),而且也是開源的。如果能在這個(gè)基礎(chǔ)上做些研發(fā)應(yīng)該會(huì)不錯(cuò)的。

六、結(jié)語

在現(xiàn)今社會(huì),數(shù)據(jù)挖掘技術(shù)已經(jīng)可以被應(yīng)用與所有的領(lǐng)域和行業(yè)中。在人們生活里的各個(gè)方面幾乎都可以用到數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)不但給我們的日常生活帶來了巨大的改變和影響,并且這種影響還深深的改變著我們的生活方式。

參考文獻(xiàn):

[1]韓少鋒,陳立潮.數(shù)據(jù)挖掘技術(shù)及應(yīng)用綜述[J].機(jī)械管理開發(fā),2006,2

[2]顏惠,吳小穗.MetaCrawler集成搜索引擎[J].圖書館工作與究,2002,3:46-47

[3]周黎明,邱均平.基于網(wǎng)絡(luò)的內(nèi)容分析法[J].情報(bào)學(xué)報(bào),2005,5:594-599

篇(9)

作者簡(jiǎn)介 胡珊珊(1982-),女,江西經(jīng)濟(jì)管理干部學(xué)院講師、審計(jì)師、碩士,研究方向?yàn)閷徲?jì)。(江西南昌 330000)

隨著經(jīng)濟(jì)的發(fā)展,企業(yè)活動(dòng)的日益錯(cuò)綜復(fù)雜,交易數(shù)量的龐大對(duì)各項(xiàng)交易進(jìn)行記錄、分析的過程如果仍然依靠手工操作,會(huì)導(dǎo)致工作效率嚴(yán)重低下,并且工作成本大大增加。與此同時(shí),隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)的普及,人工智能系統(tǒng)已經(jīng)被引入企業(yè)管理,如供應(yīng)鏈管理系統(tǒng)(SCM)和企業(yè)資源計(jì)劃系統(tǒng)(ERP),這些系統(tǒng)使企業(yè)的眾多交易活動(dòng)都可以通過計(jì)算機(jī)實(shí)時(shí)在線錄入,形成大量的數(shù)據(jù),現(xiàn)代審計(jì)面臨著數(shù)據(jù)庫中的海量數(shù)據(jù),如何從中尋找出一定的數(shù)據(jù)特征,發(fā)現(xiàn)可疑數(shù)據(jù),以提高審計(jì)效率和降低審計(jì)風(fēng)險(xiǎn),是審計(jì)人員面臨的嶄新課題。

一、數(shù)據(jù)挖掘技術(shù)在現(xiàn)代審計(jì)中的應(yīng)用

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在的信息和知識(shí)過程。這一概念要求數(shù)據(jù)源必須是真實(shí)的、海量的、有噪聲的。數(shù)據(jù)挖掘是一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的且可用的信息,并利用這些信息做出決策或者豐富知識(shí)。

數(shù)據(jù)挖掘改變了審計(jì)實(shí)踐的方式。由于信息技術(shù)的普及,很多企業(yè)引入人工智能系統(tǒng),這些系統(tǒng)使企業(yè)的眾多交易活動(dòng)都可以實(shí)時(shí)在線錄入,各種事件包含大量會(huì)計(jì)數(shù)據(jù)和經(jīng)營(yíng)管理數(shù)據(jù)。審計(jì)人員通過對(duì)數(shù)據(jù)的分析獲得審計(jì)線索,獲取有用的審計(jì)證據(jù),并發(fā)表適當(dāng)?shù)膶徲?jì)意見。數(shù)據(jù)挖掘可以從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏于數(shù)據(jù)中的新的或者不可預(yù)見的模式,可以回答審計(jì)人員可能根本沒有想過的問題。

在審計(jì)過程中運(yùn)用數(shù)據(jù)挖掘技術(shù)的基本思路是這樣的:首先接受日志收集信息系統(tǒng)各部件提交的統(tǒng)一格式的審計(jì)數(shù)據(jù),然后對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,比如轉(zhuǎn)換格式、數(shù)字提煉等。接下來運(yùn)用合適的數(shù)據(jù)挖掘算法對(duì)審計(jì)數(shù)據(jù)進(jìn)行處理,提取數(shù)據(jù)中隱藏的知識(shí),并對(duì)實(shí)踐進(jìn)行統(tǒng)計(jì)。最后系統(tǒng)地進(jìn)行審計(jì)數(shù)據(jù)的分析處理及趨勢(shì)預(yù)測(cè)。

目前應(yīng)用于現(xiàn)代審計(jì)業(yè)務(wù)的數(shù)據(jù)挖掘技術(shù)主要有以下幾種方法:

(一)離群點(diǎn)挖掘

離群點(diǎn)挖掘是從大量復(fù)雜的數(shù)據(jù)中挖掘出存在于小部分異常數(shù)據(jù)中新穎的、與常規(guī)數(shù)據(jù)模式顯著不同的數(shù)據(jù)模式。利用離群點(diǎn)挖掘,一方面可以對(duì)審計(jì)數(shù)據(jù)進(jìn)行有效的預(yù)處理,減少審計(jì)數(shù)據(jù)量,快速定位數(shù)據(jù),從而提高審計(jì)效率;另一方面可以自動(dòng)的從數(shù)據(jù)中提取難以發(fā)現(xiàn)的業(yè)務(wù)模式和管理模式行為,減少人工參與,減輕審計(jì)人員工作負(fù)擔(dān)。

(二)孤立點(diǎn)檢測(cè)

孤立點(diǎn)是在數(shù)據(jù)源中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。由于審計(jì)中可疑數(shù)據(jù)往往表現(xiàn)為孤立點(diǎn),所以通過檢測(cè)并去除數(shù)據(jù)源中的孤立點(diǎn)可以達(dá)到數(shù)據(jù)清理的目的,從而提高數(shù)據(jù)質(zhì)量,以達(dá)到審計(jì)目的。

(三)異常點(diǎn)檢測(cè)

異常點(diǎn)檢測(cè)是數(shù)據(jù)挖掘技術(shù)中重要的研究?jī)?nèi)容。它是從大量審計(jì)數(shù)據(jù)對(duì)象中挖掘少量具有異常行為模式的數(shù)據(jù)對(duì)象,很多情況下,這些審計(jì)數(shù)據(jù)對(duì)象包含了跟多審計(jì)人員感興趣的信息。

(四)聚類分析

數(shù)據(jù)聚類是將審計(jì)資料數(shù)據(jù)中較為接近的數(shù)據(jù)劃為一類,根據(jù)不同數(shù)據(jù)的特征,將對(duì)象分成幾個(gè)群體。聚類分析可應(yīng)用于控制測(cè)試階段,為測(cè)試各控制環(huán)節(jié)的執(zhí)行情況將具有相似特征的交易分組。繼而更有利于審計(jì)人員對(duì)相似數(shù)據(jù)進(jìn)行分析、挖掘。

(五)關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是通過分析資料,找出某一事件或資料中會(huì)同時(shí)出現(xiàn)的東西。關(guān)聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)大量數(shù)據(jù)集合間有意義的關(guān)聯(lián),它側(cè)重于數(shù)據(jù)中不同領(lǐng)域之間的聯(lián)系。審計(jì)信息系統(tǒng)運(yùn)用關(guān)聯(lián)規(guī)則提取數(shù)據(jù)之間的聯(lián)系,能有效的分析經(jīng)濟(jì)業(yè)務(wù)中數(shù)據(jù)的相關(guān)性,從而使審計(jì)人員更準(zhǔn)確的發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系。

隨著信息技術(shù)的迅猛發(fā)展和審計(jì)實(shí)踐的變化,這些技術(shù)還在實(shí)踐中不斷的完善和發(fā)展,將來必定有更多更有用的數(shù)據(jù)挖掘方法應(yīng)用于審計(jì)實(shí)踐。

二、數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代審計(jì)工作的意義

隨著信息技術(shù)的發(fā)展和網(wǎng)絡(luò)的廣泛普及,審計(jì)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)以驚人的速度增長(zhǎng)。審計(jì)過程中利用計(jì)算機(jī)技術(shù)的程度越來越高,很多大型組織已經(jīng)建立并運(yùn)行著特大數(shù)量級(jí)的應(yīng)用數(shù)據(jù)庫,并積累了大量的歷史數(shù)據(jù)。審計(jì)人員面對(duì)的也不再是紙質(zhì)的會(huì)計(jì)資料,每一個(gè)被審計(jì)單位的計(jì)算機(jī)系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)中都存在著大量的財(cái)務(wù)數(shù)據(jù)或非財(cái)務(wù)數(shù)據(jù)。在審計(jì)系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù),顯示出了巨大的優(yōu)勢(shì),尤其是在大規(guī)模網(wǎng)絡(luò)環(huán)境下進(jìn)行的數(shù)據(jù)挖掘,不但可以提高系統(tǒng)的運(yùn)行效率,還能增強(qiáng)系統(tǒng)的智能性。

數(shù)據(jù)挖掘作為一種新興的技術(shù),與以往的單純的統(tǒng)計(jì)方法相比,其優(yōu)勢(shì)在于它能從數(shù)據(jù)中發(fā)現(xiàn)人們未知的知識(shí)和規(guī)律。我們引入數(shù)據(jù)挖掘技術(shù)的目的是建立一種系統(tǒng)化和自動(dòng)化的創(chuàng)建入侵檢測(cè)系統(tǒng)的方法,這種方法采用以數(shù)據(jù)為中心的視點(diǎn),將入侵檢測(cè)視為一個(gè)數(shù)據(jù)分析過程。這種方法符合現(xiàn)代審計(jì)的需要,其核心是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于審計(jì)數(shù)據(jù),從中分別提煉出正常和入侵情況下的用戶行為模式,再由生成的模式庫匹配入侵檢測(cè)系統(tǒng)所采集到的數(shù)據(jù)以捕獲網(wǎng)絡(luò)入侵。它不僅可以處理大規(guī)模的數(shù)據(jù),而且不需要審計(jì)人員提供主觀評(píng)價(jià)信息,這種技術(shù)能發(fā)現(xiàn)容易被審計(jì)人員主觀忽視和隱藏的信息,有利于避免有價(jià)值的線索被人為的主觀因素所忽略的情況。

三、數(shù)據(jù)挖掘技術(shù)應(yīng)用的局限性

數(shù)據(jù)挖掘技術(shù)在西方審計(jì)中還處于初級(jí)階段,它的應(yīng)用還有一定的局限性。

1.數(shù)據(jù)質(zhì)量難以保證

數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)在于數(shù)據(jù)本身的質(zhì)量,如果數(shù)據(jù)本身是虛假的、錯(cuò)誤的,特別是作為審計(jì)對(duì)象的那些數(shù)據(jù)如果被審計(jì)單位篡改了,那么再先進(jìn)、再成熟的數(shù)據(jù)挖掘技術(shù)也無法得出有意義的結(jié)論。

2.使用成本高

數(shù)據(jù)挖掘技術(shù)要應(yīng)用于實(shí)際工作中,必須要產(chǎn)生相應(yīng)的數(shù)據(jù)編制成本、維護(hù)成本、分析成本和人員培訓(xùn)成本,一些數(shù)據(jù)軟件的成本費(fèi)用更是高的驚人。成本因素也是數(shù)據(jù)挖掘技術(shù)應(yīng)用于審計(jì)工作中的一個(gè)局限。

3.對(duì)審計(jì)人員的素質(zhì)要求高

由于審計(jì)數(shù)據(jù)特征和測(cè)度是根據(jù)建模者的經(jīng)驗(yàn)和知識(shí)選擇的,因此數(shù)據(jù)挖掘技術(shù)要真正應(yīng)用到現(xiàn)代審計(jì)工作中來,不僅需要審計(jì)人員具有豐富的審計(jì)理論知識(shí)和實(shí)踐經(jīng)驗(yàn),而且還要求他們掌握計(jì)算機(jī)的專業(yè)知識(shí),熟悉數(shù)據(jù)庫和數(shù)據(jù)挖掘的技能。他們不僅要能識(shí)別、運(yùn)用挖掘技術(shù),而且還要對(duì)結(jié)果做出有效的分析和評(píng)價(jià)。

四、結(jié)論

盡管數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代審計(jì)技術(shù)還處于初級(jí)階段,但它的巨大優(yōu)勢(shì)是傳統(tǒng)審計(jì)方法無可比擬的,相信在不久的將來隨著審計(jì)人員技術(shù)水平的提高和對(duì)數(shù)據(jù)挖掘技術(shù)研究的深入,數(shù)據(jù)挖掘技術(shù)必定將在現(xiàn)代審計(jì)中有更廣闊的應(yīng)用前景。

篇(10)

1 關(guān)于數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)是20世紀(jì)80年代誕生的一門新興學(xué)科。對(duì)數(shù)據(jù)挖掘技術(shù)從技術(shù)的角度來看,顧名思義就是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有察覺的、有潛在價(jià)值的信息和知識(shí)的過程。而從商業(yè)角度來看,數(shù)據(jù)挖掘技術(shù)就是從海量的數(shù)據(jù)庫當(dāng)中進(jìn)行抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價(jià)值,從而獲得輔助商業(yè)決策的關(guān)鍵信息和有用的知識(shí)的過程。

計(jì)算機(jī)的數(shù)據(jù)挖掘技術(shù)對(duì)于海量的數(shù)據(jù)可以起著整理的作用,不僅對(duì)于企事業(yè)的工作生產(chǎn)起著巨大的作用,同時(shí)對(duì)于學(xué)校的校園生活也提供了很好的幫助,除此,計(jì)算機(jī)的數(shù)據(jù)挖掘技術(shù)還應(yīng)用在許許多多的不同領(lǐng)域當(dāng)中。

2 數(shù)據(jù)挖掘的基本流程

2.1 數(shù)據(jù)準(zhǔn)備階段

由于海量的原始數(shù)據(jù)是長(zhǎng)期的、無規(guī)律積累的結(jié)果,而且這些原始的數(shù)據(jù)是不適合進(jìn)行數(shù)據(jù)挖掘的,因此必須要進(jìn)行預(yù)處理的過程,在海量的原始數(shù)據(jù)中進(jìn)行數(shù)據(jù)的選擇、清洗、推測(cè)、轉(zhuǎn)換等相關(guān)的操作,在進(jìn)行數(shù)據(jù)準(zhǔn)備階段的時(shí)候,一般分為三個(gè)子步驟,既是:數(shù)據(jù)集成,就是從多個(gè)數(shù)據(jù)源中來提取整合的數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行處理;數(shù)據(jù)收集,就是根據(jù)要挖掘數(shù)據(jù)的目的來對(duì)數(shù)據(jù)進(jìn)行縮小范圍的操作,從而提高挖掘的數(shù)據(jù)的質(zhì)量;數(shù)據(jù)預(yù)處理,就是對(duì)已經(jīng)挖掘的數(shù)據(jù)做進(jìn)一步的準(zhǔn)備和分析,來確定進(jìn)行挖掘的類型。這一系列的過程就被稱之為數(shù)據(jù)準(zhǔn)備階段,數(shù)據(jù)準(zhǔn)備的好與壞是直接決定數(shù)據(jù)挖掘的質(zhì)量和效率的。

2.2 數(shù)據(jù)挖掘階段

當(dāng)原始數(shù)據(jù)進(jìn)行相應(yīng)的處理之后,就進(jìn)入相當(dāng)關(guān)鍵的階段,按照數(shù)據(jù)挖掘的目標(biāo)要求,來選擇恰當(dāng)?shù)乃惴ǎ诰驍?shù)據(jù)的規(guī)律,一般來說,常用的算法主要包括決策樹、分類、神經(jīng)網(wǎng)絡(luò)等,具體操作就是進(jìn)行算法的選擇和參數(shù)的確定,不斷反復(fù)的進(jìn)行重復(fù)的操作,直到對(duì)挖掘的數(shù)據(jù)滿意之后,此過程被稱之為數(shù)據(jù)挖掘階段。

2.3 數(shù)據(jù)的評(píng)價(jià)分析及知識(shí)運(yùn)用

對(duì)進(jìn)行數(shù)據(jù)挖掘之后的結(jié)果進(jìn)行解釋、分析,來提取有意義的或者是有使用價(jià)值的規(guī)律,將這些數(shù)據(jù)進(jìn)行還原的操作,使之成為能夠被用戶所謂理解的數(shù)據(jù)語言。將挖掘到的評(píng)估結(jié)果在現(xiàn)實(shí)的決策中進(jìn)行運(yùn)用,就是所說的知識(shí)運(yùn)用,這樣是一個(gè)非常重要的過程,是數(shù)據(jù)挖掘的最終實(shí)現(xiàn)的目的。

3 數(shù)據(jù)挖掘技術(shù)的應(yīng)用

計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)作為一門新興的學(xué)科,是順應(yīng)時(shí)展的潮流的,自從此項(xiàng)技術(shù)誕生以后,就備受矚目,由于自身的特點(diǎn)也受到廣大用戶的親睞,因此,在許多的行業(yè)范圍之內(nèi),計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)也得到了充分的發(fā)揮和使用。

3.1 在金融領(lǐng)域的應(yīng)用

金融領(lǐng)域所涉及的層面較為廣泛,包括諸如銀行、金融機(jī)構(gòu)、金融分析領(lǐng)域等不同的方面,對(duì)于這些海量的數(shù)據(jù)來說,對(duì)金融的投資方面的風(fēng)險(xiǎn)和股票交易的方面的預(yù)測(cè),則更是讓投資者和決策者大傷腦筋,這就要求大家對(duì)如此的海量進(jìn)行判斷,而如果通過個(gè)人的經(jīng)驗(yàn)進(jìn)行判斷的話,可能容易導(dǎo)致錯(cuò)誤的發(fā)生,在這時(shí),計(jì)算機(jī)的數(shù)據(jù)挖掘技術(shù)就恰恰迎合了用戶的心理,可以通過此項(xiàng)技術(shù)在海量的信息當(dāng)中提取自己所需的各種信息,以及信息之間的關(guān)聯(lián)和關(guān)系,對(duì)風(fēng)險(xiǎn)進(jìn)行規(guī)避,對(duì)股票進(jìn)行很好的預(yù)測(cè)。

3.2 在教育領(lǐng)域的應(yīng)用

教育信息化不斷的發(fā)展,已經(jīng)成為近幾年教育培養(yǎng)的新趨勢(shì)。學(xué)校已經(jīng)摒棄了較為傳統(tǒng)的時(shí)間空間比較固定的教育模式,而是開始了學(xué)生、教師、學(xué)校三者之間的較為繁雜多樣的交流方式,數(shù)據(jù)挖掘技術(shù)也為教育領(lǐng)域開辟了新思路。比如在學(xué)校中的學(xué)生信息的管理系統(tǒng)、教師的教務(wù)管理系統(tǒng)、選課系統(tǒng)等都體現(xiàn)了數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)。此外,還包括學(xué)生在校園中的圖書館借閱的功能、飯卡充值等一卡化的功能,也離不開計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用。因此,計(jì)算機(jī)的數(shù)據(jù)挖掘技術(shù)也很大程度的輔助了信息化教學(xué)的持續(xù)發(fā)展。

3.3 在電子商務(wù)領(lǐng)域的應(yīng)用

電子商務(wù)已經(jīng)成為計(jì)算機(jī)用戶每天必不可少的一個(gè)環(huán)節(jié),尤其對(duì)于年輕人而言,很多用戶每天瀏覽于各個(gè)電子商務(wù)網(wǎng)站,同時(shí)企業(yè)又很期望自己的網(wǎng)站或者是產(chǎn)品能夠被更多的用戶所瀏覽和點(diǎn)擊,從而來完成訂單的操作,獲得利潤(rùn)。那這時(shí),計(jì)算機(jī)的數(shù)據(jù)挖掘技術(shù)便起了巨大的作用,用戶或者企業(yè)可以通過此技術(shù)對(duì)一些的數(shù)據(jù)進(jìn)行歸納匯總、分析、判斷,最終得以整合,使得用戶可以選到滿意的產(chǎn)品,同時(shí),企業(yè)也可以在眾多的競(jìng)爭(zhēng)對(duì)手中處于不敗之地。

3.4 在軍事領(lǐng)域的應(yīng)用

隨著信息化和科技化的不斷加強(qiáng),軍事領(lǐng)域的任務(wù)也不單單是傳統(tǒng)的關(guān)注了,更多的需要進(jìn)行新興的媒體技術(shù)對(duì)存在的數(shù)據(jù)進(jìn)行收集、分析、整理,這樣,既可以掌握自己的軍事實(shí)力,同時(shí),又能有效的去了解和監(jiān)管其他方面的軍事情況。事實(shí)上,在當(dāng)今的形勢(shì)之下,任何一個(gè)國家,都非常的重視數(shù)據(jù)挖掘技術(shù)對(duì)所需信息的使用,同時(shí),也需要大量的計(jì)算機(jī)能力很強(qiáng)的人才,愛國敬業(yè),計(jì)算機(jī)挖掘技術(shù)在軍事領(lǐng)域的應(yīng)用是絕對(duì)不可小覷的。

4 結(jié)語

總之,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,許多的人們也越來越認(rèn)可數(shù)據(jù)挖掘技術(shù)的重要性,對(duì)信息的價(jià)值性越來越重視,因此,如何從大量的數(shù)據(jù)中去挖掘出自己日常所需的數(shù)據(jù)知識(shí)已經(jīng)日益重要。同時(shí),計(jì)算機(jī)的數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛的被應(yīng)用到各個(gè)領(lǐng)域當(dāng)中,充分發(fā)揮著作用。

參考文獻(xiàn)

[1]趙楊杰,王樹斌.數(shù)據(jù)挖掘技術(shù)的前景探究[J].科技創(chuàng)新導(dǎo)報(bào),2014(15).

[2]許芳芳,丁雷道.淺談數(shù)據(jù)挖掘技術(shù)及其相關(guān)問題解析[J].數(shù)字技術(shù)與應(yīng)用,2014.(04).

上一篇: 醫(yī)學(xué)檢驗(yàn)技術(shù)論文 下一篇: 工作失誤檢討書
相關(guān)精選
相關(guān)期刊
久久久噜噜噜久久中文,精品五月精品婷婷,久久精品国产自清天天线,久久国产一区视频
日本免费三区激情视频在线看 | 亚洲国产精品自拍 | 日韩一区二区三区中文在线视频 | 午夜男女视频一区二区 | 亚洲激情在线不卡 | 午夜大片免费观看日本毛 |