時間:2022-07-27 10:27:16
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇數據挖掘技術范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
中圖分類號: C37 文獻標識碼: A
數據挖掘,也可以稱為數據庫中的知識發現 (Knowledge Discover Database,KDD),就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[16]。實際上這是一個模式提取的過程,主要基于人工智能、機器學習、統計學等技術,高度自動化的分析企業原有的數據,做出歸納行的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。
1 數據挖掘的分類
數據挖掘就是發現隱藏在數據中的模式。它所發現的模式按功能模型一般可分為兩大類:描述型(descriptive)的模式和預測型(predictive)模式[21]。描述型的模式是對當前數據中存在的事實做規范的描述,它所揭示的是當前數據的一般特性;預測型模型則是以時間為關鍵參數,對于時間序列型數據,根據其歷史和當前的值去預測其未來的值。根據模式的特征,預測和描述可以通過下面的任務來完成。
圖1 數據挖掘模型
1) 關聯規則(Association Rules)
關聯模式是數據項之間存在的關聯規則,是在同一事件中出現不同項之間的相關性,例如客戶在一次購買活動中所購買的不同商品之間的關聯性。在數據挖掘領域,對于關聯模式的研究開展得比較深入,人們提出了多種關聯規則挖掘算法,如Apriori,DHP,Partition,Sampling,FP-Growth等算法。這些算法能夠發現數據庫中形如“80%的客戶在一次購買活動中購買X商品的同時也購買Y商品”之類的知識。
2) 分類分析(Classification)
分類就是構造一個分類模型,把具有某些特征的數據項映射到某個給定的類別上。這個過程分為兩步:模型的創建和模型的使用。模型的創建是指通過對訓練數據集的學習建立分類模型;模型使用是指使用分類模型對測試數據和新的數據進行分類。其中的訓練數據集是帶有類標號的,也就是在分類之前,要劃分的類別是已經確定的,通常分類模型是以分類規則、決策樹或數學表達式的形式給出的。
分類模式往往表現為一棵樹,從樹根開始搜索,沿著數據滿足的分支走。走到樹葉時就能確定類別。已有許多數據分類方法,如決策樹方法、統計方法及粗糙集方法等。Metha, Agrawal, Rissanen等人開始研究面向數據庫的分類方法。J. Han等人在他們開發的知識發現系統DBMiner中采用了基于概括的決策樹方法,該方法集成了面向屬性的歸納和決策歸納技術。
3) 聚類分析(Clustering)
聚類就是根據數據的屬性對一系列未分類數據進行類別劃分,把一組個體按照相似性分成若干個類或簇,即“物以類聚”。其目的是使類間的數據差別盡能大,類內的數據差別盡可能小,即“最小化類間的相似性,最大化類內的相似性”原則。與分類模式不同的是聚類中要劃分的類別是未知的,它是不依賴于預先定義的類和帶類標號的訓練數據集的非監督學習(unsupervised learning ),無需背景知識,其中類的數量由系統按照某種性能指標自動確定。聚類分析的方法有很多,其中包括系統聚類法、分解法、加入法、動態聚類法、模糊聚類法、運籌方法等。采用不同的聚類方法,對于相同的記錄集合可能有不同劃分結果。
4) 回歸分析(Regression)
回歸模式的函數定義與分類模式相似,主要差別在于分類模式采用離散預測值(例如類標號),而回歸模式則采用連續的預測值。它通過具有己知值的變量來預測其他變量的值。在最簡單的情況下,回歸采用的是類似于線性回歸的標準統計技術。但在大多數現實世界中的問題是不能用簡單的線性回歸所能預測的。如商品的銷售量、股票價格、產品合格率等,很難找到簡單有效的方法來預測,因為要完全地描述這些事件的變化需要上百個變量,而且這些變量本身往往都是非線性的。為此學術界提出了很多試圖解決這個問題方法,如邏輯回歸、決策樹和神經網絡等。
5) 序列模式分析(Sequential)
序列模式分析和關聯規則分析相似,它是描述基于時間或其他序列的經常發生的規律或趨勢,并對其進行建模。它能發現數據庫中形如“在某一段時間內,75%的顧客購買商品A,接著購買商品B,然后又購買商品C,即序列A-B- C出現的頻度較高”之類的知識。序列模式將關聯模式和時間序列模式結合起來,重點考慮數據之間在時間維上的關聯性。在進行序列模式挖掘時主要有以下幾個問題值得注意:首先是序列的持續時間,也就是某個時間序列的有效時間或者是用戶選擇的一個時間段:其次是時間折疊窗口,即在某一段時間內發生的事件可以被看作是同時發生的;最后是所發現的模式時間間隔。
6) 偏差分析(Deviation)
偏差分析是指對差異或極端特例的描述,如聚類劃分外的偏離值。在大多數據挖掘方法中都是將這些偏差信息作為噪聲而丟掉,然而在一些實際應用中,這種罕見的數據可能比正常的數據更有價值。比如網絡的入侵檢測和信用卡的欺詐檢測等。我們可在通過這些異常數據的偏差來分析其中的原因,以便對其采用相應的措施。
2 數據挖掘的主要方法
數據挖掘是一門新興的研究領域,其技術基礎是人工智能(Artificial Intelligence )。它借鑒了信息論、數理邏輯、進化計算、神經計算和統計學等理論和算法[22]。在此介紹幾種主流的方法。
1) 遺傳算法
遺傳算法是一種基于生物進化過程的組合優化方法,它是生物學和計算機相結合的產物,由美國密西根大學的D.J Holland教授和他的同事們在1975年首次提出的。根據適者生存的原則模擬自然界的生命進化機制,形成當前群體適合的規則組成新群體,以及這些規則的后代。
基于這些思想,根據遺傳算法的最適合模型,并進一步對數據模型進行優化。
由于遺傳算法是一種弱算法,具有高效性和靈活性的特點,在數據挖掘中也用于評估其他算法的適應度。
遺傳算法擅長于數據聚類,通過事件的類比和空間上的類比,可以把大量繁雜的信息數據進行系統化、條理化,從而找出數據之間的內在關系,得出有用的概念和模式。再建立數據模式時,將遺傳算法與神經網絡相結合,可以更好地提高模型的適應性。因此遺傳算法廣泛應用于自動控制、機器學習、模式識別和組合優化等領域。
2) 神經網絡
神經網絡(neural network )是由多個神經元按照某種方式相互連接形成,靠網絡狀態對外部輸入信息的動態響應來處理信息,網絡的信息分布式存儲于連接權系數中,使網絡具有很強的容錯性和魯棒性。神經網絡的核心是結構和算法,例如Hopfield網就是以結構見長,而BP (back propagation)網是以算法見長。
神經網絡和基于符號的傳統技術相比,具有直觀性、并行性和抗噪聲性。目前,已出現了許多網絡模型和學習算法,主要用于分類、優化、模式識別、預測和控制等領域。在數據挖掘領域,主要采用前向神經網絡提取分類規則。
在數據挖掘領域,將神經網絡用于數據挖掘,重點要解決好以下兩個問題:一是降低訓練時間,二是挖掘結果的可理解性
3) 統計分析方法
統計分析方法是利用統計學、概率論的原理對數據庫中的各屬性進行統計分析,從而找出其中的關系和規律。統計分析方法是最基本的數據挖掘方法之一。常用的統計分析方法有
判別分析法:建立一個或多個判別函數,并確定一個判別標準,然后對未知屬性的對象根據觀測值將其劃分歸為已知類別中的一類。
因子分析法:用較少的綜合變量來表達多個觀察變量。根據相關性大小把變量分組,使得各組內的變量之間相關性較高,不同組變量的相關性較低。
相關分析和回歸分析法:相關分析是用相關關系來度量變量間的相關程度。回歸分析是用數學方程來表示變量間的數量關系,方法有線性回歸和非線性回歸。
偏最小二乘回歸法:是一種新型的多元統計數據分析方法,它主要研究的是多因變量(結果)對多自變量(原因)的回歸建模,特別當各變量內部高度線性相關時,用偏最小二乘回歸法更有效。另外,偏最小二乘回歸較好地解決了樣本個數少于變量個數等問題。
在數據挖掘中,統計分析方法適用于分類挖掘和聚類挖掘。
4) 粗集方法
粗集(rough set)理論的特點是不需要預先給定某些特征或屬性的數量描述,而是直接從給定問題出發,通過不可分辨關系和不可分辨類確定問題的近似域,從而找出該問題中的內在規律。粗集理論同模糊集、神經網絡、證據理論等其它理論均成為不確定性計算的一個重要分支。
粗集理論是由波蘭華沙理工大學的Z.Pawlak教授于1982年提出的一種研究不完整、不確定知識和數據的表達、學習及歸納的理論方法。粗集理論采用了上近似集合、下近似集合和邊界來定義粗糙集。
粗糙集合理論可以用于分類,發現不準確數據或噪聲數據內在的聯系。找出可以描述給定數據集中所有概念的屬性子集是個難題。在給定的現實世界數據中,往往有些類不能被可用的屬性區分,則可以用粗糙集合來近似地定義這些類。根據目前己有的給定問題的知識,將問題的論域進行劃分,然后對劃分后的每一個組成部分確定其對某一概念的支持度,即肯定支持此概念或不支持此概念和模糊概念。上述情況分別用3個近似集合來表示。即將知識定義為對事物的分類能力。這種能力分別由上近似集、下近似集、等價關系等概念來體現。
5) 決策樹方法
決策樹((decision tree)是一個類似于流程圖的樹型結構,其中樹的每一個內部節點代表對一個屬性的測試,其分支代表測試的每一個結果:樹的每一個葉子節點代表一個類別。決策樹通過一系列的規則對數據進行分類。目前許多基于規則進行歸納的商用數據挖掘系統都是采用決策樹方法。
決策樹分類方法的優點:
1、決策樹方法結構簡單,便于人們理解;
2、決策樹模型效率高,對訓練及數據量大的情況較為合適;
3、決策樹方法具有較高的分類精確度;
4、決策樹可以清晰的顯示哪些字段比較重要。
建立一棵決策樹可能只要對數據庫進行幾遍掃描之后就能完成,這也意味著需要計算的資源較少,而且可以很容易的處理包含很多預測變量的情況,因此決策樹模型可以建立的很快,并適用于大量的數據處理。常用的算法有CHAID,CART,Quest、C5.0和ID3算法。
建立決策樹的過程,即樹的生長過程是不斷地把數據進行切分的過程,每次切分對應一個問題,也對應一個節點。對每個切分都要求分成的組之間的差異最大。各種決策樹算法之間的k要區別就是對這個“差異”衡量方式的區別。
對決策樹的批評常見的是,認為其在為一個節點選擇怎樣進行分割時使用的“貪心”算法。此種算法在決定當前分割時根本不考慮此次選擇會對將來的分割產生什么樣的影響。換句話說,所有的分割都是順序完成的,一個節點完成分割之后不可能以后還有機會回頭考慮此次分割的合理性,每次分割都是依賴于它前面的分割方法,只要第一次分割有一點點不同,那么由此得到的整個決策樹就會完全不同。
除上述方法外,還有把數據與結果轉化表達成可視化形式的可視化技術、模型方法和歸納學習等方法。
2、數據挖掘技術
2.1關聯規則方法
關聯規則是一種簡單,實用的分析規則,描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,所挖掘出的關聯規則量往往非常巨大,但是。并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,對這些關聯規則進行有效的評價。篩選出用戶真正感興趣的。有意義的關聯規則尤為重要。
2.2分類和聚類方法
分類就是假定數據庫中的每個對象屬于一個預先給定的類。從而將數據庫中的數據分配到給定的類中。而聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異。分類和聚類的區別在于分類事先知道類別數和各類的典型特征,而聚類則事先不知道。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價。
2.3數據統計方法
使用這些方法一般首先建立一個數據模型或統計模型,然后根據這種模型提取有關的知識。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法。貝葉斯推理、回歸分析、方差分析等技術是許多挖掘應用中有力的工具之一。
2.4神經網絡方法
神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。這些優點使得神經元網絡非常適合解決數據挖掘的問題。因此近年來越來越受到人們的關注。典型的神經網絡模型主要分3大類;用于分類、預測和模式識別的前饋式神經網絡模型;用于聯想記憶和優化計算的反饋式神經網絡模型;用于聚類的自組織映射方法。
2.5決策樹方法
0 引言
隨著信息科技的進步以及電子化時代的到來,現代信息社會中數據和數據庫呈現爆炸式增長。面對浩瀚的數據海洋,如何從這些龐大的數據中找出它們之間存在的“潛伏”的關系和規則,進而根據這些關系和規則預測未來的發展趨勢,已經成為二十一世紀探索的熱點問題。
數據挖掘(Data Mining)技術的誕生,為解決這一問題提供了可以參考的方法,是開發信息資源的一種新的數據處理技術。它不僅能對過去的數據進行查詢,而且能夠找出過去數據之間的潛在聯系,進行更高層次的分析,以便更好地解決決策、預測等問題。
1 數據挖掘概述
數據挖掘就是從大型數據集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。數據挖掘的目的是為了從這些數據中抽取一些有價值的知識或信息,提高信息利用率。
數據挖掘主要有以下對象:
(1)關系型數據庫、事務型數據庫、面向對象的數據庫;
(2)數據倉庫/多維數據庫;
(3)空間數據(如地圖信息);
(4)工程數據(如建筑、集成電路的信息);
(5)文本和多媒體數據(如文本、圖象、音頻、視頻數據);
(6)時間相關的數據(如歷史數據或股票交換數據);
(7)萬維網(如半結構化的HTML,結構化的XML以及其他網絡信息)。
數據挖掘的步驟一般會因不同的實際應用情況而有所變化,其過程就是用一定的數據挖掘算法從給定的數據庫中提取模型,以及圍繞數據挖掘所進行的預處理和結果表達等一系列的步驟,是一個需要經過反復的多次處理的過程。圖1顯示的是數據挖掘過程,主要由以下步驟組成:
(1)數據清理(消除噪音或不一致數據);
(2)數據集成(多種數據源可以組合在一起);
(3)數據選擇(從數據庫中提取與分析任務相關的數據);
(4)數據變換(數據變換或統一成適合挖掘的形式;如通過匯總或聚集操作);
(5)數據挖掘(基本步驟,使用智能方法提取數據模式);
(6)模式評估(根據某種興趣度度量,識別提供知識的真正有趣的模式);
(7)知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)。
例如,應用數據挖掘算法中聚類分析的方法,可以在城市規劃的過程中,根據類型、價格、地理位置等來劃分不同類型的住宅。具體使用哪種數據挖掘算法,要根據具體情況和應用要求而定。一種數據挖掘算法可能在一種情況下適用,而在另一種情況下就不適用。在特定的應用環境下,應找出最適用的數據挖掘算法,并加以實施。
3 數據挖掘的應用
3.1 數據挖掘在零售業中的應用
由于零售業便于搜集大量的銷售數據、顧客購物記錄、貨物運送、消費模式和服務記錄等特點,使其成為數據挖掘的主要應用領域。
零售商們采用數據倉庫使他們有更好的機會運用數據挖掘技術。通過數據挖掘,零售商們可以了解銷售全局、對商品分組布局、降低庫存成本、分析銷售市場趨勢,從而更加有效地對商品進行促銷。大型的零售連鎖店和雜貨店用大量的“信息豐富” 的銷售數據,通過數據挖掘揭示一些沒有發現的“隱藏關系”,其中最著名的啤酒和尿布的故事即是數據挖掘在零售業中典型的應用。
3.2 數據挖掘在體育競技中的應用
先進信息技術的運用是美國NBA職籃聯盟成功的眾多因素中非常重要的一個。例如,魔術隊教練利用IBM公司開發的數據挖掘應用軟件Advanced Scout,對不同的隊員布陣時的相對優勢進行了系統的分析,并根據分析結果取得了對邁阿密熱隊4連勝的戰績。
3.3 數據挖掘在企業中的應用
數據挖掘在企業信息處理中的應用是一個將信息轉化為企業商業知識的過程。它主要用于企業的客戶關系管理、市場分析、營銷策略和趨勢預測等方面。
數據挖掘技術已經廣泛應用在美國銀行和金融領域中。例如用數據挖掘工具Marksman可以分析消費者的賒賬卡、家庭貸款、投資產品以及儲蓄等信息,并對客戶進行分類,從而預測何時哪類產品最適合哪類客戶,因而被美國Firstar等銀行使用。此外,近年來數據挖掘技術在信用記分的研究和應用方面也取得了很大的進步。銀行利用Credit Scoring技術對客戶的一些信息(如基本資料、資產以及以往信用等)進行分析、評估,做出最有利的決定。
數據挖掘在電信行業中的應用也很廣泛。它可以幫助電信企業制定合理的電話收費和服務標準、針對特別的客戶群的優惠政策、防止費用欺詐等。
3.4 數據挖掘在科學探索中的應用
隨著數據挖掘技術的不斷發展和完善,已經逐步應用到尖端科學的探索中。數據挖掘技術在生物學中的應用主要集中于分子生物學特別是基因工程的研究上。通過用計算生物分子系列分析方法,尤其是基因數據庫搜索技術已在基因研究上做出了很多重大發現。
SKICAT(Sky Image Cataloging and Analysis Tool)是天文學上一個非常著名的系統。該系統使用數據挖掘算法中的決策樹方法構造分星體類器對星體進行分類,結果使得能分辨的星體與以前的方法相比,在亮度上要低一個數量級之多,并且在效率上這種方法比以往的方法高40倍以上。
3.5 數據挖掘在信息安全中的應用
利用數據挖掘作為入侵檢測的數據分析技術,把“潛伏”的安全信息從海量的安全事件數據中提取出來,抽象出有利于進行判斷和比較的與安全相關的普遍特征,進而發現不確定的入侵行為,并作出判斷、決策(如圖3)。相對于傳統的入侵檢測分析技術,數據挖掘具有良好的自適應性、誤警率低且能減輕數據過載,大大提高了檢測和響應的效率和速度。
圖3 數據挖掘方法的入侵檢測系統流程圖數據挖掘這一新興技術至今已經在商業、銀行、金融、制造業、互聯網絡、教育、科學研究等領域廣泛應用,并且給我們的社會和生活帶來了極大的改觀。
參考文獻
[1]Margaret H.Dunham: DATA MINING Introductory and Advanced Topics[M].北京:清華大學出版社,2003.
[2]Mehmed Kantardzic: DATA MINING Concepts,Models,Methods,and Algorithms[M].北京:清華大學出版社,2003.
隨著計算機和互聯網技術的迅速崛起與普及,人們(當然包括犯罪分子和)已經離不開手機、電腦、智能電視等智能終端設備,不少日常活動基本上都可以數字化地表示。幾點幾分從家出門,坐什么車花了多長時間到了工作地點。這期間,無論是誰,每發一次微博和打一次電話,包括經緯度在內的精確地理位置信息都被記錄在案,而通話記錄在許多年之后仍可以被調閱查詢。總之,在通信技術無孔不入的時代,人們的一舉一動都產生了大量的數據。而在很多時候,這些原始數據就會成為司法部門破案時所需要分析的材料。
數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。數據準備是從相關的數據源中選取所需的數據并整合成用于數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以可理解的方式(如可視化)將找出的規律表示出來。由于人類從來沒有像今天這樣如此依賴網絡和電子設備,因此,信息時代眾多的電子蹤跡讓研究每個人、每個群體,甚至整個人類的習慣成為了可能。
1數據挖掘技術的概述
數據挖掘是通過對各種數據信息進行有選擇的統計、歸類以及分析等挖掘隱含的有用的信息,從而為實踐應用提出有用的決策信息的過程。通俗的說數據挖掘就是一種借助于多種數據分析工具在海量的數據信息中挖掘模數據信息和模型之間關系的技術總裁,通過對這種模型進行認識和理解,分析它們的對應關系,以此來指導各行各業的生產和發展,提供重大決策上的支持。數據挖掘技術是對海量數據信息的統計、分析等因此數據挖掘技術呈現以下特點:一是數據挖掘技術主要是借助各種其它專業學科的知識,從而建立挖掘模型,設計相應的模型算法,從而找出其中的潛在規律等,揭示其中的內在聯系性;二是數據挖掘主要是處理各行數據庫中的信息,因此這些信息是經過預處理的;三是以構建數據模型的方式服務于實踐應用。當然數據挖掘并不是以發現數據理論為目的,而是為了在各行各業的信息中找出有用的數據信息,滿足用戶的需求。
2數據挖掘的功能
結合數據挖掘技術的概述,數據挖掘主要具體以下功能:一是自動預測趨勢和行為。數據挖掘主要是在復雜的數據庫中尋找自己有用的信息,以往的信息搜索需要采取手工分析的方式,如今通過數據挖掘可以快速的將符合數據本身的數據找出來;二是關聯分析。關聯性就是事物之間存在某種的聯系性,這種事物必須要在兩種以上,數據關聯是在復雜的數據中存在一類重要的可被發現的知識;三是概念描述。概念描述分為特征性描述和區別性描述;四是偏差檢測。
3數據挖掘技術的步驟分析
3.1處理過程
數據挖掘雖然能夠實現在復雜的數據庫中尋求自己的數據資源,但是其需要建立人工模型,根據人工模型實現對數據的統計、分析以及利用等。
3.2關鍵技術
由于數據挖掘涉及到很多專業學科,因此相對來說,數據挖掘技術融合多門專業技術學科的知識,結合實踐,數據挖掘技術主要應用到以下算法和模型:一是傳統統計方法。采取傳統的統計方法主要有抽樣技術,也就是采取相應的策略對數據進行合理的抽樣。多元化統計和統計預測方法;二是可視化技術,可視化技術是數據挖掘技術的熱點,它是采取可視化技術與數據挖掘過程的結合,以直觀的圖形等使人們更好地進行數據挖掘技術;三是決策樹。決策樹需要對數據庫進行幾遍的掃描之后,才能完成,因此其在具體的處理過程中可能會包括很多的預測變量情況;四是4)聚類分析方法。聚類分析方法是一種非參數分析方法,主要用于分析樣本分組中多維數據點間的差異和聯系。判別分析法需要預先設定一個指針變量,假設總體為正太分布,必須嚴格遵守數理依據。而聚類分析則沒有這些假設和原則,只需要通過搜集數據和轉換成相似矩陣兩個步驟,就能完成聚類分析的全過程。聚類分析主要用于獲取數據的分布情況,能夠簡單方便的發現全局的分布模式,識別出密集和系數區域;此外,對于單個類的分析也有很強的處理能力,能深入分析每個類的特征,并找出變量和類之間的內在聯系。基于距離、層次、密度和網絡的方法是最常用的聚類分析方法。
4數據挖掘技術的實踐應用
數據挖掘技術雖然在我國發展的時間還不長,但是其在實踐中的應用已經非常的廣泛,因為數據挖掘技術在實踐中的應用價值是非常大的,其可以提取隱藏在數據背后的有用信息,具體來看,其主要應用在:(1)在醫學上的應用。人體的奧秘是無窮無盡的,人類遺傳密碼的信息、人類疾病史和治療方法等,都隱含了大量數據信息。采用數據挖掘來解決這些問題,將給相關工作者的工作帶來很大方便。此外,醫院內部醫藥器具的管理、病人檔案資料的整理、醫院內部結構的管理等,也是龐大的數據庫。將數據挖掘技術應用于醫學領域,深入分析人類疾病間的內在聯系和規律,幫助醫生進行診斷和治療,能夠有效提高醫生診斷的準確率,對人類的健康和醫療事業的發展有十分重要的作用。(2)在電信業中的應用。隨著三網融合技術的不斷發展,傳統的電信業務已經不能滿足當前社會發展的需求,而是側重通信、圖像以及網絡等業務的融合,而實現“三網融合”的關鍵技術是實現對數據的分析與統計,因為三網融合會帶來更多的數據,這些數據都需要充分的挖掘,以此實現“三網融合”戰略的實現。將數據挖掘技術與電信業務有效的結合起來,能夠提高資源利用率,更深入的了解用戶的行為,促進電信業務的推廣,幫助各行各業獲取更大的經濟效益。(3)在高校貧困生管理的應用。貧困生管理分析系統主要應用了數據倉庫技術以及數據挖掘技術,其主要是將高校貧困生的各種信息統一納入到高校信息管理平臺中,然后根據具體的貧困生劃分標準,建立模型,進而對學生的信息進行統計與分析,實現對貧困生信息的科學管理,便于高校管理者及時了解學生的信息。
5結語
總之數據挖掘技術在實踐中的廣泛應用,為我國互聯網+戰略提供了關鍵技術支撐,但是由于數據挖掘技術在實踐中還存在某些技術問題,比如各種模型和技術難于集成、缺少與數據庫系統耦合的通用API或挖掘系統僅提供孤立的知識發現功能,難于嵌入大型應用等問題導致挖掘技術在實踐中的應用還存在缺陷,因此需要我們加大對數據挖掘技術的進一步研究,以此更好地實現“互聯網+”戰略。
作者:陳建偉 李麗坤 單位:安陽職業技術學院
隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)04-0222-01
1 大數據時代數據挖掘的重要性
隨著互聯網、物聯網、云計算等技術的快速發展,以及智能終端、網絡社會、數字地球等信息體的普及和建設,全球數據量出現爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯網絡數據中心)預計,到2020 年全球數據量將增加50倍。毋庸置疑,大數據時代已經到來。一方面,云計算為這些海量的、多樣化的數據提供存儲和運算平臺,同時數據挖掘和人工智能從大數據中發現知識、規律和趨勢,為決策提供信息參考。
如果運用合理的方法和工具,在企業日積月累形成的浩瀚數據中,是可以淘到沙金的,甚至可能發現許多大的鉆石。在一些信息化較成熟的行業,就有這樣的例子。比如銀行的信息化建設就非常完善,銀行每天生成的數據數以萬計,儲戶的存取款數據、ATM交易數據等。
數據挖掘是借助IT手段對經營決策產生決定性影響的一種管理手段。從定義上來看,數據挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數據集中識別有效的、可實用的信息,并運用這些信息做出決策。
2 數據挖掘的分類
數據挖掘技術從開始的單一門類的知識逐漸發展成為一門綜合性的多學科知識,并由此產生了很多的數據挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現對數據挖掘技術進行如下幾種分類:
2.1 按挖掘的數據庫類型分類
利用數據庫對數據分類成為可能是因為數據庫在對數據儲存時就可以對數據按照其類型、模型以及應用場景的不同來進行分類,根據這種分類得到的數據在采用數據挖掘技術時也會有滿足自身的方法。對數據的分類有兩種情況,一種是根據其模型來分類,另一種是根據其類型來分類,前者包括關系型、對象-關系型以及事務型和數據倉庫型等,后者包括時間型、空間型和Web 型的數據挖掘方法。
2.2 按挖掘的知識類型分類
這種分類方法是根據數據挖掘的功能來實施的,其中包括多種分析的方式,例如相關性、預測及離群點分析方法,充分的數據挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數據本身的特性和屬性來對其進行分類,例如數據的抽象性和數據的粒度等,利用數據的抽象層次來分類時可以將數據分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數據挖掘可以實現對多個抽象層數據的挖掘,找到其有價值的知識。同時,在對數據挖掘進行分類時還可以根據其表現出來的模式及規則性和是否檢測出噪聲來分類,一般來說,數據的規則性可以通過多種不同的方法挖掘,例如相關性和關聯分析以及通過對其概念描述和聚類分類、預測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。
2.3 按所用的技術類型分類
數據挖掘的時候采用的技術手段千變萬化,例如可以采用面向數據庫和數據倉庫的技術以及神經網絡及其可視化等技術手段,同時用戶在對數據進行分析時也會使用很多不同的分析方法,根據這些分析方法的不同可以分為遺傳算法、人工神經網絡等等。一般情況下,一個龐大的數據挖掘系統是集多種挖掘技術和方法的綜合性系統。
2.4 按應用分類
根據數據挖掘的應用的領域來進行分類,包括財經行業、交通運輸業、網絡通信業、生物醫學領域如DNA等,在這些行業或領域中都有滿足自身要求的數據挖掘方法。對于特定的應用場景,此時就可能需要與之相應的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數據挖掘技術可以在所有的行業中都能使用的技術,每種數據挖掘技術都有自身的專用性。
3 數據挖掘中常用的方法
目前數據挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經網絡算法。以下對這四種算法進行一一解釋說明。
遺傳算法:該算法依據生物學領域的自然選擇規律以及遺傳的機理發展而來,是一種隨機搜索的算法,利用仿生學的原理來對數據知識進行全局優化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。這種算法具有隱含并行性、易與其它模型結合等優點從而在數據挖掘中得到了應用。
決策樹算法:在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。
粗糙集算法:這個算法將知識的理解視為對數據的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準確的知識進行類別同時進行類別刻畫。
神經網絡算法:在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。光纜監測及其故障診斷系統對于保證通信的順利至關重要,同時這種技術方法也是順應當今時代的潮流必須推廣使用的方法。同時,該診斷技術為通信管網和日常通信提供了可靠的技術支持和可靠的后期保證。
參考文獻
中圖分類號:F49 文獻標識碼:A 文章編號:1007-9416(2015)030-0209-01
近幾年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。2012 年3 月,奧巴馬公布了美國《大數據研究和發展計劃》,標志著大數據已經成為國家戰略,上升為國家意志。從硅谷到北京,大數據的話題傳播迅速。
1 大數據時代
隨著計算機技術全面融入社會生活,經過半個多世紀的發展,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”這個概念。
1.1 大數據時代產生的背景
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”大規模生產、分享和應用海量數據的時代之所以能夠開啟,源于信息科技的進步、互聯網與云計算技術和物聯網的發展。
(1)信息科技的進步。信息處理、信息存儲和信息傳遞是信息科技的三個主要支撐,存儲設備性價比不斷提升、網絡帶寬的持續增加,為大數據的存儲和傳播提供了物質基礎。
(2)互聯網與云計算技術。互聯網時代,電子商務、社交網絡和移動通信產生了大量結構化和非結構化的數據,以云計算為基礎的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數據存儲下來,并隨時進行分析與計算。互聯網領域的公司最早重視數據資產的價值,他們從大數據中淘金,并且引領著大數據的發展趨勢。
(3)物聯網的發展。眾所周知,物聯網時代所創造的數據不是互聯網時代所能比擬的,而且物聯網的數據是異構的、多樣性的、非結構和有噪聲的,最顯著的特點是是它的高增長率。大數據是物聯網中的關鍵技術,物聯網對大數據技術的要求更高,它的發展離不開大數據。
1.2 大數據與數據挖掘
Google、Amazon、Facebook、Twitter,這些稱霸全球互聯網的企業,它們的成功都具備一個共同的因素,就是收集分析海量的各種類型的數據,并能夠快速獲取影響未來的信息的能力。“購買了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統了,而創造出這個系統的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數據,并與行為模式相似的其他用戶的歷史數據進行對照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認識這些人”的提示,這種提示可以準確到令人恐怖的程度,而這正是對龐大的數據進行分析而得到的結果。這種以數據分析為核心的技術就是數據挖掘(data mining)。
從技術角度看,數據挖掘是從大量的、復雜的、不規則的、隨機的、模糊的數據中獲取隱含的、人們事先沒有發覺的、有潛在價值的信息和知識的過程。從商業角度來說,數據挖掘是從龐大的數據庫中抽取、轉換、分析一些潛在規律和價值,從中獲取輔助商業決策的關鍵信息和有用知識。大數據概念的提出,將為數據挖掘技術的發展和應用帶來一個很大的機遇。
2 數據挖掘
數據挖掘旨在從大數據中提取隱藏的預測性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據。
2.1 數據挖掘原理
數據挖掘又稱為數據庫中的知識發現(Knowledge Diseoveryin Databases,KDD),是一個從數據庫或數據倉庫中發現并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數據挖掘一般流程主要包括三個階段:數據準備、數據挖掘、結果解釋和評價。在數據挖掘的處理過程中,數據挖掘分析方法是最為關鍵的。
(1)數據準備。數據準備是從海量數據源得到數據挖掘所用的數據,將數據集成到一起的過程。由于數據收集階段得到的數據可能有一定的污染,即數據可能存在不一致,或有缺失數據、臟數據的存在,因此需通過數據整理,對數據進行清洗及預處理。
(2)數據挖掘。是數據挖掘中最關鍵的一步,使用智能的方法提取數據模式,例如決策樹、分類和聚類、關聯規則和神經網絡等。首先決定要提取什么樣的模型,然后選取相應的算法參數,分析數據從而得到可能形成知識的模式模型。
(3)結果解釋和評價。數據挖掘后的結果需要轉換成用戶能夠理解的規則或模式,并根據其是否對決策問題具有實際意義進行評價。
2.2 數據挖掘技術在營銷中的應用
無差別的大眾媒體營銷已經無法滿足零和的市場環境下的競爭要求。精準營銷是企業現在及未來的發展方向,在精準營銷領域,最常用的數據挖掘分析方法包括分類、聚類和關聯三類。
(1)關聯規則。挖掘關聯規則就是發現存在于大量數據集中的關聯性或相關性,例如空間關聯挖掘出啤酒與尿布效應;時間關聯挖掘出孕嬰用品與家居裝修關系;時間關聯挖掘出調味品、紙巾與化妝品的消費等。
此外,關聯規則發現也可用于序列模式發現。序列模式發現的側重點在于分析數據項集在時間上或序列上的前后(因果)規律,可以看作是一種特定的關聯規則。例如顧客在購買了打印機后在一段時間內是否會購買墨盒。
(2)分類分析。分類是假定數據庫中的每個對象屬于一個預先給定的類,從而將數據庫中的數據分配到給定的類中。它屬于預測性模型,例如在銀行業,事先定義用戶的信用狀況分為兩類:信用好和信用壞,對于一個信用狀態未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構建一個分類模型,決策樹方法著眼于從一組無次序、無規則的客戶數據庫中推理出決策樹表現形式的分類規則。決策樹的非葉子節點均是客戶的一些基本特征,葉子節點是客戶分類標識,由根節點至上而下,到每個葉子節點,就生成了一條規則,由該決策樹可以得到很多規則,構成了一個規則集合,從而進行數據分析。
(3)聚類分析。聚類是將物理或抽象對象的集合進行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數據分類。為品牌找客戶,回答品牌“誰來賣”是精準營銷首先要解決的問題,科學細分客戶是解決這一問題的有效手段。聚類可以將目標客戶分成多個類,同一個類中的客戶有很大的相似性,表現在購買行為的高度一致,不同類間的客戶有很大的相異性,表現在購買行為的截然不同。
3 結語
大數據時代背景下“數據成為資產”,數據挖掘技術作為支撐精準營銷的重要手段,將它應用于營銷行業的決策中,不僅拓展了數據挖掘技術的應用范圍,而且大數據時代的數據挖掘技術可以幫助企業獲得突破性回報。
參考文獻
[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數據時代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.
[2]王偉玲.大數據產業的戰略價值研究與思考.技術經濟與管理研究[J],2015(1).
【關鍵詞】大數據 數據挖掘 分類 聚類
大數據(Big Data),也稱為海量數據,是隨著計算機技術及互聯網技術的高速發展而產生的獨特數據現象。現代社會正以不可想象的速度產生大量數據,如網絡訪問,微博微信,視頻圖片,手機通信,網上購物……等等都在不斷產生大量的數據。如何更好的利用和分析產生的數據,從而為人類使用,這是非常重要的科學研究。在大數據時代,更好的利用云計算以及數據挖掘,顯得尤為重要。
1 大數據的概念
大數據,是指無法在一定時間內用常規機器和軟硬件對其進行感知、獲取、管理、處理和服務的數據集合。IBM將大數據的特點總結為三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。
即產生的數據容量大。數據主要來源如:E-mail、搜索引擎的搜索、圖片、音頻、視頻、社交網站、微博微信、各種應用軟件和app、電子商務以及電子通信等等。在實際生活中,電子商務的購物平臺數量和種類越來越多,社交網站的典型facebook的數據量大的驚人,以PB計量都不夠。數據存儲的單位不僅僅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每個單位的關系為后者是前者的1024倍,如1PB=1024TB。同時大數據的增長速度是越來越快,如手機相機的像素數隨著新款手機的出現而成倍的增長。
1.2 多樣化
從數據組織形式的角度將數據分為結構化數據和非結構化數據。結構化數據,具有一定的規律,可以使用二維表結構來表示,并存儲在數據庫中,如高校的教務管理系統的數據、銀行交易產生的數據。而非結構化數據是無法通過預先定義的數據模型表達并存儲在數據庫中的數據,如聲音、視頻和圖片等等。當前非結構化數據的增長速度遠遠超過結構化數據。
1.3 快速化
在當前商業競爭激烈的時代,對實時的數據進行分析和處理,挖掘有用的數據信息,并用于商業運作,對于企業和組織來說非常重要。如現在網絡購物會依據多數人的購物組合,分析出大部分人在購買一件物品的同時會同時購買其他的物品,從而在購物選擇時給予方便,提高網購的效率,提高效益。
隨著互聯網技術和計算機技術的快速發展,在產生大數據的同時,人們要能夠對這些數據加以利用,得到有用的信息,才是最重要的。為了讓海量規模的數據能夠真正發揮巨大的作用,需要將這些數據轉換為有用的信息和知識,即從傳統的數據統計向數據挖掘和分析進行轉換。比如沃爾瑪超市能夠從男人購物時買啤酒的同時會購買小孩的紙尿褲這種關聯,并在實際物品擺放時將這兩種物品放置在一起,方便用戶購物。
2 數據挖掘
隨著信息技術應用的廣泛,大量的數據產生并存儲各個領域的信息系統中,數據呈現了爆炸式的增長。數據挖掘在這種“數據爆炸,知識匱乏”的情況下出現的。數據挖掘(Data mining)是一個多學科交叉的研究領域,它融合了數據庫技術、機器學習、人工智能、知識工程和統計學等學科領域。數據挖掘在很多領域尤其是電信、銀行、交通、保險和零售等商業領域得到廣泛的應用。
數據挖掘也稱為從數據中發現知識,具體來講就是從大規模海量數據中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在用途的模式或者知識。
3 數據挖掘的主要研究內容
數據挖掘的任務是發現隱藏在數據中的模式,其模式分為兩大類:描述型模式和預測型模式。描述型模式是對當前數據中存在的事實做規范描述,刻畫當前數據的一般特性。預測型模式則是以時間為主要關鍵參數,對于時間序列型數據,根據其歷史和當前的值去預測其未來的值。常使用的算法有:
3.1 聚類分析
聚類是將數據劃分成群組的過程,根據數量本身的自然分布性質,數據變量之間存在的程度不同的相似性(親疏關系),按照一定的準則將最相似的數據聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經典算法有K-Means、K-Medoids。
3.2 特性選擇
特性選擇是指為特定的應用在不失去數據原有價值的基礎上選擇最小的屬性子集,去除不相關和冗余的屬性。特性選擇用于在建立分類模型前,或者預測模型之前,對原始數據庫進行預處理。常用的算法有最小描述長度法。
3.3 特征抽取
特征抽取式數據挖掘技術的常用方法,是一個屬性降維的過程,實際為變換屬性,經變換了的屬性或者特性,是原來屬性集的線性合并,出現更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負矩陣因子法等。
3.4 關聯規則
關聯規則挖掘是數據挖掘領域中研究最為廣泛和和活躍的方法之一。最初的研究動機是針對購物籃分析問題提出的,目的是為了解決發現交易數據庫中不同商品之間的聯系規則。關聯規則是指大量數據中項集之間的有趣關聯或相關關系。常用的算法有Apriori算法。
3.5 分類和預測
分類是應用已知的一些屬性數據去推測一個未知的離散型的屬性數據,而這個被推測的屬性數據的可取值是預先定義的。要很好的實現推測,需要事先定義一個分類模型。可用于分類的算法有決策樹、樸素貝葉斯分類、神經網絡、logistic回歸和支持向量機等。
4 結論
隨著時代的進步,數據也發生變化,具有各種各樣的復雜形式。很多研究機構和個人在對結構化數據進行數據挖掘的同時,也展開了對空間數據、多媒體數據、時序數據和序列數據、文本和Web等數據進行數據挖掘和分析。同時大數據的發展促進了云計算的產生,基于云計算的數據挖掘也在迅速崛起。
參考文獻
[1]劉軍.大數據處理[M].北京:人民郵電出版社,2013(09).
[2]王元卓等.網絡大數據:現狀與展望[J].計算機學報,2013(06).
[3]申彥.大規模數據集高效數據挖掘算法研究[D].江蘇大學,2013(06).
[4](加)洪松林.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014.
[5]賀瑤等.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013(02).
作者簡介
許凡(1996-),男,江蘇省南京市人。現就讀三江學院計算機科學與工程學院計算機軟件工程專業本科。
中圖分類號:G642文獻標識碼:A文章編號:1003-2851(2009)12-0174-01
近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。數據挖掘是面向發現的數據分析技術,通過對大型的數據集進行探查。可以發現有用的知識,從而為決策支持提供有力的依據。
一、 Web數據挖掘定義及分類
Web數據挖掘(Web Date Mining),簡稱Web挖掘,是數據挖掘技術在Web環境下的應用,是從數據挖掘、計算機技術、信息科學等多個領域進行的一項技術。
Web 數據挖掘的分類根據數據挖掘對象的不同可以將Web數據挖掘分為Web 內容挖掘、Web 結構挖掘和Web 訪問信息挖掘三類(見圖1)。Web 內容挖掘就是指從Web 的文檔中發現提取有用信息; Web 結構挖掘是指對html 頁面間的鏈接結構進行挖掘; Web 訪問信息挖掘是從網絡訪問者的交談或活動中提取信息。
二、 Web數據挖掘的過程
數據挖掘的過程可以分為6個步驟:
(一)理解業務:從商業的角度理解項目目標和需求,將其轉換成一種數據挖掘的問題定義,設計出達到目標的一個初步計劃。
(二)理解數據:收集初步的數據,進行各種熟悉數據的活動。包括數據描述,數據探索和數據質量驗證等。
(三)準備數據:將最初的原始數據構造成最終適合建模工具處理的數據集。包括表、記錄和屬性的選擇,數據轉換和數據清理等。
(四)建模:選擇和應用各種建模技術,并對其參數進行優化。
(五)模型評估:對模型進行較為徹底的評價,并檢查構建模型的每個步驟,確認其是否真正實現了預定的商業目的。
三、Web 數據挖掘的常用工具
Web 數據挖掘工具如果按用途分, 可分為: Web 文本信息挖掘工具、用戶訪問模式挖掘工具或用戶導航行為挖掘工具和綜合性的web分析工具。Web 文本信息挖掘工具主要完成兩方面的功能: 信息檢索和對文本的分析。IBM 公司的產品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比較好的文本信息挖掘工具。用戶模式挖掘工具通常實現的方法是對Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用戶訪問行為、頻度和內容等信息, 從而找出一定的模式和規則。由Sstphen Tumer 博士編制的免費個人軟件Analog 是一個用來分析Server Logs 的工具。
四、數據挖掘的應用現狀
數據挖掘是一個新興的邊緣學科,它匯集了來自機器學習、模式識別、數據庫、統計學、人工智能以及管理信息系統等各學科的成果。多學科的相互交融和相互促進,使得這一新學科得以蓬勃發展,而且已初具規模。在美國國家科學基金會(NSF)的數據庫研究項目中,KDD被列為90年代最有價值的研究項目。人工智能研究領域的科學家也普遍認為,下一個人工智能應用的重要課題之一,將是以機器學習算法為主要工具的大規模的數據庫知識發現。盡管數據挖掘還是一個很新的研究課題,但它所固有的為企業創造巨大經濟效益的潛力,已使其很快有了許多成功的應用,具有代表性的應用領域有市場預測、投資、制造業、銀行、通訊等。
美國鋼鐵公司和神戶鋼鐵公司利用基于數據挖掘技術的ISPA系統,研究分析產品性能規律和進行質量控制,取得了顯著效果。通用電器公司(GE)與法國飛機發動機制造公司(sNEcMA),利用數據挖掘技術研制了CASSIOP.EE質量控制系統,被三家歐洲航空公司用于診斷和預測渡音737的故障,帶來了可觀的經濟效益。該系統于1996年獲歐洲一等創造性應用獎。