數據挖掘的聚類分析算法研究

時間：2023-03-31 08:39:16

序論：好文章的創作是一個不斷探索和完善的過程，我們為您推薦一篇數據挖掘的聚類分析算法研究范例，希望它們能助您一臂之力，提升您的閱讀品質，帶來更深刻的閱讀感受。

數據挖掘的聚類分析算法研究

引言：“以學生為中心”是當下教育環境所產生的一種新式教育理念，這種理念的目的與傳統教育的目的不一樣，不再是“老師教，學生聽”，而是“老師引導，學生實踐與創新”，更加注重學生的實踐能力與創新能力，以適應未來所需要的能力結構，并具備足夠的競爭力．該教育理念在實踐中有三個基本點：

１）讓學生具備自主學習能力與語言組織能力；

２）讓學生擁有綜合知識應用能力與團隊協作能力；

３）以學生需求為出發點，讓學生擁有創新能力．學生之間是有差異性的，制定的指標需要剛柔并濟，除了統一指標的達成外，還需要根據具體的學生進行制定相應的達成指標，也就是我們所說的因材施教，而且社會需要的是多樣化的人才，這樣教學上就需要多種方式相結合，培養出高素質復合型的人才．基于“以學生為中心”的教育理念，在人工智能和互聯網的高速發展下，又誕生了智能教育的理念，旨在用互聯網和人工智能輔助教學，讓學生學習不再局限于傳統的課堂．在智能教育提出后，太原師范學院緊跟時代發展形勢，與京東（山西）數字經濟產業園、科大訊飛股份有限公司等企業合作創立智能教育產業學院．目的是采集、處理和分析教育數據，為政府相關部門提供決策依據，服務地方教育．采集和處理后的數據量非常龐大，如何更高效地分析數據成為了一大難點，為了更好地解決分析數據這一難點，選取了數據挖掘領域中的聚類分析算法進行數據分析．聚類分析算法屬于機器學習算法中無監督學習算法的一種，與監督學習算法不同的是，在無監督學習算法中，數據是沒有標簽的，數據只擁有一系列的特征值，例如，在二維坐標系中表示的就是一些離散的點，如圖１［１］．在無監督學習中，需要將一系列未標記的數據輸入到算法中，然后告訴算法在結構或分布上找到數據的內部規律．比如在圖１中，有一種算法將上面的數據點有效分成３類，那么這個算法就是聚類分析算法．

１問題的提出

隨著中國的高速發展，現在的高校學生在校生活越來越豐富，尤其是互聯網已經占據了高校學生在校生活的大部分，比如購物、游戲、網上學習、觀影、聊天等等．為了能夠更好地觀察當下高校學生在校上網行為對成績的影響，采集了太原師范學院２０２０級計算機科學與技術學院學生的相關數據進行分析．在大量數據中進行手工分析顯然是低效的．為了有效地解決這個問題，數據挖掘技術中的聚類分析及其算法已經在實踐中展現了其重要的效用．通過對聚類分析及其相關算法特性的簡要論述，從多個方面系統地比較了當前這些聚類分析算法的特點和優缺點，然后基于高校學生在校上網行為的數據，將改進的ｋ－ｍｅａｎｓ算法應用于聚類分析軟件ＳＰＳＳ中分析高校學生上網行為對成績的影響．

２聚類算法分析

聚類分析是一種直接比較各種事物屬性的分析方法．其中，具有相似性質的事物歸屬為相同屬性的類別，差異性較大的事物歸屬為不同屬性的類別．在學生產出的數據實踐應用中，像是學生成績分析，經常還需要對學生做分類判斷的工作．例如，需要根據每個學生的單科成績分布情況、專業成績分布情況和整體成績分布情況進行問題反饋和學習指導建議等等；或者制定一系列的疏導建議和應對措施，將其分為適用于心理問題輕微的、適用于心理問題較重的和適用于心理問題嚴重的疏導建議和應對措施．多年來，聚類算法得到了廣泛的研究和應用，誕生了不少聚類分析算法的工具，在各種統計和分析的系統中也集成了這些工具，例如，Ｓ－Ｐｌｕｓ、ＳＰＳＳ和ＳＡＳ．聚類分析算法根據使用方法大體上分為五大類：１）劃分方法（Ｐａｒｔｉｔｉｏｎｉｎｇ　Ｍｅｔｈｏｄｓ）．通過獲取一個有ｎ個數據的對象集行，將這個數據對象集行劃分為ｋ個子簇，每個子簇代表一個類（ｋ≤ｎ）.此外，這ｋ個子分組應滿足兩個條件：每組至少包含一條數據記錄；每個數據記錄僅屬于一個組．基于此的算法有ｋ－ｍｅａｎｓ算法、ＦＣＭ算法和ＣＬＡＲＡＮＳ算法等［２］．２）層次方法（Ｈｉｅｒａｒｃｈｉｃａｌ　Ｍｅｔｈｏｄｓ）．通過對數據節點的相似程度從高到低逐步連接．該方法的優點是不需要事先設定簇的數量，我們可以選擇看上去最好的簇的數量．層次聚類方法一般不單獨使用，通常是與其他方法結合起來使用比較可靠，如ＢＩＲＣＨ和ＣＵＲＥ．３）基于密度的方法（Ｄｅｎｓｉｔｙ－ｂａｓｅｄ　Ｍｅｔｈｏｄｓ）．該方法的核心思想是，只要數據集的密度大于某一閾值，該數據集就會被添加到最近的聚類簇中．這類算法可發現任意形狀的聚類，且對噪聲數據不敏感．基于此的算法有ＤＢＳＣＡＮ［３］．４）基于網格的方法（Ｇｒｉｄ－ｂａｓｅｄ　Ｍｅｔｈｏｄｓ）．數據空間被劃分為網格單元，將數據對象映射到網格單元中，并計算每個單元的密度，由差值將數據對象劃分在高密度的網格單元．優點是執行效率高．ＳＴＩＮＧ就是一種基于網格的多分辨率的聚類技術［４］．５）基于模型的方法（Ｍｏｄｅｌ－ｂａｓｅｄ　Ｍｅｔｈｏｄｓ）．首先給每個簇定義一個模型，然后將滿足這個模型的數據集歸入其中．模型沒有限制，無論是多維空間還是數據點的密度分布函數．模型是由一系列的概率分布決定，所以也被稱為基于概率模型的方法．一般有兩種應用方向：統計和神經網絡［５］．不同的聚類分析算法都有各自的特點，表１為具有代表性的不同聚類分析類型算法的優缺點，可以作為聚類分析研究及應用的參考．

３高校學生上網行為分析

聚類分析主要有以下三個方面的應用：１）隨著發展，聚類分析已經成為了統計和分析系統中不可或缺的部分，在其中作為一個能夠單獨處理分析數據的分布情況，觀察不同簇的分布特點，選取對我們有價值的簇進一步分析的工具．例如：Ｓ－Ｐｌｕｓ能夠直接提供給使用者所需要的統計分析結果，并且能以很直觀的方式展示給使用者，特點是它的交互性很強，能夠提供多種維度讓使用者去發現數據中的價值；ＳＰＳＳ是調研、統計，尤其是政府和企業數據應用最廣泛的統計分析工具．可用于各種數據的分析，最終為相關單位提供科學決策服務．ＳＡＳ是一個模塊化、集成化的大型應用軟件系統．優點在于完備的數據統一視圖、易于使用的圖形用戶界面和快速簡便自助的模型開發．使用ＳＰＳＳ對高校學生上網行為進行分析．在ＳＰＳＳ中調用ｋ－ｍｅａｎｓ　ｃｌｕｓｔｅｒ過程可以完成指定數據集的聚類分析，聚類分析通常是將初始數據集進行簡單分類，然后通過迭代得到最終分類．為系統研究高校學生在校上網行為對成績的影響，通過采集太原師范學院２０２０級計算機科學與技術學院的２５４名本科學生的相關數據，主要收集了這些學生的每日觀影時長、每日游戲時長、每周網上學習時長和成績．因為這些數據的數量級不同，本文將這些數據進行了Ｚ－Ｓｃｏｒｅ標準化處理，公式如下：Ｚ＝Ｘ－Ｘ－（）／Ｓ（１）式（１）中：Ｘ為原始數據，Ｘ－為Ｘ的算數平均值，Ｓ為Ｘ的標準差.說明：標準化的數據值圍繞０上下波動，大于０說明高于平均水平，小于０說明低于平均水平．ＳＰＳＳ的整體操作步驟如下：激活數據分組管理窗口，定義變量名，輸入數據；標準化數據，選擇分析－降維－因子進行標準化數據；統計分析，選擇分析－分類指定初始簇的中心點，選擇ｋ－ｍｅａｎｓ算法進行迭代分類；方差分析聚類結果的ＤＳＳ，ＤＳＳ越小，聚類效果越好；重復執行前兩步，使得ＤＳＳ最小化；可視化最終結果，以散點圖的形式展示最終聚類的結果．最終，參加研究的２５４名同學被分成了４種類型，如表２所示，表中４種上網行為與成績的數據均是該類型對應的中心值．由于數據有４個維度，為了在２維坐標圖中展示觀測數據集的分布，需要對數據進行降維，經過降維處理后，所呈現的散點分布圖如圖２所示．將觀測數據集進行降維后，繪制出了不同類別樣本點的散點分布圖．其中，分布在圖的左下方區域的是標號為０的樣本數據點，用圓點作圖；分布在圖的右下方區域的是標號為１的樣本數據點，用五角星作圖；分布在圖的左上方區域的是標號為２的樣本數據點，用方塊作圖．分布在圖的右上方區域的是標號為３的樣本數據點，用三角形作圖．每個類型的樣本點都正好分布在類簇中心點周圍，并且每個類別之間沒有交集，說明每個類別之間界限清晰，即聚類效果好［６］．通過總結，表３將高校學生上網行為對高校學生學習影響情況分為以下４類，并做了相應的評價．２）聚類分析可以方便地對數據進行分析，利用分析的結果，可以對高校學生的學習情況進行督導，讓高校學生擁有一個良好的學習環境．本文以改進的ｋ－ｍｅａｎｓ算法作為一個例子來說明高校學生上網行為對高校學生學習的影響．算法描述如下：輸入標準化的數據和簇個數，使用基于簇中對象平均值的ｋ－ｍｅａｎｓ作為前綴算法，通過方差分析使得ＤＳＳ最小化，迭代前兩步最終得到理想的目標結果．改進的ｋ－ｍｅａｎｓ算法中運用了下面兩個公式：聚類結果簇中對象之間的距離平方和，即Ｅｐ＝∑ｋｉ＝１∑ｐ∈Ｃｉｐ－ｍｉ２（２）式（２）中，Ｃｉ是聚類簇，ｐ是簇中對象，ｍｉ是Ｃｉ的平均值.聚類結果簇中對象ｉ與對象ｊ之間的相異度，即ｄｉｊ２＝∑ｋδｉｊｋｄｉｊｋ２∑ｋδｉｊｋ（３）式（３）中，ｄｉｊｋ２為加權歐氏距離，即ｄｉｊｋ２＝Ｗ１Ｘｉ１－Ｘｊ１２＋Ｗ２Ｘｉ２－Ｘｊ２２＋…＋ＷｐＸｉｐ－Ｘｊｐ２（４）式（４）中，ｉ＝（Ｘｉ１，Ｘｉ２，…，Ｘｉｐ）、ｊ＝（Ｘｊ１，Ｘｊ２，…，Ｘｊｐ）是兩個ｐ維數據對象.δｉｊｋ是第ｋ個值與對象ｉ、對象ｊ之間的權重.聚類結果簇中對象之間的距離平方和是聚類結果好壞的重要指標，最終要使簇中對象之間的距離平方和最小化，這樣就能夠使生成的聚類結果盡可能緊湊和獨立［７］.３）聚類分析也可用于分析異常值．異常值是數據集中的數據明顯離散很大，所以也稱為離散值［８］．異常值的分析有著廣泛的應用，例如故障分析，判斷電路故障；偏離值分析，判斷經濟變化的影響因素；漸變、突變分析，看數據走勢變化．

４總結

智能教育理念的產生，變革了傳統的教學模式，太原師范學院緊跟時事創立了智能教育產業學院，通過采集、處理和分析教育數據，給予相關部門決策依據，服務地方教育．如何更好地分析數據是一大難點，手工顯然不現實，所以數據挖掘領域的聚類分析算法成了較好的選擇．研究和應用聚類分析算法，首先是闡述了不同的聚類類型的特點與優缺點，接著從聚類分析軟件ＳＰＳＳ的應用和改進的ｋ－ｍｅａｎｓ算法兩方面進行論述高校學生上網行為對高校學生成績的影響，確定了高校學生受互聯網影響的類型，并針對每種類型進行了相應的評價，提供了相應的處理方法．

參考文獻：

［１］　鐘文精，焦中明，蔡　樂．基于Ｋ－Ｍｅａｎｓ算法的學生成績聚類分析［Ｊ］．教育信息技術，２０２１（５）：５６－５８．

［２］　劉連宏．密度聚類算法在巖石圖像中的研究與應用［Ｄ］．西安：西安石油大學，２０２１．

［３］　孫海軍．基于ＭａｐＲｅｄｕｃｅ和網格密度的文本聚類分析研究［Ｊ］．信息系統工程，２０１４（１０）：２５－２６．

［４］　劉柏林．基于電網運行數據集的電力系統運行評估及優化研究［Ｄ］．北京：華北電力大學（北京），２０１７．

［５］　周樹功．基于Ｋ－ｍｅａｎｓ聚類分析算法的大學生在線學習行為分析［Ｊ］．信息與電腦（理論版），２０２０，３２（１６）：２２０－２２２．

［６］　趙　麗．全局Ｋ－均值聚類算法研究與改進［Ｄ］．西安：西安電子科技大學，２０１３．

［７］　況成忠，彭偉雄，黃萍．基于聚類分析的電纜局部放電分析［Ｊ］．電子世界，２０１４（９）：５１．

［８］　呂明磊，劉冬梅，曾智勇．基于改進Ｋ－ｍｅａｎｓ算法的圖像檢索方法［Ｊ］．計算機應用，２０１３，３３（Ｓ１）：１９５－１９８．

作者:嚴武軍孫志其單位:太原師范學院計算機科學與技術學院

上一篇: 高校精細化管理分析下一篇: 國外臨床護士培訓及對我國的啟...