數據分析的方法匯總十篇

時間：2023-07-04 16:29:01

序論：好文章的創作是一個不斷探索和完善的過程，我們為您推薦十篇數據分析的方法范例，希望它們能助您一臂之力，提升您的閱讀品質，帶來更深刻的閱讀感受。

數據分析的方法

篇（1）

企業數據分析編寫過程中，常用的分析方法有對比分析法、趨勢分析法、結構分析法和綜合分析法等。本文結合工作實際，對如何運用這四種基本分析方法談點想法。

對比分析法

所謂對比分析法，是指將兩個或兩組以上的數據進行比較，分析它們的差異性，從而揭示這些數據所代表的事物的發展變化情況和規律性。對比分析法是比較研究的一種方法，在企業數據分析中的應用十分普遍。它的特點是，通過比較分析，可以非常直觀地看出企業某方面工作的變化或差距，并且可以準確、量化地表示出這種變化或差距是多少。

在實際應用中，企業數據的對比分析，一般有以下幾種具體情況：

一是將企業當年的數據與歷年（去年或前幾年）的數據進行對比分析，目的是為了搞清楚與去年或前幾年相比，企業某一方面或某些方面的發展變化情況。比如，某公司2006年利潤100萬元，2007年利潤115萬元，年增長率為15%。通過這種對比，我們就可以公司利潤的變化情況有一個更直觀、更清楚的認識。當然，在許多時候，這種對比分析不會局限在某一個數據，而是一組數據。比如，在對企業當年的利潤與去年利潤進行對比分析的同時，還可以將產量、銷售量、銷售額、成本、稅金、市場占有量、占有率等指標進行對比分析，從而更全面了解掌握企業的發展現狀。

二是將本單位數據與同行業（外單位、同行業平均水平）的數據進行對比分析，目的是為了搞清楚與外單位、同行業平均水平，本單位某一方面或各方面的發展水平處于什么樣的位置，明確哪些指標是領先的，哪些指標是落后的，進而找出下一步發展的方向和目標。比如，2005年，某發電廠供電煤耗為340克/千瓦時，當年全國火電行業平均煤耗指標為310克/千瓦時，該發電廠的實際煤耗指標比全國火電行業平均煤耗多了30克/千瓦時。通過這樣的對比分析，我們可以看出，該發電廠在能耗方面存在著比較突出問題，如何節能降耗應該成為企業下一步重點關注的一個工作內容，也是提高企業經濟效益的一條重要途徑。

為了一目了然地看出數據對比的直觀效果，對比分析一般可用柱式圖表表示。

趨勢分析法

所謂趨勢分析法，是指通過對某一個或幾個數據在一定階段的變化情況進行分析，從而發現該數據所代表事物的發展趨勢和規律，并可進一步分析形成這種趨勢的原因，為企業領導決策提供依據和參考。趨勢分析法實際上是一種歷史研究的方法，在企業數據分析的編寫中，主要用來表示企業某一方面或某些方面的工作在一定時期內的發展趨勢和規律。其特點是對某一時期的某一數據進行持續性考察，進而得出趨勢性的結論。

一般說來，對數據進行趨勢分析的結果不外乎以下四種情況：

一是某項數據的變化呈逐年加大的趨勢，稱為上升趨勢。比如某企業利潤額：2001年為150萬元、2002年173萬元、2003年220萬元、2004年360萬元、2005年500萬元。從對這組數據的分析中可以得出結論：該企業的利潤呈逐年上升的趨勢。

二是某項數據的變化呈逐年減小的趨勢，稱為下降趨勢。例某企業產品的市場占有率：2001年為30%、2002年24%、2003年15%、2004年9%、2005年6%。從對這組數據的分析中可以得出結論：該企業產品的市場占有率呈逐年下降的趨勢，說明該產品的市場競爭力正在下降，企業應該對該產品進行升級換代，或者開發生產新的產品。

三是某項數據或上升或下降，每年都有較大變化，稱為震蕩趨勢。比如某企業的經營成本：2001年為50萬元、2002年83萬元、2003年61萬元、2004年46萬元、2005年103萬元。從對這組數據的分析中可以得出結論：該企業每年的經營成本變化較大，呈震蕩趨勢，說明企業在控制經營成本方面還要進一步采取措施。

四是某項數據幾年來基本不變，或變化很小，稱為穩定趨勢。例如某企業的人均產值：2001年為60萬元、2002年63萬元、2003年61萬元、2004年62萬元、2005年63萬元。從對這組數據的分析中可以得出結論：該企業的人均產值每年變化不大，呈穩定趨勢。

為了更形象地看出數據在一定時期內的變化軌跡，對數據的趨勢分析一般可以用曲線圖表表示。

結構分析法

所謂結構分析法，就是通過分析數據的構成情況，即分析構成某一數據的各子數據的情況和權重，從而揭示構成某一事物的各方面因素在其中的作用大小和變化情況。結構分析法也是常用的企業數據分析方法，通過這一分析方法，有利于我們發現和把握事物的主要矛盾和矛盾的主要方面，對企業而言，可以據此確定工作重點或經營的主攻方向。

在實際工作中，當我們需要對企業的某一數據作深入分析時，常常需要用到結構分析法。例如我們分析某供電局利潤的結構情況：2007年，企業利潤為1000萬元，其中主業占80%、三產占20%。這就是結構分析的方法，從中我們就可以清楚地知道，主業和三產對企業利潤的貢獻比例。在這個基礎上，我們還可以作進一步的分析，在200萬元的三產利潤中：火電建設公司占35%、電力設計院占30%、電纜廠占15%、電表廠占10%、電桿廠占5%、賓館占5%。從而我們可以看出火電建設公司和電力設計院兩家對三產利潤的貢獻率達到了65%，是發展三產的主力軍。從供電局的角度而言，抓好三產工作，重點是要抓好火電建設公司和電力設計院的工作。

為了直觀地反映某一數據的構成情況，結構分析法一般采用圓餅圖表來表示分析的結果。

綜合分析法

在編寫企業數據分析時，往往不是單一地使用一種數據分析方法，為了使數據分析更透徹、更深入，更多時候我們都需要采用綜合分析的方法。所謂綜合分析法，就是將以上兩種或兩種以上的分析方法結合起來使用，從而多角度、多層次地分析揭示數據的變化、趨勢和結構情況，以增加數據分析的深度。

綜合分析法在具體應用中，有以下幾種情況：

一是對比分析與趨勢分析相結合的方法。就是通過對兩個或兩組以上的數據在一定階段的變化情況進行比較分析，從而發現數據所代表事物的發展趨勢、差別和關系，并可進一步分析原因，為企業領導決策提供依據和參考。比如，我們可以使用這一方法來分析一定階段企業利潤和成本的變化和相互關系。再如，我們將“十五”期間本企業的利潤指標與其他企業的利潤指標進行比較分析，所應用的也就是對比分析與趨勢分析相結合的方法。

二是對比分析與結構分析相結合的方法。就是對兩個或兩組以上的數據的構成情況進行分析比較，從而可以看出構成這兩個或兩組以上的數據的各種因素的差異性，以此剖析產生這種差異的原因，并提出相應的對策措施。比如，2006年，A供電局利潤500萬元，B供電局利潤700萬元。如果只采取對比分析的方法，我們獲得的結論就是：“B供電局利潤比A供電局多200萬元”。結合結構分析：A供電局利潤500萬元中，主業為450萬元，三產為50萬元；B供電局利潤700萬元中，主業為560萬元，三產為140萬元。由此看出，A、B供電局在主業利潤差距并不大，差距主要在三產上。因此，發展三產應成為A供電局利潤增長的主要著力點。

篇（2）

中圖分類號：TP18 文獻標識碼：A文章編號：1009-3044(2007)06-11651-01

1 引言

粗糙集（Rough Set）理論[1]是波蘭數學家Z.Pawlak于1982年提出的，它建立在完善的數學基礎之上，是一種新的處理含糊性和不確定性問題的數學工具。其主要思想是在保持分類能力不變的前提下，通過知識約簡，導出問題的決策或分類規則[2]。由于粗糙集理論不需要任何預備或額外的有關數據信息，使得粗糙集理論成為研究熱點之一，被廣泛應用與知識發現、機器學習、決策分析、模式識別、專家系統和數據挖掘等領域。

屬性約簡是粗糙集理論中核心研究內容之一[3]。在眾多的屬性約簡算法中，大致可以分為兩類：一類是基于信息熵的啟發式算法[4]，這類算法往往不能得到系統的所有約簡．另一類是基于區分矩陣和區分函數構造的算法[5]，這種算法直觀，易于理解，能夠計算出所有約簡。但在區分矩陣中會出現大量的重復元素，造成時間和空間的浪費，從而降低了屬性約簡算法的效率。

本文基于數據分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下，逐個約去冗余的屬性，直到不再有冗余的屬性，此時得到的屬性集是最小屬性集，即為約簡。該算法簡單，能夠求出所有約簡，不會出現區分矩陣中大

量的重復元素，從而提高了屬性約簡的效率。

2 粗糙集概念

定義2.1設U為所討論對象的非空有限集合，稱為論域；R為建立在U上的一個等價關系族，稱二元有序組S=(U，R)為近似空間。

定義2.2令R為等價關系族，設P?哿R，且P≠?I，則P中所有等價關系的交集稱為P上的不可分辨關系，記作IND(P)，即有：[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關系。

定義2.3稱4元有序組K=(U，A，V，f)為信息系統，其中U為所考慮對象的非空有限集合，稱為論域；A為屬性的非空有限集合；V=∪Va，Va為屬性a的值域；f：U×AV是一個信息函數，?坌x∈U，a∈A，f(x,a)∈Va。對于給定對象x，f(x,a)賦予對象x在屬性a下的屬性值。信息系統也可簡記為K=(U，A)。若A=C∪D且C∩D=?I，則S稱，為決策表，其中C為條件屬性集，D為決策屬性集。

顯然，信息系統中的屬性與近似空間中的等價關系相對應。

定義2.4設K=(U，A，V，f)為信息系統，P?哿A且P≠?I，定義由屬性子集P導出的二元關系如下：

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

則IND(P)也是等價關系,稱其為由屬性集P導出的不可分辨關系。

定義2.5稱決策表是一致的當且僅當D依賴于C，即IND(C)?哿IND(D)，否則決策表是不一致的。一致決策表說明：在不同個體的條件屬性值相同時，他們的決策屬性值也相同。

定義2.6設K=(U，A)為一個信息系統。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集，則稱P為A的一個約簡，或稱為信息系統的一個約簡。

定義2.7設K=(U，CUD)為一個決策表，其中C為條件屬性集，D為決策屬性，若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集，則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關于屬性集C的正域。

定義2.8數據分析方法對于信息系統K=(U，A)，逐個移去A中的屬性，每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關系，如果等于IND(A)，則該屬性可被約去，否則該屬性不可被約去；對于決策表K=(U，CUD)，逐個移去C中的屬性，每移去一個屬性即刻檢其決策表，如果不出現新的不一致，則該屬性可被約去，否則該屬性不可被約去。

3 基于數據分析方法的屬性簡約算法

3.1 算法思路

利用函數的遞歸調用，逐個判定信息系K=(U，A)中屬性a(a∈A)，若IND(A)＝ND(A－{a})，則a可以約去，A‘=A－{a}，否則a不可以約去，繼續檢查A‘中的每個屬性是否能被約去，此過程一直進行下去，直到出現某一屬性子集中的每個屬性都不可約去為止，此時該屬性子集即為所求的屬性簡約。對于決策表，每次檢查是否增加了不一致的決策規則，作為是否約去屬性的依據。

算法如下：

輸入：信息系統K=(U，A)。

輸出：K的屬性約簡。

Match(A') // A’=A-{a}//

begin

for i=1to|U|-1 //|U|表示U的基數//

for j=i+1to|U|

begin

r=|R|//|R|表示屬性個數//

if((f(ui，a1)= f(uj，a1))∧（f(ui，a2)= f(uj，a2)）∧….∧（f(ui，ar)= f(uj，ar)))

then a不可被約去，return0

end

a可以被約去return1

end

Reduce (A)

begin

flag=1

for i=1 to |R|//|R|表示屬性個數//

begin

a=ai

A'=A-{ai}

if match(A')thenflag =0 ， reduce (A’)

if (flag且A未被輸出)then

輸出A中所有元素//flag≠0，說明A中所有元素不可移去，且不會被重復輸出//

End

end

以上給出的函數是求解信息系統的屬性約簡算法；對于決策表，只要將Match(A’)函數中的if語句的條件換成(f(ui，a1)= f(uj，a1))∧（f(ui，a2)= f(uj，a2))∧….∧(f(ui，ar)= f(uj，ar))∧(f(ui，ag)≠f(uj，ag))，r=|C|是條件屬性個數，ag是決策屬性。Reduce (A)函數中|R|換成|C|即可。該算法適用于一致決策表，對非一致決策表，算法類似，也就是逐個移去屬性并檢查決策表是否出現新的不一致，作為約去此屬性的依據。

4 舉例

文獻[7]中決策表1，a，b，c，d，e是條件屬性，g是決策屬性，求出的約簡是{a,b,d}

應用本算法，求得的屬性約簡為{a,e}和{a,b,d}，得到決策簡化表2和表3。

表1 決策表表2簡化表表3簡化表

如果將決策表表1看作一信息系統，運用本算法，求得的屬性約簡有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}

5 結束語

本文通過數據分析方法討論了屬性約簡問題。該算法是基于不可分辨關系的，具有直觀、易于理解和完備性的特點。當屬性和對象都較少時，效率較高，但當屬性和對象較多時，計算的復雜度較高。實例表明，該算法是有效的。

參考文獻：

[1]PAWLAK z．Rough set[J]．International jom：ua ofcomputer and information science，1982，(11)：341―356．

[2]張文修，吳偉志，梁吉業等．粗糙集理論與方法[M]．北京：科學出版社，2001．

[3]Pawlak Z．Slowinski R．Rough set approach to muhiattribute decision analysis．Ivited Review[J]．European Journal of Operational Research．1994，72：443-459

[4]王國胤，于洪，楊大春．基于條件信息熵的決策表約簡[J]．計算機學報，2002（7）：760―765．

[5]Skowron A，Rauszer C．The Discernibility Matrices and Functions in Information Systems[A]．I Slowinsk R．ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c]．1991，331-362．

篇（3）

分析網站流量這是首要工作，如果是網站建設初期，那么此時的流量分析就只要記住網站登陸搜索引擎后的流量基數即可。如果是網站建設中期的話，就要記錄網站流量一周的平均值，如果是網站建設后期的話，就要記錄網站流量的階段性波動值!記錄好了流量值之后，就可以很好的計劃出下一步優化推廣的流量值了。

網站優化數據分析方法二：關鍵詞分析

網站關鍵詞分析也是網站優化的重要工作之一!分析現在網站關鍵詞的布局，分析網站有流量的關鍵詞，分析網站還沒有覆蓋的與網站業務相關的關鍵詞，分析出網站主關鍵詞的排名情況，分析關鍵詞的設計是否合理。分析頂級關鍵詞是否占據了搜索引擎首頁的排名，分析搜索關鍵詞的質量高不高，與網站業務的相關度如何?!分析關鍵詞轉化率如何等等。

篇（4）

中圖分類號：TP274文獻標識碼：A文章編號：1009-3044(2008)15-20ppp-

The Research Content And Data Analysis Methods On the Gene Regulatory Networks

GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1

(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)

Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.

Key words:gene regulatory networks;Self-organizing Map;machine learning

基因調控網絡是計算機科學、數學、信息學向分子生物學滲透形成的交叉點，是運用生物信息學的方法和技術通過數據采集、分析、建模、模擬和推斷等手段研究復雜的基因網絡關系。作為一種系統的、定量的研究方法建立在包括分子生物學，非線性數學和程序算法設計等知識等基礎上，運用生物信息學的方法和技術通過數據采集、分析、建模、模擬和推斷等手段，整合已有的實驗數據和知識，構建生物基因調控網絡，從整體的層次，了解細胞的功能；從整體的角度，闡述基因參與的生物調控過程，在全基因組水平上以系統的、全局的觀點研究生命現象及其本質，是后基因組時代研究的重要內容。

1 基因調控網絡概念

基因調控網絡本質上是一個連續而復雜的動態系統，即復雜的動力系統網絡。

1.1 基因調控網絡的定義

生物體任何細胞的遺傳信息、基因都是同樣的，但同一個基因在不同組織、不同細胞中的表現并不一樣。一個基因的表達既影響其它的基因，又受其它基因的影響，基因之間相互促進、相互抑制，在特定的細胞內和時間下綜合環境等因素這樣的大環境中呈現活化狀態，構成一個復雜的基因調控網絡。

1.2 基因調控網絡的特性:

基因調控網絡是連續的多層次動力系統模型，具有穩定姓、層次性、復雜性、動態性等。

1.2.1 復雜性

生物具有大量的基因，諸多基因組成各個模塊，不同的基因網絡模塊可以在不同層次上發生相互作用，同一個基因可能參與各種不同的分子機理，使得基因網絡有著高度的復雜性。

1.2.2 層次性

基因調控網絡具有一定層次結構，按照調控元件、motif、模塊和整個網絡的四層結構，將各個節點有規律的來接在一起。調控元件分為順式(cis-)和反式(trans-)兩種類型, 分別表示受調控基因的結合位點DNA 序列和結合在該序列上對基因起激活或者抑制作用的轉錄因子。Motif 和模塊都是由基因集合構成的調控模式, 是分析網絡局部特征和網絡構成以及研究調控機理的重要結構。

1.2.3 動態性

生物過程是動態的，用來理解生物過程意義的基因調控網絡自然就動態存在?；蛘{控網絡是隨著生物過程的動態發生而具有動態的特性，不同條件、不同時間的基因調控網絡是不同的。

1.2.4 穩定性

基因調控網絡的穩定性體現在生物體緩解突變的影響方面，功能上無關基因之間的相互作用可以抵抗系統突變；一個基因在突變中喪失的功能，有另外一個或更多具有相似功能的基因所補償，以減弱該突變對表型造成的影響，保持生物進化中的穩定性。

1.2.5 功能模塊性

基因調控相關的生物功能主要是通過網絡模塊來實現的，有適當尺度下的動力學特征和生物學功能解釋的模塊是由多個motif 構成的，實現相同功能的基因或蛋白質存在拓撲結構上是相關的。

1.3 基因調控網絡研究的目的

通過對基因調控網絡的研究，識別和推斷基因網絡的結構、特性和調控關系，認識復雜的分子調控過程，理解支配基因表達和功能的基本規則，揭示基因表達過程中的信息傳輸規律，清楚整體的框架下研究基因的功能。

2 基因調控網絡研究內容

基因調控網絡的研究是假設兩個基因列譜相似，則這兩個基因協作調控，并可能功能相近，有同樣表達模式的基因可能有同樣的表達過程?；蛘{控網絡主要在三個水平上進行：DNA水平、轉錄水平、翻譯水平。DNA水平主要是研究基因在空間上的關系影響基因的表達；轉錄水平主要研究代謝或者是信號轉導過程決定轉錄因子濃度的調控過程；翻譯水平主要研究蛋白質翻譯后修飾，從而影響基因產物的活性和種類的過程?；蜣D錄調控信息隱藏在基因組序列中，基因表達數據代表基因轉錄調控的結果，是轉錄調控信息的實際體現。

基因調控網絡試圖從DNA微陣列等海量數據中推斷基因之間的調控關系，對某一物種或組織中全部基因的表達關系進行整體性研究。采用帶有反饋回路的基因網絡，首先是按照同步或反同步表達，以及表達強度的變化，系統地識別各基因的特點，再用聚類的方法將各基因歸類，在此基礎上構建基因調控網絡，分析相關控制參數．利用其本身或調節位點或拓撲結構進行不同的研究。

篇（5）

一、SOM算法介紹

由Kohonen提出的自組織映射（SOM）的神經網絡是神經網絡中適合用于對數據進行分類的有效方法。SOM神經網絡包含一個輸入層和一個輸出層，組織成一個二維的網格結構（圖1.1）。該網絡能夠從任意一個隨機選擇輸入的結點開始最終形成一個拓撲結構的映射，這個映射反映了輸入模式的內在的關系。但是運用SOM有一些參數的限制，首先需要指定類別數目，對映射空間結點進行權值的初始化等。如（圖1.1）所示，SOM網絡是一個的映射，如果這個神經元被安排在一個平面網格上面的話，這個神經網絡就稱為二維神經網絡，因為這個網絡將一個高維的輸入向量映射到一個二維的平面上面。給定一個網絡，輸入向量是一個維的向量，相應的第個突觸向量的第個元素與輸入向量的第個元素相連，這樣，一個維的突觸向量就和第個神經元實行連接。

圖1.1 SOM網絡的基本結構

SOM算法描述如下：

（1）令網絡學習次數，賦予初始化權值向量一個小的隨機向量值，對拓撲鄰域（）、學習率（）進行初始化，設置網絡總的學習次數（）。

（2）當學習次數（）小于總的學習次數（）時，重復步驟3至步驟6。

（3）隨機選一個輸入向量進入網絡進行訓練。

（4）確定獲勝神經元，相應的權值向量為與輸入向量距離最短的向量，成為獲勝神經元，輸入向量與獲勝神經元的最短距離為，定義如下：

（1.1）

（5）按照下式更新獲勝神經元及其鄰域內神經元權值向量：

（1.2）

與函數定義如下：（1.3）

（6）令，如果，回到第（3）步繼續訓練，否則結束訓練。

二、數值模擬計算

本文以HUGEindex數據庫中人7000多條基因在19個正常組織中的表達情況這19個組織中表達的基因為樣本對其進行分析。不同組織下的全基因表達數據構成了一個7070x59的數據矩陣，其中每一個元素表示第個基因在第個組織中的表達水平值，行向量代表基因在19個人組織中的表達水平，成為基因的表達譜，列向量代表某一組織的各基因的表達水平。

（1.4）

本文運用SOM方法對人基因19個組織的59個樣本進行聚類，SOM網絡的拓撲結構見（圖1.2）及參數選擇見表（表1.1）。

圖1.2 樣本聚類SOM網絡結構圖

上圖中，根據Genechip得到的人體19個組織的59個微陣列數據所得到的信息，我們采用4x5的二維拓撲結構的SOM網絡對人體組織樣本進行分類（其中第（4，5）個結點為空），圖中每個結點的位置（結點位置用與輸入模式維數相同的向權值向量表示，初始權值由系統自動產生）為各個結點權值尺度化之后所得到的位置。

三、結論

通過分類可以將芯片實驗的59個樣本按照人體組織類別分為19個類別，并且與采用層次聚類法所得結果進行比較，可以看出自組織映射的聚類方法與層次聚類方法比較，可以看出采用SOM網絡聚類方法比層次聚類得到的結果更為明確，其分類正確率達到了92.2%，證明了SOM方法是有效的。

參考文獻：

[1]孫嘯，陸祖宏，謝建明.生物信息學基礎[M].北京：清華大學出版社，2005：282-285.

[2]許東，吳錚.基于matlab6.x的神經網絡系統分析與設計[M].西安電了科技大學出版社，2002.

[3]閻凡平，張長水.人工神經網絡與模擬進化計算[M].北京：清華大學出版社，2005.：11-34，360-395.

篇（6）

一、數據統計分析的內涵

數據分析是指運用一定的分析方法對數據進行處理，從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中，數據統計分析能使我們挖掘出數據中隱藏的信息，并以恰當的形式表現出來，并最終指導決策的制定。

二、數據統計分析的原則

（1）科學性?？茖W方法的顯著特征是數據的收集、分析和解釋的客觀性，數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。（2）系統性。市場調研是一個周密策劃、精心組織、科學實施，并由一系列工作環節、步驟、活動和成果組成的過程，而不是單個資料的記錄、整理或分析活動。（3）針對性。就不同的數據統計分析方法而言，無論是基礎的分析方法還是高級的分析方法，都會有它的適用領域和局限性。（4）趨勢性。市場所處的環境是在不斷的變化過程中的，我們要以一種發展的眼光看待問題。（5）實用性。市場調研說到底是為企業決策服務的，而數據統計分析也同樣服務于此，在保證其專業性和科學性的同時也不能忽略其現實意義。

三、推論性統計分析方法

（1）方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法，它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響，比如它們之間有沒有關聯性、關聯性的程度等，所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。（2）回歸分析。在數據統計分析中，存在著大量的一種變量隨著另一種變量的變化而變化的情況，這種對應的因果變化往往無法用精確的數學公式來描述，只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律，解決這一問題的常用方法是回歸分析?；貧w分析是從定量的角度對觀察數據進行分析、計算和歸納。

四、多元統計分析方法

（1）相關分析。相關分析是描述兩組變量間的相關程度和方向的一種常用的統計方法。值得注意的是，事物之間有相關關系，不一定是因果關系，也可能僅僅是伴隨關系；但如果事物之間有因果關系，則兩者必然存在相關關系。（2）主成分分析。在大部分數據統計分析中，變量之間是有一定的相關性的，人們自然希望找到較少的幾個彼此不相關的綜合指標盡可能多地反映原來眾多變量的信息。所謂的主成分分析就是利用降維的思想，把多指標轉化為幾個綜合指標的多元統計分析方法，很顯然在一個低維空間識別系統要比在一個高維空間容易的多。（3）因子分析。因子分析的目的是使數據簡單化，它是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子，以再現原始變量與因子之間的相互關系，同時根據不同因子，對變量進行分類。這些因子是不可觀測的潛在變量，而原先的變量是可觀測的顯在變量。（4）聚類分析。在市場調研中，市場細分是最常見的營銷術語之一，它按照一定的標準將市場分割為不同的族群，并使族群之間具有某種特征的顯著差異，而族群內部在這種特征上具有相似性。聚類分析就是實現分類的一種多元統計分析方法，它根據聚類變量將樣本分成相對同質的族群。聚類分析的主要優點是，對所研究的對象進行了全面的綜合分析，歸類比較客觀，有利于分類指導。（5）判別分析。判別分析是判別樣品所屬類型的一種多元統計方法。若在已知的分類下，遇到新的樣本，則可利用此法選定一種判別標準，以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區別于聚類分析的地方，而在判別分析中，至少要有一個已經明確知道類別的“訓練樣本”，從而利用這個數據建立判別準則，并通過預測變量來為未知類別的觀測值進行判別。與聚類分析相同的地方是，判別分析也是利用距離的遠近來把對象歸類的。

參考文獻

篇（7）

doi：10.3969/j.issn.1006-1010.2015.10.004 中圖分類號：TN929.53 文獻標識碼：A 文章編號：1006-1010（2015）10-0022-06

引用格式：李梅，杜翠鳳，沈文明. 基于大數據分析的移動通信網絡規劃方法[J]. 移動通信， 2015，39（10）： 22-27.

1 引言

隨著移動通信網絡的發展和移動互聯網業務的增長，移動通信網絡的各類相關數據呈爆炸式增長。借助大數據強大的數據處理能力和數據挖掘技術，通過分析用戶行為、基于用戶價值和用戶感知規劃設計網絡，成為運營商提升網絡競爭力的關鍵環節。

傳統的移動通信網絡規劃需要借助海量的測試，分析總結網絡存在的問題，再基于對市場和業務的經驗預測，制定規劃方案。該過程中，測試結果的普遍性和業務預測的準確性制約了規劃方案的合理性，高昂的測試成本和冗長的測試工期影響了規劃效率。

基于此，提出了基于大數據分析的移動通信網絡規劃方法，通過大數據工具分析海量數據，實現用戶業務趨勢預測、用戶價值挖掘、用戶感知評估分析，進而能夠以用戶為中心、面向具體業務場景展開通信網絡規劃。同時，該方法能夠綜合分析CQT（Call Quality Test，呼叫質量撥打測試）、DT（Drive Test，路測）等多種前端測試數據和信令數據、位置數據、用戶業務信息等大量后臺數據，克服單一數據分析的局限，不僅能夠大規模降低測試成本、縮短方案制定時間，而且還提高了方案的科學合理性。

2 基于大數據分析的移動通信網絡規劃

體系

如圖1所示，本文提出的移動通信網絡規劃體系可分為數據層、管理層、業務層和展示層，各層均與大數據密切相關。

2.1 大數據數據層

該層采用HDFS數據庫和Hbase數據庫管理通信網絡相關的結構化、非結構化數據。數據主要來自于網管側和計費側，包括：核心網管數據、詳單數據、網優平臺數據、投訴數據、用戶信息表等，這些數據經過預處理、算法處理后，按照標準數據格式存放在Hbase里面。

2.2 大數據管理層

該層基于Hadoop管理平臺建立特定的數據預處理腳本和算法模型，實現對用戶價值和用戶感知數據的分析管理。

數據的預處理主要包括確實數據處理以及噪音數據處理。為分析用戶價值和用戶感知，本系統用到的大數據分析算法模型主要有層次分析法和聚類閾值法。

2.3 大數據業務層

該層是對用戶價值和用戶感知業務實施梳理與管理，對影響用戶價值和感知業務的各維度進行分析并找出其關聯關系。例如：用戶價值與收入、終端、業務、套餐的各維度關聯關系的梳理；用戶感知與回落之間的關系梳理等。

2.4 大數據展示層

該層是以圖表進行展示數據分析結果，輔助開展通信規劃，重點是對用戶價值與感知進行地理化展現、相關圖表的輸出。

3 用戶價值與感知評價分析方法構建

3.1 用戶價值評價體系構建

通信領域中的用戶價值評估是一個多層次、多因素的問題，需要針對相關的業務構建評價指標體系，能夠全面考慮用戶的收入特征、層次結構、業務特征相互聯系。

（1）建立用戶價值評價體系結構模型――AHP分析法

采用AHP法評價用戶價值時，首先是把用戶價值進行梳理，建立出以業務為基礎的層次結構模型，然后將用戶價值分解成收入、套餐、業務和終端4部分。具體如圖2所示：

用戶價值評價模型的層次一般分為：

最高層：用戶價值。

中間層：用戶潛力和消費能力。

最底層：用戶潛力包括用戶的套餐指標與終端指標；消費能力包括用戶的收入指標與業務指標。

基于以上的維度進行評分，可將評分落到各基站扇區，根據評分做出扇區化的圖層，并將網絡的價值扇區進行地理化呈現。

（2）確定用戶價值評價模型各指標權重

以AHP法確定用戶價值評價模型各指標的權重分為以下兩步：

首先，構建遞階層次結構。如圖2所示，目標層是用戶價值，該層是建立評價模型的目的和追求的最終結果。一級指標層為{用戶潛力，消費能力}；二級指標層包括套餐、終端、收入、業務等。

其次，要建立判斷矩陣。根據模型同一層級的相關指標體系指標可構造判斷矩陣，將同一層次的指標元素按照其上層指標元素的重要性進行兩兩比較，判斷相對重要程度。一般都會邀請通信專業人士和資深人員組成專家小組，依據他們的通信專業知識和研究經驗進行評估，構造判斷矩陣。

（3）綜合權重計算用戶價值

針對移動通信系統，服從一定社會（地理和邏輯）分布的具有不同消費能力、行為和移動特征的客戶群體，在通信過程中形成的具有運營價值的業務活動區域叫做價值區域。

價值區域可以采用收入、終端、用戶、業務（數據和語音）“四維度”，基于各自評分標準進行評分；將評分落到各基站扇區，再根據評分做出扇區化的圖層，就可以將網絡的價值扇區進行地理化呈現。

根據AHP法得出的權重以及各維度的評分標準，可以算出各小區的綜合評分；再根據綜合評分，可定義TOP30%為高價值扇區，TOP30%～TOP50%為中價值扇區，TOP50%～TOP80%為一般價值扇區，TOP80%以上為低價值扇區；最后，根據高低價值區域的評定，可以將網絡的價值扇區進行地理化呈現。

該價值分析結果在規劃中可進一步拓展到區域層面、微網格層面，從而實現網絡建設目標精準定位，以更好地指導網絡資源投放。

3.2 用戶感知分析方法

（1）建立用戶感知評價體系結構模型

如圖3所示，與用戶價值評價體系結構模型建立的方法相似，仍采用AHP分析法，用戶感知評價模型可分為：

最高層：用戶感知。

中間層：網絡覆蓋和網絡質量。

最底層：網絡覆蓋主要為MR（Measurement Report，測量報告）覆蓋指標；網絡質量包括HSDPA（High Speed Downlink Packet Access，高速下行分組接入）用戶速率與3G回落指標。

（2）確定用戶感知評價模型各指標權重

與用戶價值評價模型各指標權重計算方法相似。

首先，構建遞階層次結構。如圖3所示，目標層是用戶感知，該層是建立用戶感知評價模型的目的和追求的最終結果。一級指標層為{網絡覆蓋，網絡質量}；二級指標層包括MR覆蓋指標、HSDPA用戶速率、3G回落指標等。

其次，建立判斷矩陣。由專家根據經驗確定權重。

（3）綜合權重計算用戶感知

用戶感知可以采用MR覆蓋指標、HSDPA用戶速率、3G回落指標“三維度”，按照評分標準進行評分，再將評分結果落到各基站扇區，做出扇區化圖層實現網絡感知的地理化呈現。

3.3 價值與感知聯合評估

為了更好地指導網絡規劃建設，可將用戶價值分析方法和用戶感知分析方法聯合起來，建立4×3的價值與感知聯合評估矩陣，針對不同矩陣中的網格分別制定對應的資源投放策略。

價值與感知聯合評估矩陣中，不同網格的資源投放策略建議如表1所示（紅色、綠色區域為重點投資區域）。

4 應用案例

在某運營商本地網的無線網絡規劃中，運用上述的分析方法對2014年6月的7 000萬條語音原始詳單、5億條數據原始詳單、238萬條用戶原始信息詳單進行了大數據分析。

4.1 價值區域分析

（1）終端分布分析

網上現有用戶約110萬戶，其中支持3G業務的終端56萬戶，占比50.7%，僅支持2G業務的終端54萬戶，占比49.3%；約一半用戶終端不支持3G業務，3G終端使用者中有一半終端使用的是2G套餐。

（2）業務分布分析

現網用戶的業務分布統計情況是：語音業務63%承載在2G網絡上，37%承載在3G網絡上；數據流量2G承載24%，3G承載76%?？紤]到3G網絡的業務體驗更好，且網絡資源更為豐富，應通過各種措施加快業務的遷移，促進2G/3G網絡的融合發展。

（3）套餐分布分析

現有用戶的套餐數據統計結果如圖4所示：

從圖4統計分布可知，低端用戶貢獻了61%的收入，但占用了73%的流量資源和65%的語音資源。低端用戶單位收入消耗的網絡資源更高，說明高流量不一定帶來高收入；市場營銷策略是影響用戶規模、用戶行為以及網絡資源使用的主要因素，為此，建議規劃與市場應緊密結合，以計劃為先、網絡先行，市場與建設互相配合、逐步推進。

（4）用戶收入分布分析

從用戶收入角度分析，結果如表2所示：

從表2統計分析可知，使用2G套餐2G終端ARPU（Average Revenue Per User，每用戶平均收入）值低于2G套餐3G終端，3G套餐2G終端ARPU值低于3G套餐3G終端，3G套餐ARPU值整體高于2G套餐，3G終端ARPU值整體高于2G終端。

從以上“收入、套餐、終端、業務”四維度進行扇區化統計，各扇區統計結果如圖5所示：

從圖5統計分布可知，高價值小區數占比為30%，收入占比達到72%；中價值小區數占比為20%，收入占比達到16%；高/中價值全網小區數占比為50%，收入占比達到88%，高價值小區各維度占比均接近70%，各維度評估合理。

4.2 用戶感知分析

（1）用戶速率分析

網絡單用戶下載速率統計分布如圖6所示：

從圖6統計分布可知，全網速率大于1Mbps的扇區占比為90.3%，需重點關注低于1Mbps區域的速率改善。

（2）3G用戶回落分析

3G用戶回落指標統計分布如圖7所示：

從圖7統計分布可知，全網回落評估指標差的扇區占比為23.2%，需重點關注回落評估指標差的扇區的深度覆蓋問題。

（3）用戶感知MR覆蓋分析

對MR數據中扇區級的RSCP（Received Signal Code Power，接收信號碼功率）進行統計，其分布如圖8所示：

從圖8統計分布可知，全網MR覆蓋指標差的扇區占比為20.87%，需重點關注MR覆蓋指標差的扇區的深度覆蓋問題。

4.3 價值與感知聯合分析

綜合以上價值區域及用戶感知分析，按照專家法取定的權重對各維度指標進行綜合評分，得到全網各小區的綜合評估分析結果，統計各類小區占比如圖9所示：

從圖9統計分布可知，全網綜合評估高/中價值扇區中感知中/差的扇區占比為34%，這部分區域將是本次規劃中需要重點投入網絡資源的區域。具體分布如圖10所示：

5 結束語

綜上所述，通過對現網用戶的收入分布、終端分布、套餐、業務、用戶感知等多維度分析，可精準定位高價值扇區及高價值區域，以進一步指導網絡的精準化規劃設計，引導投資的精準投放。除此之外，基于用戶價值和用戶感知的多維度分析還可以應用于市場營銷、渠道規劃等領域。

基于大數據的價值分析對運營商而言，是市場驅動、精細化管理的重要途徑，有利于改變傳統的經營模式，改善用戶感知、增強自身競爭力，從而能夠有效應對來自于虛擬運營和OTT業務的沖擊。

參考文獻：

[1] 黃勇軍，馮明，丁圣勇，等. 電信運營商大數據發展策略探討[J]. 電信科學， 2013（3）： 6-11.

[2] 劉旭峰，耿慶鵬，許立群. 運營商獲取移動互聯網用戶價值的策略研究[J]. 郵電設計技術， 2012（8）： 9-12.

[3] 袁首. 多網協同下的電信無線網絡規劃方法研究[D]. 北京：北京郵電大學， 2012.

[4] 曹艷艷. 3G無線網絡規劃[D]. 濟南：山東大學， 2005.

[5] 李勇輝. 大數據概念辨析及應對措施[J]. 互聯網天地， 2014（1）： 11-14.

[6] 龍青良，李巍，呂非彼. 基于用戶感知的WCDMA無線資源效能評估方法研究[J]. 郵電設計技術， 2014（9）： 33-39.

[7] 朱強. 3G無線網絡規劃和優化的探討[J]. 通信世界， 2005（30）： 57.

[8] 任毅. 3G無線網絡規劃流程[J]. 電信工程技術與標準化， 2005（11）： 15-18.

篇（8）

0.引言

為了評測區域內電網調度能力，根據調度能力評測結果，調整輸變電調度方案，提高變壓器等主要設備的可靠運行，合理利用電網中各項資源和設備。本發明的目的是提供一種基于計算機實現的評測電網調度能力的方法，該方法通過對電壓、有功功率、無功功率的分析，保持各個變壓器都處于最佳工作狀態，提高設備使用壽命，降低設備故障率，降低設備運行的電能損耗，提高電網運行的可靠性，提升電網調度水平。

1.大數據分析評測電網的現狀

隨著我國城市化的發展逐漸加快，我國對電力的需求也在逐漸的增多，未來十幾甚至幾十年，電力需求的增長主要集中在城市地區。這也就對我國的電網帶來很大的挑戰，城市電網是城市的重要基礎設施，也是電力網的重要組成部分。建設好城市電網對滿足城市經濟發展、人民生活水平提高具有重大意義。但是，由于我國長期以來收著“重主網、輕配網”的思想，導致我國很長一段時間內，對電網的投資非常的少，城市的電網發展普遍落后于高壓電網[1]。導致我國在很長一段時間內，處于用電不平衡的情況，很多的地方在年前或者重大節日之前就會出現的停電的現象。

2.大數據分析評測電網調度能力的具體方法

2.1獲取兩卷變或三卷變高低壓側的監控數據

該方法主要是用根據變壓器端的終端設備，來獲取的，首先通過各地市部署的調度EMS系統，將變電站中各變壓器的運行情況準確的監控，通過變壓器內的監控元件，對變壓器的的運行情況、采集電壓、有功負荷、無功負荷等檢測數據，按指定頻率采集。然后將采集的數據通過生產區的專用網絡進行傳輸，通過生產區的安全交換機制放置到電力系統信息內網，開始清洗、篩選，去除設備檢測的異常數據，保留有效數據用于負載率分析該評測電網調度能力工具通過在信息內網中載入電網運行的監控數據[2]。

2.2得到變壓器實際功率與額定功率的比值

通過對變壓器內高低壓側的檢測數據，計算變壓器實際功率與額定功率的比值，負責率分析，接下來對采集的調度EMS系統的電網運行數據進行計算，負載率有兩種計算方法，一是根據選定的地區、時間段，使用公式二“有功負荷與無功負荷平方根/容量”計算每個時點該地區各個變壓器的負載率；二是根據選定的地區、時間段，使用公式“有功負荷/（容量*0.95）”計算每個時點該地區各個變壓器的負載率[3]。

2.3計算各個變壓器的平均負載率以及平均負載率的平均值

首先要通過選定的地區、時間段，得到該地區在本時間段內各個變壓器的平均負載率以及平均負載率的平均值。然后再計算各個變壓器平均負載率的均方差，由變壓器的均方差，判斷選定區域在該時間段的調度運行能力。主變不均衡度分析，根據選定地區和時間段，統計負載率分析結果，得出平均負載率[4]。根據平均負載率計算各個變壓器平均負載率的均方差，作為變壓器的不均衡度，將結果逐級放大，能夠得出變壓器、變電站、縣公司、市公司乃至網省公司在該時間段的調度健康情況，從而有效的調整調度策略和計劃，改善電網運行情況。

3.大數據分析評測電網調度能力的應用

3.1調度EMS數據采集

要對EMS數據采集，首先要制定EMS系統監控數據的格式，然后加載指定格式的調度數據，其中指定數據額格式要求主要為：（1）按“變電站+地區+變電站電壓等級+主變名稱+時間”的順序排序，每小時記錄一次，主要記錄每個整點、時點的有功、無功負荷該數據容量的單位是MVA，負荷的單位是MW。（2）時間，變電站，地區，變電站電壓等級，主變名稱，繞組電壓，容量，有功負荷值，無功負荷值。（3）變電站的數據采集按照一定的順序進行，不可以同時多個變電站的數據進行采集。

在這個過程中還要對數據進行“清洗”。清洗的流程為：（1）使用8個逗號作為數據的分隔符，分別隔開不同字段的數據。如果有多余逗號或缺逗號或兩個逗號中間為空的行，則該行數據無效。（2）在計算的過程中除了容量、有功負荷值及無功負荷值外，其他各字段如數據超長，則頁面拋出提示錯誤，結束導入。（3）廠站電壓等級為110kV的變壓器容量小于等于100MVA（系統用戶可以在管理端修改此值大小），否則該行數據無效。

3.2負載率計算

負載率計算有兩種情況，分別是近似計算和精確計算，其中近似計算效率高，能夠很快得到近似結果。但是在常規檢查時可使用本公式計算；精確計算算法相對復雜、比較耗時，但是計算準確，通常用于分析調度情況時使用。

簡便公式為：

計算要求：

1、選定地區、場站或主變和時間段；

2、根據選定的地區、時間段，使用公式計算每個時點該地區各個變壓器的負載率；

3、使用意義在于根據負載率大小得出各變壓器負載率的最高或最低時點，從而判斷當前電網的負荷情況。

精確公式：

計算方法：

1、選定地區、場站或主變和時間段；

2、根據選定的地區、時間段，使用公式二計算每個時點該地區各個變壓器的負載率；

3、使用意義在于根據負載率大小得出各變壓器負載率的最高或最低時點，從而判斷當前電網的負荷情況。

4.結語

該發明可及時調整調度方案，從而均衡電網的運行負荷，保持各個變壓器都處于最佳工作狀態，提高設備使用壽命，降低設備故障率，降低設備運行的電能損耗，提高電網運行的可靠性，提升電網調度水平，對提高大數據分析電網調度能力具有顯著的作用。

參考文獻

[1]李庚銀，羅艷，周明，等.基于數學形態學和網格分形的電能質量擾動檢測及定位[J].中國電機工程學報，2012，26（03）：25-30.

篇（9）

所謂的交通事故預測是根據已發生交通事故的數據進行統計，在對事故原因進行分析的基礎上，探尋事故規律，以針對交通事故做出更為合理的推測和判斷。當前，交通事故預測方法相對較為多樣，如回歸分析、時間序列等，雖然都能對交通事故做出科學合理的決策性指導，但各具優缺點和適用條件，因而有關人員應在遵循交通事故預測思想的基礎上，對幾種主要預測方法進行分析，確保交通部門人員能夠根據實際情況而合理選擇交通事故預測方法。

1 交通事故預測思想

交通事故對人類造成的危害相對較大，對人類產生嚴重的威脅。從我國發展實踐中可知，交通事故在一定程度上制約我國經濟的發展進程，尤其對人類社會福利、醫療保險等方面的影響較大。據不完全統計，2015年全年間，我國交通事故約為10597358起，死亡人數約為68432人，財產損失高達10億元以上?？梢?，交通事故威脅隱患相對較大。交通事故預測能夠根據已發生交通事故進行統計、分析、處理，在遵循規律的基礎上，對未來可能發生的交通事故作出科學合理的預測，該預測結果以科學邏輯推斷為基礎。就交通事故原因而言，道路環境、交通條件、車輛、駕駛員等都是影響因素。通過交通事故預測，我國交通部門人員能夠對交通事故作出科學合理的判斷和制定有效的預防策略，以最大限度降低和消除交通事故隱患。

2 交通事故主要預測方法

2.1 回歸分析預測法

回歸分析預測法在交通事故預測中的有效應用，主要分為線性回歸和非線性回歸兩種方法。首先，背景交通工程研究所人員提出線性回歸分析預測法，通過對自變量和因變量之間關系問題的探討，對因變量趨勢加以預測，其模型為：

Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。

其中X1-X11分別表示臨時人口、常住人口、機動車輛、自行車、道路長度、道路面積、燈控路口、交通標志、交通標線、失控部位、交警人數。

其次，英國倫敦大學SemeedR.J教授對歐洲國家十余載的交通事故資料進行研究，提出非線性回歸分析預測法。對此，他建立冪函數曲線事故模型，

即：D=0.0003。其中D為交通事故死亡人數；N是機動車保有量；P為人口數量。

回歸分析預測法能夠對交通事故影響因素間的因果關系加以反應，以達到預測結果的目的，但對變化趨勢的反應可能較為遲鈍。該預測方法適用于樣本量較大、數據波動小和極具規律性的預測實踐中。

2.2 時間序列預測法

時間序列預測法主要有兩種類型，分別為移動平均預測法和指數平滑預測法。首先，移動平均預測法是比較簡單的平滑預測技術，通過計算項數時序平均值，對長期發展趨勢變化做出科學合理的預測。內蒙古科技大學韋麗琴、徐勇勇利用時間序列ARIMA模型做出科學合理的預測分析，對交通事故加以預測。其次，指數平滑預測法的通式為：

Ft+1=αxt+（1-α）Ft

時間序列預測法屬于定量預測方法，擬合效果良好，但在短期預測中，受諸多因素干擾影響較大，使預測結果具有不確定性。該方法適用于國內縣區等區域范圍較小的預測實踐中。

2.3 灰色馬爾科夫鏈預測法

道路交通系統屬于動態時變系統，但影響交通安全的因素多且復雜。在灰色馬爾科夫鏈預測法的指導下，相關人員能夠通過灰色預測模型，做出短期預測，以縮小預測區間，提高預測效率。云南交通職業技術學院王剛對灰色馬爾科夫鏈預測法而建立模型，對交通事故進行預測，根據實踐可知，基于該模型的預測精確度十分高，取得良好的預測成效。

灰色預測以短期預測為主，馬爾科夫鏈預測以長期預測為主，通過二者結合，可提高預測精度，但如若數據變化大，則灰色模型的吻合度和精度下降。借助該預測方法，能夠對狀態下的轉移規律加以預測，并揭示交通事故時序變化總趨勢。

2.4 貝葉斯預測法

貝葉斯預測法主要相對于交通事故中的車速問題而言。在交通事故中，車速是重要影響因素，如若車輛速度過快，則駕駛員反應的時間較少，其應急策略不足，造成重大交通安全隱患。貝葉斯預測法能夠對未來交通事故發生的可能性進行預測。該預測方法應用中，必須建立在交通事故和車速有關聯的基礎之上，有助于交通部門人員更好開展數據統計和交通流進行觀測。

2.5 灰關聯分析及神經網絡預測法

就灰關聯分析及神經網絡預測法而言，哈爾濱工業大學交通研究所和中國城市規劃設計研究院的裴玉龍與張宇提出該方法，旨在通過交通事故影響因素分析，對事故進行進一步解析，并建立合理的模型理論和確定預測指標，對未來交通事故發展趨勢加以預測。該預測方法的適應性較強，在我國交通事故預測工作實踐中有著較為有效的運用，可解決傳統預測方法難以解決的問題，建立在BP網絡基礎之上，并利用計算機開展輔計算活動。

2.6 多層遞階預測方法

多層遞階預測方法能夠規避傳統統計預測方法的缺陷，以現代控制理論“系統辨識”為重要基礎，對對象的未來狀態做科學的預測。動態系統數學模型為：y（k）=。在交通事故預測中，多層遞階預測方法是大數據時代背景下的重要處理方式，有利于增強預測效果。

3 結論

交通部門對交通事故進行合理的預測，有利于提高道路交通系統的安全系數。所以，相關人員合理選擇交通事故預測方法具有必要性，為規避交通事故而做出科學合理的決策。目前，使用較多的交通事故預測方法主要有：回歸分析預測法、時間序列預測法、灰色馬爾科夫鏈預測法、貝葉斯預測法、灰關聯分析及神經網絡預測法等，因其各具優缺點和適用條件，因而要求相關人員必須對系列問題進行深入探究，確保公路交通事故預測的有效性。

參考文獻

[1]李景文，高桂清.交通事故預測分析[J].中國安全科學學報，2015，6（01）：20-23.

[2]劉志強.道路交通事故預測方法比較研究[J].交通與計算機，2013，19（05）：7-10.

篇（10）

0引言

Web技術的飛速發展產生了海量的用戶生成內容，大量信息蘊藏其中，是潛在用戶決策支持的有價值資源。如何挖掘海量用戶生成內容催生了數據分析人才的市場需求。麥肯錫全球研究院報告預計，美國在2018年數據分析人才缺口將達到50%～60%，甚至可能更大。我國政府提出的“互聯網+”行動計劃，使得數據幾乎滲透到每一個行業和業務職能領域。在大數據時代，具有豐富經驗的數據分析人才需求倍增。

1數據分析人才必備的重要素質

數據分析人才能對行業已有數據進行統計、分析、預測，能為企業經營決策提供科學量化的分析依據。2007年，復旦大學首先在國內開始培養數據分析人才，隨后香港中文大學、北京航空航天大學等高等院校也相繼開設了相關課程。分析上述高校人才培養計劃可知，數據分析人才應該系統地掌握數據分析相關技能（主要包括數學、統計學、數據分析、商業分析和自然語言處理等），應具有較寬的知識面、獨立獲取知識的能力及較強的實踐能力和創新意識，是一種復合型專業人才?！吨袊髷祿夹g與產業發展白皮書》在數據人才一章中明確指出，數據分析人才的培養要從本科階段開始，要注重運用算法分析問題、解決問題，由此可見，計算思維能力是數據分析人才必須具備的重要素質之一。

2計算思維能力培養現狀

自2002年以來，我國計算機教育專家將計算思維能力歸結為計算機專業人才必備的4大專業基本能力，并且強調計算思維能力是其他3項能力（算法設計與分析、程序設計與實現以及系統能力）的基石。那么，如何在大數據時代背景下，依托應用型本科軟件工程試點專業建設，培養軟件工程專業學生的計算思維能力，為社會輸送高質量數據分析人才？計算思維能力的強弱主要表現為學生能否正確運用抽象與分解、遞歸、啟發式等方法解決計算求解問題。訓練學生的計算思維能力可在算法與數據結構以及算法設計與分析課程（以下簡稱算法類課程）的教學中進行，因而算法類課程是本科階段培養數據分析人才的重要課程。

然而，在算法類課程的實際教學過程中，存在兩個較為常見的問題：

（1）學生理論聯系實際的能力薄弱。學生要達到靈活運用算法解決實際問題，必須掌握算法的核心思想，但由于算法類課程中許多概念抽象，一些經典算法較為復雜，在這兩門課程的學習和實踐中，能體會到理論學習意義和動手實踐樂趣的學生很少。

（2）系統能力培養沒有受到教師的足夠重視。由于算法類課程相關的綜合設計課內學時少，教師無法引導學生從系統的角度認知綜合設計，并對其進行分析、開發與應用。

由此可見，在算法類課程的現有教學環節中，訓練學生計算思維能力的機會較少，必須結合當前數據分析人才市場需求的發展趨勢，重新審視算法類課程的定位和內容，以達到夯實學生計算思維能力的目的。

3在算法類課程教學中培養學生計算思維能力的方法

從整體上，一個較高層次的數據分析人才應該掌握7大版塊的知識結構，分別是數據采集、數據存儲、數據提取、數據挖掘、數據分析、數據展現以及數據應用。以數據分析人才驅動為導向，培養軟件工程專業學生計算思維能力的算法類教學方法主要是把算法類課程中算法分析與設計的思想融入數據分析中，用數據分析中的實際需求驅動學生學習書本上抽象的理論知識。以7大版塊中最重要的數據挖掘版塊作為載體，在算法類課程教學中培養學生的計算思維能力。

3.1基于實際數據分析任務的實驗項目設計

目前，國際權威學術組織IEEE International Conference on Data Mining（ICDM）已評選出數據挖掘的10大經典算法：C4.5、k-means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Navie Bayes和CART。在教學過程中，可以根據不同類型的應用問題，結合這些經典數據挖掘算法布置實驗任務，對每一實驗任務制定實現該任務的實驗目的、實驗要求、實驗內容、實驗步驟和預期實驗結果，讓學生清晰地理解并實現這些實驗任務。

以2013級軟件工程專業學生參加中國好創意的“互聯網情緒指標和生豬價格的關聯關系挖掘和預測”為例，說明實驗項目的設計。

（1）實驗目的：針對來自國內互聯網的生豬歷年消費者情緒數據，挖掘消費者情緒指標和生豬價格之間的關聯關系。

（2）實驗要求：采用Apriori算法，對近期國內五花肉價格及生豬價格進行預測。

（3）實驗內容及步驟：首先，對原始的生豬數據清洗是分析消費者情緒與生豬價格之間的關聯關系的第一個階段，其目的是刪除無關數據；其次，統計與消費者正面情緒或消費者負面情緒同時出現的相關指標，并根據自定義的最小支持度閾值獲得正面情緒或負面情緒的頻繁項集；最后，根據自定義的置信度對獲得的頻繁項集進行篩選，得到有意義的頻繁項集。

（4）預期實驗結果：解讀最終得到的頻繁項集，將挖掘的結果反饋到生豬養殖戶，讓其掌握生豬市場的供求關系。

個別有能力的學生還可以對以上內容進行拓展，從互聯網大數據中找出其他一些具有參考價值的生豬價格預測先導指標。

實驗任務的編碼完成后，還要求學生從軟件開發的角度撰寫規范的項目報告，內容包括項目的需求分析、總體設計、詳細設計、編碼與測試等。教師可通過報告清楚了解學生是否有良好的計算思維能力。針對計算思維能力薄弱的學生，教師可以再布置另外的實驗項目讓其訓練。例如，在“互聯網情緒指標和生豬價格的關聯關系挖掘和預測”實踐項目中，要求項目報告中有目標場景、需求理解、方案創意說明、模型數據選取、數據分析、算法設計、實驗設計、結果分析、原型系統介紹等。

3.2算法類課程教學內容拓展

由于本科階段算法類課程的教學內容只涉及完成基于實際數據分析任務的基礎知識，不包括數據挖掘算法，這就需要教師在算法類課程中拓展教學內容。因此，在教學過程中需要將經典的數據挖掘算法與算法類課程的理論知識巧妙融合。為此，教師需要詳細分析實現每個數據分析任務需要的基本理論知識，然后按照書本相關內容的先后順序串聯起來并編寫授課計劃，體現算法類課程精華內容與實際數據分析任務的融合。為了保證學生對數據挖掘算法的深入理解，需要鼓勵其利用課余時間廣泛查閱相關資料，進行自主學習。

在2013級軟件工程專業學生參加中國好創意的“互聯網情緒指標和生豬價格的關聯關系挖掘和預測”競賽中，指導教師們利用課外時間給學生講解關聯規則挖掘算法的思想、原理、特點等。學生在學習關聯規則挖掘算法的過程中進一步掌握了遞歸與分治思想、回溯法思想；理解了樹型存儲結構對關聯規則挖掘算法性能的改進。通過這樣的實踐，參賽學生完成的作品清晰展示了他們在學習算法類課程中培養的計算思維能力。

3.3計算思維能力培養的跟蹤

為了改進軟件工程學生計算思維能力培養中可能存在的問題，收集應用于13級軟件工程專業學生的實驗項目、授課計劃、項目報告、算法類課程的理論成績與實踐成績。通過跟蹤他們畢業設計的完成情況，分析曾在算法類課程上得到較好計算思維能力培養的學生的畢業設計情況，檢驗提出的方法。由于本研究的對象還沒有進入畢業設計環節，故只進行算法類課程的理論成績與基于實際數據分析任務的實驗項目完成情況的分析。通過兩門課程期末考試成績可以看出，認真完成實驗項目的學生理論考試成績普遍高于不認真的學生，這充分說明基于實際數據分析任務的實驗項目能有效改進目前算法類教學課程中存在的問題。

此外，還準備通過學院學生管理部門跟蹤2013級軟件工程專業學生的就業情況和用人單位的反饋意見，了解學生的專業能力，及時修改計算思維能力的培養方法，為探索應用型本科軟件工程試點專業建設提供有力支撐。

3.4充分利用移動平臺

上一篇: 農村發展趨勢下一篇: 培養孩子學習的興趣