時間:2023-05-24 16:48:00
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇數據分析論文范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
AEFI數據來源于中國疑似預防接種信息管理系統。疫苗接種數據來源于中國免疫規劃信息管理系統。1.2統計方法采用描述性流行病學方法,運用EXCEL2007進行統計分析。
2結果
2.1地區分布
2013年鞍山市共報告AEFI189例,與2012年相比(35例)上升了440%。縣級AEFI報告覆蓋率100%。各縣(市、區)AEFI報告數與2012年相比上升了55.56%~4200%。
2.2年齡與性別分布
男女性別比為1.49:1。報告例數排前位的年齡組分別是0歲組(101例,占53.44%)、1歲組(51例,占26.98%)、6歲組(23例,占12.17%)。
2.3疫苗和劑次分布
AEFI涉及的疫苗排前位的分別是:百白破疫苗(70例,占37.04%)、麻風疫苗(36例,19.05%)、白破疫苗(23例,12.17%)。接種疫苗第1劑次發生AEFI128例,占67.73%;第2劑次18例,占9.52%;第3劑次17例,占8.99%;第4劑次26例,占13.76%。以疫苗單劑次統計,AEFI涉及的疫苗排前位的分別是麻風疫苗(36例)、第4劑次百白破疫苗(25例)、白破疫苗(23例)、第1劑次百白破疫苗(22例)。
2.4報告發生率
根據國家免疫規劃疫苗接種率監測報告數據估算,2013年我市AEFI報告發生率為32.27/10萬劑次。國家免疫規劃各疫苗AEFI報告發生率波動在3.82/10萬劑次~125.28/10萬劑次。報告發生率居前位的分別為:麻風疫苗125.28/10萬劑次,白破疫苗84.57/10萬劑次,百白破疫苗65.17/10萬劑次。
2視頻監控在煙草行業的發展及應用現狀
(1)煙田監控:實現對煙田、育苗大棚內實時監控;
(2)煙葉收購站監控:實現對煙草所有站點煙葉收購全流程監控視頻調看、查詢、巡視、控制的功能;
(3)生產及公用設施區監控:主要用于監控車間內重要設備、生產線運行、物流線路及環境狀況,以及動力中心車間內空調、鍋爐等重要設備的運行及環境狀況,防止災害和事故的發生。
(4)煙草物流配送中心監控:對物流配送中心進行實時監控;
3視頻大數據分析的技術需求
隨著視頻監控在煙草行業的大規模應用,視頻數據量的增加,每天產生的數據量都是以TB(1000GB)級別計算的,若是利用傳統的技術手段對每天的視頻進行檢索和分析,則需要數小時的時間才能夠完成,工作量及工作難度可想而知;而對于更高級別的視頻數據,如PB(1000TB)級別的視頻數據進行分析和檢索時間那就是很多天了。視頻檢索與分析的效率低下,也是目前視頻數據利用效率及數據價值低下的首要原因。為此,如何提高視頻數據分析與檢索的效率,如何針對PB(1000TB)級別甚至EB(1000PB)級別的海量數據進行分析與檢索,提升視頻監控數據價值,成為了當前用戶的首要需求,也成為了當前視頻大數據分析技術的難點及關鍵點之一。同時,在對視頻進行檢索與分析的過程中,需要考慮檢索結果的準確性。由于視頻圖像信息為非結構化數據,如何合理有效地對非結構化的數據進行檢索分析,優化計算機圖像識別算法,是提高視頻大數據分析準確性關鍵所在。再者,當完成視頻檢索與分析后,如何做好視頻數據與非視屏數據的整合與關聯工作,是后期視頻數據應用時重點考慮的內容。
4視頻大數據在煙草行業的應用思考
時下,煙田監控、煙葉收購站監控、生產及公用設施區監控、煙草物流配送中心監控等的視頻監控數據較多僅僅用作安防視頻使用,還未涉及到與煙草業務的關聯;隨著視頻監控建設的完善及視頻大數據技術發展,各類監控視頻數據量的增加,考慮到投資回報比,是否可以通過視頻大數據分析,將煙草業務與視頻監控相關聯,在海量的視頻監控數據中提取有益于煙草行業發展的變革或新技術呢?
4.1安防業務
基于傳統視頻監控,安防業務是傳統業務之一,通過大數據分析,有效快捷的提取安防所需要的視頻片段。同時基于視頻行為告警策略,及時告警。
4.2安全生產
結合視頻大數據分析,將以往多次生產事故監控視頻整合,通過對多次生產安全事故的分析,總結出更為安全可靠的生產規則;再則通過視頻監控與生產行為的結合,制定安全生產標準,通過聲音報警或警示燈報警等技術,在不符合標準視頻監控預定義的安全規則情況時,能夠及時報警。通過視頻監控分析,提升生產的安全性。如采用彩色網絡快球攝像機和彩色固定網絡槍式攝像機,彩色網絡快球攝像機的預制位設置應優先,根據視頻大數據分析后,系統可提供不同故障區域或設備的故障信號,各工藝段或設備的操作運行信號,通過系統集成與生產監控實現聯動,平常攝像機對正在操作或運行設備進行監控,一旦某個故障點報警,攝像機立刻自動轉動到報警點,監控中心的NVR主機開始錄像等。
4.3效率生產
結合視頻大數據分析,通過分析各個不同煙站或煙廠中的同一種生產行為,結合對海量數據進行智能分析,提取出價值數據片段,形成元數據信息庫,再通過人為加工后期數據,總結形成效率生產有用的價值信息,提供生產借鑒,提高生產效率。
4.4創新生產
通過視頻大數據分析,將以往的視頻通過軌跡分析,得出以往生產過程中各類生產動作中不必要或者多余的部分,簡化或者優化生產規則;通過對給類生產行為的總結,提出合理的建議,為生產提出創新性意見或建議,提高生產率。
數據的采集是指利用傳感器、社交網絡以及移動互聯網等方式獲得的各種類型的結構化、半結構化以及非結構化的海量數據,這是一切數據分析的基礎。數據的采集需要解決分布式高速高可靠數據的采集、高速數據全映像等數據收集技術。還要設計質量評估模型,開發數據質量技術。而數據采集一般分為大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。
1.2數據預處理
數據采集的過程本身就有會有很多數據庫,但如果想達到有效分析海量數據的目的,就必將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,而且在導入基礎上做一些簡單的辨析、抽取、清洗等操作。
①抽?。阂驗槲覀兺ㄟ^各種途徑獲取的數據可能存在多種結構和類型,而數據抽取過程可以有效地將這些復雜的數據轉換為單一的結構或者便于處理的類型。以達到快速分析處理的目的。
②清洗:對于海量數據而言,數據所處的價值層次不一樣,就必然存在由于價值低而導致開發成本偏大的數據,還有與數據分析毫無關系的數據,而另一些數據則是完全錯誤的干擾項,所以對數據通過過濾“去噪”從而提取出有效數據是十分重要的步驟。
1.3數據的存儲與管理
當我們采集數據完成后,就需要將其存儲起來統一管理,主要途徑就是建立相應的數據庫,進行統一管理和調用。在此基礎上,需要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。還需開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、數據的去冗余及高效低成本的大數據存儲技術;以及分布式非關系型大數據管理與處理技術、異構數據的數據融合技術、數據組織技術、研究大數據建模技術、索引、移動、備份、復制、可視化技術。
1.4數據的統計分析
一般情況下,統計與分析主要就是利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。
1.5數據分析與挖掘
所謂數據挖掘是指從數據庫中的大量不完全的、有噪聲的、模糊的、隨機的實際應用數據中,揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統計和分析過程不同的是,數據挖掘一般不會有預先設計好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型的算法有用于聚類的K-means、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。
2數據分析的8個層次
2.1標準化報告(StandardReports)
標準化報告作為數據分析的第一個層次,要求相對較低,主要是借助相應的統計工具對數據進行歸納總結,得出包含主要參數指標的標準化報告。類似于一個銷售企業每月或者每季度的財務報表。
2.2即席查詢(AdHocReports)
用戶可以通過自己的需求,靈活地選擇查詢條件,系統就能夠根據用戶的需求選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數據分析軟件中,用戶隨意添加想要查詢的指標按鈕再加上相應的限制條件,就可以立即生成可視化的統計結果,不僅一目了然,而且沒有任何操作難度。
2.3多維分析(QueryDrilldown)
多維分析是指對具有多個維度和指標所組成的數據模型進行的可視化分析手段的統稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉等各種分析操作。以便剖析數據,使分析者、決策者能從多個角度多個側面觀察數據,從而深入了解包含在數據中的信息和內涵。上卷是在數據立方體中執行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數據。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數據。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數據。切片是在給定的數據立方體一個維上進行的選擇操作,切片的結果是得到了一個二維的平面數據(切塊是在給定的數據立方體的兩個或者多個維上進行選擇操作,而切塊的結果是得到了一個子立方塊)。轉軸相對比較簡單,就是改變維的方向。
2.4儀表盤與模擬分析(Alerts)
儀表盤用于監控一些關鍵指標。模擬分析是由操作者動態地加以調節的控件(如滑動塊、可調旋鈕、選擇框等),來控制管理決策模型行為某些參數。當操作者通過控制面板對模型中的參數值或變量值進行調節時,圖形中的曲線、柱形組或分析指標等要素就會發生相應的運動,而這種運動正好反映了該參數的變化對模型行為的影響,如果這種變動引起了模型中最優解或其他關鍵數字的變化,能夠隨時將關于這種變化的結論正確地顯示出來。
2.5統計分析(StatisticallyAnalysis)
我們知道概率論是數理統計的基礎,數理統計是在其基礎上研究隨機變量,并應用概率論的知識做出合理的估計、推斷與預測。概率論中討論的各種分布在數理統計中作為統計模型來分析處理帶有隨機誤差的數據。典型的數理統計方法有參數估計、假設檢驗和回歸分析。而統計分析主要是對用戶所關注的問題進行推斷、預測和控制的分析方法。具體可以分為以下三方面:
①描述統計:主要是集中趨勢、離散程度、分布形狀等,統計圖(方圖、箱線圖、散點圖等);
②數據的分類匯總;
③基礎統計分析:方差分析、時間序列分析、相關和回歸分析、(主成分)因子分析等統計分析方法。
2.6預測(Forecasting)
在統計分析和數據挖掘領域,對未來的預測已經有了很多數學模型以及解決具體問題的相關算法。其核心思想便是從歷史數據中找出數據的發展模式,然后以這些模式為支點,就可以對未來進行預測。
2.7預測模型(PredictiveModeling)
隨著數據分析學家對數據挖掘技術的不斷探索,出現了很多預測模型以及與之相對應的算法,但是很難確定某個模型是最精確的,因為不同的領域,不同的條件,對應的預測模型是不一樣的,所以沒有統一化的最優模型,只存在有選擇性的最優模型。下面介紹幾種典型的預測模型。
①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實關系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨立變量、自變量),ut稱作隨機誤差項,b0稱作常數項(截距項),b1稱作回歸系數。b0+b1xt是非隨機部分,ut是隨機部分。而在很多情況下,回歸模型必包含兩個或更多自變量才能夠適應地描述經濟現象各相關量之間的聯系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個多元回歸問題的m個自變量,b1、b2、…、bm是回歸方程對應于各自變量的系數,又稱偏回歸系數。
②貝葉斯網絡:貝葉斯網絡是基于概率推理的數學模型,而概率推理是通過一些產量的信息來獲取其他概率信息的過程。貝葉斯網絡會建立一個有向無環圖和一個概率表集合,有向無環圖中的每一個節點便是一個隨機變量,而有向邊表示隨機變量間的條件依賴,條件概率表中的每一個元素對應有向無環圖中唯一的節點,存儲此節點對其所有直接前驅節點的條件概率。貝葉斯網絡是為了解決不定性與不完整性問題而提出的,在多個領域中獲得廣泛應用。
③基于時間序列分析的指數平滑模型在時間序列分析中指數平滑模型是最靈活和準確的方法,在經濟領域也被證明是最有效的預測模型。在不同的時間序列下,指數平滑模型可以分為簡單指數平滑法、帶有趨勢調整的指數平滑法、帶有阻尼趨勢的指數平滑法、簡單季節指數平滑法、帶有趨勢和季節調整的指數平滑法五種不復雜度的模型。
2.8最優化
(Optimization)因為優化問題往往可以帶來巨額的收益,通過一系列可行的優化,可以使收益得到顯著提高。所謂最優化就是從有限或者無限種可行的方案中選取最優的方案。如果可以通過簡單的評判,就可以確定最優方案那是最好的。但是事實不會那么簡單,所以優化技術已經發展出了一系列的理論來解決實際問題。其常用的優化技術為:
①線性規劃:當目標函數與約束函數都是線性函數時,就是一個線性規劃問題。而當同時滿足約束函數和目標函數時,則可以認為是最優解。
②整數規劃:要求決策變量取整數值的數學規劃。
③多目標規劃:指衡量一個決策優劣的標準不止一個,也就是有多目標函數。
④動態規劃:將一個復雜的問題劃分為多個階段,逐段求解,最終求出全局最優解。
3用Excel實現簡單的數據分析
①對于企業而言最重要的是利潤,所以管理者必須要從這張表中得到最關鍵也最容易得到的銷量和銷售額以及與其相關的一些數據,通常是用最基本的數理統計結果來直觀地反映該企業在某個期間的盈利情況。
②其次,我們必須要做進一步的分析。已經對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價值的信息,為企業高層做決策提供有力的依據。對產品銷售而言,客戶結構能夠有效地反映客戶的地域分布,企業可以根據客戶的來源,在未開辟客戶的地域去尋找新的目標客戶群。而銷量結構可以直觀地反映企業最大銷量來自哪個地區,對銷量較小的地區可以加大宣傳力度或者增加銷售網點來保持各地區銷售均衡。還可以及時地調整銷售方式來擴大市場份額,而對于銷量最小的地區考慮開辟新的市場。
統計了各地區的銷售總額和平均銷售額以及兩者的對比關系。由此可以得出地區平均購買力大小,以及各地區總銷售額大小。借助圖表描述,管理者可以對企業在某段期間內的銷售狀況有一個大概的把握,只有掌握了這些的信息,才能更細化地去研究具體的影響因素。劃分等級,對于經常性大量購買的客戶必須要以最優惠的價格和最好的服務讓其滿意,以形成一個穩定的大客戶群。而對于那些少量購買的客戶,也要制定出相應合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。
4用R語言實現數據多層次分析
R語言是一種自由軟件編程語言與操作環境,是一套完整的數據處理、計算和制圖軟件系統,它是一種用來進行數據探索、統計分析和作圖的解釋型語言。它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動地進行數據分析,甚至創造出符合需要的新的統計計算方法。而在使用R語言進行數據分析處理時,當我們遇到很大的原始數據,但用來建模的數據較小,則可以先在數據庫中進行整理,然后通過R與數據庫的接口提取數據,數據庫適合存放和整理比較規整的數據,和R中的數據框有良好的對應關系,這也是R中絕大多數統計模型的標準數據結構。數據庫中大部分的運算都不需要消耗很大的內存。
1凱里供電局營銷工作概況
凱里供電局系中國南方電網公司和貴州電網公司領導下的國家大二型企業,擔負供電轄區內15個縣(市)及湘黔電氣化鐵路的電能供應、銷售與服務任務,并為黔電入粵、黔電入湘的重要通道,為貴州電網公司代管縣局最多(15個)的供電企業。該局年售電量40億千瓦時,轄區內高能耗負荷企業占總負荷70%左右,該局目前營銷工作面臨負荷結構不合理、代管縣局多的復雜管理形勢。如何有效的調動代管縣局主動做好轄區內的營銷服務工作,培育更多優質負荷,提高企業的營銷經營業績,成為該局營銷管理工作的研究重點。為此,該局通過建立電力營銷數據分析系統,客觀公正地評價下屬業績,導入競爭機制,不斷提高該局的營銷工作質量。
2建立實時數據跟蹤監控系統
凱里供電局針對需要實時控制的電量及電費回收等指標推行日報表和帳目日報表、周期性報表制度,建立起銷售狀況的實時監控數據分析系統。這里重點介紹電量銷售日報表和電費回收進度表。
電費欠費說明:
1.凱里供電局本月應收15478萬,截至8月30日下午6:00,本月實收14090萬,欠費1388萬,回收率為91.03%。凱里系統本期合并口徑新增欠費953萬,月末應收電費余額增加額為673.57萬,其中城區供電分局直管客戶欠費191萬(凱里紙廠欠費110萬,城區小客戶欠費81萬),直管縣局終端用戶欠費566萬(其中施秉恒盛公司欠495萬,市郊局小客戶欠23萬、鎮遠局小客戶欠47萬);臺江局欠192萬。
2.注意問題:凱里城區小客戶本月欠費可能較多,要加大催費力度;同時對凱里紙廠進行跟蹤催費。
銷售異常勢頭,跟進弱勢區域、弱勢類別。
(2)電費回收進度表。
欠費數目越大,時間越長,追討的可能性就越小,控制應收賬款的通用原則是對賒銷客戶設定信用額度和信用期限。凱里供電局要求各分縣局和大客戶管理所在每月24日后按日上報電費回收進度表。每月最后兩天在早會上通報。一方面提醒各分縣局和部門注意正常欠費的關注和跟進;另一方面對異常欠款及時暴光,及時檢點,及時追究,從上至下形成對應收賬款追討的巨大壓力。3建立月度營銷分析制度,做好營銷數據的月度分析
對于市場營銷部而言,簡單地根據營銷數據考核各分縣局和部門工作沒有任何意義,重要的在于你能引入公平的評估模式,讓各分縣局和部門的營銷負責人心服口服。
完備科學的月銷售分析應達到以下目的:
(1)分析整個地區局的當月電量、線損、欠費余額,同期增長率,教上月成長率。
(2)引導各分縣局和部門營銷負責人關注自己的電力銷售和電費回收是否健康。
(3)引導各分縣局和部門營銷負責人關注當月重要客戶的銷售。
(4)排除市場容量不同、市場基礎不同等因素的干擾,客觀公正地評估各分縣局和部門的銷售貢獻。
這里以月度下網電量分析表進行說明:
通過此表我們可以看到凱里供電局當月的售電量、累計售電量、成長率、同期增長率等,還可以看到各類別電量及所占的比例。更重要的是,我們可以看到各分縣局的售電情況,排名情況,對各分縣局進行點評,還可以要求后三名說明原因,給其營銷負責人相應的指導和壓力。
4小結
通過建立有效的電力營銷數據分析系統,凱里供電局實現了實時的銷售監控和周期性的分析反饋及控制,為提高企業經營業績奠定了基礎。
參考文獻
世界多數大國在近一百多年來在供電上采取的模式是集發電、輸電、配電為一身的壟斷模式。國家在電力供應上大多數或全部由國家壟斷經營,廣大電力用戶就是消費者。這種壟斷經營在短時間內使電力工業聚集了大量的資金,電力工業持續發展,同時避免了重復設施的出現,為電網的統一規劃和建設提供了有力的支持。
1.2發電競爭
發電競爭模式,競爭主要體現在發電環節,輸電和配電仍然采取壟斷經營。在電力經營過程中對電力市場進行開放,引入發電企業,在市場中由壟斷企業對發電企業生產的電力進行買斷,然后由壟斷企業統一賣給電力用戶,這種供電模式的引入加大了市場中電力的供給量。
1.3電力轉運
電力運轉模式就是合理的將發電、輸電、配電三個過程進行分離,每個發電廠都獨立成為一個企業,各個發電廠之間采取公平競爭。市場中的用電大戶,可以低價從電力企業直接購買電力,利用統一電網實現電力運轉。在電力運轉模式中,部分競爭市場、壟斷經營市場和競爭市場同時存在。
1.4配電網開放
配電網開放模式的主要特點是:發電、輸電、配電三個環節適當分離,三個環節都各自成為獨立的經營體系,三者之間存在電力買賣關系。這種經營模式將發電、輸電、配電三者打破了傳統的電力運營管理模式,電力市場形成了多種商家相互競爭的形式,這不僅增加了發電企業之間的相互競爭,客戶可以通過自己的需求來選取適當的發電商,而且電力消費者和生產者之間形成了一種真正的買賣格局,從而為電力顯示商品特性提供了便利條件。
2企業多維數據分析具有的特點
2.1多維性
多維數據分析的一個最重要特點就是多維性。多維性不僅體現了人們在觀察世界時的多角度,同時也體現了多層次觀察。例如,在銷售量數據的查看上可以從時間維入手,同時還可以從年、季、月等時間層次上進行查看。對數據進行分層查看,不僅符合事物的客觀運行規律,而且也能讓用戶全面地掌握數據情況。
2.2實時性
實時性不僅滿足了用戶在時間上對信息的需求,而且可以快速查找多維數據的分析結果,同時實現了實時的接受用戶所反饋的數據。
2.3開放性
多維數據分析支持多數據源和系統平臺。因此,在實際工作中,不論數據存儲量有多大,存儲在何處,采取何種方式對數據進行存儲,都可以及時獲取到存儲的數據,并且可以以多種方式將分析結果提供給不通過平臺上的客戶使用。
2.4可分析性
可以從不同的角度對數據的最大值、平均值、最小值、匯總進行記錄和處理,將龐大的有用數據提供給客戶,此外還具有數據分析和數據查詢等能力。
2.5安全性
確保信息的安全,避免受到欺詐,對用戶進行分級管理,數據分析過程中,對于數據分析結果只能提供給相應的用戶。如果在實際工作中,存在多個用戶共同應用同一個分析時,應當對客戶的級別進行合理劃分,依據客戶所處的安全級別,允許客戶查看對應層次的信息。
3電力營銷多維數據分析過程
(1)依據決策者和企業業務在信息上的需求,對多維數據分析主題進行確定,在進行多位數據分析時,依據面向主題分析獲取信息,從而實現為決策者提供信息的目的。
(2)收集數據,目前供電企業信息系統收集了電量的業務數據,這些數據都存儲在各個供電企業的信息系統中,為了使其能夠更好的為企業所用,應當建立數據庫服務器,采集供電企業中數據。多維數據分析在電力決策的實際應用中,數據采集工作需要依據多維數據分析主體進行,要對數據庫系統進行確認,并且在構建面向分析時選擇數據庫,從數據庫系統中抽取、轉換企業需要的數據。數據倉庫是集成的、面向主題的且在實際運行過程中容易因為時間變化而發生改變的一個數據集合。數據倉庫是企業為數據分析工作而設計的,利用數據倉庫可以為多維數據分析提供更加穩定且具有針對性的數據,目前許多電氣企業都構建了數據服務器。
(3)多維數據模型的建立,多維數據分析需要以多維數據模型為基礎,從哪些角度對多維數據模型進行觀察,對哪些數據進行分析,可以通過多維數據分析決定哪些數據需要仔細分析歷史數據結構來獲得,從獲取的數據中找到有用的數據構建成適當的度量、維度從而構成高效的多維數據模型。
(4)設計人員依據現有的多維數據模型,選取適當的度量和維度,結合報表利用適當的統計方法,通過圖表直觀地展現企業的大量了歷史數據。
(5)信息,通過靈活的方式將電力企業想要的相關信息直接提供給決策者。
4分析電力影響數據主題
在電力營銷決策中,每一個主體都對應一個具體的分析,表示一種營銷決策者在工作中需要掌握的信息。本文在研究上將分析主體分為用戶情況、購電情況、電價情況、電費回收、設備資產情況等,并對較大的主體進行了進一步劃分,針對電力營銷的數據分析,應當從宏觀到微觀,從多個角度對電氣企業的數據進行科學分析,為電力企業的各級領導者提供決策信息。因此,在分析上還需要確定分析層次和分析角度。
2工程概況
普光氣田天然氣凈化廠循環水應急池位于普光氣田天然氣凈化廠一臺地的填挖交界區域,地質狀況復雜。水池平面尺寸110m×50m,深6m(泵區深6.5m),設計有效容積30000m3,主要用于廠內緊急情況下循環水的應急排放。池體結構為鋼筋混凝土,設有一縱五橫6條沉降縫,池體混凝土強度等級為C30、抗滲等級為S6,基礎采用C15毛石混凝土換填,換填深度為3m。
3沉降監測網的布設與施測
3.1沉降監測網的布設為了保證水池蓄水試驗過程中,池體沉降監測的順利進行,需在水池周邊布設一個獨立沉降監測網。沉降監測網布設過程中,考慮到新建沉降監測網基準點自身穩固需要一定的時間跨度和本地區常年多雨的氣候條件限制,在沉降監測網基準點布設時不再重新埋設基準點,而是利用距離水池100m以外的3個廠內原有的、且經過施工期間多次觀測精度可靠的控制點作為本工程水池沉降觀測的基準點。為便于后期對池體進行沉降監測和能夠反映出池體的準確沉降情況,沉降觀測點設在最能反映池體沉降的沉降縫兩側及轉角處。在池底板混凝土澆筑時預先埋設沉降監測點,沉降監測點埋設位置為距池壁外側約50cm的底板上,沉降監測點分布原則為每條沉降縫兩側及轉角處各埋設1個,共計28個。
3.2儀器選擇與施測為了保證水池沉降觀測數據的準確有效,為水池蓄水試驗過程中池體結構安全提供參考依據以及為3個基準點賦予新的獨立高程數值。蓄水試驗前使用蘇州一光EL302A電子水準儀對沉降監測網內的3個基準點,分別按照閉合水準路線和附合水準路線進行多次二等水準測量,其偶然中誤差M和全中誤差MW均小于0.8mm,完全符合二等水準測量的精度要求。
4沉降監測
4.1確定觀測次數
為了取得水池沉降監測的參照數據,水池充水前應進行一次與沉降監測精度(二等)相同的水準測量,以測得的各監測點高程數據為基準,計算蓄水試驗期間各監測點的沉降量。同時,為了保證水池蓄水試驗過程中池體結構安全,避免因水池充水速度過快導致池體失穩垮塌,水池蓄水試驗過程中應緩慢充水。每2m高度或每次充水觀測一次,發生不均勻沉降時應停止充水,并增加觀測次數,直至穩定后再繼續充水;水池蓄水達到設計高度后,觀測一次,24h后觀測一次,連續觀測3d,以后每15d觀測一次,直至沉降穩定;放水前后再各觀測一次。
4.2沉降監測
本工程沉降監測的測量儀器使用蘇州一光EL302A電子水準儀。測量時除了轉角點外,均采用間視法進行觀測。但是,最長視線長度不得大于50m,最短視線長度不得小于3m,最低視線高度不得低于0.6m;觀測讀數應精確到0.01mm,從而達到保證測量精度的目的,以保證沉降監測數據的有效性。
5數據分析
5.1數據處理數學模型
為了保證沉降監測數據計算的準確無誤,在數據計算時利用Excel表格進行[6]。同時,為了充分體現各監測點的沉降變化和不均勻沉降程度,首先用充水后的每次觀測的各監測點的高程與蓄水試驗前測得的相應點的高程進行計算比較,以取得各監測點的沉降量。計算公式如下:Si=Si前-Si后式中:Si前為蓄水試驗前測得的點i的高程;Si后為充水后的每次觀測的點i的高程,Si為點i充水以后相對蓄水試驗前的沉降量。沉降速度計算可參照相關規范和公式,由于本工程水池的沉降在第3次充水后的第3天(3月27日)后已基本穩定,所以這里不再贅述該水池的沉降速度計算和數據處理等。
5.2數據處理結果與分析
根據每次觀測的各監測點的高程,通過以上數學模型可以計算得出:各監測點的沉降量。若在沉降監測中發現建筑物有較大不均勻沉降時,需根據沉降量計算基礎的傾斜度。因本工程沉降監測過程中未發現較大不均勻沉降現象,這里不再贅述。其計算方法可參照《建筑變形測量規范》(JGJ8-2007)中有關沉降觀測的內容。通過表2中的相關數據可以清晰看出,在蓄水試驗過程中各監測點均有不同程度的沉降,試驗前期沉降量較大,隨著試驗的進行逐漸減小、趨于穩定,雖然沉降量的大小各異,但基本趨于均勻;總體來看,位于填方區的東南方向的沉降量大于位于挖方區的西北區域,但未出現較大的不均勻沉降現象;某些測點略有回升,也可能是由于測量過程中的誤差造成的。另外,在蓄水試驗完成水池內試驗用水全部排出后,各監測點均出現了一定程度的回升現象,其可能是因為水池基底土體受到的荷載卸載后,在基底應力場平衡的影響下,基底出現了回彈現象所致。
2基坑變形監測設計與實施
基坑的主要監測項目由支護結構樁頂位移、深層位移、支護結構應力、地下水位等項目組成。
2.1布設基準點
布設基準點的目的是在長期觀測過程中提供穩定的起算數據。(1)位移基準點應布設在遠離施工現場、結實穩定的地方。水平位移監測基準點3個,工作基點3個,編號為J1~J6;(2)沉降基準點的布設位置應選在遠離施工現場且穩定的水泥路上。布設了3個水準基準點,編號為G1~G3。
2.2布設監測點
監測點的布設按施工設計圖要求,以能反映變形為宜?;颖O測點在支護結構樁后每隔20m左右布設一點,監測點采用埋設觀測墩的形式。沉降、位移觀測點采用兩點合一布設,即WY1-WY20,共20個。周邊建筑物沉降變形點布設在能反映建筑物沉降與傾斜的位置,如建筑物的四角、大轉角處、建筑物裂縫和沉降縫兩側。同時要求變形點埋設在建筑物的豎向結構上,標志采用“L”型鋼筋,共8個(M1-M8),周邊管線監測點布設4個(GX3-GX6)。水位監測點在基坑周邊布設5個(SW1-SW5),測點用地質鉆鉆孔,孔深為10m。錨索應力觀測點,按要求布設錨索應力計12個,編號為MS1、MS2…MS12。支護結構測斜觀測管按相關要求,布設測斜觀測管18個,編號為CX1、CX2、…CX18。
2.3監測方法
沉降監測使用天寶DINI03電子水準儀和配套條碼銦鋼水準尺進行觀測。施測是以基準點G1為起閉點,觀測所有的沉降點組成閉合水準路線。采用“后、前、前、后”的觀測順序對沉降點進行觀測。位移觀測使用徠卡TS30全站儀。在基準點J1上設站,檢查J2、J4的方向和距離,檢查結果滿足規范要求后,以多測回測角法觀測每個監測點,并進行平差計算其坐標,然后計算出監測坐標在基坑邊橫向上的位移。深部位移使用測斜儀進行監測。監測從孔底開始,每0.5m為一個測段,自下而上沿導管全長每一個測段固定位置測讀一次。地下水位使用電測水位計進行監測。
3監測成果與分析
從2012年4月至2013年6月的14個月內進行了周邊建筑物沉降觀測,支護結構沉降、位移監測,管線沉降、位移監測,地下水位監測,錨索拉力監測及深部位移監測。本文主要對建筑物沉降、支護結構樁頂位移、地下管線及深層位移的監測結果進行分析。
3.1建筑物沉降監測
建筑物監測是指對基坑周邊的華豐古廟進行沉降觀測,華豐古廟周圍共有8個沉降監測點,進行了沉降觀測38期,監測成果見表1,典型監測點的沉降過程線。
3.2支護結構樁監測對基坑的支護結構樁共布設了20個監測點,進行了沉降監測37期,水平位移監測29期,監測成果見表2(對于水平位移,+號表示向基坑方向對于支護結構有兩個方向的形變,結合點位布設圖,對所有監測點進行分析發現:垂直方向上,支護結構向下沉降;水平方向上,整體有一個向東南方向位移的趨勢,即:基坑西北側的監測點向基坑方向位移,東南側的監測點則背向基坑方向位移。垂直方向和水平方向的累計變形量都比較小,且呈現出相似的形變過程,即前期變形波動較大,后期逐漸趨于平穩,且變形最大值小于預警值,故認為支護結構比較牢固,形變量都在比較安全的范圍內。
3.3地下管線監測
地下管線沉降量都比較大,沉降最小的GX6也有32.8mm,超過了預警值,最大的已達到120.1mm,遠遠超出了預警值。在發現沉降量較大之后,施工方采取了加固措施,后期管線沉降趨于穩定?;邮┕芫€水平方向的位移也有一定影響,變形量較大的GX5位移量已超過預警值。施工初期管線沉降量增加較大的原因為:基坑開挖破壞了基坑土體原有的應力平衡,引起臨近路面下沉,導致地下管線豎向移動,伴隨基坑開挖深度增加,管線的沉降量逐漸達到極限值,加之施工方采取了相應的加固措施,使基坑施工中后期管線的沉降趨于穩定。
3.4深部位移監測
各監測點的深部位移整體變形均較小,都低于預警值。深部位移主要有三種比較典型的變化情況:孔頂部和底部位移較小,中間位移較大;孔底部位移較小,頂部向背離基坑方向偏移;孔底部位移較小,頂部向基坑方向位移。CX9號測斜孔第30期(時間2013-1-10)在0~4.5m深處突然出現了一個較大的偏移,分析推測可能是由于鄰近監測孔旁正在施工,施工過程造成了對表層土體的擠壓,因而引起了土體表層整體的較大位移。在隨后的幾期觀測中,該測斜孔位移趨于穩定。深部位移監測結果顯示,最大位移一般出現在孔頂部或6.5~8.5m處,最大位移量都在安全可控的范圍之內。
2相量檢查的意義
對新安裝或電流回路有過變動的保護裝置,在其投入運行前,必須用一次電流和工作電壓檢驗,也就是進行相量檢查。在檢驗保護裝置電流回路接線正確后,方可將保護投入運行,為電網的安全、穩定運行提供保障。
3相量數據采集和分析
3.1井目量數據分析
502所帶為10kV5母線,投入3組電容器,每組容量為7.5Mvar,總容量為22.5Mvar。因為所帶負荷為純電容元件,所以,有功P為0Mvar,無功Q為22.5Mvar。即得出視在功率S為22.5MVA。取10kV系統平均電壓為10.5kV,得出502的一次電流為1237A。已知502保護用TA變比是4000/1,可求得502TA保護繞組二次電流為0.309A。通過相量檢查,可知502各TA保護繞組電流為0.294A左右,計算值與測量值相差不大。因此,可以得出502各TA保護繞組變比使用正確。同理可推導出503各TA保護繞組變比使用正確。3.1.1.2502,503相位分析,10kV5母線通過502向2號主變輸送無功,10kV3母線通過503向3號主變輸送無功,并且已知有功為0,因此,對應相電壓超前一次電流90°,電流以母線側為極性,則二次對應相電壓超前二次電流90°。通過相量檢查所得電流相位與理論推導一致。3.1.22202,2203相量數據分析
3.2變比分析
502各TA保護繞組電流為0.294A左右,且已驗證502各TA保護繞組變比使用正確,因此,通過502的一次電流是1176A。由于102,103,145均在合位,所以,10kV5母線通過502向2號主變輸送等量無功,10kV3母線通過503向3號主變輸送等量無功。根據基爾霍夫定律可知,102,103,145沒有電流流過。因此,2號主變可視為只有高低壓側運行,即兩卷變運行。根據能量守恒定律,低壓側輸入功率等于高壓側輸出功率,取10kV系統的平均電壓為10.5kV,220kV系統的平均電壓為231kV,由此可得,2202一次電流I為(1.732×1176×10.5)/(1.732×231)=53.45A。已知2202的主變差動保護用TA變比是1250/1,則可求得2202主變差動保護二次電流是0.0428A。2202母線差動保護用TA變比是2500/1,則可求得2202母線差動保護二次電流是0.0214A。通過相量檢查可得2202TA保護繞組的電流分別為0.0413A和0.0205A,計算值與測量值相差不大,由此可得,2202各TA保護繞組變比使用正確。同理可推導出2203各TA保護繞組變比使用正確。
3.3相位分析
220kV5母線通過2202,2203接受無功,并且已知有功為0,因此,對應相電壓超前一次電流270°,電流以母線側為極性,則二次對應相電壓超前主變差動二次電流270°。因為母差用保護繞組為反極性,由此可得二次對應相電壓超前母差二次電流為90°。通過相量檢查所得的電流相位與理論推導一致。觀察可知,A相、B相、C相的電流幅值基本相等,相位互差120°,即A相電流超前B相120°,B相電流超前C相120°,C相電流超前A相120°。由此可得,2202,2203各TA保護繞組極性正確。
3.4相量數據分析
3.5母聯極性問題
該變電站220kV系統為雙母線,配置母線保護BP-2B和RCS-915AB.BP-2B母線保護各元件TA的極性端必須一致,裝置默認母聯TA的極性與2母線上的元件一致。RCS-915AB母線保護TA極性要求支路TA同名端在母線側,母聯TA同名端在母線1側,可將該變電站的母線1稱作4母線,母線2稱作5母線。因此,2245母聯BP-2B母線保護用TA同名端在5母線側,2245母聯RCS-915AB母線保護用TA同名端在4母線側。
3.6變比分析
2214是2202通過2245提供一次電流,因此,2245一次電流為51.625A。已知2245各TA保護繞組變比為2500/1,則可求得2245各TA繞組二次電流為0.0207A。通過相量檢查可得2245各TA保護繞組電流為0.0202A左右,計算值與測量值相差不大。由此可得,2245各TA保護繞組變比使用正確。
3.7相位分析
220kV4母線通過2245接受無功,且已知有功為0,因此,對應的相電壓超前一次電流270°,充電保護電流以4母線為極性,則二次對應相電壓超前充電保護二次電流270°。2245母聯BP-2B母線保護用TA同名端在5母線側,并且母差用保護繞組為反極性,則二次對應相電壓超前BP-2B母線保護二次電流270°。2245母聯RCS-915AB母線保護用TA同名端在4母線側,并且母差用保護繞組為反極性。由此可得,二次對應相電壓超前RCS-915AB母線保護二次電流90°。通過相量檢查可知,電流相位與理論推導相差不大。
3.8相量檢查結論
之前多通過表記得出一次電流的大小和送受關系,其實這是不準確的(TA表記繞組也需要相量檢查),應該通過負荷情況,用理論方法計算和推導出一次電流的大小和送受關系,以便核實相量檢查結果。相量檢查后的相量分析不但包括相位分析,還應包括變比分析,只有在變比和相位都正確的情況下,才能算作相量正確。
改革以來中國發生的大規模人口遷移,是制度變遷和經濟轉型共同作用的結果。中國傳統的計劃經濟體制是圍繞推行重工業優先發展戰略而形成的。在資本稀缺的經濟中,推行資本密集型重工業優先發展戰略,不可能依靠市場來引導資源配置,因而必須通過計劃分配的機制把各種資源按照產業發展的優先序進行配置。由此,以資本和勞動力為代表的資源或生產要素,既無必要,也不允許根據市場價格信號自由流動,因此,隨著20世紀50年代這種發展戰略格局的確定,一系列相關制度安排把資本和勞動力的配置,按照地域、產業、所有制等分類人為地“畫地為牢”,計劃之外的生產要素流動成為不合法的現象。其中把城鄉人口和勞動力分隔開的戶籍制度,以及與其配套的城市勞動就業制度、城市偏向的社會保障制度、基本消費品供應的票證制度、排他性的城市福利體制等,阻礙了勞動力這種生產要素在部門間、地域上和所有制之間的流動。在這種制度下,不存在勞動力市場,農村居民沒有政府的許可不可能向城市流動,勞動和人事部門通過計劃來控制勞動力跨部門流動。
1978年底開始的農村家庭承包制改革,使農戶成為其邊際勞動努力的剩余索取者,從而解決了制度下因平均分配原則而長期解決不了的激勵問題(meng,2000)。與此同時,政府開始對價格進行改革,誘導農民提高農業生產率。在農業剩余勞動力被釋放出來后,非農產業活動更高的報酬吸引勞動力轉移(cook,1999),從而推動農村生產要素市場的發育,原來主要集中在農業的勞動力開始向農村非農產業、小城鎮甚至大中城市流動。
由于各種阻礙勞動力流動的障礙尚未拆除,以及政府鼓勵農村勞動力就地轉移的政策引導,20世紀80年代前期的勞動力轉移以從農業向農村非農產業轉移為主,主要是在鄉鎮企業中就業,即所謂的“離土不離鄉”。但隨著鄉鎮企業遇到來自國有企業、“三資”企業和私人企業越來越強勁的競爭,必須提高技術水平和產品質量,因而鄉鎮企業資本增加的速度逐漸加快,吸納勞動力的速度相應減緩。農村勞動力面臨著越來越強烈的跨地區轉移的壓力。與此同時,外商投資企業、中外合資企業、私營企業和股份公司等其他非國有部門在東部地區發展較快,擴大了對勞動力需求,并成為消除制約勞動力流動體制障礙的一支重要力量。
隨著農村勞動力就地轉移渠道日益狹窄,1983年政府開始允許農民從事農產品的長途販運和自銷,第一次給予農民異地經營以合法性。1984年進一步放松對勞動力流動的控制,甚至鼓勵勞動力到臨近小城鎮打工。1988年中央政府則開了先例,允許農民自帶口糧進入城市務工經商。到20世紀90年代,中央政府和地方政府分別采取一系列措施,適當放寬對遷移的政策限制,也就意味著對戶籍制度進行了一定程度的改革。例如,許多各種規模的城市很早就實行了所謂的“藍印戶口”制度,把絕對的戶籍控制變為選擇性地接受。此外,1998年公安部對若干種人群開了進入城市的綠燈,如子女可以隨父母任何一方進行戶籍登記,長期兩地分居的夫妻可以調動到一起并得以戶籍轉換,老人可以隨子女而獲得城市戶口,等等。雖然執行時在一些大城市遇到阻力,但至少在中央政府的層次上為戶籍制度的進一步改革提供了合法性依據。城市福利制度的改革也為農村勞動力向城市流動創造了制度環境。80年代后期開始逐步進行的城市經濟改革,如非國有經濟的發展,糧食定量供給制度的改革,以及住房分配制度、醫療制度及就業制度的改革,降低了農民向城市流動并居住下來和尋找工作的成本。
與其他方面的政策改革相比,戶籍制度改革在很長時間里沒有實質性的突破,成為勞動力流動的最大障礙。所有在就業政策、保障體制和社會服務供給方面對外地人的歧視性對待,都根源于戶籍制度。隨著時間推移,兩方面的因素變化推動政府對遷移政策進行改革。一是城市戶籍制度不再擁有外部或隱含的福利,也就是地方政府不再根據個人的戶籍來提供就業、社會福利等各方面保障。這樣,城市人口規模擴張不會給地方政府增添額外財政負擔。二是地方政府意識到,勞動力流動不僅帶來資源重新配置,而且也是城市融資的一個重要來源。這樣,市場化發育水平相異的城市根據各自目標來推進城市戶籍制度改革。
可見,通過戶籍制度及一系列其他阻礙人口遷移的制度因素的改革而推動的勞動力流動,不僅是經濟發展的一個重要內容,也是整個經濟體制向市場機制轉變的重要進程,并且以其他領域改革的進展為前提。這個轉變或改革的結果便是勞動力市場的形成與發育,勞動力資源越來越多地由市場來配置。而在整個經濟不斷市場化的過程中,人口遷移也表現出轉軌時期的特點。這是中國轉軌時期人口遷移的特殊性所在。本文旨在利用2000年人口普查資料來分析人口流動與市場化之間的關系。
一、轉軌時期人口遷移理論
人口和勞動力在地區間的流動,是勞動力市場在空間上從不均衡向均衡轉變的過程。發展中國家在其經濟發展過程中,伴隨著工業化和城市化發展,大量農村人口和勞動力從農村流向城市,從低生產率的農業部門流向生產率較高的工業部門。劉易斯(lewis,1954)認為,發展中國家存在著典型的二元經濟結構,農村存在著大量剩余勞動力和隱蔽性失業,農業中勞動力的邊際生產力幾乎等于零或為負值,農村勞動力從農業部門流出不會對農業產出帶來負面影響,反而使留在農業部門勞動力的邊際產出不斷提高;隨著城市中勞動力數量不斷增加,城市工資水平開始下降,直至城市部門的工資水平與農業部門的工資水平相等,農村勞動力向城市流動才會停止。在劉易斯的模型中,勞動力在城鄉之間可以自由流動,不存在顯著的制度。城市現代部門的較高工資水平和傳統農業部門的低工資水平,是勞動力在城鄉之間流動的驅動力量。在托達羅(todaro,1969;harris和todaro,1970)兩部門模型分析中,農村人口和勞動力的遷移取決于城市的工資水平和就業概率,當城市的預期收入水平和農村的工資水平相等時,勞動力在城鄉之間分配和遷移都達到均衡。
由于城市經濟存在著現代正規部門和非正規部門之分,農村勞動力向城市遷移首先進入非正規部門,然后才有可能進入正規部門就業。城市正規部門就業創造率越大,越有利于將更多的非正規部門勞動力轉入正規部門;城鄉收入差距越大,從農村流向城市非正規部門勞動力數量越多,城市非正規部門勞動力規模也越大。由于城市正規部門的就業創造率取決于工業產出增長率及該部門的勞動生產率增長率,城市工業的快速增長將有利于提高正規部門的就業創造率,從而減少城市非正規部門的勞動力規模。但是,這個效應有可能被城市工資增長所誘發的大量新增農村勞動力流入所抵消。因此,城市正規部門的就業創造結果帶來了城市失業率的上升。
費爾茨(fields,1974)認為,托達羅模型中沒有考慮農村勞動力在城市正規部門尋找工作的概率問題。由于非正規部門勞動力獲得正規部門就業機會的相對概率較低,流入城市的農村勞動力大多數只能滯留于非正規部門。他們之所以能夠接受較低的工資水平,主要是在于他們預期能夠從得到的城市正規部門工作機會中獲得補償。在托達羅模型基礎上,費爾茨引入了搜尋工作機會的觀點,一方面強調了城市制度工資和相對就業概率對遷移過程的影響,另一方面也指出,非正式部門大量不充分就業的勞動力保證了勞動力市場實現均衡時的失業率低于托達羅模型得出的估計。非正式部門大量不充分就業的勞動力存在,在一定程度上緩解了城市的失業問題。
隨著勞動力流動,城鄉勞動力市場開始相互作用。但是,根據托達羅理論,城市失業率上升將起到減緩人口繼續向城市遷移。如果依據費爾茨的觀點,城市勞動力市場似乎對農村勞動力流動的影響不大。相比之下,在成熟的市場經濟中,城市的失業率是影響勞動力流動的重要因素。托普爾(topel,1986)利用美國人口普查資料研究發現,1970~1980年,美國東部、中部和北部各州的平均失業率相對于全國水平上升了23%,同時西部和西南部各州的失業率卻顯著下降。同期,人口遷移的空間流向恰好與此相反,人口凈流入地區為西部和西南部地區,東部、中部和北部均為人口凈流出地區。
中國的人口遷移不僅具有發展中國家的一般特征,而且還有經濟體制轉型的獨特之處。如前所述,中國特有的戶籍制度及其改革過程,為人口和勞動力自由流動和擇業提供了制度基礎,這也是研究其他國家人口遷移的理論沒有遇到過的問題。隨著時間的推移,包括戶籍制度在內的各項市場化改革措施必然對人口與勞動力遷移產生顯著影響。同時,城市就業環境變化也為我們觀察城鄉勞動力市場的相互作用提供了條件。
首先,不僅是城鄉之間、地區之間的收入差距驅動人口的遷移,市場化水平在城鄉和地區間的差異也直接影響農村勞動力遷移決策,從而形成特定的遷移流向。在經濟發展的初期,資本相對稀缺而勞動力相對豐富。因此,中國經濟的比較優勢在勞動密集型產業。在20世紀80年代以前的經濟增長模式下,由于政府采取人為扭曲資金價格的方式,在資金密集型產業上投資過多,抑制了具有比較優勢的勞動密集型產業的發展,導致產業結構的扭曲,資源配置效率的損失。經濟改革以來,通過一系列制度變革,資源配置逐漸轉向勞動力較為密集的產業,較好地發揮了中國勞動力資源豐富的比較優勢。產品和生產要素市場的發育帶來了資源重新配置效率的改善,對經濟增長做出了重要的貢獻(cai等,2002)。由于生產要素市場發育上在地區之間不平衡,這種資源重新配置的效果主要體現在沿海地區。2000年,92.1%進出口貿易集中在東部地區,中西部地區分別為4.3%和3.6%.同年,86.5%的外商直接投資集中在東部地區,中西部地區分別為8.9%和4.6%.因此,勞動力遷移在東部地區更為活躍,遷移的流向也以從中西部地區向東部地區為特征。
其次,正如在其他國家觀察到的那樣,較大的遷移距離增加了交通成本、弱化了社會網絡關系和目的地的就業信息,減少了遷移者的收益預期,因此,遷移距離上升降低了遷移發生概率。工作的不穩定性和信息獲得的不確定性,不僅造成了遷移流向是一個從縣內流向縣外,從省內向省外的漸進過程,而且使得親友等社會網絡成為遷移者獲得非正規部門就業信息的主要方式。格林伍得(greenwood,1969)認為,遷移存量對人口在地區之間遷移扮演著社會網絡的作用。先前的遷移可以為后來者提供信息和其他方面的幫助,減少遷移風險,從而對后期的遷移產生影響。蔡fǎng@①(cai,1999)研究發現,75.8%的省內遷移者、82.4%的跨省遷移者的就業信息獲得是通過住在城里或在城里找到工作的親戚、老鄉、朋友獲得的。因此,農村勞動力向城市流動通常受到距離所反映出的社會網絡強弱的限制,形成分階段遷移。
第三,盡管戶籍制度繼續阻隔著農村勞動力向城市遷移,但市場化改革使得城鄉勞動力市場開始融合,城市就業環境變化必然對農村勞動力向城市流動帶來影響。隨著國有企業虧損和非國有部門擴大,越來越多的原國有企業職工開始和遷移者在非正式部門展開就業競爭。在這種情況下,農村勞動力“是走還是留”,取決于正式部門和非正式部門的就業狀況,而且其決策通常是暫時的,而不是長期的。這與harris和todaro(1970)模型中所討論的情況(遷移者在非正式部門臨時就業、等待得到正式部門就業機會),以及sethuraman(1981)觀察到其他發展中國家的情況(大多數遷移者將他們在非正式部門就業視為永久性的)都有顯著差異。一個普遍觀察到的現象是,中國農村勞動力向城市和發達地區流動,通常具有季節性特點,最多以年為單位在原住地和遷入地之間往返,呈現出“鐘擺式”的流動模式。正如solinger(1999)指出的那樣,城市對農村勞動力的大量需求是推進戶籍制度改革的必要條件。在非國有經濟、特別是外商投資較快的地區,市場力量日益顯現,遷移受到鼓勵。、空間分布特征變化
1990年以來,中國地區收入差距進一步擴大,吸引了中西部地區勞動力向東部地區流動。同時,要素市場發育及資源配置市場化程度,對地區經濟增長越來越起著主導性的作用。東部地區不僅對外開放時間早,而且市場發育迅速,較高的市場化水平不斷消除了勞動力等要素跨地區間流動的制度,以至成為勞動力流動的主要吸納地區。而勞動力向東部地區流動反過來也推動了該地區的經濟增長,改善了勞動力資源配置效率(cai等,2002)。表1顯示了人口遷移空間分布狀況的長期變化。1987~2000年,人口遷移的空間分布特征是:地區內部遷移(其中主要是省內遷移)比例始終高于地區間的遷移比例。但地區內部和地區之間的遷移比例則隨著時間不斷發生變化。東部地區內部遷移比例提高,東部地區流向中西部地區的比例下降。而中西部正好與此相反,中部和西部地區內部遷移比例趨于下降,中部向西部、西部向中部的遷移比例也在下降,而中西部向東部地區流入比例不斷上升。
注:(1)從統計口徑上看,1987年遷移數量包括遷入時間在半年以上的市、鎮和縣之間的遷移人口;1990年遷移數量包括遷入時間在1年以上的市、縣之間的遷移人口;1995年遷移數量包括遷入時間在半年以上的市,區、縣之間的遷移人口;2000年遷移數量包括遷入時間在半年以上的鄉、鎮、街道之間的遷移人口。(2)全部遷移人口包括地區內部和地區之間的人口遷移,不同年份在遷移時間規定和遷移范圍上的差別對地區之間分布會帶來一定影響。盡管如此,我們仍可以比較不同年份之間遷移流向的變化。
資料來源:《1987年全國1%人口抽樣調查資料》、《1995年全國1%人口抽樣調查資料》、《中國1990年人口普查資料》、《中國2000年人口普查資料》。
根據2000年第五次人口普查的10%資料顯示,全部遷移人口數量為1246萬,占總人口的10.6%,其中省內遷移為7.7%、跨省遷移為2.9%.在總遷移人口中,省內遷移的比重始終很高,為73.4%.當我們描述跨省遷移的流向時,其主要以東部地區為遷移目的地的傾向更加明顯。表2給出了三類地區跨省遷移比例的空間交叉分布。2000年,東部地區跨省遷移近65%集中在東部其他各?。ㄊ校胁康貐^跨省遷移超過84%集中在東部地區,西部地區跨省遷移超過68%集中在東部地區。從時間趨勢上看,1987~2000年,東部地區內部跨省遷移比例上升了近15%,而中西部地區向東部地區遷移比例上升將近24%,后者比前者高出9個百分點。
從流動的出發地和目的地看,遷移可以被劃分為城市到城市的遷移、城市到農村的遷移、農村到農村的遷移和農村到城市的遷移四種主要類型。從這種類型劃分來觀察地區間遷移的流向,也有助于我們理解轉軌時期中國人口遷移的特點。從全國來看,城市到城市的遷移和農村到城市的遷移是目前遷移的主要形式。2000年,兩者合計占總遷移人口的77.9%,而且農村到城市遷移的比重(40.7%)大于城市到城市的遷移(37.2%)。農村到農村的遷移比重較低,僅占全部遷移的18.2%.而城市到農村的遷移比例最低,不到總遷移人口的1/25.從時間趨勢看,城市到城市的遷移所占比重,在東部、中部和西部三類地區都呈現上升趨勢,而農村到城市的遷移比重略呈下降趨勢。
三、遷移的決定因素:計量分析
在遷移決定因素的實證分析中,早期的遷移模型將重力遷移模型和就業為目的的遷移模型合二為一,假定遷移數量不僅與遷入地和遷出地的人口和遷移距離有關,而且取決于兩個地區之間的工資和失業率的比較。通常,采用下列雙對數模型來分析這些因素對遷移流向的影響(lowry,1966;greenwood,1969;fields,1979)。即:。式中,m為遷移率,x為影響遷移流向的各種因素,d為遷移距離,i,j分別為遷出地和遷入地。
舒爾茨(schultz,1982)認為,人口變量反映的是其他影響遷移而沒有在模型出現的社會經濟變量的作用,它沒有行為學上的意義。由于遷移是人口增長的一部分,在遷移實證模型中引入人口規模會帶來計量上的共同偏差(fields,1979)。而且,由于遷移存量實際上是人口規模的一部分,如果在實證模型中同時引入這兩個變量,將帶來嚴重的多重共線問題,大大降低回歸參數估計的效率。因此,通常做法是在實證模型中不引入人口變量。
在回歸方程的函數形式選擇上,費爾茨(fields,1979)認為,遷移決策本質上是在相互排斥的替代方案之間的一種選擇,非對稱模型比對稱模型對人口遷移具有更強的解釋能力。此外,雙對數線性回歸方程還能夠消除奇異值和異方差對估計效率的影響,滿足理論上就業機會與工資之間的乘積要求,以及提高回歸方程的擬合程度等。他選擇了滯后解釋變量辦法來消除解釋變量的內生性問題。我們也采用了所有解釋變量數據均為1995年數據的辦法來解決遷移模型的內生性問題。
本文數據來自2000年第五次全國人口普查長表資料(10%樣本)和微觀數據(長表1%樣本),1995年全國1%人口抽樣調查資料及國家統計局《中國統計年鑒(1996)》。在數據處理上,正式出版的第五次人口普查長表資料沒有農村向城市跨省遷移勞動力數量及其失業率數據,我們利用第五次全國人口普查的微觀數據計算了這些數據。用于回歸分析變量的統計值見表3.
表3用于回歸分析變量的統計值
注:*根據微觀數據計算。
遷移率的計算,我們采用格林伍得(greenwood,1969)的定義,用1995年11月1日至2000年10月30日從省遷到省的人口數,除以1995年11月1日以前住在省的人口數。根據長表計算得到的遷移率,包括了所有年齡段跨省農村到城市、城市到城市、農村到農村、城市到農村的四種類型遷移人口;用微觀數據計算15~64歲農村勞動力向城市的遷移率。按照這種方法計算得到的兩個遷移率的平均值都不高(見表3)。
遷移距離為省會之間鐵路公里數。中國地域遼闊,鐵路是中國跨省遷移的主要交通方式。這點可以從每年春節農民工返鄉造成的鐵路擁擠狀況中得到印證。遷移距離不僅反應了用于直接交通費用的高低,而且在一定程度上代表了遷移所帶來的心理成本大小。隨著遷移距離增加,遷移帶來的不確定性和遷移風險也會上升,遷移成本隨之增加(schultz,1982;greenwood,1975)。這在勞動力市場不發達的情況下尤其如此。
直接用城市工工資收入和農村人均純收入來作為工資率的變量顯然不合適。隨著收入多元化,相當于實際收入的部分并沒有反映到名義收入之中,城鄉收入在可比性上也存在一定問題(solinger,1995;jefferson,1992)。奧尼爾(o''''neill,1970)建議采用消費指標來克服收入指標作為工資率變量上的不足。我們利用各省城鄉人口作為權重,對城鄉居民人均消費支出進行加權平均,作為各省的工資率變量,預期工資率對遷移流向存在兩種不同的效應。其中,遷入地為正向效應,而遷出地為負向效應。
1995年全國1%抽樣調查和第五次人口普查都對城鄉勞動力的就業狀況進行了統計。1995年調查問卷中有三項指標用來測度勞動力在調查前一周是否處于失業狀態:第一項是從未工作正在找工作,第二項是失去工作正在找工作,第三項是企業停產等待安置的勞動力。2000年人口普查只包括前兩項。據此可以計算得到1995年和2000年城鄉勞動力的失業率,分別為2.2%和3.6%.由于城鄉勞動力的失業率包括了農村勞動力,這低估了城市勞動力市場的就業狀況。《中國2000年人口普查資料》公布了分城市、鎮和農村的經濟活動人口資料,據此計算的城市、鎮和農村的失業率分別為9.4%、6.2%、1.2%.利用2000年微觀數據計算的城市本地勞動力、城市向城市遷移勞動力、農村向城市遷移勞動力的失業率,分別為9.1%、7.9%和3.6%.如果在遷移模型中忽略了遷移存量,將導致高估其他解釋變量對遷移的影響(greenwood,1969)。按照格林伍得的方法,遷移存量應該是以1995年為時點,計算出生在省且居住在省的所有人口。由于中國人口普查資料只提供了出生后一直住在本地和1995年11月1日之前遷入本地等資料,因此,我們采用1995年11月1日之前遷入本地人口指標作為遷移存量的變量。本文中長表的遷移存量包括所有人口,微觀數據的遷移存量只包括15~64歲的人口。我們預期遷移存量對人口遷移有正向效應。
在分析地區人均收入差異和經濟增長中,貿易開放程度通常被看做是影響地區收入增長的重要因素(barro和sala-i-martin,1995;cai等,2002)。貿易開放程度越高,參與國際市場一體化程度也越高。但是,扭曲的貿易和發展戰略也同樣起到擴大出口,提高gdp中的貿易份額比重。相比之下,外商直接投資是國外投資者的選擇。從長期來看,為了獲得最大利潤和規避風險,國外企業在其投資過程中要對各地的產品和要素市場發育情況、體制與政策的透明度等因素進行綜合考慮,并最終做出投資選擇。外資企業進入之后,它利用勞動力市場來解決用人需求,這與國有企業的人事制度形成鮮明對比。因此,我們選擇了外商直接投資作為市場化程度的變量,來分析它們對人口遷移的影響。改革以來,雖然所有省份的外商直接投資數量都在增加,但東部地區與中西部地區之間的差異在不斷擴大。中國人口遷移流向分布主要集中在東部地區,這與東部地區對市場化改革程度較高是分不開的。
四、回歸結果與討論
方程1~3是利用第五次人口普查長表資料得到的回歸結果,方程4、5是利用第五次全國人口普查微觀數據得到的回歸結果。由于海南、重慶、與其他省會之間距離未能得到,在回歸中剔除了這3個地區,長表資料中實際用于回歸的樣本數量為756個。在微觀數據中,由于有些省份的遷移率或農村向城市遷移勞動力數量為零,取對數后,這些數據變成缺省值,所以用于回歸的樣本數量為506個。
從表4回歸結果看,利用長表資料得到的回歸方程,解釋了大約60%的所有人口跨省遷移的行為;用微觀數據得到的回歸方程,解釋了大約30%的跨省農村勞動力向城市遷移的行為。表4的非對稱雙對數遷移模型估計結果也表明,遷入地社會經濟變量對人口遷移的影響大于遷出地這些變量所發揮的作用。
回歸方程1~5中大多數解釋變量的回歸系數t值,如遷移距離、人均消費水平、失業率、遷移存量等,都達到了1%或5%的顯著性水平,并且作用方向上與前面的理論預期結果也基本一致。
表4中回歸方程1和2的區別是采用了不同的失業率數據,前者是1995年的失業率,后者是2000年的失業率。使用1995年失業率數據雖然有助于克服內生性問題,但方程1中遷出地失業率回歸系數的絕對值大于遷入地失業率回歸系數的絕對值,這個結果可能與現實情況并不吻合。
1995~2000年,中國城市就業環境發生了急劇變化。伴隨著國有企業改革和城市社會福利體制改革,企業大量富余人員被釋放出來,城市失業率迅速上升。為了解決本地城市職工就業問題,不少地方政府采取了城市就業保護政策,這勢必對以就業為目的的勞動力流動產生較大影響。遷移者是理性的,如果目的地的就業機會較小,遷移者將選擇不流動,以減少遷移風險和成本。這樣,遷入地的就業機會就顯得更為重要。
表4遷移決定因素回歸結果
注:(1)采用異方差檢驗方法(breusch-pagan/cook-weisberg)發現,表中回歸方程的依次為:7.85、1.54、1.38、2.80、4.85.我們對回歸方程1、5采用robust估計來消除異方差的影響。(2)方程1和5的括號內為robustt值,方程2~4括號內為t值,*代表5%顯著性水平,**代表1%顯著性水平。
考慮到2000年失業率真實地反映了就業環境的變化,我們以回歸方程2為基準,分析不同因素對遷移的影響,并進行比較。在其他條件不變的情況下,遷移距離上升1%,遷移率下降1.08%.受遷移距離的影響,2000年跨省遷移人口比例不到30%,絕大多數遷移人口選擇了省內流動。遷移距離在空間位置上是固定的,但改善交通運輸條件和制定合理的交通價格有利于減少遷移者的遷移成本,促進勞動力流動。
在做遷移決策時,潛在的遷移者不僅要考慮兩地之間直接的收入差距,而且還要考慮到就業機會大小。在回歸方程2中,遷入地人均消費水平回歸系數在絕對值上是遷出地的近4倍,但遷入地失業率回歸系數在絕對值上是遷出地的3倍以上。遷入地失業率對遷移決策較大的邊際影響與遷移者面臨的選擇有關。本地勞動力市場狀況是既定的,遷移者對它別無選擇。相反,遷移者對遷入地勞動力市場是可以進行選擇的,失業率越高的地區,遷入數量就會下降。
目的地的就業信息提供和幫助,對遷移決策有重要作用。遷移存量的回歸系數也證實了這一點。社會網絡等非正規信息渠道雖然在遷移中發揮著重要作用,但隨著人口流動規模擴大,加快勞動力市場信息體系建設就顯得非常重要。
將外商直接投資變量引入回歸方程2,就得到回歸方程3.引入這個變量之后,遷移距離和失業率等解釋變量的回歸系數及其顯著性變化不大,而人均消費水平的回歸系數及其顯著性發生較大改變。從絕對值來看,方程3中的人均消費水平回歸系數小于回歸方程2中的回歸系數估計值,遷出地人均消費水平的回歸系數顯著性有所下降,主要是人均消費水平與外商直接投資之間存在較高相關關系導致的結果(注:人均消費水平與外商直接投資的相關系數為0.56.)??缡∪丝谶w移比例主要分布在東部地區,它與外商直接投資之間存在較強的相關關系(注:外商直接投資與遷移存量之間的相關系數為0.76.),引入外商直接投資變量之后,遷移存量的回歸系數數值下降約50%.為了觀察城市勞動力市場對農村勞動力遷移決策的影響,我們利用微觀數據做進一步分析?;貧w方程4引入了農村遷移勞動力的失業率,回歸結果進一步支持上述發現,即遷入地的就業機會對遷移者來說更為重要。回歸方程5引入了城市勞動力失業率。結果表明,城市失業率對于農村勞動力跨省遷移率有顯著性影響,其回歸系數在絕對值上不僅大于回歸方程4中失業率的回歸系數,而且大于回歸方程2中的回歸系數,這說明城市勞動力市場就業形勢確實對農村勞動力的遷移決策有重要作用。改善城市就業環境將有利于促進農村勞動力流向城市,起到加速城市化的作用。五、結論
20世紀80年代以來在中國出現的大規模人口遷移現象,不僅具有發展中國家從落后的農業經濟向工業經濟轉變的一般特征,還具有從計劃經濟向市場經濟轉變的特殊性。將二者結合在一起,既有助于考察中國獨特的制度特征對人口遷移的影響,又能夠通過對中國案例研究來拓展遷移理論。
經濟發展水平和市場發育程度在地區之間的不平衡,決定了人口遷移的基本方向不僅是從農村向城市的遷移,而且是從中西部地區向東部地區的遷移。既然中國經濟的進一步增長仍然有賴于從生產要素市場發育從而勞動力流動中獲得資源重新配置效率(注:約翰森(johnson,1999)認為,在今后30年,如果遷移障礙被逐漸拆除,同時城鄉收入水平在人力資本可比的條件下達到幾乎相等的話,勞動力部門間轉移可以對年經濟增長率貢獻2~3個百分點。),加快中西部地區市場制度的建設,特別是清除阻礙勞動力市場發育的各種制度,可以引導和規范人口遷移,使其不僅具有微觀理性,而且具有更加理性的宏觀后果。市場化改革措施(如擴大外商直接投資和對外貿易等)所帶來的經濟發展將有助于獲得“一石二鳥”的功效,也就是講,它為勞動力流動不斷營造同樣的發展環境,并在創造就業機會的同時,推進城鄉戶籍制度改革。
「作者簡介蔡昉中國社會科學院人口與勞動經濟研究所所長、研究員;王德文中國社會科學院人口與勞動經濟研究所,副研究員。
「參考文獻
1.中國社會科學院人口研究所(1988):《中國74城鎮遷移抽樣調查(1986)》,《中國人口科學》編輯部。
2.國家統計局(1988):《1987年全國1%人口抽樣調查資料》,中國統計出版社。
3.國家統計局(1997):《1995年全國1%人口抽樣調查資料》,中國統計出版社。
4.國務院人口普查辦公室(1993):《中國1990年人口普查資料》,中國統計出版社。
5.國務院人口普查辦公室(2002):《中國2000年人口普查資料》,中國統計出版社。
6.barro,r.&x.sala-i-martin(1995),economicgrowth.newyork:mcgrawhi,inc.
7.cai,fang(1999),spatialpatternsofmigrationunderchina''''sreformperiod,asianandpacificmigrationjournal,vol.8,no.3.
8.cai,fanganddewenwang(1999),sustainabilityofeconomicgrowthandlabourcontributioninchina,journalofeconomicresearch,no.10.
9.cai,fang,dewenwangandyangdu(2002),regionaldisparityandeconomicgrowthinchina:theimpactoflabormarketdistortions,chinaeconomicreview,13,197-212.
10.cook,sarah(1999),surpluslaborandproductivityinchineseagriculture:evidencefromhouseholdsurveydata,thejournalofdevelopmentstudies,vol.35,no.3:16-44.
11.fields,g.s.(1974),rural-urbanmigration,urbanunemploymentandunderemployment,andjob-searchactivityinldcs,journalofdevelopmenteconomics2,165-187.
12.fields,g.s.(1979),placetoplacemigration:somenewevidence,reviewofeconomicsandstatistics,vol.61,issue1,21-32.
13.greenwood,j.michael(1969),ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates,reviewofeconomicsandstatistics,vol.51,issue2,189-194.
14.greenwoodj.michad(1975),researchoninternalmigrationintheunitedstates:asurvey,journalofeconomicliterature,vol.13,issue2,397-433.
15.harris,j.,andm.todaro(1970),migration,unemploymentanddevelopment:atwosectoranalysis,americaeconomicreview40,126-142.
16.jefferson,g.h.andt.g.rawski(1992),unemployment,underemploymentandemploymentpolicyinchina''''scities,modernchina,18(1),42-71.
17.johnson,d.gale(1999),agriculturaladjustmentinchina:thetaiwanexperienceanditsimplications,officeofagriculturaleconomicsresearch,theuniversityofchicago.
18.leweis,w.a.(1954),economicdevelopmentwithunlimitedsuppliesoflabor,themanchesterschoolofeconomicandsocialstudies22,139-191,reprintedina.n.agarwalaands.p.singh(eds.),theeconomicsofunderdevelopment.bombay:oxforduniversitypress,1958.
19.lin,j.yifu,fangcai,andzhouli(1996),thechinamiracle:developmentstrategyandeconomicreform,hongkong:chineseuniversitypress.
20.lowry,i.s.(1966),migrationandmetropolitangrowth:twoanalyticalmodels.sanfrancisco:chandlerpublishing.
21.meng,xin(2000),labormarketreforminchina,cambridge,uk:cambridgeuniversitypress.
22.o''''neill,j.a.(1970),theeffectofincomeandeducationoninter-regionalmigration,unpublishedph.d.dissertation,columbiauniversity.
23.schultz,t.paul(1982),lifeiimemigrationwithineducationalstratainvenezuela:estimatesofalogisticmodel,economicdevelopmentandculturalchange,30(3),559-594.
24.solinger,d.(1995),thechineseworkunitandtransientlaborinthetransitionfromsocialism,modernchina,21(2),155-183.
25.solinger,d.(1999),citizenshipissuesinchina''''sinternalmigration:comparisonswithgermanyandjapan,politicalsciencequarterly,vol.114,no.3,455-478.
隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語