數(shù)據(jù)挖掘技術(shù)分析論文匯總十篇

時(shí)間:2023-02-27 11:09:27

序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)分析論文范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

數(shù)據(jù)挖掘技術(shù)分析論文

篇(1)

二、使用Weka進(jìn)行關(guān)聯(lián)挖掘

Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的,Experimenter是對(duì)各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測(cè)試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動(dòng)的形式去創(chuàng)建實(shí)驗(yàn)方案,Simple-CLI為簡(jiǎn)單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來進(jìn)行。

(一)數(shù)據(jù)預(yù)處理

數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎(jiǎng)總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算,在這里我們將以上得分分別確定分類屬性值。

(二)數(shù)據(jù)載入

點(diǎn)擊Explorer進(jìn)入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個(gè)文件并重新保存為arff文件格式來實(shí)現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對(duì)數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進(jìn)行移除,只將學(xué)歷、職稱、論文等級(jí)、學(xué)術(shù)著作等級(jí)、科研獲獎(jiǎng)等級(jí)、科研立項(xiàng)等級(jí)、科研總分等級(jí)留下。

(三)關(guān)聯(lián)挖掘與結(jié)果分析

WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項(xiàng)中選擇lift選項(xiàng),將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項(xiàng)保存默認(rèn)值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。

三、挖掘結(jié)果與應(yīng)用

以上是針對(duì)教師基本情況和科研各項(xiàng)總分進(jìn)行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進(jìn)行匯總。以下列出了幾項(xiàng)作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。

1、科研立項(xiàng)得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項(xiàng)為A級(jí)的論文也一定是A。這與實(shí)際也是相符的,因?yàn)榭蒲辛㈨?xiàng)得A的教師應(yīng)該是主持了省級(jí)或是國家級(jí)的立項(xiàng)的同時(shí)也參與了其他教師的科研立項(xiàng),在課題研究的過程中一定會(huì)有國家級(jí)論文或者省級(jí)論文進(jìn)行發(fā)表來支撐立項(xiàng),所以這類教師的論文得分也會(huì)很高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵(lì)和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動(dòng)整個(gè)學(xué)校科研工作的進(jìn)展。

篇(2)

中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2012)12-0218-02

一、背景

“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”是國內(nèi)外高等院校一門重要的課程,是國家基礎(chǔ)教育較為重視的一門學(xué)科,受到不同專業(yè)學(xué)生的喜愛。其教學(xué)目標(biāo)是提高學(xué)生的數(shù)據(jù)分析水平和能力,除了教授學(xué)生數(shù)據(jù)分析的常見方法之外,還將引導(dǎo)學(xué)生如何對(duì)實(shí)際的問題進(jìn)行建模,如何對(duì)模型進(jìn)行簡(jiǎn)化和求解。利用實(shí)例教學(xué)等方法,可以很好地將數(shù)據(jù)挖掘中的抽象概念、模型、公式等闡述清楚,讓學(xué)生易于理解和接受。近年來,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用越來越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復(fù)、藥物開發(fā)、科學(xué)研究等方面都獲得了可喜的成果。運(yùn)用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,總結(jié)各種治療方案的治療效果,以及對(duì)疾病的診斷、治療和醫(yī)學(xué)研究都是非常有價(jià)值的。因此,我們學(xué)院也把這門課程作為計(jì)算機(jī)專業(yè)及信息管理與信息系統(tǒng)專業(yè)的必修課。把計(jì)算機(jī)與醫(yī)學(xué)結(jié)合,使得學(xué)生的培養(yǎng)方案全面包括了計(jì)算機(jī)與醫(yī)學(xué)的知識(shí)點(diǎn)。由于該課程原本屬于研究生階段開設(shè)的專業(yè)課程,教材也大多側(cè)重于介紹體系結(jié)構(gòu)、算法原理、效率分析與改進(jìn)等理論知識(shí),其中所涉及的內(nèi)容大多比較深,許多知識(shí)都超出了本科生的接受范圍,此外,教材對(duì)相關(guān)理論在實(shí)際應(yīng)用方面的說明也比較少,不利于安排實(shí)驗(yàn)教學(xué)。因此要實(shí)現(xiàn)“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程的教學(xué)目標(biāo),必須在理論教學(xué)和實(shí)驗(yàn)教學(xué)環(huán)節(jié)綜合考慮學(xué)時(shí)多少、教學(xué)條件以及學(xué)生的接受情況等因素,靈活地加以選擇安排。

二、存在的問題

主要包括以下幾方面:①課堂上以教師講、學(xué)生聽的教學(xué)形式為主,學(xué)生學(xué)習(xí)處于被動(dòng)狀態(tài),他們的創(chuàng)造性因此被嚴(yán)重扼殺;②教師對(duì)專業(yè)課程體系和學(xué)生的知識(shí)體系不夠重視,對(duì)課程體系的講解不到位,造成學(xué)生在學(xué)習(xí)時(shí)課程之間聯(lián)系不上,知識(shí)銜接不好,對(duì)知識(shí)的運(yùn)用和融會(huì)貫通比較差;③實(shí)驗(yàn)與理論脫節(jié)。“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程理論講授的算法與實(shí)驗(yàn)軟件中的算法有很大差距,使得學(xué)生難以理解。比如對(duì)于理論上講授的關(guān)聯(lián)規(guī)則算法,實(shí)驗(yàn)中使用SQL SERVER 2005中的商務(wù)智能工具做實(shí)驗(yàn),學(xué)生發(fā)現(xiàn)有很多參數(shù)與理論上講授的有很大不同;④醫(yī)學(xué)院校的學(xué)生對(duì)純粹計(jì)算機(jī)理論知識(shí)接受困難。由于該門課程是交叉學(xué)科,涉及計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等知識(shí),如果學(xué)生的其他學(xué)科學(xué)得不好,就會(huì)對(duì)該課程的學(xué)習(xí)產(chǎn)生障礙;⑤教師講授沒有把理論課程結(jié)合到實(shí)際應(yīng)用中。有很多學(xué)生不知道學(xué)習(xí)這門課的意義,老師沒有很好引導(dǎo)學(xué)生,激活他們的學(xué)習(xí)熱情。

三、目標(biāo)驅(qū)動(dòng)的教學(xué)框架

對(duì)于以上問題,本文提出了一個(gè)新的教學(xué)體系,設(shè)計(jì)了一套基于目標(biāo)驅(qū)動(dòng)的教學(xué)框架,把教師與學(xué)生緊密聯(lián)系起來,從教學(xué)大綱的設(shè)置,教材的選擇,理論教學(xué),實(shí)驗(yàn)教學(xué),課程設(shè)計(jì)及畢業(yè)論文,全面引導(dǎo)學(xué)生從初步了解到深入學(xué)習(xí)的過程。對(duì)于我們學(xué)校的實(shí)際情況,有兩個(gè)專業(yè)的學(xué)生要學(xué)習(xí)這門課程。一個(gè)是計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),一個(gè)是信息管理與信息系統(tǒng)專業(yè)。對(duì)于兩個(gè)不同的專業(yè),我們?cè)O(shè)置不同的教學(xué)大綱。比如對(duì)于計(jì)算機(jī)專業(yè)的學(xué)生,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘教學(xué)總時(shí)數(shù)為72學(xué)時(shí),其中理論為54學(xué)時(shí),實(shí)驗(yàn)為36學(xué)時(shí)。

1.理論教學(xué)。對(duì)于信息管理與信息系統(tǒng)專業(yè)的學(xué)生,我們可以設(shè)置如下的教學(xué)計(jì)劃,可分為三個(gè)主要部分。我們教材選擇韓家煒的《數(shù)據(jù)挖掘概念與技術(shù)》,第一部分:第一至四章為數(shù)據(jù)挖掘的基礎(chǔ)知識(shí),包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念和相關(guān)知識(shí)介紹;第二部分:第五、六章介紹了數(shù)據(jù)挖掘的算法和工具;第三部分:第七章是數(shù)據(jù)挖掘的聚類分析的實(shí)際應(yīng)用。本課程是信息管理與信息系統(tǒng)專業(yè)本科生專業(yè)必修課。通過該課程的學(xué)習(xí),要求學(xué)生掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念,了解基本方法和應(yīng)用背景。掌握數(shù)據(jù)倉庫的設(shè)計(jì)和建立,掌握數(shù)據(jù)挖掘的主要步驟和實(shí)現(xiàn)方法,數(shù)據(jù)挖掘的常用算法,實(shí)現(xiàn)數(shù)據(jù)挖掘的具體操作。理論學(xué)時(shí)的安排,第一章緒論(6學(xué)時(shí));第二章數(shù)據(jù)倉庫(4學(xué)時(shí));第三章數(shù)據(jù)預(yù)處理(8學(xué)時(shí));第四章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型(8學(xué)時(shí));第五章數(shù)據(jù)挖掘中常用算法(12學(xué)時(shí));第六章數(shù)據(jù)挖掘的工具及其應(yīng)用(8學(xué)時(shí));第七章數(shù)據(jù)挖掘應(yīng)用實(shí)例(8學(xué)時(shí))。

2.實(shí)驗(yàn)教學(xué)。本課程配合理論教學(xué),通過系統(tǒng)的實(shí)踐教學(xué)鍛煉,著重培養(yǎng)學(xué)生的獨(dú)立分析問題和解決問題的能力,熟練掌握數(shù)據(jù)倉庫的設(shè)計(jì)和建立以及各類數(shù)據(jù)挖掘方法,使學(xué)生具有一定的數(shù)據(jù)分析和挖掘能力,能在認(rèn)識(shí)基礎(chǔ)上,提出有效的數(shù)據(jù)挖掘方法,依據(jù)實(shí)際例子,寫出解決方案。學(xué)生應(yīng)在實(shí)驗(yàn)課前明確實(shí)驗(yàn)的目的和要求,然后針對(duì)相關(guān)問題寫出解決方案。實(shí)驗(yàn)時(shí)對(duì)實(shí)際方案的運(yùn)行結(jié)果應(yīng)能進(jìn)行分析并提出改進(jìn)方法,最終寫出實(shí)驗(yàn)報(bào)告。通過實(shí)驗(yàn)教學(xué)應(yīng)達(dá)到以下基本要求:①理解數(shù)據(jù)倉庫的工作機(jī)理及其構(gòu)建過程;②掌握典型的數(shù)據(jù)倉庫系統(tǒng)及其開發(fā)工具的使用;③理解數(shù)據(jù)挖掘技術(shù)的工作原理與流程;④掌握典型數(shù)據(jù)挖掘工具的使用;⑤掌握幾種典型的數(shù)據(jù)挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實(shí)際問題。實(shí)驗(yàn)成績(jī)包括:實(shí)驗(yàn)教學(xué)過程成績(jī)、實(shí)驗(yàn)報(bào)告成績(jī),各占50%。實(shí)驗(yàn)過程表現(xiàn)成績(jī)包括:學(xué)習(xí)態(tài)度是否認(rèn)真、實(shí)驗(yàn)操作是否正確規(guī)范、基本技能掌握程度是否具有創(chuàng)新意識(shí)等方面。實(shí)驗(yàn)報(bào)告成績(jī)包括:實(shí)驗(yàn)報(bào)告格式是否正確、原理是否論述清楚、實(shí)驗(yàn)結(jié)果分析討論是否符合邏輯,報(bào)告字跡是否清楚等方面。

3.課程設(shè)計(jì)。理論課和實(shí)驗(yàn)課接近結(jié)束時(shí),我們把最后三周作為本門課程的課程設(shè)計(jì)。課程設(shè)計(jì)的目的是讓學(xué)生進(jìn)一步深刻理解所學(xué)知識(shí)。由于本門課程很多算法不容易理解,如何讓學(xué)生把所學(xué)知識(shí)結(jié)合到醫(yī)學(xué)應(yīng)用中是課程設(shè)計(jì)的關(guān)鍵。比如我們對(duì)信息管理與信息系統(tǒng)專業(yè)的學(xué)生課程設(shè)計(jì),要求學(xué)生每人選擇一個(gè)老師給定的題目,課程設(shè)計(jì)有詳細(xì)的要求,比如題目“數(shù)據(jù)挖掘在醫(yī)學(xué)診斷中的應(yīng)用”要求學(xué)生能把本門課程相關(guān)的算法結(jié)合使用,最后給出詳細(xì)的分析。通過課程設(shè)計(jì),我們發(fā)現(xiàn),學(xué)生對(duì)本門課程更有興趣。

4.畢業(yè)論文。我們把課程一般開設(shè)在大三的下學(xué)期,也就是說學(xué)生學(xué)完這門課程后,就做了該門課的課程設(shè)計(jì),使得學(xué)生對(duì)數(shù)據(jù)挖掘相關(guān)知識(shí)有了比較深刻的認(rèn)識(shí)。這樣,我們可以引導(dǎo)學(xué)生畢業(yè)論文的選擇。畢業(yè)論文畢竟是反映學(xué)生大學(xué)四年所學(xué)知識(shí),也對(duì)他們將來就業(yè)起到提前培訓(xùn)的作用。把理論結(jié)合實(shí)踐,老師對(duì)學(xué)生的引導(dǎo)也十分重要。

我們根據(jù)醫(yī)學(xué)院校的特征,提出了一套目標(biāo)驅(qū)動(dòng)的教學(xué)理念,從學(xué)生認(rèn)識(shí)這門課程到學(xué)生理論課的學(xué)習(xí),實(shí)驗(yàn)課的學(xué)習(xí),課程設(shè)計(jì)及畢業(yè)論文的完成,在老師的指導(dǎo)下,使用我們的考核體系,可提高學(xué)生對(duì)所學(xué)課程的興趣。

篇(3)

企業(yè)管理中客戶關(guān)系的管理必不可少,并且良好的管理有利于企業(yè)發(fā)展,有利于企業(yè)獲取更大的財(cái)富,有利于企業(yè)實(shí)現(xiàn)自己的價(jià)值,所以保障對(duì)企業(yè)客戶關(guān)系的管理。數(shù)據(jù)挖掘技術(shù)就是一個(gè)可以幫助企業(yè)對(duì)客戶關(guān)系進(jìn)行有效的管理的工具。

一、數(shù)據(jù)挖掘和客戶關(guān)系管理含義

數(shù)據(jù)挖掘技術(shù)(Data Mining可以簡(jiǎn)稱為DM),簡(jiǎn)單來說,就是一種把隱藏在大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中所需要的有用信息提取出來的新技術(shù),這是一個(gè)對(duì)數(shù)據(jù)庫進(jìn)行研究的非常有價(jià)值的領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可以幫助用戶從數(shù)據(jù)庫中準(zhǔn)確的提取出有用的商業(yè)信息,為用戶在進(jìn)行決策時(shí)提供重要的支持。

客戶關(guān)系管理(Customer Relationship Management可以簡(jiǎn)稱為CRM),也有人稱之為“顧客關(guān)系管理”,關(guān)于客戶關(guān)系管理的定義,目前有兩種說法:一,最早的Gartner Group定義為一種商業(yè)策略,就是把客戶進(jìn)行分類,并依據(jù)分類情況來對(duì)企業(yè)的資源進(jìn)行有效的組織,進(jìn)而企業(yè)的業(yè)務(wù)流程實(shí)施以及經(jīng)營活動(dòng)都要以客戶為核心來進(jìn)行,以此來提高企業(yè)的盈利能力以及客戶滿意度,取得最大利潤(rùn);二、是由CRMguru.com給出的定義,客戶關(guān)系管理就是一個(gè)在企業(yè)的營銷、銷售以及服務(wù)的業(yè)務(wù)范圍內(nèi),把企業(yè)現(xiàn)有的客戶以及潛在客戶,還有業(yè)務(wù)伙伴多渠道進(jìn)行管理的過程,或者說技術(shù)。

二、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,市場(chǎng)競(jìng)爭(zhēng)力也在逐步的增大,商家想要獲得最好的利益,就必須對(duì)市場(chǎng)的變化迅速的做出反應(yīng),能夠引起市場(chǎng)變化的重要因素就是客戶需求的變化,也就是說,企業(yè)必須集中注意力,觀察客戶需求的每一變化,并把這些資料收集在一起,作為企業(yè)發(fā)展的寶貴資源進(jìn)行管理。在企業(yè)管理客戶信息的過程中,就需要應(yīng)用到了數(shù)據(jù)挖掘技術(shù)。

數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用過程中,主要方法有:神經(jīng)網(wǎng)絡(luò)法、遺傳算法、決策樹法、粗糙決算法以及可視化技術(shù)、K—最近鄰技術(shù)等,每個(gè)公司的客戶關(guān)系不同、需求也不同,所以要用到的方法也不同。

數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于客戶關(guān)系管理中的這幾個(gè)方面:(1)挖掘新客戶,數(shù)據(jù)挖掘技術(shù)可以對(duì)現(xiàn)有的客戶信息和市場(chǎng)環(huán)境進(jìn)行統(tǒng)計(jì)總結(jié)以及歸納,準(zhǔn)確的確定潛在客戶以及市場(chǎng)目標(biāo)。因?yàn)閿?shù)據(jù)挖掘技術(shù)具有統(tǒng)計(jì)、聚類和關(guān)聯(lián)的作用,比如說,數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫中發(fā)現(xiàn)了這樣一個(gè)信息“某客戶在購買A商品之后,過了一段時(shí)間又購買了B商品,最后還購買了C商品”那么數(shù)據(jù)挖掘技術(shù)就會(huì)通過次序關(guān)聯(lián),把這個(gè)信息形成“A—B—C”的行為模式。(2)可以保持優(yōu)質(zhì)客戶。現(xiàn)在社會(huì)競(jìng)爭(zhēng)相當(dāng)激烈,企業(yè)客戶更是企業(yè)發(fā)展的重要因素,優(yōu)質(zhì)客戶對(duì)每個(gè)企業(yè)來說就更加的重要。數(shù)據(jù)挖掘技術(shù)可以對(duì)數(shù)據(jù)庫中的流失客戶信息進(jìn)行分析,并且對(duì)流失客戶的特征進(jìn)行準(zhǔn)確的描述,然后利用關(guān)聯(lián)、近鄰的方式對(duì)整個(gè)數(shù)據(jù)庫中的消費(fèi)客戶信息進(jìn)行分析,分析出容易流失的客戶,隨后就需要采取相應(yīng)的措施來減少這些客戶的流失,尤其是那些可能流失的優(yōu)質(zhì)客戶,更要采取有力的措施來進(jìn)行挽留。(3)可以提升客戶價(jià)值。目前提升現(xiàn)有客戶的價(jià)值的方式有兩個(gè):一是提供特色服務(wù)或者產(chǎn)品;二是銷售新產(chǎn)品或者服務(wù)。想要準(zhǔn)確的提升客戶價(jià)值,就需要數(shù)據(jù)挖掘技術(shù)的幫助了,他可以把之前的客戶信息研究分析,并依據(jù)新產(chǎn)品或者服務(wù)的特征,發(fā)現(xiàn)和客戶的已購買產(chǎn)品之間的關(guān)聯(lián),因而準(zhǔn)確的找到具有最大購買趨勢(shì)的客戶。

三、加強(qiáng)客戶關(guān)系管理中數(shù)據(jù)挖掘的意義

應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)客戶關(guān)系進(jìn)行管理,可以有效的提高企業(yè)的核心競(jìng)爭(zhēng)力,現(xiàn)代社會(huì)的激烈競(jìng)爭(zhēng),也就是對(duì)客戶的競(jìng)爭(zhēng),數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)的客戶關(guān)系進(jìn)行詳細(xì)的分析,并為企業(yè)提供有價(jià)值的商業(yè)信息,為企業(yè)的重大決策提供了重要的參考依據(jù),進(jìn)而有力的提高了企業(yè)的核心競(jìng)爭(zhēng)力;可以有力的增強(qiáng)企業(yè)的執(zhí)行力,利用信息技術(shù)對(duì)客戶關(guān)系進(jìn)行管理,降低成本,并簡(jiǎn)化執(zhí)行任務(wù),有效的實(shí)現(xiàn)了資源共享,大力的提高了企業(yè)的自動(dòng)化水平,企業(yè)職工的執(zhí)行能力也進(jìn)一步得到了提高,也就是增強(qiáng)了企業(yè)的執(zhí)行力[3];可以為企業(yè)的下一步戰(zhàn)略發(fā)展提供幫助,數(shù)據(jù)挖掘技術(shù)對(duì)現(xiàn)今的市場(chǎng)環(huán)境進(jìn)行分析,可以預(yù)測(cè)到每個(gè)業(yè)務(wù)的發(fā)展?fàn)顟B(tài),以及每個(gè)業(yè)務(wù)與發(fā)生過的商業(yè)行為之間的關(guān)系,有了這些信息,可以準(zhǔn)確的制定企業(yè)未來的發(fā)展戰(zhàn)略,并且可以制定與市場(chǎng)環(huán)境相適應(yīng)的營銷策略。

綜上所述,目前數(shù)據(jù)挖掘技術(shù)是企業(yè)進(jìn)行客戶關(guān)系管理的最有效的工具,準(zhǔn)確的掌握了客戶信息,就是準(zhǔn)確的把握了市場(chǎng)需求,可以為企業(yè)制定完全適應(yīng)于市場(chǎng)的發(fā)展方向。數(shù)據(jù)挖掘技術(shù)的關(guān)鍵作用就是找出潛在客戶,保留忠誠客戶,并利用企業(yè)有限的資源,對(duì)這些客戶提供最好的服務(wù),促進(jìn)企業(yè)的不斷發(fā)展。

參考文獻(xiàn):

篇(4)

【中圖分類號(hào)】R255.2 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1672-3783(2012)05-0093-01

1 引言

辨證是中醫(yī)學(xué)的特點(diǎn)與優(yōu)勢(shì)之一,也是中醫(yī)藥取得療效的前提。中醫(yī)是以傳承性為主的實(shí)踐醫(yī)學(xué),受生產(chǎn)技術(shù)水平的影響,前人在辨證的時(shí)候主要靠個(gè)人的臨診經(jīng)驗(yàn),摻雜了許多主觀因素與模糊概念,加上眾多的醫(yī)學(xué)流派推崇不同的思辨方式,使證侯的外延與內(nèi)涵愈加復(fù)雜而不可確定。隨著計(jì)算機(jī)、生物技術(shù)的進(jìn)步以及交叉學(xué)科的發(fā)展,中醫(yī)證侯的研究開始了新局面,能否從病、證、癥、生物學(xué)基礎(chǔ)等不同層次中挖掘出其固有的規(guī)律性的聯(lián)系,以確定不同證侯的概念范疇、使辨證更具重復(fù)性和臨床可操作性,這成為大家所探求的方向。眾多學(xué)者為此開展了不少研究工作,筆者就中醫(yī)證侯近十年的研究概況進(jìn)行論述并分析如下。

2 中醫(yī)證侯近十年的研究概況

2.1 證侯研究成果檢索結(jié)果與分析:利用“中醫(yī)”、“證或證侯”、“文獻(xiàn)”、“臨床” 及“動(dòng)物(實(shí)驗(yàn))”等主題詞檢索CNKI數(shù)據(jù)庫從2000-2008年所收錄的論文,其中文獻(xiàn)研究相關(guān)論文272篇,臨床研究相關(guān)論文5323篇,動(dòng)物實(shí)驗(yàn)相關(guān)論文238篇。統(tǒng)計(jì)結(jié)果如圖1所示。從圖中可以看出以下特點(diǎn):1)臨床研究是證侯研究的主要方式,這是由中醫(yī)的臨證性所決定的。2)中醫(yī)古籍資源有限、研究成果轉(zhuǎn)換周期較長(zhǎng),是導(dǎo)致文獻(xiàn)研究數(shù)量低的主要原因。

2.2 證侯研究主要切入方向的研究成果檢索結(jié)果與分析:在檢索“證”或“證侯”研究論文的基礎(chǔ)上,以“四診規(guī)范”、“生物學(xué)”、“數(shù)據(jù)挖掘”等關(guān)鍵詞結(jié)合手工進(jìn)一步檢索,獲得近十年發(fā)表的論文中,與四診規(guī)范研究相關(guān)的論文227篇,與生物學(xué)研究相關(guān)論文436篇,與數(shù)據(jù)挖掘相關(guān)論文220篇。其研究態(tài)勢(shì)如圖2所示。從圖2中可以看出,相關(guān)研究論文均有逐年上升的趨勢(shì)。就近十年而言,證侯生物學(xué)研究相關(guān)論文最多,數(shù)據(jù)挖掘類論文數(shù)量增長(zhǎng)迅速。

2.3 證侯的具體研究概況

2.3.1 四診的定性與定量研究:通過四診收集到的癥狀(主要由患者自己敘述出來)、體征(由患者表現(xiàn)出來,通過望、聞、切可知的,包括舌象、脈象、面色、神志狀況)等信息是證侯的構(gòu)成基礎(chǔ)。舌、脈和面色雖客觀存在,但易受周圍環(huán)境、自然光線及醫(yī)者主觀判斷的影響,因此利用物理儀器、高分辨率的數(shù)碼相機(jī)結(jié)合色彩、圖譜分析軟件力求量化已成為趨勢(shì)。就舌象客觀化而言,不少學(xué)者對(duì)舌色、苔色、舌苔的厚度與濕度、齒痕、紋理特征,甚至對(duì)舌體的胖瘦、歪斜,舌下絡(luò)脈的長(zhǎng)度、寬度、顏色進(jìn)行了量化分析[2-5],具有一定的臨床符合率。

此外,通過問診所獲取的信息在中醫(yī)證候分類中起著重要的作用。如何控制和把握這些“軟指標(biāo)”,近年來不少學(xué)者也做了很多工作。有學(xué)者把社會(huì)學(xué)中的定性研究引入中醫(yī)問診領(lǐng)域[12],建議與患者進(jìn)行深入交談,對(duì)患者的語氣、語言表達(dá)方式、神態(tài)、言語內(nèi)容等進(jìn)行綜合分析,以期獲取盡可能多的與病癥相關(guān)的信息,這些信息可能容易被醫(yī)生所忽視,但對(duì)證侯的判別起重要作用,能彌補(bǔ)定量研究的缺憾。

2.3.2 證侯生物學(xué)基礎(chǔ)的研究:中醫(yī)證侯的確立是依據(jù)表現(xiàn)型組資料得來的,對(duì)于現(xiàn)代生命科學(xué)而言,一個(gè)證候表現(xiàn)型的產(chǎn)生必然有從基因組層次到器官組層次的不同范圍的功能異常[13]。從文獻(xiàn)檢索的結(jié)果來看,涉及細(xì)胞、基因?qū)用娴难芯空撐妮^多,技術(shù)相對(duì)成熟;蛋白、代謝組學(xué)層面的論文較少,研究技術(shù)有待完善。

就細(xì)胞層面而言,研究較多的是細(xì)胞因子、細(xì)胞外基質(zhì)及細(xì)胞表面標(biāo)志物在不同證侯下的特異表達(dá)。細(xì)胞因子的相關(guān)性研究趨于熱化主要是因?yàn)椋浩浣閷?dǎo)細(xì)胞間相互影響、作用而形成復(fù)雜的人體調(diào)節(jié)網(wǎng)絡(luò),這可能是證的實(shí)質(zhì)所在[14];其種類眾多,功能各異,如白細(xì)胞介素、腫瘤壞死因子、趨化性細(xì)胞因子及其細(xì)胞膜受體和可溶性受體等,這些指標(biāo)常見于諸多論文中;檢測(cè)方法較為便利,且敏感性強(qiáng)。

2.3.3 利用數(shù)據(jù)挖掘方法的證侯研究:中醫(yī)辨證的過程是醫(yī)者憑借個(gè)人經(jīng)驗(yàn)從患者的一系列癥狀、體征或生物學(xué)指征、外界環(huán)境等復(fù)雜的非線性現(xiàn)象[15]中提取出相互關(guān)聯(lián)的、有內(nèi)在規(guī)律的、特異的組合信息。數(shù)據(jù)挖掘[16]則是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。可以說兩者在獲取信息的方式與過程上有契合之處。

研究者常依據(jù)不同的研究目的及數(shù)據(jù)的特點(diǎn)選擇不同的多元統(tǒng)計(jì)方式。如探討飲食習(xí)慣、居住環(huán)境、體質(zhì)因素等不同的致病因素或生物學(xué)檢測(cè)指標(biāo)或某一疾病下各證型的癥狀、體征與該證型之間的關(guān)聯(lián)性多采用回歸法,如進(jìn)一步分析哪些癥狀、體征和生物學(xué)指標(biāo)對(duì)區(qū)分不同的證侯有較高的貢獻(xiàn)度,多通過逐步判別分析。

3 結(jié)語

就近年主要的研究成果來看,將宏觀與微觀、定性與定量的研究方式相結(jié)合是證侯研究的可行路徑和發(fā)展趨勢(shì)。然而如何將有一定組合規(guī)則和重疊涵蓋關(guān)系的證侯要素進(jìn)行合理的分解,四診宏觀信息如何定量,生物學(xué)微觀指標(biāo)如何定性,二者怎樣結(jié)合,采用什么樣的方式結(jié)合才能真正提示或反應(yīng)、甚而揭示證侯的內(nèi)涵,這是目前研究的困惑與癥結(jié)所在,借鑒現(xiàn)代計(jì)算機(jī)信息處理技術(shù)、生物學(xué)技術(shù)和多學(xué)科交叉的優(yōu)勢(shì)互補(bǔ),可能會(huì)有所突破。

參考文獻(xiàn)

[1] 郭蕾,王永炎,張志斌.關(guān)于證候概念的詮釋.北京中醫(yī)藥大學(xué)學(xué)報(bào),2002; 26(2): 5-7

[2] 衛(wèi)保國,沈蘭蓀.舌體胖瘦的自動(dòng)分析.計(jì)算機(jī)工程,2004; 30(11):25-58

[3] 衛(wèi)保國,沈蘭蓀,蔡軼珩.舌體歪斜的自動(dòng)分析.計(jì)算機(jī)工程與應(yīng)用,2003; 25(10): 22-26

篇(5)

[2]張玉亮.突發(fā)事件網(wǎng)絡(luò)輿情的生成原因與導(dǎo)控策略――基于網(wǎng)絡(luò)輿情主體心理的分析視閾[J].情報(bào)雜志,2012,31(4):54-57.

[3]許鑫,章成志,李雯靜.國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J].情報(bào)理論與實(shí)踐,2009,32(3):115-120.

[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.

[5]鄭軍.網(wǎng)絡(luò)輿情監(jiān)控的熱點(diǎn)發(fā)現(xiàn)算法研究[D].哈爾濱哈爾濱工程大學(xué),2007.

[6]陳耘可,李博,鄭天翔.PDCA循環(huán)在煤炭企業(yè)質(zhì)量標(biāo)準(zhǔn)化建設(shè)中的研究與應(yīng)用[J].煤炭經(jīng)濟(jì)研究,2013,33(2):77-79.

篇(6)

1數(shù)據(jù)倉庫概念及其體系結(jié)構(gòu)

數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non – Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。與其他數(shù)據(jù)庫應(yīng)用相比,數(shù)據(jù)倉庫更像一種過程,即對(duì)分散的業(yè)務(wù)數(shù)據(jù)進(jìn)行整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。

數(shù)據(jù)倉庫包括如下幾個(gè)部分,如圖1所示。

(1)原數(shù)據(jù)部分,數(shù)據(jù)提取、清洗、轉(zhuǎn)換和裝載(ETL)部分,以及中心數(shù)據(jù)倉庫部分。經(jīng)過這些環(huán)節(jié),可以完成將數(shù)據(jù)從源數(shù)據(jù)裝載到數(shù)據(jù)倉庫中的過程。

(2)數(shù)據(jù)集市。根據(jù)部門的需要,可以從數(shù)據(jù)倉庫中形成數(shù)據(jù)集市,以滿足部門及數(shù)據(jù)分析的需要。

圖1 數(shù)據(jù)倉庫的體系結(jié)構(gòu)

(3)數(shù)據(jù)訪問和分析部分。在數(shù)據(jù)訪問和分析的過程中,可以采用OLAP分析及數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,得出有關(guān)的分析結(jié)果。

2 數(shù)據(jù)分析技術(shù)

數(shù)據(jù)分析技術(shù)是建立在一定數(shù)據(jù)基礎(chǔ)上,進(jìn)行分析的方式和方法,通常包括:OLAP、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、聯(lián)機(jī)挖掘等技術(shù)。需要說明的是,數(shù)據(jù)分析技術(shù)并不一定需要建立在數(shù)據(jù)倉庫的基礎(chǔ)上,但有了數(shù)據(jù)倉庫之后,數(shù)據(jù)分析的效率和能力將大大提高。通過與數(shù)據(jù)分析技術(shù)的結(jié)合,才能發(fā)現(xiàn)許多前所未有的分析結(jié)果,并為管理者提供科學(xué)的決策依據(jù)。

2.1 OLAP(聯(lián)機(jī)分析處理)

OLAP分析與數(shù)據(jù)倉庫的關(guān)系非常緊密。數(shù)據(jù)倉庫的建立,解決了依據(jù)主題進(jìn)行數(shù)據(jù)存儲(chǔ)的問題,提高了數(shù)據(jù)的存取速度,而OLAP分析構(gòu)成了數(shù)據(jù)倉庫的表現(xiàn)層,將數(shù)據(jù)倉庫中的數(shù)據(jù)通過不同的維和指標(biāo),靈活的展現(xiàn)出來,提高數(shù)據(jù)的展現(xiàn)能力,進(jìn)而提高數(shù)據(jù)的分析能力。

OLAP涉及以下術(shù)語:維度(Dimension)、量度(Measure)、級(jí)別(Level)、成員(Member)、多維數(shù)據(jù)集/立方體(Cube)、時(shí)間粒度(Time granularity)、星型結(jié)構(gòu)/維度(Star schema)、雪花型結(jié)構(gòu)/維度(Snowflake schema)。

OLAP對(duì)不同維度進(jìn)行肉眼觀察,并非運(yùn)用更科學(xué)的概率論或其它數(shù)學(xué)工具去測(cè)度;而肉眼觀察帶有主觀的“有色眼鏡”,故缺乏科學(xué)客觀的評(píng)判手段和方法。其次,當(dāng)遇到維度過多、數(shù)據(jù)量過大的實(shí)際情況時(shí),OLAP工作效率急劇下降。再次,若自變量和自變量之間存在的線性關(guān)系或交互作用,OLAP無法分辨“混雜因子”或找出主要影響因素。因此,OLAP無法完全滿足在分析信息系統(tǒng)中最基本、最重要和最關(guān)鍵的要求:面對(duì)主題(商務(wù)需求)進(jìn)行分析;而在實(shí)際信息處理中,OLAP無法實(shí)現(xiàn)分析的主題或任務(wù),則需要數(shù)據(jù)分析或數(shù)據(jù)挖掘更強(qiáng)大的分析工具、技術(shù)來實(shí)現(xiàn)。計(jì)算機(jī)論文

2.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘亦稱為數(shù)據(jù)開采,它首先由W. J. Frawley、G. Piatesky-Shapiro等人提出。數(shù)據(jù)挖掘是一種數(shù)據(jù)分析工具,它從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取人們感興趣的數(shù)據(jù)模式、數(shù)據(jù)的普遍關(guān)系及其隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí),提取的知識(shí)表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式,其目的是幫助管理者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,而這些信息對(duì)預(yù)測(cè)趨勢(shì)和決策行為將起到一定的支持作用。

數(shù)據(jù)庫中的數(shù)據(jù)挖掘是一個(gè)多步驟的處理過程,這些步驟有:

(1)數(shù)據(jù)定義階段。主要了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清楚用戶決策分析對(duì)信息的要求。

(2)數(shù)據(jù)提取階段。根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。

(3)數(shù)據(jù)預(yù)處理階段。主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)缺損的數(shù)據(jù)進(jìn)行填補(bǔ)。

(4)數(shù)據(jù)挖掘階段。主要是運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。

(5)知識(shí)評(píng)估階段。將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。

2.3數(shù)據(jù)倉庫、0LAP和數(shù)據(jù)挖掘之間的關(guān)系

在數(shù)據(jù)倉庫化的決策支持系統(tǒng)中,應(yīng)將數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘進(jìn)行有機(jī)結(jié)合,其所擔(dān)當(dāng)?shù)慕巧謩e為:

(1)數(shù)據(jù)倉庫用于數(shù)據(jù)的存儲(chǔ)和組織,它從事務(wù)處理系統(tǒng)中抽取數(shù)據(jù),并對(duì)其進(jìn)行綜合、集成與轉(zhuǎn)換,提供面向全局的數(shù)據(jù)視圖;OLAP致力于數(shù)據(jù)的分析;數(shù)據(jù)挖掘則專注于知識(shí)的自動(dòng)發(fā)現(xiàn)。

(2)在數(shù)據(jù)倉庫和OLAP、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間存在著單向支持的關(guān)系;在數(shù)據(jù)挖掘與OLAP之間,存在雙向聯(lián)系,即數(shù)據(jù)挖掘?yàn)镺LAP提供分析的模式,OLAP對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行驗(yàn)證,并給予適當(dāng)?shù)囊龑?dǎo)。三者關(guān)系如圖2所示。

圖2 數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的關(guān)系

3、數(shù)據(jù)倉庫技術(shù)及在人力資源系統(tǒng)的設(shè)計(jì)

人力資源系統(tǒng)的數(shù)據(jù)量大,但相對(duì)分散,統(tǒng)計(jì)功能不足,利用率低。為了更好的發(fā)揮其數(shù)據(jù)的功能,提出人力資源數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)。該系統(tǒng)主要由ETL系統(tǒng)、OLAP系統(tǒng)、客戶端組件系統(tǒng)三部分組成,其整體框架如圖3所示。

圖3 人力資源數(shù)據(jù)倉庫系統(tǒng)框架圖

ETL系統(tǒng)負(fù)責(zé)定期的從OLTP系統(tǒng)中將業(yè)務(wù)數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫,在導(dǎo)入過程中會(huì)依據(jù)OLAP系統(tǒng)中模式設(shè)計(jì)的要求對(duì)數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,以符合數(shù)據(jù)倉庫的結(jié)構(gòu)要求。

OLAP系統(tǒng)由三部分組成:OLAP引擎、OLAP數(shù)據(jù)展示模塊和元數(shù)據(jù)管理模塊。OLAP引擎負(fù)責(zé)讀入數(shù)據(jù)倉庫中的數(shù)據(jù),并根據(jù)模式定義構(gòu)建多維數(shù)據(jù)集,使數(shù)據(jù)以多維格式展示。OLAP數(shù)據(jù)展示模塊負(fù)責(zé)將多維數(shù)據(jù)集展現(xiàn)為一個(gè)聯(lián)機(jī)分析處理(OLAP)頁面,用戶可以在頁面上執(zhí)行典型的聯(lián)機(jī)分析處理導(dǎo)航操作,如上卷、下鉆和旋轉(zhuǎn)等。元數(shù)據(jù)管理模塊負(fù)責(zé)對(duì)模式設(shè)計(jì)文件進(jìn)行管理。

客戶端組件系統(tǒng)負(fù)責(zé)訪問用戶的登錄驗(yàn)證,并根據(jù)訪問用戶的訪問權(quán)限提供對(duì)應(yīng)的數(shù)據(jù)展現(xiàn)。

4、結(jié)束語

本文闡述了數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的概念,并對(duì)OLAP和數(shù)據(jù)挖掘技術(shù)進(jìn)行了探討。并在此基礎(chǔ)上,提出了人力資源數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)方案。數(shù)據(jù)倉庫已經(jīng)成為現(xiàn)代信息領(lǐng)域的必不可少的基礎(chǔ)設(shè)施之一,我們應(yīng)該使用好數(shù)據(jù)倉庫,使之成為迎接挑戰(zhàn)的有力武器。

參考文獻(xiàn)

[1] W. H. Inmon 數(shù)據(jù)倉庫[M] 機(jī)械工業(yè)出版社 2003

[2] 王珊等 數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理[M] 科學(xué)出版社 1998

篇(7)

中圖分類號(hào):TP29 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)05-37-03

Research on the characteristics of resident travel based on the taxi

GPS trajectory data mining

Lin Jiyan, Zhang Yaqiong, Zhang Hui

(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)

Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.

Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN

0 引言

在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因?yàn)槌鲂械木用袷墙煌康闹饕獊碓碵1]。一個(gè)城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關(guān),居民的出行行為會(huì)對(duì)城市交通體系產(chǎn)生影響[2]。對(duì)居民出行特征進(jìn)行研究是城市和交通規(guī)劃、城市公共基礎(chǔ)設(shè)施建設(shè)管理中的一個(gè)基礎(chǔ)性任務(wù),不僅可以用來對(duì)目前的交通出行情況進(jìn)行評(píng)估,也可以用來對(duì)居民的出行需求進(jìn)行預(yù)測(cè),對(duì)實(shí)施合理有效的城市交通規(guī)劃起著至關(guān)重要的作用[3]。

出租車因其靈活性和便利性,已日漸成為城市交通系統(tǒng)的重要組成部分,同時(shí),因?yàn)樗钠瘘c(diǎn)和終點(diǎn)由乘客決定,且24小時(shí)不間斷服務(wù),所以,出租車的運(yùn)營規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設(shè)備以一定的頻率向城市交通客運(yùn)管理中心傳送出租車的實(shí)時(shí)經(jīng)緯度、運(yùn)營狀態(tài)、行駛方向、速度等信息,因此,管理中心會(huì)積累大量的出租車GPS軌跡數(shù)據(jù)[5],利用DBSCAN對(duì)這些進(jìn)行數(shù)據(jù)進(jìn)行聚類分析,可以在一定程度上挖掘乘客出行的時(shí)空特征,也能為出租車尋找最佳的載客區(qū)域提供依據(jù),有效的降低出租車的空駛率。

1 GPS軌跡數(shù)據(jù)挖掘設(shè)計(jì)

1.1 數(shù)據(jù)預(yù)處理

本文選取榆陽區(qū)(地理坐標(biāo)為東經(jīng)108?58'-110?24',北緯37?49'-38?58'之間)作為研究區(qū)域,GPS軌跡數(shù)據(jù)使用榆陽區(qū)1100多輛出租車五天的運(yùn)營數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,出租車軌跡數(shù)據(jù)由車牌ID tID、、當(dāng)前位置loc、GPS時(shí)間ct、營運(yùn)狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個(gè)屬性組成,部分屬性值如表1所示。

表1中,營運(yùn)狀態(tài)的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運(yùn);GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。

1.2 利用DBSCAN算法進(jìn)行聚類挖掘

居民的作息和社會(huì)活動(dòng)有明顯的時(shí)間規(guī)律,比如上下班高峰期的載客點(diǎn)分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時(shí)間特征分類,再進(jìn)行密度聚類分析,如此便可充分挖掘在不同時(shí)間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時(shí)空載客區(qū)域分布數(shù)據(jù),有效地提高其巡游過程中的載客成功率。基于此,論文引入了DBBSCAN算法,該算法需要3個(gè)輸入?yún)?shù):歷史軌跡數(shù)據(jù)對(duì)象D,空間半徑ε,以及密度閾值MinPts;輸出參數(shù)為聚類簇C,部分MATLAB代碼如下:

data=importdata('data.xlsx');

data=data.data.Sheet1;

……

num=size(data,1);

k=floor(log(num))+1;

k=round(num/25)+1;

k_dist=zeros(num,1);

for i=1:num

temp=repmat(data(i,:),num,1);

gx0=temp(:,1); gy0=temp(:,2);

gx1=data(:,1);gy1=data(:,2);

dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);

dist_s=sort(dist0);

k_dist(i)=dist_s(k);

end

x=1:num;

figure;plot(x,k_dist,'r-');

xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');

……

x=[(1:m)' data];

[m,n]=size(x);

types=zeros(1,m);

dealed=zeros(m,1);

dis=calDistance(x(:,2:n));

number=1;

……

img=imread('map.jpg');

[Ny,Nx]=size(img);

……

figure;imagesc(x00,y00,img); colormap(gray); hold on;

for i=1:m

if class(i)==-1

plot(data(i,1),data(i,2),'.r');

else if class(i)==1

if types(i)==1

plot(data(i,1),data(i,2),'+b');

else

plot(data(i,1),data(i,2),'.b');

end

elseif class(i)==2

if types(i)==1

plot(data(i,1),data(i,2),'+g');

else

plot(data(i,1),data(i,2),'.g');

end

……

plot(x1,y1,'r*');

xlabel('度'); ylabel('緯度');

2 實(shí)驗(yàn)結(jié)果

聚類結(jié)果如圖1和圖2所示,出行熱點(diǎn)區(qū)域在圖中用圓圈標(biāo)出。

以上的聚類結(jié)果顯示,榆陽區(qū)的居民出行呈現(xiàn)一定空間和時(shí)間特征。工作日和非工作日出租車熱點(diǎn)區(qū)域不同,且工作日的不同時(shí)間居民出行的特征不同;在工作日,出租車的載客熱點(diǎn)數(shù)比非工作日多;而載客熱點(diǎn)分布,工作日比非工作日分散。該聚類結(jié)果也可以給出租車司機(jī)提供歷史載客熱點(diǎn)序列,從一定程度上解決巡游方式的出租車空載率高的問題。

3 結(jié)束語

本文利用DBSCAN算法對(duì)出租車的歷史GPS軌跡數(shù)據(jù)進(jìn)行挖掘,從挖掘結(jié)果可以分析出居民出行的時(shí)空特征,從而用來對(duì)目前的交通出行情況進(jìn)行評(píng)估,同時(shí)也可以用來對(duì)居民的出行需求進(jìn)行預(yù)測(cè);再者,可以根據(jù)挖掘結(jié)果給出租車司機(jī)提供歷史載客熱點(diǎn)序列,幫助出租車司機(jī)降低空駛率。本文僅針對(duì)工作日和周末特定時(shí)刻給出了聚類分析,沒有詳細(xì)地分析一天中不同時(shí)刻的居民出行特征,以后的工作中會(huì)繼續(xù)研究和改進(jìn)。

參考文獻(xiàn)(References):

[1] 衛(wèi)龍,高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進(jìn)展[J].西部交通科技,2016.10:87-92

[2] 馮琦森.基于出租車軌跡的居民出行熱點(diǎn)路徑和區(qū)域挖掘[D].重慶大學(xué),2016.

[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區(qū)識(shí)別――廣州市浮動(dòng)車GPS時(shí)空數(shù)據(jù)挖掘[J].地理學(xué)報(bào),2016.3:471-483

[4] 張俊濤,武芳,張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學(xué),2015.6:104-108

[5] 張薇,林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè),2015.7:61-64

[6] 趙苗苗.基于出租車軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué)碩士學(xué)位論文,2015.

篇(8)

1 數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中四棟搜索隱藏于其中的具有特殊關(guān)系性的信息過程。它是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)KDD中的一個(gè)步驟。知識(shí)發(fā)現(xiàn)KDD過程由以下3個(gè)階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表示和解釋。數(shù)據(jù)挖掘跟許多學(xué)科都交叉關(guān)聯(lián),包括數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、人工智能、云計(jì)算和可視化等。

數(shù)據(jù)挖掘的實(shí)際應(yīng)用功能可分為三大類和六分項(xiàng):分類和聚類屬于分類去隔類;回歸和時(shí)間序列屬于推算預(yù)測(cè)類;關(guān)聯(lián)和序列則屬于序列規(guī)則類。分類常被用來根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分好的數(shù)據(jù)來研究它們的特征,然后再根據(jù)這些特征對(duì)其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測(cè)。聚類是將數(shù)據(jù)分群,其目的是找出群間的差異來,同時(shí)找出群內(nèi)成員間相似性。回歸是利用一系列的現(xiàn)有數(shù)值來預(yù)測(cè)一個(gè)數(shù)值的可能值。基于時(shí)間序列的預(yù)測(cè)與回歸功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測(cè)未來的數(shù)值。關(guān)聯(lián)是要找出在某一事件與數(shù)據(jù)中會(huì)同時(shí)出現(xiàn)的東西。

2 降維

從降維的角度講,整個(gè)數(shù)據(jù)挖掘的過程就是一個(gè)降維的過程。在這個(gè)過程中,需要對(duì)數(shù)據(jù)刪除線性關(guān)系比較強(qiáng)的特征數(shù)據(jù),再用一些算法,如信號(hào)分析算法、傅里葉轉(zhuǎn)換、離散小波轉(zhuǎn)換等算法,從數(shù)據(jù)中提取特征,再對(duì)數(shù)據(jù)做主成分析處理,得到最后的特征,再用數(shù)據(jù)挖掘算法來將這些特征轉(zhuǎn)化為人類可讀取的數(shù)據(jù)或信息。

3 分布式數(shù)據(jù)挖掘解決方案

隨著分布式計(jì)算技術(shù)、云計(jì)算技術(shù)、hadoop生態(tài)圈和非結(jié)構(gòu)化數(shù)據(jù)庫等技術(shù)的發(fā)展,以及對(duì)大數(shù)據(jù)挖掘的需求,出現(xiàn)了一批分布式數(shù)據(jù)挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學(xué)伯克利分校AMP實(shí)驗(yàn)室推出的基于Spark的MLBase。在Mahout中主要實(shí)現(xiàn)3種類型的數(shù)據(jù)挖掘算法:分類、聚類(集群)和協(xié)同過濾。相比Mahout而言,MLbase更好的支持迭代計(jì)算,它把數(shù)據(jù)拆分成若干份,對(duì)每一份使用不同的算法和參數(shù)運(yùn)算出結(jié)果,看哪一種搭配方式得到的結(jié)果最優(yōu)。

4 大數(shù)據(jù)下的具體應(yīng)用實(shí)例――生物信息學(xué)的應(yīng)用

生物信息學(xué)(Bioinformatics)是生命科學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)和數(shù)學(xué)等學(xué)科交匯融合形成的一門交叉學(xué)科。近年來隨著先進(jìn)儀器裝備與信息技術(shù)等越來越廣泛和深入的整合到生物技術(shù)中來,生物醫(yī)學(xué)研究中越來越頻繁的涉及到大數(shù)據(jù)存儲(chǔ)和分析等信息技術(shù)。在使用計(jì)算機(jī)協(xié)助生物信息時(shí),處理僅有計(jì)算機(jī)輔助的方式存儲(chǔ)數(shù)據(jù)很顯然是不夠的,生物信息學(xué)研究的目的是運(yùn)用計(jì)算機(jī)強(qiáng)大的計(jì)算能力來加速生物數(shù)據(jù)的分析,理解數(shù)據(jù)中所包含的生物學(xué)意義。當(dāng)前生物信息學(xué)研究的熱點(diǎn)有:

(1)由以序列分析為代表的組成分析轉(zhuǎn)向功能分析。

(2)由對(duì)單個(gè)生物分子的研究轉(zhuǎn)向基因調(diào)控忘了等動(dòng)態(tài)信息的研究。

(3)完整基因組數(shù)據(jù)分析。

(4)綜合分析。

生物信息數(shù)據(jù)具有如下特點(diǎn):高通量與大數(shù)據(jù)量;種類繁多,形式多樣;異構(gòu)性;網(wǎng)絡(luò)性與動(dòng)態(tài)性;高維;序列數(shù)據(jù)等特點(diǎn)[5]。針對(duì)這樣的生物數(shù)據(jù)信息,要結(jié)合當(dāng)前的大數(shù)據(jù)分析方法進(jìn)行分析和理解。當(dāng)前數(shù)據(jù)挖掘?qū)崿F(xiàn)對(duì)生物信息分析的支持主要有:生物數(shù)據(jù)的語義綜合,數(shù)據(jù)集成;開發(fā)生物信息數(shù)據(jù)挖掘工具;序列的相似性查找和比較;聚類分析;關(guān)聯(lián)分析,生物文獻(xiàn)挖掘等方面。

參考文獻(xiàn)

[1]許凡.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)探討[J].電子技術(shù)與軟件工程,2015(08).

[2]洪松林.數(shù)據(jù)挖掘技術(shù)與工程實(shí)踐[M].北京:機(jī)械工業(yè)出版社,2014(11).

[3]李榮.生物信息數(shù)據(jù)挖掘若干關(guān)鍵問題研究與應(yīng)用[D].復(fù)旦大學(xué)(博士論文),2004(11).

[4]宋杰.生物信息數(shù)據(jù)挖掘中的若干方法及其應(yīng)用研究[D].大連理工大學(xué)(博士論文),2005(04).

[5]孫勤紅.基于梯度采樣局部收斂的生物信息大數(shù)據(jù)挖掘[J].科技通報(bào),2015(10).

作者簡(jiǎn)介

孫勤紅(1979-),女,山東省人。現(xiàn)為三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院講師。研究方向?yàn)槿斯ぶ悄堋?shù)據(jù)挖掘。

篇(9)

數(shù)據(jù)挖掘技術(shù)作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識(shí)別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的知識(shí),也就是從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究?jī)?nèi)容,已經(jīng)開始被應(yīng)用于行政管理、醫(yī)學(xué)、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當(dāng)中,在保護(hù)設(shè)備故障信息管理方面發(fā)揮出了積極的作用。

一、數(shù)據(jù)挖掘技術(shù)的概念

隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的有用信息和知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當(dāng)前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險(xiǎn)業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場(chǎng)營銷等不同的領(lǐng)域,隨著計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進(jìn)步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲(chǔ)在不同的數(shù)據(jù)庫當(dāng)中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對(duì)這些海量的信息數(shù)據(jù)進(jìn)行分析處理,不僅會(huì)浪費(fèi)大量的實(shí)踐而且也很難挖掘到有效的信息數(shù)據(jù),同時(shí),盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識(shí)瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨(dú)特的優(yōu)勢(shì)。從不同的角度進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹方法等。

二、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法

1.基本原理。在設(shè)備出現(xiàn)故障時(shí)采用數(shù)據(jù)挖掘技術(shù)對(duì)設(shè)備進(jìn)行一系列的故障診斷,也就是說根據(jù)這一設(shè)備的運(yùn)行記錄,對(duì)其運(yùn)行的趨勢(shì)進(jìn)行預(yù)測(cè),并對(duì)其可能存在的運(yùn)行狀態(tài)進(jìn)行分類,故障診斷的實(shí)質(zhì)就是一種模式識(shí)別方式,對(duì)機(jī)器設(shè)備的故障進(jìn)行診斷的過程也就是該模式匹配和獲取的過程。

2.對(duì)故障診斷的數(shù)據(jù)挖掘方法建模。針對(duì)機(jī)械故障的診斷來說,首先就應(yīng)當(dāng)獲取一些關(guān)于本機(jī)組的一些運(yùn)行參數(shù),既要包括機(jī)器在正常運(yùn)行以及平穩(wěn)工作時(shí)的信息數(shù)據(jù),也應(yīng)當(dāng)包括機(jī)器在出現(xiàn)故障時(shí)的一些信息數(shù)據(jù),在現(xiàn)場(chǎng)的監(jiān)控系統(tǒng)中往往就會(huì)存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時(shí)的不同運(yùn)行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對(duì)故障的模式進(jìn)行劃分時(shí),我們通常可以借助概率統(tǒng)計(jì)的方式,在對(duì)故障模式進(jìn)行識(shí)別時(shí)可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實(shí)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類所需要用到的一些規(guī)則,從而最終達(dá)到分類的目的,依據(jù)這些規(guī)則,就可以對(duì)一些新來的數(shù)據(jù)進(jìn)行判斷,而且可以準(zhǔn)確地對(duì)故障進(jìn)行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。

三、數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能

1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個(gè)子站的一個(gè)數(shù)據(jù)匯總,而保護(hù)設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進(jìn)行數(shù)據(jù)的處理時(shí)又能做到不影響原先分站數(shù)據(jù)庫的正常運(yùn)行,并且具備抗干擾能力強(qiáng)、計(jì)算效率高的優(yōu)點(diǎn)。

2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運(yùn)行時(shí),會(huì)從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對(duì)這些采集到的數(shù)據(jù)進(jìn)行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對(duì)龐大的故障數(shù)據(jù)進(jìn)行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對(duì)信息進(jìn)行有效地存儲(chǔ)和分類。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢的功能,可以進(jìn)行不同條件下的查詢,例如按時(shí)間段、報(bào)告類型、設(shè)備型號(hào)以及單位等進(jìn)行查詢,實(shí)現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產(chǎn)繼電保護(hù)動(dòng)作的分析報(bào)告,主要包括對(duì)故障過程的簡(jiǎn)述、故障切除情況以及保護(hù)動(dòng)作情況等,可以便于繼電保護(hù)人員直觀的對(duì)保護(hù)裝置的動(dòng)作情況進(jìn)行分析。

四、結(jié)語

隨著企業(yè)自動(dòng)化程度的不斷提高以及數(shù)據(jù)庫技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測(cè)系統(tǒng),對(duì)設(shè)備運(yùn)行過程中的一些重要參數(shù)和數(shù)據(jù)進(jìn)行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識(shí)獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實(shí)證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學(xué)習(xí)的新型技術(shù)手段。

參考文獻(xiàn):

[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[j].電力自動(dòng)化設(shè)備,2011,9

篇(10)

一、系統(tǒng)架構(gòu)及技術(shù)分析

系統(tǒng)架構(gòu)主要由數(shù)據(jù)倉庫系統(tǒng)、模型庫系統(tǒng)、知識(shí)庫系統(tǒng)及可視化接口4部分構(gòu)成。采用的關(guān)鍵技術(shù)是數(shù)據(jù)倉庫技術(shù)(DW)、數(shù)據(jù)挖掘技術(shù)(DM)、在線分析處理技術(shù)(OLAP)。

(一)數(shù)據(jù)倉庫的作用

電子政務(wù)的決策過程是一個(gè)從非結(jié)構(gòu)化數(shù)據(jù)中抽取結(jié)構(gòu)化信息,再提供非結(jié)構(gòu)化決策分析結(jié)果的過程。因此,為了營造良好的電子政務(wù)決策數(shù)據(jù)環(huán)境,獲得高質(zhì)量的數(shù)據(jù)分析結(jié)果,建立適合政府決策的數(shù)據(jù)倉庫系統(tǒng)是電子政務(wù)決策支持系統(tǒng)的關(guān)鍵環(huán)節(jié),以確保政務(wù)系統(tǒng)中的數(shù)據(jù)能夠更好地發(fā)揮分析、決策的作用。這種數(shù)據(jù)倉庫系統(tǒng)的功能要能向兩個(gè)不同方向拓展,一是廣度計(jì)算,二是深度計(jì)算。廣度計(jì)算是使數(shù)據(jù)倉庫系統(tǒng)的應(yīng)用范圍盡量擴(kuò)大,能基本涵蓋市級(jí)政府決策、服務(wù)的領(lǐng)域;深度計(jì)算使數(shù)據(jù)倉庫系統(tǒng)克服了以往數(shù)據(jù)庫簡(jiǎn)單數(shù)據(jù)操作處理(即事務(wù)處理)的缺點(diǎn),對(duì)數(shù)據(jù)處理提出了更高的要求,使其能更多地參與政府對(duì)數(shù)據(jù)分析和決策的制定等工作。

(二)模型庫系統(tǒng)的功能

模型庫系統(tǒng)包括模型庫及其管理系統(tǒng),模型庫是一個(gè)包含有財(cái)務(wù)、統(tǒng)計(jì)、運(yùn)籌和其他定量模型的軟件包,存放解決行政管理問題的經(jīng)驗(yàn)?zāi)P停菫闆Q策提供分析能力的部件,給予決策者通過推理、比較、選擇來分析、預(yù)測(cè)和解答整個(gè)問題的能力。因此,研究一些決策支持模型,建立一個(gè)政府決策的模型庫系統(tǒng)是完成系統(tǒng)的關(guān)鍵環(huán)節(jié)之一。這種模型庫系統(tǒng)應(yīng)具有以下兩個(gè)特點(diǎn),一是能實(shí)現(xiàn)多目標(biāo)決策;二是能實(shí)現(xiàn)多領(lǐng)域、多部門、多用途的決策,即按經(jīng)濟(jì)內(nèi)容來看應(yīng)具有預(yù)測(cè)類模型、綜合平衡模型、結(jié)構(gòu)優(yōu)化模型、經(jīng)濟(jì)控制類模型等,按決策活動(dòng)來看應(yīng)有規(guī)劃模型、推理模型、分析模型、預(yù)測(cè)模型、評(píng)估模型等。

(三)知識(shí)庫系統(tǒng)的功能

知識(shí)庫系統(tǒng)包括知識(shí)庫及知識(shí)庫管理系統(tǒng),其功能是對(duì)知識(shí)進(jìn)行系統(tǒng)化組織與管理,存儲(chǔ)、增加、刪除、修改和查詢知識(shí),以及對(duì)知識(shí)進(jìn)行一致性和完整性校驗(yàn)。知識(shí)庫與數(shù)據(jù)庫既有區(qū)別又有聯(lián)系,從知識(shí)的邏輯表示觀點(diǎn)來看,關(guān)系數(shù)據(jù)庫是一種簡(jiǎn)單的知識(shí)庫,數(shù)據(jù)庫中的每一個(gè)關(guān)系是一個(gè)原子公式,即一個(gè)謂詞,關(guān)系中的元組即是知識(shí)中的事實(shí),因此利用關(guān)系數(shù)據(jù)庫來建造知識(shí)庫,就可以充分利用關(guān)系數(shù)據(jù)庫管理系統(tǒng)的功能,便于知識(shí)庫管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。

(四)可視化接口

可視化接口包括預(yù)測(cè)、分析、查詢和維護(hù)等4個(gè)子系統(tǒng)。通過數(shù)據(jù)分析和預(yù)測(cè)工具對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維分析、匯總,結(jié)果可以用二維表、餅圖、折線圖和直方圖表示。

二、數(shù)據(jù)挖掘的技術(shù)工具和基本過程

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘常用的技術(shù)有神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、近鄰算法和規(guī)則推導(dǎo)等。數(shù)據(jù)挖掘常用的工具有:

第一,基于神經(jīng)網(wǎng)絡(luò)的工具。由于對(duì)非線性數(shù)據(jù)具有快速建模能力,神經(jīng)網(wǎng)絡(luò)很適合非線性數(shù)據(jù)和含噪聲數(shù)據(jù),所以在政府?dāng)?shù)據(jù)庫的分析和建模方面可以應(yīng)用。

第二,基于關(guān)聯(lián)規(guī)則和決策樹的工具。大部分?jǐn)?shù)據(jù)挖掘工具采用規(guī)則發(fā)現(xiàn)或決策樹分類技術(shù)來發(fā)現(xiàn)數(shù)據(jù)模式和規(guī)則,其核心是某種歸納算法。

第三,基于模糊邏輯的工具。其發(fā)現(xiàn)方法是應(yīng)用模糊邏輯進(jìn)行數(shù)據(jù)查詢、排序等。

第四,綜合多方法工具。不少數(shù)據(jù)挖掘工具采用了多種開采方法,這類工具一般規(guī)模較大,適用于大型數(shù)據(jù)庫或者并行數(shù)據(jù)庫。數(shù)據(jù)挖掘的基本過程包括數(shù)據(jù)準(zhǔn)備、模型搜索、結(jié)果分析和生成報(bào)告。

數(shù)據(jù)準(zhǔn)備:收集和凈化來自數(shù)據(jù)源的信息并加以存儲(chǔ),將其放入數(shù)據(jù)倉庫中。

模型搜索:利用數(shù)據(jù)挖掘工具在數(shù)據(jù)中查找模型,搜索過程可以由系統(tǒng)自動(dòng)執(zhí)行,也可以由用戶參與執(zhí)行。對(duì)于一個(gè)主題的搜索,可用神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、統(tǒng)計(jì)方法等。

上一篇: 醫(yī)保科年終總結(jié) 下一篇: 自我認(rèn)錯(cuò)檢討書
相關(guān)精選
相關(guān)期刊
久久久噜噜噜久久中文,精品五月精品婷婷,久久精品国产自清天天线,久久国产一区视频
伊人久久福利中文字幕 | 色色影院五月婷婷 | 午夜性色福利免费视频在线播放 | 色综合天天狠天天透天天伊人 | 中文字幕欧美自拍 | 日韩视频中文字暮 |