時間:2023-03-23 15:05:43
序論:好文章的創作是一個不斷探索和完善的過程,我們為您推薦十篇大數據技術范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
大數據(Big Data)是目前最重要的科學、技術和社會話題。借用IDC數據公司的定義:“大數據是一種新一代的技術和架構,具備高效率的捕捉、發現和分析能力,能夠經濟地從類型繁雜、數量龐大的數據中挖掘出色價值。”
大數據定義有著如下的基本前提和含義。
① 大量的數據:大數據概念源于數據的爆炸性增長。用世界著名的咨詢公司高德納(Gartner)研究報告的描述:“同一類型的數據量快速增長;數據增長速度的加快;數據多樣性、新數據來源和新數據種類的不斷增加。”
② 多種類型數據積累:新的數據存儲和數據采集的技術發展使巨量數據的采集、收集、存儲成為可能。網絡技術、移動設備、數字傳感器、數碼攝影/攝像、監控影像、衛星定位系統、遙感技術、氣候和環境監測技術等等,每時每刻都在各種形式、各種類型的大量數據。
③ 計算技術的進步與發展:現代計算技術、網絡技術、多媒體技術和數據庫處理技術等可以處理各種形式的海量數據,產生出大量的高附加值的數據、結果、狀態和知識。
④ 數據處理能力成為戰略能力:數據量的激增、數據類型的多樣、技術平臺對數據的綜合處理,造成了知識邊界擴展、知識價值提升、知識衍生能力加快,它極大地影響到了企業、個人、社會和政府的決策,極大地促進了社會生產力的發展,使掌握大數據技術者獲得了競爭優勢和難于模仿的核心競爭力。因此,大數據技術也成為了國家的核心戰略資源。
大數據的含義廣博、技術領域廣泛、技術平臺多樣、作用效果巨大、影響意義深遠。理解大數據的理論、方法和架構,適應大數據的變革與發展,分享大數據所帶來的種種便利和收益,便能夠在大數據時代占領先機。
1.2 大數據對數據庫技術的影響
大數據的宗旨是處理數據,數據庫技術自然占據核心地位。而大數據環境下的數據庫技術也具有明顯的特殊性。
1.2.1 大數據環境下數據處理技術面臨的新特點
數據量宏大。對數據庫技術影響最大、最直接的方面莫過于數據的爆炸性增長。即使先不考慮數據類型的變化,需要處理的數據從MB擴展到GB,現在再擴展到TB,不遠的將來數據庫將經常面對PB量級的數據,這必然對數據庫的硬件架構、數據庫系統結構和數據庫應用產生重大的影響。
數據形式多樣。另外一個對數據庫技術產生重要影響的因子是數據的多樣化,傳統數字、圖像、照片、影像、聲音等多種數據資源需要進行處理,并且和傳統關系式數據不同的,許多數據格式中的有價值數據并不多,例如多張圖片定對象的變化,連續視頻影像中對特殊對象的跟蹤等等,其數據抽取方式、過濾方法和存儲、計算方式均有別于傳統數據庫。
單機或小型局域網的數據庫處理無法滿足。當前,數據量爆炸式增長,數據類型日趨多樣,傳統關系數據庫的處理能力已難于滿足,需要新的數據庫處理技術。
傳統的并行數據庫的靈活性具有局限性。并行數據庫系統取得了輝煌的成績,但是它的靈活性不佳,彈性受限,系統規模的收縮或擴展成本非常高。這樣的系統適合于“相對固定結構”的計算結構,例如機銀行業務管理系統或城市交通管理系統等。
結構化、半結構化與非結構化形式并存。讓數據庫有能力處理這些半結構化和非結構化(有時不作區分)數據變成了新型數據庫技術的一項迫切要求。
對結果要求的模糊化。在大數據的時代,計算技術不僅限于回答“是/非”問題,而是需要更多的模糊化結果。例如,流感有很可能在一周后流行、近期可能發生5級左右地震、近一周國際往返機票將上漲……這些答案并不精確,但足以指導人們的活動。非結構化數據的處理結果常常是給出模糊化的答案。
新數據庫技術的出現與挑戰。新需求的出現,促使了新技術的產生,為處理非結構化數據,Apache、Google、Amazon等公司分別開發了適應各自需要的新型數據庫系統,相關的專家經過分析和總結提出了NoSQL的設計理念,并創建了許多成功的產品。
1.2.2 新型數據庫技術的特點
與傳統數據庫技術相比較,新型數據庫技術具有一些明顯的特點,具體如下:
可處理的數據總量和數據類型增加。不再為數據結構化或數據代表性而人為地選取部分數據或進行數據抽樣;不再靠樣本規模的大小來控制結果的置信區間和置信度。新的數據庫處理技術試圖利用“全部數據”,完成對結果的計算和推斷。
使用更多的非結構化數據,而不是片面地強調全部使用結構化數據。在非結構化的高復雜度、高數據量、多種數據類型的情況下,允許結論和結果的“不精確”,允許追求“次優解”。體現大數據技術“以概率說話”的特點。
不再試圖避免或降低數據的混雜性,而是把“使用全部數據”作為追求“次優解”的途徑。即在復雜、混亂、無結構化與確定、規整、結構化數據之間做出平衡。
在遇到“使用全部數據,得出模糊化結果”與“實用部分數據,得出準確結論”的選擇時,新型數據庫技術一般會選擇前者,從一個更全面的角度利用更多的數據資源去尋找答案。
科學地在因果關系與相關關系中做出抉擇。如果數據總體支持因果關系的判別和斷言,則像傳統數據庫那樣提供因果關系斷語;如果數據計算量宏大、成本高昂或條件不具備,則把關注點由“因果關系”調整為“相關關系”——將追求“最優解”變為追求“次優解”或“模糊解”。自然地,這種相關關系的選擇不能是隨機的,而是預先設計和規劃好的。
不同的數據庫開發理念,不同的應用目標,不同的技術方案,早就了新型數據庫豐富多彩、特點各異的局面。
1.3 從傳統關系數據庫到非關系數據
在計算機系統結構剛剛趨于穩定的1970年,IBM公司的Edgar Codd(科德)首先提出了關系數據庫的概念和規則,這是數據庫技術的一個重要的里程碑。科德定義的關系數據庫具有結構化程度高、數據冗余量低、數據關系明確、一致性好的優點。關系數據庫模型把數據庫操作抽象成選擇、映射、連接、集合的并差交除操作、數據的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結構化查詢語言則把關系數據庫及其操作模式完整地固定下來,其理論和做法延續至今,被作為數據庫技術的重要基石。關系數據庫中定義的關系模型的實質是二維表格模型,關系數據庫就是通過關系連接的多個二維表格之間的數據集合。當前流行的數據庫軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關系數據庫。
到二十世紀八十年代后期,IBM的研究員提出了數據倉庫(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數據倉庫定義:“數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理中的決策制定。”數據倉庫的進步在于,它把決策支持定為數據庫中數據組織和管理的目標,從而把智能性和決策能力融入到數據庫中。Inmon之后,Ralph Kimball建立了更加方便、實用的“自底向上”數據倉庫架構并稱之為“數據集市”(Data Mart),這種技術受到企業及廠家的歡迎并采納實施。雖然數據集市被歸并為數據倉庫,但是它的出現誘發了商務智能和聯機分析技術的流行。
一、分布集群數據庫在大數據中的應用
目前,許多數據增長率很高的大型數據庫系統正被用于改善全球人類活動,如通信、社交網絡、交易、銀行等,分布集群數據庫已成為提高數據訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數據訪問,分布集群數據庫的問題不僅在于如何管理大量的數據,而且在于如何組織分布式存儲中的數據模式。智能數據組織是提高檢索速度、減少磁盤I/O數量、縮短查詢響應時間的最佳方法之一。基于規則的聚類是提供數據庫自動聚類和數據存儲模式解釋的解決方案之一,基于規則的集群通過分析屬性和記錄上的數據庫結構,將數據模式表示為規則。使用不同規則池分區的每個集群,每個規則與內部集群中的規則相似,與外部集群中的規則不同。分布集群數據庫是一種有向圖結構的進化優化技術,用于數據分類,在緊湊的程序中具有顯著的表示能力,這源于節點的可重用性,而節點本身就是圖形結構的功能。為了實現基于規則的集群,分布集群數據庫可以通過分析記錄來處理數據集的規則提取。分布集群數據庫的圖形結構由三種節點組成:起始節點、判斷節點和處理節點。開始節點表示節點轉換的開始位置;判斷節點表示要在數據庫中檢查的屬性。分布集群數據庫規則提取的節點準備包括兩個階段:節點定義和節點排列。節點定義的目的是準備創建規則,節點排列是選擇重要的節點,以便高效地提取大量規則。節點排列由以下兩個順序過程執行,第一個過程是查找模板規則,第二個過程是結合第一個過程中創建的模板生成規則。提取模板以獲得數據集中經常發生的屬性組合。在模板提取過程中,分布集群數據庫規則提取中只使用了少數幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規則的方法相比,該節點排列方法具有更好的聚類結果,這兩個過程中的規則生成都是通過圖結構的演化來實現。
二、在線規則更新系統的應用
在線規則更新系統用于通過分析所有記錄從數據集中提取規則,在大數據應用中,每個節點都有自己的節點號,描述每個節點號的節點信息。程序大小取決于節點的數量,這會影響程序創建的規則的數量。起始節點表示根據連接順序執行的判斷節點序列的起始點,開始節點的多個位置將允許一個人提取各種規則。判斷節點表示數據集的屬性,顯示屬性索引。在大數據應用環節,從每個起始節點開始的節點序列用虛線a、b和c表示,節點序列流動,直到支持判斷節點的下一個組合不滿足閾值。在節點序列中,如果具有已出現在上一個節點序列,將跳過這些節點。在更新每個集群中的規則時,重要的是要找到與最新數據不匹配的屬性。因此,規則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數據之間的輪廓值時,閾值設置為0.85,只有輪廓值低于0.85的屬性。將為規則更新過程中的判斷節點的屬性選擇。一些數據的庫存值和權重值低于0.85,因此這些值不包括在國民生產總值的規則更新中。在線規則更新系統中包含用于更新規則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質量的錨定點,進而影響輪廓值。在線規則更新系統應用中,完成主要的規則提取過程,這是一個標準的規則提取,在線規則更新系統考慮到數據集中的所有屬性。執行該過程,對初始數據集進行初始集群;改善規則更新過程,僅對輪廓值低于閾值的數據執行。
三、大規模并行處理技術的應用
中圖分類號:TP311.13
關于數據方面的新名詞是層出不窮,云計算、物聯網的概念還沒有完全理解,大數據的概念又頻頻出現在媒體中,特別是今年“兩會”期間,在央視報道中,多次使用大數據進行實時分析。大數據的概念從計算機業界也迅速傳播到各行各業,與我們的日常生活也密切的聯系在一起。不但中國如此,2012年3月,奧巴馬宣布美國政府五大部門投資兩億美元啟動“大數據研究與開發計劃”,【1】大力推動大數據相關的收集、儲存、保留、管理、分析和共享海量數據技術研究,以提高美國的科研、教育與國家安全能力,美國政府以及把“大數據”技術上升到國家安全戰略的高度。其他國家也紛紛加大對大數據研究的資金投入,同時,許多大公司企業也將此技術視作創新前沿。
1 大數據概念與特征
但是,到目前為止,業界關于大數據的概念尚未有統一的定義。最早將大數據應用于IT環境的是著名的咨詢公司麥肯錫,它關于大數據的定義是這樣的:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。另外,被引用較多得到大家認可的還有維基百科的定義:大數據指數量巨大、類型復雜的數據集合,現有的數據庫管理工具或傳統的數據處理應用難以對其進行處理。這些挑戰包括如捕獲、收集、存儲、搜索、共享、傳遞、分析與可視化等。【2】
當前,較為統一的認識是大數據有四個基本特征:數據規模大(Volume),數據種類多(Variety),數據要求處理速度快(Velocity),數據價值密度低(Value),即所謂的四V特性。這些特性使得大數據區別于傳統的數據概念。【3】
首先,數據量龐大是大數據的最主要的特征,大數據的數據規模是以PB、EB、ZB量級為存儲單位的,數據量非常龐大。同時,此類數據還在不斷的加速產生,因此,傳統的數據庫管理技術無法在短時間內完成對數據的處理。第二,數據種類多。與傳統的數據相比,大數據的數據類型種類繁多,包括了結構化數據、半結構化數據和非結構化數據等多種數據類型。傳統的數據庫技術采取關系型數據庫較多,結構單一,而大數據重點關注的是包含大量細節信息的非結構化數據,因此傳統數據庫技術不能適應新的大數據的要求,傳統的數據處理方式也面臨著巨大的挑戰。第三,大數據的產生與存儲是動態的,有的處理結果時效性要求很高,這就要求對數據能夠快速處理,數據處理速度快也是大數據區別數據倉庫的主要因素。數據產生的速度以及快速變化形成的數據流,超越了傳統的信息系統的承載能力。最后,數據價值密度低是大數據關注的非結構化數據的重要屬性。大數據分析是采用原始數據的分析,保留了數據的全貌,因此一個事件的全部數據都會被保存,產生的數據量激增,而有用的信息可能非常少,因此價值密度偏低。
2 大數據可用性的面臨的技術與問題
大數據并不僅僅指其數據量之大,更代表著其潛在的數據價值之大。有研究證明,有效地管理、使用大數據能夠給企業提供更多增強企業生產能力和競爭能力的機會,能夠給企業帶來巨大的潛在商業價值。【4】但不可否認的是,大數據目前也面臨很多負面影響。低質量低密度的數據也可能對決策造成致命性的錯誤。如何把大數據從理論研究到企業應用的轉變,還面臨很多問題與挑戰。
(1)可用性理論體系的建立。大數據的可用性需要完整的理論做支撐,才能解決諸如如何形式化的表示數據可用性、如何評估數據可用性、數據錯誤自動發現和修復依據什么理論、如何管理數據和數據融合、數據安全性采取何種策略和理論等一系列問題。因此,要建立完整可用性理論體系,構建統一的模型,為大數據的進一步應用提供堅實的理論基礎。
(2)高質量數據的獲取的能力。大數據技術最基礎的對象就是數據,是一切應用和分析決策的前提。因此,獲取高質量數據是確保信息可用性的重要因素之一。隨著互聯網的數據不斷增大,物聯網的興起以及復雜物理信息系統的應用,大數據的來源也多種多樣,數據模型千差萬別,質量也參差不齊,這就為加工整合數據帶來非常大的困難。
大數據是對事物最原始的全貌記錄,數據量規模很大,但是其中有用的信息非常少,因此,對于處理數據來說,數據并不是越多越好。如何提高數據中的有效數據是非常關鍵的。大量的數據中如果僅僅包含了少量的錯誤數據,對分析結果可能不會造成很大的影響。但是如果對錯誤數據沒有有效控制的話,大量錯誤數據的涌入很可能會得到完全錯誤的結果。
因此,獲取高質量數據的能力是大數據能否進行實用的關鍵因素,否則只會在浪費人力物力后獲得完全無效甚至錯誤的結果。但是目前還缺乏系統的研究,對于出現的問題還沒有很好的解決方案,在獲取數據方面的工作任重而道遠。
目前,業界已經從對大數據重要性的認識階段,發展到實踐大數據必要性的戰略實施階段。中國市場在大數據概念產生的初期便已經步入大數據認知和探索階段,并逐步成為全球市場最具行動力的市場之一。據IDC預測,2013年中國大數據市場將達到1.8億美元。而賽迪顧問數據顯示,到2016年,中國有望成為世界最大的大數據市場,市場份額達到8.03億美元(約50億人民幣)。
數據改變世界
在感知化、物聯化和智能化的交會下,世界的面貌即將改變。
2013年7月11日,IBM 2013技術峰會(IBM Tech Summit 2013)在京舉行。牛津大學教授、大數據權威專家、《大數據時代》作者維克托·邁爾-舍恩伯格博士在會上表示:“大數據開啟了一次重大的時代轉型,正在變革我們的生活、工作和思維。中國是世界上最復雜的大數據國家,面臨著充滿變化的局面和無限的可能性,但是她同時也擁有最大的發展機會。因為在大數據環境下,充分的數據樣本能夠幫助企業揭示規律,更好的洞察和預測未來;另外,中國人憑借在數學和統計方面的優勢,成為全球矚目的大數據人才據點。我很高興看到,在IBM和牛津大學年初的大數據調研中,中國市場有四分之一的企業已經步入大數據實踐階段。這表明中國不僅快速把握了創新的趨勢,更有可能成為全球大數據領域的先驅。”
在大數據和分析領域,IBM已充分展現了在該市場的領先優勢。近期,IBM被IT分析機構capioIT評為2013年亞太區商業智能和分析解決方案供應商行業第一名 。作為目前業界唯一能夠集咨詢、服務、軟硬件綜合實力,提供端到端全面整合解決方案的廠商,IBM相關產品和服務覆蓋了“大數據”相關領域的各個階段和各個領域。
IBM軟件集團大中華區戰略及市場總監吳立東認為:在大數據時代,企業既可以基于數據更好地做到以客戶為中心,也可以利用大數據幫助企業整合后端業務,從而更好地為客戶服務。
同時,IBM在全球的大數據實踐已經深入到包括中國在內的全球市場的各個行業。包括電信、金融、醫療、零售、制造等全球30000家客戶已在IBM大數據平臺及大數據分析等技術和理念支持下獲得收益。
前不久,IBM更是推出了大數據方面的多款產品和技術,大力提升了其分析產品的加速性能,簡化了開發和運營,并推出了企業級別的開源Hadoop系統,同時推出了企業移動業務解決方案MessageSight,以及升級DB2 10.5等系列產品。在認知計算領域,更推出第一款面向消費者的Waston應用。其中,業內首創的分析加速技術BLU Acceleration,延續了傳統的內存管理系統功能,能夠幫助用戶更快速地抓取關鍵信息,并將數據分析速度提高25倍。全新的“大數據專家”PureData for Hadoop系統能夠大幅提升企業部署Hadoop的速度,同時降低部署難度。新版本企業級Hadoop產品InfoSphere BigInsights可以利用現有的SQL技術,更便捷地開發應用組件。
技術維新助力再現代化
隨著IT技術的進一步發展,技術正在彰顯著前所未有的特殊作用,人們對技術的追求也越來越迫切。
IBM全球副總裁兼大中華區軟件集團總經理胡世忠表示:“最新的IBM全球CEO調研顯示全球企業領導者將技術列為最重要的外部力量,而‘科技是第一生產力’一直被廣大中國的企業家和技術人們奉為至理名言。IBM認為,在由新一代技術組成的智慧計算時代,中國的企業家們需要更為戰略地思考信息科技的定位,將其運用到自身的變革轉型之中。作為智慧地球的推進者,IBM正在引領商業和科技的創新,通過業務前線化實現以客戶為中心的業務轉型,通過企業內部全面整合大幅優化流程和運營,充分發揮最新的科技能力,攜手合作伙伴幫助中國企業、組織和政府共同打造‘再現代化’發展的全新方式。”
顯然,這三大經典的技術信條在大數據時代面臨動搖,
技術信徒的思維模式也即將發生顛覆。
那么,大數據對技術信徒意味著什么?
他們又將如何面對這一顛覆性的變革?
“技術匯成一條大河,一波推動另外一波。”IBM中國開發中心首席技術官兼新技術研發中心總經理毛新生帶著對技術的滿腔癡迷這樣形容道。
一波未平一波又起,移動、社交商務、云計算、大數據等先后涌現的新趨勢正在融合成一股巨大的潮流,將所有的行業IT化,進而推動商業和社會的演進。這也就意味著“科技是第一生產力”在當下有了更深層次的涵義——“IBM認為,在由新一代技術組成的智慧運算時代,中國的企業家們需要更為戰略地思考信息科技的定位,將其運用到自身的變革轉型之中。” IBM全球副總裁兼大中華區軟件集團總經理胡世忠為企業新發展出謀獻策。
由2012年的“軟件技術峰會”改名為2013年的“技術峰會”,在這么一個盛會上,IBM試圖展示的內容涵蓋范圍更為廣泛——移動應用、大數據、云計算、DevOps軟件持續交付、應用整合、社交商務、專家集成系統等熱議話題,上百場技術主題演講、28場分論壇、22場動手實驗室和80個未來產品的現場演示,再加上被譽為“大數據時代的預言家”的《大數據時代》作者維克托·邁爾-舍恩伯格以及數十位來自IBM的院士、杰出工程師、相關領域的全球首席技術官和首席架構師的現場分享,IBM 2013技術峰會再次成為技術精英們關注的焦點。 大數據的新信條
《大數據時代》作者、牛津大學網絡學院互聯網治理與監管專業教授維克托·邁爾-舍恩伯格的出現著實讓場內數以萬計的技術信徒激動了一把。作為深刻洞察大數據給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預測網站的例子作為開場白,論證了大數據已經悄然在大眾的身邊出現并給他們的生活帶來改變。
“全體性、混雜性和相關性是大數據的三個主要特點,而且這三個特點是互相加強的。”維克托歸納出了大數據對應的思維變革。收集和分析更多的數據才能獲取足夠的數據隱含的細節,這些細節恰恰是隨機抽樣所錯失的。“干凈”的、高質量的數據不再是標的,大數據需要我們摒棄對宏觀上精確性的追求,轉而獲得微觀上的準確性,即接受混雜的數據。最重要的是,人們不再沉迷于追尋數據之間的因果關系,即不再糾結于為什么,而是直接獲得“是什么”的答案,并通過應用相關關系,更好地捕捉現在和預測未來——抽樣因錯失細節得不償失,盲目追求精確性已經過時,執著于因果關系喪失機遇。
如何在大數據時代生存?維克托指出了兩個關鍵點:一是意識到技術或者規模并不是成功的充分條件。遺忘規模經濟,因為它的效益會逐漸淡化。20年前,一個公司只有擁有上十萬臺的服務器才能提供搜索服務,但在大數據時代,由于云計算的便利性,不擁有實體服務器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數據分析。二是為了在大數據時代獲得勝利,大數據的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍色被谷歌選為搜索窗口的色彩,但藍色實際上有51種,而且這51種藍色人依靠裸眼無法明確區分,卻能在心理層面給人帶來不同的感受。經過大數據分析,谷歌發現原本由人工選出來的藍色會導致谷歌損失200億~300億美元的收入,因為這一種藍色并不最具備誘惑力,無法激起人們點擊的欲望。
大數據的力量需要具備大數據的思維模式,并有效利用大數據的工具去發掘。IBM杰出工程師、InfoSphere Stream高級開發經理James R Giles闡述了IBM對大數據的看法:“我們正一步步走到了一個新紀元——大數據時代。如同對待自然資源一樣,我們需要開掘、轉變、銷售、保護大數據資源;不同的是,大數據資源是無窮無盡的,我們不能任由大數據淹沒自己,而應該在獲得洞察需求的驅使下獲得價值。”
大數據的類型廣義而言有移動數據和靜態數據,還有結構性數據和非結構性數據,這對應著不同的處理方式。“技術人員的責任是,能夠去管理這些數據,能夠理解這些從不同的數據源而來、不同類型的數據,能夠分析這些數據,得出結論,讓其提供決策支持,為企業擁抱新的大數據時代提供技術支撐,以保證管理、安全、商業的持續性。” James R Giles號召技術人員積極行動,以大數據的思維模式展現技術的價值和魅力。
找到內在聯系
技術的趨勢總是融合,也只有有機融合才能形成合力,發揮更大的威力,而實現這一合力的前提是明確各個趨勢之間的內在聯系。
“實際上,社交商務、移動、大數據、云計算是一體化的。”毛新生建議技術人員用一個全面的、融合的范式來沉著看待和應對紛繁的熱點技術,理解這些熱點會如何影響整個IT的走向,進而明晰IT如何可以很好地支持各行各業的業務轉型和創新,“讓每個行業都可以從新的技術轉型當中獲得足夠的原動力”。
從貼近最終用戶的角度來看,移動技術、社交技術改變了商業機構與其雇員、客戶進行互動的方式。“就我個人的經歷而言,航空公司的移動應用可以提供更好的客戶交互。我是西北航空公司的粉絲,因為它家的移動應用服務很貼心,比如查詢航班信息、根據我的喜好預留位置、定制化地進行社交推薦等。”毛新生以一個普通消費者的感受證明了企業通過移動應用收集并利用用戶行為數據所帶來的服務質量的提升。
移動催生了“一種嶄新的服務交付端點”,即為用戶提供了更多樣化的服務體驗點,讓用戶隨時隨地可以利用碎片化的時間去獲得業務服務,也為企業帶來了全新的服務交付渠道。移動這個渠道提供了更為豐富的全樣性數據,在此基礎上,大數據分析就更可信。“移動所具備的碎片化特點會帶來更大量的用戶行為信息。當把所有的人的行為結合在一起,就可以做群體的社會性分析。社會性分析會得到比較準確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機會。”毛新生認為移動與大數據結合給企業提供了新的商業機會。
移動的設備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數據,這就是新的數據源,是它們引領我們來到維克托所描述的更為廣闊的大數據世界。
移動和社交商務的便捷性使得企業的整個業務流程變得非常自動化,用戶可以享受自助服務,對應到企業端就意味著業務流程對前端的需求要反應得更為迅速,也意味著各個業務系統之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務體驗,但跨部門和跨應用的整合實屬不易。進一步延伸開來,對用戶體驗的追求是無止境的,合作伙伴的API和服務可以作為補充,這即是“跨企業邊界”的行為。這種行為必然導致大規模的用戶訪問。這些整合和外部拓展都需要云計算提供靈活有效的基礎。沒有云計算,移動前端的體驗、大數據分析的效果都會大打折扣。“云的基礎設施使大規模互動、大規模數據處理、大規模應用可以更好地服務我們。”毛新生指出。
環境變化加速,競爭更加激烈,要求企業的反應速度越來越快,應用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應用和業務流程的設計、開發、部署、測試、維護的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發和運維結合起來,生命周期變得以天為周期,才能響應新的商業環境。”
“移動、云計算、大數據、社交商務之間的緊密聯系讓我們應該以整體的眼光來審視它們。”胡世忠堅信,它們的組合可以創造可持續的競爭優勢,可以迸發變革的力量。
至于一個企業應該從哪里下手來實現這一幅宏偉藍圖?毛新生給出的答案是:“每一個企業,因為它所處的行業或者特定的情況而擁有不同的切入點,有一些企業需要從移動開始,有一些企業需要從云計算開始,有一些企業需要從大數據開始,但是它們是不可分割的整體,只有綜合地運用它們,找到適合自己的切入點,一步一步腳踏實地,才能掌握先機,打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略。”
例如,銀行、保險、零售業這一類和最終消費者打交道的服務業在很大概率上需要先從移動、社交商務入手,從而使其有機會改善和用戶交互的過程。而以數據為生的行業會琢磨如何將自己的內容和資源數據增值,而傳統的運營基礎設施的重資產企業,會追求將資產數字化,得到數據并進行分析,以優化資產的生命周期管理來預防性地降低維護成本,這些企業是以大數據作為切入點的。還有一些企業希望跨行業整合進行業務創新,背后牽扯到它們自身現有的業務模式和新業務模式的整合,這種情況下需要以云的方式構建新的應用、服務、商業流程。
毛新生認為切入點不同只是表象,每一種場景到最后都是綜合性的運用,要把這幾個技術綜合運用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數據,這些新的數據和原有的交易數據和積累的數據結合起來做進一步的數據分析,這就是大數據分析。大數據分析以后可以做社交推薦、關聯推薦了。隨后,能不能跨界再實現更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數據量增大,用戶數增多,云的基礎設施可以讓成本更合理。“所以說,到最后都是綜合性的應用,盡管起點不一樣”,毛新生說。
對技術人員而言,IT就是交付業務流程的基礎,是信息化的工具。它的目標無非是優化業務流程或者創新業務流程。創新到達一定程度后,業務流程的量變會導致質變。“這就解釋了為何全球越來越多的CEO將技術視為驅動企業發展的首要因素。” IBM軟件集團大中華區中間件集團總經理李紅焰強調,技術人員有能力,也有責任將“看不見的技術轉變為看得見的享受”。
移動開發的轉變
在大數據的帶領下我們進入移動時代,企業有了新機遇,技術人員卻有了新挑戰。為什么移動開發和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術人員腦子里最主要的兩個問題。
IBM杰出工程師及IBM移動平臺首席架構師Greg Truty解答了這兩個疑問。他認為,很多企業現在所做的事情與在移動的狀態下做的事情是不一樣的,移動狀態下的任務和規劃更具有戰略性。移動應用是在不穩定的網絡上運行的,所占用的資源更少。用戶在移動設備上和非移動設備上的體驗是完全不一樣的,他們會希望在不穩定的網絡上仍然能夠獲得良好的體驗。企業現在需要思考的是,怎么樣把大量數據、大量體驗變成一些有意義的體驗。同時,移動管理的需求也不一樣了,開發的特性也不一樣了。比如對一個企業來說,移動開發周期更短,有更多設備需要支持,有更多開發方法可供選擇,也有更多的工具和庫可供選擇,這時候企業就需要仔細斟酌,哪些開發方法和工具是自己需要的。
自然而然,對于設備的管理也有了變化,因為應用變化了。“一直以來,客戶端服務器的應用架構是企業在使用的。你需要協調在服務器端的服務以及在客戶端的服務,挑戰非常大。你不可能強迫客戶運行你的應用,而必須能協調和兼容原有的系統。這是非常關鍵的一點。” Greg Truty強調了設備管理的重要性。
1.1什么是大數據
大數據概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數據量大(Volume)、數據種類多(Variety)和數據增長速度快(Velocity),最后一個C指的是處理、升級或利用大數據的分析手段比處理結構化數據要復雜的多(Complexity)。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像Map-Reduce一樣的并行計算框架將復雜的計算任務分配到“云”中成百上千的節點。
1.2大數據與云計算
大數據本身就是一個問題集,云計算技術是目前解決大數據問題集最重要最有效的手段。云計算提供了基礎的架構平臺,大數據應用在這個平臺上運行。目前公認為分析大數據集最有效手段的分布式處理技術,也是云計算思想的一種具體體現。
云計算是分布式處理、并行處理和網格計算的發展,或者說是這些計算機科學概念的商業實現。云計算將網絡上分布的計算、存儲、服務構件、網絡軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務, 實現了資源和計算的分布式共享和并行處理,能夠很好地應對當前互聯網數據量高速增長的勢頭。
1.3大數據與Hadoop
Hadoop是一個Apache的開源項目,主要面向存儲和處理成百上千TB直至PB級別的結構化、半結構化或非結構化的大數據。Hadoop提供的Map-Reduce能將大數據問題分解成多個子問題,并將它們分配到成百上千個處理節點之上,再將結果匯集到一個小數據集當中,從而更容易分析得出最后的結果。
Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強的靈活性、允許用戶自己修改代碼等特點,同時能支持海量數據的存儲和計算任務。這些特點讓Hadoop被公認為是新一代的大數據處理平臺。 Hadoop同樣具備出色的大數據集處理能力,在獲取、存儲、管理和分析數據方面遠遠超越傳統的數據庫軟件工具。Hadoop經常在構建大數據解決方案時被用作基礎構架軟件。
二、大數據技術綜述
大數據處理不僅僅是Hadoop,許多特定的數據應用場景是需要實時分析和互動反饋的,這時候就需要利用包括內存檢索、流處理和實時計算等其他技術。而云計算的分布式存儲和計算架構開啟了大數據技術研究的大門,打造健全的大數據生態環境,所有這些技術結合在一起,才是一個完整的大數據處理系統。
2.1分布式計算框架
MapReduce是Google開發的一種簡化的分布式編程模型和高效的任務調度模型,用于大規模數據集(大于1TB)的并行運算,使云計算環境下的編程變得十分簡單。
MapReduce將數據處理任務抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數據的分解操作,Reduce主要完成數據的聚集操作.輸入輸出數據均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實現Map函數和Reduce函數即可,MapReduce算法框架會自動對任務進行劃分以做到并行執行。
Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關的細節,展現給人們的僅僅是一個表現力很強、很容易編程的大型圖算法處理的計算框架。Pregel的主要應用場景是大型的圖計算,例如交通線路、疾病爆發路徑、WEB 搜索等相關領域。
2.2分布式文件系統
為保證高可用、高可靠和經濟性,基于云計算的大數據處理系統采用分布式存儲的方式來保存數據,用冗余存儲的方式保證數據的可靠性。目前廣泛使用的分布式文件系統是Google的GFS和Hadoop團隊開發的GFS的開源實現HDFS。
GFS即Google文件系統,是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。GFS的設計思想不同于傳統的文件系統,是針對大規模數據處理和Google應用特性而設計的,運行成本低廉,并提供容錯功能。
HDFS即Hadoop分布式文件系統,受到GFS很大啟發,具有高容錯性,并且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數據集的應用,并且提供了數據讀寫的高吞吐率。HDFS是一個master/slave的結構,在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。HDFS支持傳統的層次文件組織結構,對文件系統的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數據塊。
2.3大數據管理技術
互聯網數據已超出關系型數據庫的管理范疇,電子郵件、超文本、博客、標簽(Tag)以及圖片、音視頻等各種非結構化數據逐漸成為大數據的重要組成部分,而面向結構化數據存儲的關系型數據庫已經不能滿足數據快速訪問、大規模數據分析的需求,隨之而來,一系列新型的大數據管理技術和工具應運而生。
2.3.1 非關系型數據庫
NoSQL,也有人理解為Not Only SQL,它是一類非關系型數據庫的統稱。其特點是:沒有固定的數據表模式、可以分布式和水平擴展。NoSQL并不是單純的反對關系型數據庫,而是針對其缺點的一種補充和擴展。典型的NoSQL數據存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數據、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數據都作為對象來處理,形成一個巨大的表格,用來分布存儲大規模結構化數據,數據量可達PB級。而HBase是Hadoop團隊基于Bigtable的開源實現,使用HDFS作為其文件存儲系統。同時,Cassandra(K/V型數據庫)、MongoDB(文檔數據庫)和Redis等一系列優秀的非關系型數據庫產品如雨后春筍般問世。
2.3.2 數據查詢工具
Hive是Facebook提出的基于Hadoop的大型數據倉庫,其目標是簡化Hadoop上的數據聚集、即席查詢及大數據集的分析等操作,以減輕程序員的負擔.它借鑒關系數據庫的模式管理、SQL接口等技術,把結構化的數據文件映射為數據庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優化的MapReduce任務執行序列.此外,它也支持用戶自定義的MapReduce函數。
PigLatin是Yahoo!提出的類似于Hive的大數據集分析平臺.兩者的區別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數據流式的接口.可以說Pig利用操作符來對Hadoop進行封裝,Hive利用SQL進行封裝。
Google Dremel是個可擴展的、交互式的即時查詢系統,用于完成大規模查詢結構化數據集(如日志和事件文件)。它支持類SQL語法,區別在于它只能查詢,不支持修改或者創建功能,也沒有表索引。數據被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補充,被用于分析MapReduce的結果或者是作為大規模計算的測試。
2.4實時流處理技術
伴隨著互聯網業務發展的步調,以及業務流程的復雜化,企業的注意力越來越集中在“數據流”而非“數據集”上面,他們需要的是能夠處理隨時發生的數據流的架構,現有的分布式計算架構并不適合數據流處理。流計算強調的是數據流的形式和實時性。MapReduce系統主要解決的是對靜態數據的批量處理,當MapReduce任務啟動時,一般數據已經到位了(比如保存到了分布式文件系統上),而流式計算系統在啟動時,一般數據并沒有完全到位,而是經由外部數據源源不斷地流入,重視的是對數據處理的低延遲,希望進入的數據越快處理越好。數據越快被處理,結果就越有價值,這也是實時處理的價值所在。
流計算的數據本身就是數據流,不需要數據準備的時間,有數據流入就開始計算,解決了數據準備和延遲的兩個問題。現有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數據流計算的場景。Storm是開源的分布式實時計算系統,可以可靠的處理流式數據并進行實時計算,單機性能可達到百萬記錄每秒,開發語言為Clojure和Java,并具備容錯特性。S4是面向流式數據和實時處理的,所以針對實時性較高的業務,可以很好地對數據做出高效的分析處理,而且系統一旦上線,很少需要人工干預,源源不斷的數據流會被自動路由并分析。對于海量數據,它和MapReduce都可以應對,但它能比后者更快地處理數據。
三、思考與展望
以云計算為基礎的信息存儲、分享和挖掘手段為知識生產提供了工具,通過對大數據分析、預測會使得決策更為精準,這對媒體融合具有重要意義。
21世紀是信息化的時代,也是數據時代,隨著世界范圍內數據挖掘技術的不斷深入研究,大數據時代的到來給數據挖掘技術帶來了機遇的同時,也帶來了挑戰。面對浩瀚的數據庫海洋,如何在茫茫海洋中尋找針對特點人群有用的數據是數據挖掘技術在大數據時代背景下的意義。通過數據挖掘技術的充分應用分類技術,挖掘大數據時代中的數據刪選,同時通過大數據時代背景下數據挖掘技術的應用技術探討了數據挖掘技術在大數據時代背景下的應用。
1 大數據時代背景下數據挖掘的意義
在信息時代的背景下,數字化技術和信息化技術在各行各業的應用,隨著互聯網技術、信息技術、物聯網技術、云計算技術等數字信息技術的高速發展,結合當前高速發展的移動互聯網技術以及數字地球技術的發展與應用,全世界范圍內數據呈爆炸式增長,據統計2012年世界范圍內產生的數據總量約1.86萬億GB。國際互聯網數據統計中心根據近十年來來的數據增長速度計算,2020年全球范圍內數據總量預計達到100萬億GB。信息化技術的發展給企業帶來的沖擊是巨大的,信息化技術徹底改變了傳統的社會信息傳輸方式,帶來全新的信息傳播途徑。對于社會來說,信息化是社會未來發展方向。信息化要求社會重視信息的形成、信息運用,社會用信息化的工具整合業務、共享信息構建企業“信息化網絡體系”才能使企業在當今信息爆炸,高效率的社會背景下,是企業高效運轉,才能綜合企業的人力、物力、財力和管理能力是企業的各種資源通過信息化網絡凝聚在一起,共同為企業的高效發展和全球化的進程的目標凝聚力量。企業信息化作為國民經濟發展的重要組成部分,同時也是我國社會邁向信息化進程的重要前提。
企業信息化要求企業將大量的信息資源進行整合和電子化處理,從而提高信息的交互與傳輸效率,并希望藉此提高企業的生產經營管理方式和管理效率,從而達到利用現代信息技術提高企業生產力、提高企業生產效率和利潤的根本目的。云計算作為現代信息化產業發展的新技術,給社會的信息化建設帶來了巨大的改變,降低了社會在信息化建設中的投入,隨著近年來云計算技術的不斷成熟,云計算構建的信息化平臺使社會的信息化、生產與辦公效率前所未有地提高毫無疑問,當前的信息時代的發展已經達到了大數據時代的階段,大數據時代的來臨意味著人們在應用和利用數字信息技術時不得不花費更多的人力、物力、財力去篩選、存儲和利用龐大的數據庫。例如對于一個銀行系統來說,每天數以萬計的銀行和ATM終端都發生龐大的交易和數據交換,這些龐大的數據交換信息構成了龐大的數據,如何在龐大的數據中篩選、分類和提取有價值的數據是數據挖掘技術在當前大數據時代存在的意義。
2 大數據時代背景下數據挖掘技術的分類應用
數據挖掘技術在當代數據爆炸的現代社會的重要性越來越強,隨著社會信息化程度的不斷提升,數據挖掘技術也逐漸發展成為一門獨立的學科,數據挖掘技術為了滿足用戶在龐大的數據庫中篩選有用的數據的需要,通過分類技術對數據進行分類挖掘,是當前大數據時代背景下大數據技術應用最為廣泛的手段之一。
通過數據庫類型分類技術是數據挖掘技術在大數據時代的應用之一。數據庫的自動存儲系統在數據存儲過程中按照數據的類型、場景進行基礎分類,數據挖掘技術在數據存儲的基礎分類的基礎上進行數據庫類型細分,通過數據模型的導入和數據類型包括關系型、對象型、時間型、空間型的分類進行數據挖掘的分類。其次通過數據知識類型分類技術是數據挖掘的重要分類方法之一。知識類型分類包括知識相關性、知識預測型和樣本偏離分析法等知識類型分類方法。數據的抽象性和數據的粒度是數據知識類型分類的層次之一。通過挖掘數據分類中的抽象層和價值層找出數據的模式和規則性。數據的規則性通過不同的方法挖掘,通過數據概念的描述和數據預測等方法實現大數據精細化分類。
3 大數據時代背景下數據挖掘的應用技術
大數據時代背景下數據挖掘技術的應用技術主要包括神經網絡算法、數據遺傳、數據決策樹、數據粗糙集等算法。數據神經算法通過對龐大的數據庫進行分類,對符合優先條件的有用數據進行分類,能夠在規模龐大的數據中迅速定位和精選有用數據。例如網絡構架的基礎傳輸通道光纜發生故障時,通過神經網絡算法能夠及時診斷網絡中的損壞數據點,能夠迅速定位故障點,并排除。神經網絡算法針對網狀結構的數據庫利用效率較高。遺傳數據挖掘技術是仿生學和遺傳學中發展而來的數據算法。遺傳數據挖掘技術針對全局數據進行優化計算,能夠較好的兼容性和隱含并行性,因此在數據挖掘中與其它算法進行聯合應用范圍較廣,應用較為普遍。決策樹算法是在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。粗糙集算法是大數據時代背景下數據挖掘技術應用的典范,粗糙集算法通過數據劃分將模糊知識和精確知識進行合并分析,并最終獲得有效數據,應用范圍十分廣泛,應用效果較好。
4 結論
總之,在大數據時代背景下,數據挖掘技術是人們面對浩瀚的數據庫所必備的技能,也是提高數據利用的有效方式數據挖掘技術在大數據時代背景下面臨著挑戰也面臨著機遇。
參考文獻
[1]劉華婷,郭仁祥,姜浩.關聯規則挖掘Apriori算法的研究與改進[J].計算機應用與軟件,2009(1):146-149.
[2]丁守哲.基于云計算的建筑設計行業信息系統開發模式與實現技術研究[D].合肥:合肥工業大學,2012:16-17.
[3]陳明奇,姜禾,張娟等.大數據時代的美國信息網絡安全新戰略分析[J].信息網絡安全,2012,(08):32-35.
[4]王珊,王會舉,覃雄派等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011,34(10):1741-1752.
作者簡介
1.大數據技術現狀
當前許多企業都已基本實現了信息化建設,企業積累了海量數據。同時企業間的競爭日益加劇,企業為了生存及發展需要保證自身能夠更加準確、快速和個性化地為客戶提品及服務。而大數據技術能夠從海量的數據中獲取傳統數據分析手段無法獲知的價值和模式,幫助企業更加迅速、科學、準確地進行決策和預測。
1.1大數據技術現狀
廣大企業的迫切需求反之也促進了大數據技術的飛速發展,涌現出了諸如Hadoop、Spark等實用的架構平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構支持大規模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數據處理。通過使用專門為分布式計算設計的文件系統HDFS,計算的時候只需要將計算代碼推送到存儲節點上,即可在存儲節點上完成數據本地化計算。因此,Hadoop實現了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應對PB級別的數據處理。
1.2大數據技術對煙草數據中心建設的影響
當前,煙草企業基于多年的信息化建設已經積累了海量數據,同時每天還不斷有新的各種數據產生。在高并發、大體量的情況下,需要在數據采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數據技術。同時,除了購進單、卷煙交易數據、貨源投放數據等結構化數據外,還產生越來越多的非結構化數據,利用大數據技術,對非結構化數據進行預處理,可為人工判斷和機器學縮減范圍。對海量數據以及非結構化的信息進行分析統計,僅僅依靠傳統的技術手段很難實現,只有引入大數據技術才能充分的將所有的數據資源利用起來,成為企業決策的助力。
2.江蘇煙草數據中心應用現狀
2.1江蘇煙草數據中心體系架構
目前江蘇煙草數據中心以一體化數據中心、一體化數據管理和一體化數據分析三個部分為核心,構建了一套完整的數據中心架構。一體化數據中心是整個數據中心最核心的部分。通過數據倉庫模型、數據存儲、ETL工具等組成部分,構建了業務數據的收集、加工、存儲、分發的總體架構。建立了按ODS(SODS、UODS)、DW、DM三層結構設計建設的數據倉庫。一體化數據管理通過主數據管理、信息代碼管理、ESB平臺構建了企業主數據收集、標準化、同步分發過程。結合指標管理,全面管控企業的公用基礎信息。通過數據質量管理,全面有效管控數據質量。通過數據服務管理,有效提升數據中心的對外服務能力與水平。通過元數據管理來管理數據中心元數據。一體化數據分析通過構建移動信息、業務分析、數據挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發揮數據中心的數據、技術、平臺優勢。通過移動信息模塊為各級領導提供決策支持;通過業務分析模塊為業務人員的日常工作提供支撐;通過數據挖掘模塊,發掘數據所蘊含的隱性價值。基于上述一整套架構的支撐,目前數據中心構建了全省范圍的數據集成、交換體系,一方面提升了全省基礎數據、業務數據的規范化程度和數據質量,另一方面為在建業務系統的實施、已有系統的改造提供了標準化的高質量數據保障。
2.2大數據技術的應用場景分析
隨著江蘇數據中心的不斷運行,一些基于傳統技術架構的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數據量數據的查詢需求。基于傳統技術架構的查詢功能響應較慢;二是分析支持靈活性的不足。傳統統計分析應用的數據結構大多是預先定義好的,面對靈活的非傳統的統計查詢需求難以支撐,需要進行額外的加工處理。江蘇煙草數據中心結合互聯網大數據技術特性,引入Hadoop平臺以及Impala等工具,搭建基于大數據的自定義數據查詢平臺,以補充基于傳統技術架構的功能不足,并為未來進一步發展建設基于大數據技術和云環境的數據中心做好準備。
3.基于大數據的自定義數據查詢平臺實現
3.1設計思路及架構
基于大數據的自定義數據查詢平臺是在現有數據中心的建設成果之上,以數據中心的數據存儲為基礎,以Hadoop、Hive、Impala等大數據技術工具為手段,以簡單靈活、快速高效的查詢展現為目標,建立的數據查詢分析支持平臺。
3.2技術方案
自定義數據查詢平臺的建設主要涉及數據存儲架構、后臺數據加工準備、前端展現三塊內容。自定義數據查詢平臺的數據存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關的元數據存儲,另一部分則是查詢所需的各種統計數據的存儲。元數據的存儲根據元數據庫的不同主要分為兩部分。第一部分為基于Mysql數據庫的元數據存儲。這部分元數據主要包括有ETL工具KETTLE的元數據,以及前端自定義查詢需要定義的權限、數據源、表、列和表列關系等信息。第二部分為基于Hive的元數據存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數據。統計數據的存儲則是使用Hadoop的HDFS實現的。根據Hadoop平臺架構,自定義數據查詢平臺的HDFS建立在6臺虛擬主機構建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節點,另一臺為備份節點;其余4臺虛擬主機都作為DataNode用于存儲數據。所有數據將會統一分塊自動分配存儲到4個DataNode上。自定義數據查詢平臺的數據加工,是通過開源ETL工具KETTLE實現的。通過KETTLE從數據中心現有數據倉庫及數據集市中讀取需要的數據,根據自定義數據查詢平臺的數據模型定義對數據進行處理,最終加載到Hadoop的HDFS文件系統中。自定義數據查詢平臺的前端展現功能,主要是基于JSP技術實現頁面開發,通過JDBC或者ODBC對后臺Mysql數據庫進行訪問。使用者在查詢頁面中組織定義查詢的內容,查詢服務自動根據獲取的元數據信息將定義的查詢內容拼接轉換成為查詢SQL,之后通過Impala執行查詢SQL對HDFS文件系統中的統計數據進行查詢。
3.3系統實現效果
利用大數據技術,自定義數據查詢平臺較好地解決了目前數據中心所面對的問題,滿足了使用人員對于大數據量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數據查詢平臺通過預先梳理、分類定義各種維度以及統計指標。使用者可以自由的根據實際需求選擇分析所需的維度及統計指標,同時還可以基于這些基礎的內容更進一步自定義過濾條件以及計算公式,并指定其展現形式。在大數據量查詢效率方面,自定義查詢平臺相比傳統架構的查詢功能有了較大提升。
4.結束語
大數據技術的發展方興未艾,應用前景無比廣闊,對各行各業的巨大作用正在逐步展現。江蘇煙草數據中心的建設既要看到大數據技術未來的前景,更需要明確地認識到大數據平臺的建設并非一朝一夕,需要有明確而長遠的規劃,不斷完善數據環境建設、云計算環境的構建以及數據服務的擴展。
參考文獻
[1]陳鵬.大數據時代下的信息安全問題研究[J].電子制,2015,18:48
一、大數據
1.大數據產生的背景
大數據(Big Data),也稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的資訊,通常被認為是PB或EB或更高數量級的數據。
互聯網絡從上世紀90年代開始,發展迅速,加快了信息傳播和共享的速度,尤其是一些社交網站的興起,數據量更是以前所未有的速度暴增,文字資料、聲音、視頻、圖像等多媒體數據鋪天蓋地。據資料顯示,上世紀90年代,互聯網資源不是很豐富的時代,網民月平均流量1MB左右,之后則快速增長,2000年后,逐漸發展為每月10MB、100MB、1GB,據估計2014年可能會達到10GB。淘寶網每日幾千萬筆交易,單日數據量達幾十TB,數據存儲量幾十PB,百度公司目前數據總量接近1000PB,存儲網頁數量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB數據。
隨著技術發展,大數據廣泛存在,如企業數據、統計數據、科學數據、醫療數據、互聯網數據、移動數據、物聯網數據等等。總之,大數據存在于各行各業,一個大數據的時代已經到來。
2.大數據時代的挑戰
大數據特點是容量在增長、種類在增長、速度也在增長,面臨如此龐大的數據量,數據的存儲和檢索面臨著巨大挑戰。比如2007年時,Facebook使用數據倉庫存儲15個TB的數據,但到了2010年,每天壓縮過的數據比過去總和還多,那時商業并行數據庫很少有超過100個節點以上的,而現在雅虎的Hadoop集群超過4000個節點,Facebook倉庫節點超過2700個。大量的數據現在已經開始影響我們整個的工作、生活、甚至經濟,如何存儲和高效利用這些數據是需要我們解決的。
二、關系數據庫
1.關系數據庫概述
關系型數據庫是支持關系模型的數據庫系統,他是目前各類數據庫中最重要,也是使用最廣泛的數據庫系統。關系型數據庫從上世紀70年代誕生到現在經過幾十年的發展,已經非常成熟,目前市場上主流的數據庫都為關系型數據庫,比較知名的有Oracle數據庫、DB2、Sybase、SQL Server等等。
2.關系數據庫優勢
關系數據庫相比其他模型的數據庫而言,有著以下優點:
模型容易理解:關系模型中的二維表結構非常貼近邏輯世界,相對于網狀、層次等其他模型來說更容易理解。
使用方便:通用的SQL語言使得操作關系型數據庫非常方便,只需使用SQL語言在邏輯層面操作數據庫,而完全不必理解其底層實現。
易于維護:豐富的完整性大大降低了數據冗余和數據不一致的概率。
3.關系數據庫存在問題
傳統的關系數據庫具有不錯的性能,穩定性高,歷經多年發展已日臻成熟,而且使用簡單,功能強大,也積累了大量的成功案例。上世紀90年代的互聯網領域,網站基本都是靜態網頁,主要以文字為主,訪問量也不大,當時用單個數據庫完全可以應對。可近幾年,動態網站隨處可見,各種論壇、博克、微博異常火爆,在大幅度提升交流方式的同時,用戶數據量迅速增長,處理事務性的數據關系數據庫得心應手,可面對互聯網的高并發、大數據量關系數據庫顯得力不從心,暴露了很多難以克服的問題:
數據庫高并發讀寫:高并發的動態網站數據庫并發負載非常高,往往要達到每秒上萬次甚至百萬次、千萬次的讀寫請求。關系數據庫應付上萬次SQL查詢沒問題,但是應付上百萬、千萬次SQL數據請求,硬盤IO就已經無法承受了。
海量數據的高效率訪問:一般大型數據庫在百萬級的數據庫表中檢索數據可達到秒級,但面對數億條記錄的數據庫表,檢索速度效率是極其低下,難以忍受的。
數據庫可擴展性和高可用性:基于web的架構當中,數據庫無法通過添加更多的硬件和服務節點來擴展性能和負載能力,對于很多需要提供24小時不間斷服務的網站來說,數據庫系統升級和擴展卻只能通過停機來實現,這無疑是一個艱難的決定。
三、NOSQL數據庫
1.NOSQL數據庫理論基礎
NOSQL作為新興數據庫系統概念,由于其具備處理海量數據的能力,近年來受到各大IT公司的追捧。Amazon、Google等大型網商已紛紛斥資進行研究并開發了適用的產品。談及NOSQL數據庫,首先應該了解支持NOSQL的理論:CAP理論、BASE思想和最終一致性。
(1)CAP理論
CAP理論由Eric Brewer在ACM PODC會議上的主題報告中提出,這個理論是NOSQL數據管理系統構建的基礎,CAP解釋為一致性(Consistency)、可用性(Availability)以及分區容忍性(Partition Tolerance)。具體描述如下:
強一致性(Consistency):系統在執行過某項操作后仍然處于一致的狀態。在分布式數據庫系統中,數據變更后所有的用戶都應該讀取到最新的值,這樣的系統被認為具有強一致性。
可用性(Availability):每一個操作都能夠在一定的時間內返回結果。“一定時間內”是指系統的結果必須在給定時間內返回,如果超時則被認為不可用,“返回結果”同樣非常重要,必須能提供成功或失敗的信息。
分區容錯性(Partition Tolerance):分區容錯性可以理解為系統在存在網絡分區的情況下仍然可以接受請求。
CAP是在分布式環境中設計和部署系統時所要考慮的三個重要的系統需求。根據CAP理論,數據共享系統只能滿足這三個特性中的兩個,不能同時滿足三個條件。因此系統設計者必須在這三個特性之間做出權衡。例如Amazon的Dynamo具有高可用性和分區容錯性但不支持強一致性,也就是說用戶不能立即看到其他用戶更新的內容。
(2)BASE思想
BASE(Basically Availble),基本可用,強調數據庫的最終一致(Eventually consistent最終一致,最終數據一致就可以,而不是時時高一致),不同于傳統關系數據庫基于的ACID模型。
ACID特性與高性能是不兼容的。比如,在網店買東西,每個客戶買東西時都會通過鎖來同步數據操作,操作完成每個客戶都可以看到一致的數據。也就是說,不允許多個客戶同時買的情況。很明顯對于大多數網上商城,尤其是大型網商來說,這個方法并不適用。
BASE思想實際上是CAP理論中AP的衍伸。通過犧牲高一致性,保證高可用性和分區容忍性。BASE思想的組成有以下3個部分:基本可用、軟狀態、最終一致性。BASE模式指的是一個應用在任意時間首先應該能完成最基本化的工作(即基本可用),并不需要總是一致(即軟狀態),但最終應該是一致(即最終一致性)的。
(3)最終一致性
數據一致性可分別從使用者和提供者角度看:從使用者的角度,如何觀察數據更新;從提供者的角度,也就是服務器端,更新如何在系統中實現。
一致性可分為強一致性和弱一致性兩種:強一致性要求更新過的數據能被后續的訪問都看到,根據CAP理論,強一致性無法和可用性、分區容忍性同時實現;弱一致性,指讀取操作能夠見到變化的數據,但不是所有變化的數據。
最終一致性屬于弱一致性的一種,即存儲系統保證如果沒有新的更新提交,最終所有的訪問都將獲得最后的更新。如果沒有故障發生,不一致性取決于通信時延、系統負載以及復制策略中涉及的副本數。
2.NOSQL數據庫產品
NOSQL(Not Only SQL)數據庫是指那些非關系型的數據庫。NOSQL數據庫分為Key-Value、Key-Document和Key-Column這3類。典型的NOSQL產品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL數據庫遵循CAP理論和BASE原則,大部分Key-Value數據庫系統都會根據自己的設計目的進行相應的選擇,如Cassandra、Dynamo滿足AP,BigTable、MongoDB滿足CP。
四、結束語
本文首先介紹了大數據概念,分析了關系數據庫在存儲大數據量方面的不足,并介紹了當前NOSQL數據庫的基本理論和當前產品分類。大數據時代的來臨,我們忙于如何存儲和處理這些數據,但隨著計算機互聯網、移動互聯網、物聯網等網絡的快速發展,數據量會持續大幅增長,如何長期保存這些數據以及如何處理更大級別的數據量,都需要我們思考并解決。
參考文獻
[1]王珊,王會舉,覃雄派等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011(34).
[2]黃賢立.NOSQL非關系型數據庫的發展及應用初探[J].福建電腦,2010(7):30.
1.圖書館的大數據應用特征
大數據是一場革命,將改變人們的生活、工作和思維方式。大數據至今并無統一定義,通常以“4v”特征或對大數據進行描述性解釋:規模(Volume)指數據的數量規模大;類型(Variety)指數據類型多樣復雜,混合結構化與非結構化多種類型;實時(Velocity)一方面是數據增長速度快,另一方面要求在合理的時間內處理數據;價值(Value)反映了大數據隱含著價值轉化。大數據發展的最終目標是分析挖掘數據的價值,其重點在于數據的分析和應用,“大”不過是信息技術不斷發展所產生的海量數據的表象而己。
社會進步和信息技術不斷改變著圖書館的服務內容與模式,網絡環境下要求將這些信息資源組合成整體并延伸至更大的范圍。隨著數字圖書館的興起,圖書館數字化文獻信息、數據庫的數量種類不斷增加,各地市級圖書館都已具有海量信息規模,比如上海圖書館提供的數據庫已多達400余個。這些數據包括類型多樣的文本、圖片、音頻與視頻各類非結構化數據,滿足大數據的基本特征。然而,這些數據資源價值遠未得到有效體現與利用。一個重要的原因是缺乏有效的數據挖掘技術方法。通過人工從大量結構繁雜的數據中發現價值,是難以實現的。隨著大數據技術的發展與應用,必然要求圖書館重點利用數據挖掘技術從大量的信息中發掘數據價值,以此推出知識化產品化的服務應用。同時,通過大數據處理分析對信息資源進行深度、動態、廣泛的知識挖掘,便于揭示信息內容中各個要素及其相互之間的聯系,促進信息交流,實現信息資源共享,提高文獻信息的利用效率,從而實現圖書館信息增值服務并提高信息服務的競爭力。因此,探索數據挖掘方法技術提高圖書館的服務水平是亟須思考和解決的問題。
2.大數據時代圖書館數據挖掘面臨的挑戰
大數據時代的到來,極大地促進了數據科學的興起。數據科學包括用科學的方法研究數據與用數據的方法研究科學,后者主要的實現方式就是數據挖掘方法與技術。數據挖掘是指從數據源中發現知識的過程。實現數據價值的關鍵環節在于數據的挖掘方法技術。所以,如何充分有效地利用數據挖掘方法對圖書館大數據進行開發處理,是開展圖書館知識服務的重要研究方向,也是服務創新的關鍵途徑與支撐服務技術。大數據時代圖書館的數據數量大、類型多,對數據挖掘提出新的需求與挑戰,主要有以下方面。
2.1大規模數據量
數字館藏數據規模與數據類型在不斷增長,對于數據挖掘算法的能力要求也在不斷提高。傳統對于大規模數據的分析一般采用隨機取樣,以較少數據獲得最多的信息,其準確性會隨著隨機性增加而提高。這是在計算機性能較低特別是無法收集全部數據的情況下的選擇。然而,大數據環境數據價值隱匿于海量數據中,單靠取樣是無法捕捉到這些細節的,需要采用全集數據進行處理分析。如此大量的數據分析僅靠單機是無法完成的,分析挖掘模型必然要借助分布式計算框架,比如,Map Reduce或者當前流行的Spark,將分析模型遷移至集群計算環境。大數據應用具有實時性,如智能推薦、文獻關聯等,需要在合理的時間完成分析過程,采用集群計算環境也是提高計算效率的選擇。另外,數據量增加的同時,噪音數據也會增加。因此,在數據分析之前必須進行數據清洗等預處理工作。
2.2數據的高維特征
圖書館數據的多樣性能夠提供更多維度的客觀對象描述屬性。數據從過去的一維、多維逐漸發展為巨量維度。雖然能夠建立豐富的多維數據模型與方法,但在構建的大數據特征空間中,往往會超出傳統方法的處理能力。可以考慮引入維度規約技術,比如主成分分析、奇異值分解來降低數據維度。同時,數據屬性可能過于稀疏,也會極大影響數據模型的有效性。
2.3數據關系廣泛
圖書館服務應用過程中的信息、用戶對象之間存在多種行為與內容關聯,從而組成多關系網絡。大數據的多源性、多樣性正是構建這種復雜關系的基礎。比如,用戶的查詢詞、借閱記錄、瀏覽記錄、圖書館文獻信息內容之間形成的多關系網絡。特別是社交網絡數據的應用,更使其趨于多元化。許多圖書館實踐中,比如基于用戶的信息推薦就是利用這種關系作為分析依據。過多關系的簡單鏈接應用,反而會削弱關鍵特征的作用和導致語義缺失。如何廣泛利用大數據提供的各類數據類型與數據關系,成為實際應用中的一個重點。實際中,需要重視運用關系選擇、組合及判斷函數,提高分析的正確性有效性。
2.4數據保護要求不斷增長
數據是圖書館信息服務的核心和基礎,數據的安全性就顯得尤為重要。用戶在享受精準個性化推薦帶來的便捷的同時,也在深深擔心個人隱私安全問題。一些敏感信息以明文存儲也會有安全風險。這些會導致數據挖掘方或者任何可以接近數據集的人,能夠辨別特定的用戶個體或內容信息,存在利益侵犯的可能性。數據挖掘在發現數據價值的同時,也對隱私安全和數據安全帶來了威脅。這就需利用數據修改、數據模糊、數據加密、加密檢索等隱私保護技術提高數據的安全性和可控性。
2.5自然語言理解程度較低
當前,在信息檢索、自動摘要等常見的數據挖掘任務中,仍無法有效識別同義詞、近義詞以及詞語間的語義關聯,特別是一些短文本處理中,無法有效識別詞語語義,造成處理效果不理想。雖然一些圖書館建設了知識庫,但僅限于研究層面,距離實用在規模上有相當差距,在應用方法上也沒有大的突破。同時,圖書館存在大量圖片、音頻、視頻數據,這些數據的加工處理也沒有引入有效的自動圖像、音頻識別技術,圖書館難以基于數據挖掘提供全方位的信息服務。
3.大數據時代圖書館數據挖掘的關鍵技術方法
3.1數據存儲
圖書館數據類型眾多,需要引入非結構化數據存儲技術。比如典型的HDFS,No SOL(Not Only SOL),已廣泛用于非結構化數據的分布式存儲。傳統關系型數據庫適合結構化數據存儲。需要注意的是,要區分結構化與非結構化數據,針對數據特點使用相應的存儲技術。在實際中,難以使用一種數據存儲方式存儲管理所有的數據,即使谷歌也是將結構化數據存儲在關系型數據庫中。同時,需要運用高效存儲技術,比如數據壓縮、自動精簡配置、自動分層存儲、存儲虛擬化等解決或緩解數據量過大、存儲利用率、存儲效率低等難題。
3.2數據集成
目前,相當數量圖書館的一個重要問題是數據資源分散化、碎片化,數據存儲在不能相互訪問的數據庫與系統中,形成數據孤島。孤立的數據是難以發揮出數據價值的,如何連接這些數據,實現資源交互共享,是數據價值最大化的關鍵。數據集成將不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,經過關聯和聚合之后采用統一定義的標準來存儲數據,從而應對大數據數量眾多、類型廣泛等問題給數據管理服務所帶來的挑戰。數據的集成連接涉及異構數據的統一語義描述、多維特征關聯。同時,要保證數據質量,需要對數據進行清洗。但清洗的粒度過細,容易過濾有效數據;反之,無法達清洗效果。所以,在質與量之間需要做出一定權衡。
3.3數據處理加工
語義處理技術能夠為深層的數據分析提供支持,提高各種數據挖掘算法的語義化程度與性能,提高機器可理解數據的能力。語義知識庫是語義處理的基礎支撐,典型的知識庫有WordNet、中文知網,但其構建存在人工成本高、更新慢的問題。實踐中,可以從維基百科、互動百科等結構化程度較高的海量數據中抽取詞語關系,以低成本方式自動構建語義知識庫獲取語義知識,也可以利用大規模語料構建概念詞語矩陣或利用Word2 Vector工具,提高數據挖掘的語義化處理程度。圖書館需要采用圖像、音視頻內容檢索技術,提高多媒體數據的處理能力。比如利用語音識別技術,將音頻數據處理為文本并記錄聲音信號在音頻中的時間位置,以此提高用戶獲取音頻數據的快速性與準確性。通過語義標注從圖書館數據中識別概念本體,實現信息之間的關聯,形成知識網絡,為個性化、語義化服務應用提供支撐,進而可通過分類、聚類等數據挖掘加工處理從多維度滿足用戶的信息需求。另外,可借助微博、微信等社會化網絡提供的API接口,獲得更廣泛的用戶數據,展開用戶需求與圖書館信息之間的深層處理分析,利用APP等多種方式為圖書館與用戶之間搭建有效的服務橋梁。
3.4數據可視化