時間:2023-05-08 11:18:04
序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]一篇整車道路試驗大數據分析范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。
1引言
整車道路試驗(VehicleRoadTest,VRT)[1]是指在公共/測試道路上進行一定強度的預生產車輛駕駛操作,以評估車輛的設計功能和性能。VRT與仿真測試相比,具有更強的客觀優(yōu)勢,通常被認為是原型車輛距離交付市場階段的“最后一公里”。未關聯用戶的VRT可能導致某些子系統的過度設計或者欠設計[2]。這是由于消費者對主機廠過去售出車輛的使用信息未能有效向車輛研發(fā)與測試工程師反饋的結果。故朱佳琦[3]提出了基于用戶使用數據分析的整車道路試驗優(yōu)化方案,江毓等人[4]提出了一種關聯用戶使用情況的相對合理的試驗場整車耐久性試驗方案。用戶關聯的VRT可用于測試認證規(guī)范的制定,以發(fā)現和消除潛在的設計缺陷,從而減少售后索賠和召回成本。車聯網[5][6]允許從開放道路上運行的車輛中收集車輛參數,為關聯用戶駕駛提供了數據收集渠道。然而,隨著長期和高頻的數據積累,研發(fā)工程師正面臨著處理大數據的挑戰(zhàn)。利用大數據技術可以為汽車行業(yè)提供轉型的機會。2014年初,JohansonMathias等人[7]開發(fā)了一個大數據框架,以探索利用汽車大數據進行知識驅動的產品開發(fā)。龔蓉軍[8]開發(fā)了一個針對道路試驗的數據平臺,使用Hadoop、Hive和Spark工具實現數據收集、存儲、分析和報告展示。然而,當將大數據技術應用于VRT領域時,以往的系統忽略了領域專家的學習成本,導致可用性體驗較差。更糟糕的是,沒有定制的分析組件來整合領域知識并協助業(yè)務專家應用到具體的案例級分析。本文的目標是設計和實現一個大數據科學指導的VRT系統以屏蔽大數據的復雜性,使用戶能夠直觀地探索、分析和可視化數據。如圖1所示,該系統扮演著利用大數據科學指導工程師進行關聯分析的最后一公里的角色,為關聯用戶駕駛的道路試驗分析提供更直觀的信息挖掘過程。
2系統概述
圖2為該系統的技術架構,其將整個系統分為三層架構:大數據平臺層。我們選擇了Hadoop、Spark、Oozie用于分布式數據存儲、計算和作業(yè)調度。該平臺基于SparkSQL和ML來執(zhí)行分析操作。Spark的數據源是存儲在HDFS文件系統上的汽車傳感器數據。然后,選擇Oozie工作流調度器來調度特定作業(yè)(如ScalaSpark程序和Pyspark腳本)。一旦后端服務提交了一個Spark作業(yè),這個作業(yè)將立即被發(fā)送到相應的Oozie調度器。這個平臺層主要用于探索和分析從全國客戶處收集的大量真實駕駛數據。混合服務層。中間層是一個混合的Java和Python服務,用于本地和集群計算,實現自動和智能的數據驅動分析。在我們的設計中,提供了兩種后端服務。基于Python的分析(Python-basedAnalysis,PA)和基于Java的分析(Java-basedAnalysis,JA)服務。PA服務可以提交Spark分布式作業(yè),也可以用本地進程服務處理本地數據。這個由Flask提供的本地進程服務結合了pandas和scikit-learn等軟件包,用于提供快速統計或機器學習API。同樣,JA服務也有兩個分支,其本地進程服務在處理其他事務性功能方面具有優(yōu)勢。在某些情況下,本地數據分析仍然是必要的,測試工程師希望上傳一個本地MDF文件,傾向于更節(jié)省時間的本地分析。當分析任務返回時,結果被提交給系統的展示層。這個服務層分別處理來自測試車輛和售出車輛的數據樣本的實時計算任務。展示層。我們選擇使用一個基于web的用戶界面,其采用了React框架實現,并使用Echart插件來繪制圖表。這個展示層能夠實現豐富的互動操作和選項,以指導數據科學流程。同時,如果定義了一個分析任務,對數據進行的分析類型將被記錄。根據所要求的分析類型,分析任務的結果可以是不同種類的圖表或圖形,通過基于web的用戶界面進行組合并提供給用戶。
3系統重點實現描述
該系統從業(yè)務目標的確定,數據準備,先樣本后總體分析以得出結論,最后以web報告的形式可視化四個主要階段輔助工程師快速利用大數據手段進行業(yè)務分析。
3.1業(yè)務目標
VRT分析的一個共同業(yè)務目標是在用性能比(InUsePerformanceRatio,IUPR)[9]研究,通常包括:(1)發(fā)動機怠速時長分析;(2)車速持續(xù)時間分析;(3)油門位置From-To分析;(4)油門位置與車速的距離范圍;(5)發(fā)動機停機時間分析。這些案例具有強烈的實際意義,都可以通過我們的系統來實現。
3.2數據準備
該階段將準備一個關于業(yè)務目標的目標數據集。首先,測試人員既可以通過JA服務上傳一個本地文件,也可以使用PA服務訪問HDFS文件。無論數據集如何添加,它都被稱為VRT域中的總體。然后,后端服務將啟動一個本地或Spark作業(yè),以獲得關于此總體的摘要以及這個總體的子集。摘要是對數據的統計描述(計數、最小值、平均值等),以及所有信號的缺失值、唯一值情況。先樣本后總體(FirstSampleThenPopulation,FSTP)是測試工程師進行IUPR分析的工業(yè)經驗。這里的樣本指的就是剛才的子集。對上述大數據的一步步操作是很耗時的,用戶的耐心會隨著時間的推移逐漸耗盡。采樣已被證明是處理大數據問題的一種有效方式。為了使我們的系統更加友好,我們將首先采樣總體數據并將其加載到本地MySQL數據庫中。因為動力學片段是測試工程師重點關注的樣本,我們讓采樣過程中除了均勻隨機的方式外,還選擇幾個動力學片段。提取部分動力學片段被稱為線性采樣。考慮到要分析的整個數據集,我們假設由均勻和線性抽樣產生的相對較小的比例可以近似于總體的分布。那么,我們對樣本包含不同參數的缺失和異常情況就有更大的把握。這樣一來,對樣本的數據預處理步驟就可以完全復制到總體數據集上,有效避免在樣本上的預處理步驟與總體數據集上的不一致問題。
3.3FSTP分析
一旦數據準備好了,測試人員就可以為特定的用戶群體分析創(chuàng)建一個新的工作臺。相應的分析界面會根據信號的類型進行分類和顯示,然后列出可選的分析組件。測試人員只需點擊相關的分析組件,將需要分析的信號拖到相應的輸入框中,就會立即計算并顯示該組件對樣本數據的分析結果。可視化方面,我們提供了一些繪圖組件,如直方圖、散點圖、柱狀圖、折線圖和熱圖。它們可以用于不同的情況,例如,直方圖可以用來檢查汽車的速度分布,折線圖可以用來觀察制動狀態(tài)的變化,熱圖可以顯示發(fā)動機轉速和扭矩的使用規(guī)律。可視化包括在工程師可容忍時間內的樣本級分析呈現,和最終總體級別分析結果的呈現。通過樣本集上分析可視化,工程師可快速決定數據準備和分析邏輯是否是他們所期望的。如果這些操作是它們希望在總體級別上執(zhí)行的操作,則將啟動一個Spark作業(yè),以分布式的方式進行集群計算。
4案例研究
在本節(jié)中,我們將以某汽車研究院的某個應用為例進行闡述。該系統導入了基于車載T-BOX從市場用戶車輛采集的各種車載傳感器數據。典型的信號包括速度、轉向角速度、里程表、轉速、制動踏板狀態(tài)、加速度開啟度等。自2019年以來,該大數據平臺已經存儲了五千多輛汽車的數據。平均每天收集1800萬條記錄,容量為3.6GB,數據總容量為1328GB,其中包括225億條記錄。在本示例中,工程師A、B和C想要獲得一份關于所有用戶車輛上動力系統極端溫度分布的報告。他們的任務分工為:A進行數據準備和電機的極端溫度分布分析,B負責蓄電池的極端溫度分布,C最后匯報報告。首先,A選擇2019年7月1日在中國全省運行的所有車輛,并選擇所需的信號,即車輛識別號(VIN)、電機和電池溫度。然后,系統根據用戶的選擇開始數據準備任務,獲得相應數據集上的描述性統計信息。同時,通過提出的采樣策略,獲得采樣數據集并將其存儲在MySQL表中。上一階段完成后,工程師A可以預覽樣本和相應的描述性統計結果,以檢查是否存在空值或異常情況。如果數據質量不好,則將啟動數據編輯操作。在編輯階段,A可以選擇刪除或填充空值,并過濾掉相關的值。一旦確定,編輯步驟將被記錄并封裝成一系列的Spark操作,這些操作將提交給Oozie進行任務調度。用戶可能需要很長時間來等待大數據平臺才能完成數據編輯階段。數據編輯階段是可重復的,用戶可以重復執(zhí)行預覽、探索和編輯操作,直到數據質量滿足要求。接下來,以準備好的樣本數據作為輸入,A和B可以并行完成他們的分析任務。分析工作臺如圖3所示,在我們的系統中,VIN顯示為一個“維度”,因為它的數據類型是字符串;電池和電機溫度信號是數值類型,所以它被分為“指標”欄。為了完成它們的工作,A和B都應該首先選擇要分析的組件,在示例中是一個多維的條形圖。對于電機部件,A將VIN和電機溫度拖動到相應的輸入箱中。通過點擊電池溫度并選擇所提供的匯總方法中的最大選項,將顯示所有車輛的最大電機溫度的直方圖。需要注意的是,這里給出的結果仍然是基于樣本數據集的。如果樣本集上的顯示結果是他們想要的,他們保存這個項目。然后提交一個Spark作業(yè),以對總體執(zhí)行分析過程。完成后,電機和電池部件的結果圖將共享給C制作最終報告。通過這份報告,工程師發(fā)現用戶駕駛數據中的動力系統溫度分布與零部件供應商提供的溫度分布有所偏差。動力系統溫度是熱管理系統中一些故障的關鍵。因此,研發(fā)人員修改了一些相關測試標準的參數。
5結語
VRT的最終目標不僅是滿足清晰的要求,還要涵蓋用戶的駕駛習慣,提高研發(fā)測試認證與實際使用的相關性,從而減少售后問題和召回成本。然而,該行業(yè)仍沒有完全整合其用于道路試驗,還有很多工作要做。為了應對測試工程師所面臨的大數據挑戰(zhàn),我們提出了一個可視化的大分析系統。它是一個自助服務環(huán)境,支持整個分析周期——整合、準備、分析和可視化。此外,易于使用的界面和即時建模使業(yè)務分析師能夠輕松工作,無需額外的IT協助。它還可以促進測試數據的收集和處理,這些數據可以用來更新整個車輛原型,從而減少現實和模擬測試之間的差距。在未來,我們將嘗試涵蓋更多的商業(yè)案例。
參考文獻:
[3]朱佳琦.基于用戶使用數據分析的整車道路試驗優(yōu)化方案[J].上海汽車,2017(03):16-19.
[4]江毓,王驍磊,鄭燕萍,王羽塵.與用戶使用關聯的整車耐久性試驗方案確定[J].時代汽車,2017,No.282(06):81-83+85.
[6]趙津,張博,潘霞,謝蓉.車聯網通信技術及應用前景研究[J].時代汽車,2021(06):15-16+32.
作者:陸林 熊珂 單位:國汽智圖(北京)科技有限公司 湖北交投宜昌高速公路運營管理有限公司