本申請涉及數(shù)據(jù)處理
技術領域:
,尤其涉及一種交通工具類別識別方法及裝置。
背景技術:
:隨著大數(shù)據(jù)時代的來臨,許多場景需要采集、分析、挖掘行車數(shù)據(jù)。例如,基于使用量的保險(英文全稱為UsageBasedInsurance,英文簡稱為UBI)可以根據(jù)駕駛者的行車時間、地點、里程、駕駛水平等行車數(shù)據(jù)綜合考量、確定保費,并為表現(xiàn)優(yōu)異的車主提供保費優(yōu)惠。這時,準確的行車數(shù)據(jù)采集便成為一個重要的問題?,F(xiàn)有技術中,可以采用車載診斷系統(tǒng)(英文全稱為On-BoardDiagnostic,英文簡稱為OBD)采集車輛數(shù)據(jù),例如車速、里程、油耗、機油量以及發(fā)動機參數(shù)等信息。用戶可以通過定制OBD硬件來獲取所需要的車輛數(shù)據(jù)。然而,這種方式成本較高。為了降低數(shù)據(jù)采集成本,出現(xiàn)了一種使用手機等智能終端采集行車數(shù)據(jù)的方法,這種方法可以自動記錄行程,方便采集用戶的行車時間、里程、行車路線等數(shù)據(jù)。然而,這種方法卻無法區(qū)分用戶乘坐的交通工具的類別,無法區(qū)分機動車和非機動車的行程。由此獲得的行車數(shù)據(jù)并不能夠滿足用戶的需求。技術實現(xiàn)要素:為解決現(xiàn)有存在的技術問題,本申請期望提供一種交通工具類別識別方法及裝置,可以準確區(qū)分行車數(shù)據(jù)對應的交通工具的類別。根據(jù)本申請實施例的第一方面,提供了一種交通工具類別識別方法,所述方法包括:獲取第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)以及所述第一樣本數(shù)據(jù)對應的交通工具類別,根據(jù)所述多個行車屬性數(shù)據(jù)與所述交通工具類別獲得頻繁項集;所述頻繁項集的前項為行車屬性數(shù)據(jù),所述頻繁項集的后項為交通工具類別;分析所述頻繁項集,生成關聯(lián)規(guī)則;所述關聯(lián)規(guī)則用于描述行車屬性數(shù)據(jù)與交通工具類別的強關聯(lián)關系;利用所述關聯(lián)規(guī)則識別待處理數(shù)據(jù)對應的交通工具類別??蛇x地,所述獲取第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)包括:對第一樣本數(shù)據(jù)進行分析,獲取所述第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù);對所述行車屬性數(shù)據(jù)進行離散化處理,獲得離散化的行車屬性數(shù)據(jù);其中,所述行車屬性數(shù)據(jù)包括最大速度、平均速度、速度方差、停車次數(shù)、停車時間、單位距離停車次數(shù)、平均精度中的任意一種或多種的結合。可選地,所述根據(jù)所述多個行車屬性數(shù)據(jù)與所述交通工具類別獲得頻繁項集包括:將所述多個行車屬性數(shù)據(jù)與所述交通工具類別數(shù)據(jù)轉(zhuǎn)換成二維數(shù)組;掃描所述二維數(shù)組,生成K項集;判斷所述K項集的支持度是否大于設定的最小支持度;若是,將所述K項集作為頻繁項集;其中,所述頻繁項集的后項為交通工具類別,K為大于等于2的整數(shù)??蛇x地,所述分析所述頻繁項集,生成關聯(lián)規(guī)則包括:判斷所述頻繁項集的置信度是否大于設定的最小置信度;若是,確定所述頻繁項集的前項和后項為強關聯(lián)關系,根據(jù)所述強關聯(lián)關系生成關聯(lián)規(guī)則??蛇x地,所述利用所述關聯(lián)規(guī)則識別待處理數(shù)據(jù)對應的交通工具類別包括:獲取待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù);根據(jù)所述待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同??蛇x地,在生成關聯(lián)規(guī)則之后,所述方法還包括:獲取第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù),所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同;根據(jù)所述第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;判斷得到的所述交通工具類別與所述第二樣本數(shù)據(jù)標注的類別是否一致,獲得判斷結果;根據(jù)所述判斷結果確定關聯(lián)規(guī)則的識別準確率;若所述識別準確率大于設定閾值,則輸出所述關聯(lián)規(guī)則。根據(jù)本申請實施例的第二方面,提供了一種交通工具類別識別裝置,所述裝置包括:頻繁項集獲得模塊,用于獲取第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)以及所述第一樣本數(shù)據(jù)對應的交通工具類別,根據(jù)所述多個行車屬性數(shù)據(jù)與所述交通工具類別獲得頻繁項集;所述頻繁項集的前項為行車屬性數(shù)據(jù),所述頻繁項集的后項為交通工具類別;關聯(lián)規(guī)則生成模塊,用于分析所述頻繁項集,生成關聯(lián)規(guī)則;所述關聯(lián)規(guī)則用于描述行車屬性數(shù)據(jù)與交通工具類別的強關聯(lián)關系;識別模塊,用于利用所述關聯(lián)規(guī)則識別待處理數(shù)據(jù)對應的交通工具類別??蛇x地,所述頻繁項集獲得模塊具體用于:對第一樣本數(shù)據(jù)進行分析,獲取所述第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù);對所述行車屬性數(shù)據(jù)進行離散化處理,獲得離散化的行車屬性數(shù)據(jù);所述行車屬性數(shù)據(jù)包括最大速度、平均速度、速度方差、停車次數(shù)、停車時間、單位距離停車次數(shù)、平均精度中的任意一種或多種的結合??蛇x地,所述頻繁項集獲得模塊具體用于:將所述多個行車屬性數(shù)據(jù)與所述交通工具類別數(shù)據(jù)轉(zhuǎn)換成二維數(shù)組;掃描所述二維數(shù)組,生成K項集;判斷所述K項集的支持度是否大于設定的最小支持度;若是,將所述K項集作為頻繁項集;其中,所述頻繁項集的后項為交通工具類別,K為大于等于2的整數(shù)。可選地,所述關聯(lián)規(guī)則生成模塊具體用于:判斷所述頻繁項集的置信度是否大于設定的最小置信度;若是,確定所述頻繁項集的前項和后項為強關聯(lián)關系,根據(jù)所述強關聯(lián)關系生成關聯(lián)規(guī)則。可選地,所述識別模塊具體用于:獲取待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù);根據(jù)所述待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;其中,所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同。可選地,所述裝置還包括:測試模塊,具體用于獲取第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù),所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同;根據(jù)所述第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;判斷得到的所述交通工具類別與所述第二樣本數(shù)據(jù)標注的交通工具類別是否一致,獲得判斷結果;根據(jù)所述判斷結果確定關聯(lián)規(guī)則的識別準確率;若所述識別準確率大于設定閾值,則輸出所述關聯(lián)規(guī)則。根據(jù)本申請實施例的第三方面,提供了用于交通工具類別識別的裝置,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:獲取第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)以及所述第一樣本數(shù)據(jù)對應的交通工具類別,根據(jù)所述多個行車屬性數(shù)據(jù)與所述交通工具類別獲得頻繁項集;所述頻繁項集的前項為行車屬性數(shù)據(jù),所述頻繁項集的后項為交通工具類別;分析所述頻繁項集,生成關聯(lián)規(guī)則;所述關聯(lián)規(guī)則用于描述行車屬性數(shù)據(jù)與交通工具類別的強關聯(lián)關系;利用所述關聯(lián)規(guī)則識別待處理數(shù)據(jù)對應的交通工具類別??蛇x地,所述處理器具體還用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:對第一樣本數(shù)據(jù)進行分析,獲取所述第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù);對所述行車屬性數(shù)據(jù)進行離散化處理,獲得離散化的行車屬性數(shù)據(jù);其中,所述行車屬性數(shù)據(jù)包括最大速度、平均速度、速度方差、停車次數(shù)、停車時間、單位距離停車次數(shù)、平均精度中的任意一種或多種的結合??蛇x地,所述處理器具體還用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:將所述多個行車屬性數(shù)據(jù)與所述交通工具類別數(shù)據(jù)轉(zhuǎn)換成二維數(shù)組;掃描所述二維數(shù)組,生成K項集;判斷所述K項集的支持度是否大于設定的最小支持度;若是,將所述K項集作為頻繁項集;其中,所述頻繁項集的后項為交通工具類別,K為大于等于2的整數(shù)??蛇x地,所述處理器具體還用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:判斷所述頻繁項集的置信度是否大于設定的最小置信度;若是,確定所述頻繁項集的前項和后項為強關聯(lián)關系,根據(jù)所述強關聯(lián)關系生成關聯(lián)規(guī)則。可選地,所述處理器具體還用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:獲取待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù);根據(jù)所述待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同??蛇x地,所述處理器具體還用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:獲取第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù),所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同;根據(jù)所述第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;判斷得到的所述交通工具類別與所述第二樣本數(shù)據(jù)標注的交通工具類別是否一致,獲得判斷結果;根據(jù)所述判斷結果確定關聯(lián)規(guī)則的識別準確率;若所述識別準確率大于設定閾值,則輸出所述關聯(lián)規(guī)則。本申請實施例提供的交通工具類別識別方法及裝置,可以從樣本行車數(shù)據(jù)中提取多個行車屬性數(shù)據(jù),并利用所述多個行車數(shù)據(jù)以及樣本數(shù)據(jù)對應的交通工具類別獲得頻繁項集,分析所述頻繁項集,生成描述行車屬性數(shù)據(jù)與交通工具類別的強關聯(lián)關系的關聯(lián)規(guī)則,用于識別待處理數(shù)據(jù)對應的交通工具類別。本申請?zhí)峁┑姆椒ㄓ捎趶臉颖緮?shù)據(jù)出發(fā),提取了樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù),由此得到的關聯(lián)規(guī)則更為準確,也提升了交通工具類別識別的準確性。附圖說明為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本申請實施例提供的一種交通工具類別識別方法流程圖;圖2為本申請實施例提供的速度變化曲線示意圖;圖3為本申請實施例提供的一種交通工具類別識別方法流程圖;圖4為本申請實施例提供的關聯(lián)規(guī)則生成示意圖;圖5為本申請實施例提供的一種交通工具類別識別裝置示意圖;圖6是本申請另一實施例提供的交通工具類別識別裝置的框圖。具體實施方式本申請的目的是,提供一種交通工具類別識別方法及裝置,可以準確區(qū)分行車數(shù)據(jù)對應的交通工具的類別。為使得本申請的發(fā)明目的、特征、優(yōu)點能夠更加的明顯和易懂,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而非全部實施例?;诒旧暾堉械膶嵤├?,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。首先對本申請的思想進行闡述。本申請通過對不同交通工具在行駛中采集的數(shù)據(jù)進行分析,提取數(shù)據(jù)特征值并轉(zhuǎn)化成對應的屬性值,對每一條行程建立屬性-值的關系,即行程頻繁模式,并將這種頻繁模式用于分類。這種分類的好處就是考察多個屬性之間的高置信度關聯(lián),可以克服一些主觀分類或每次只采用一個屬性值分類的限制,在一定程度上更準確、更具伸縮性。頻繁模式的產(chǎn)生基于數(shù)據(jù)挖掘理論中關聯(lián)規(guī)則的分析過程。具體實現(xiàn)時,本申請將每一次行程的特征值(即行車屬性數(shù)據(jù))的集合組成項的集合I={x1,x2,…,xn},其中xi(i=1,2,…,n)為每個特征值,即屬性值。每一條行程作為一個事務T,在數(shù)據(jù)庫中具有唯一的行程ID,所有行程組成整個訓練分析的事務集D,本申請旨在挖掘行車屬性值A與交通工具類別B形如的關聯(lián)模式,找出行車屬性與交通工具類別之間的伴隨性。其中,在生成關聯(lián)規(guī)則時,通過設置最小支持度、最小置信度來確定關聯(lián)規(guī)則。其中,支持度(support)用于計算A與B在事務集中同時出現(xiàn)的概率,反映了兩者在整個事務集中的覆蓋程度,反映了規(guī)則的可行性。置信度(confidence)用于計算在事務集中A已經(jīng)出現(xiàn)的同時B出現(xiàn)的概率,反映了規(guī)則的可靠性。對于最終得到的關聯(lián)模式,可以定義A可以是1項集或多項集,而B是1項集,即一個或多個行車屬性與交通工具類別具有強關聯(lián)關系。這樣,通過生成關聯(lián)規(guī)則可以用于對行車數(shù)據(jù)進行分類,從而得到行車數(shù)據(jù)所對應的交通工具類別。首先對本申請涉及的技術術語進行說明,以下僅為解釋性說明,不視為對本申請的限制。其中,本申請涉及的術語“關聯(lián)規(guī)則”(英文名稱為AssociationRules)用于從大量數(shù)據(jù)中挖掘項集之間的有趣聯(lián)系或相關關系。關聯(lián)規(guī)則的任務就是為了發(fā)現(xiàn)數(shù)據(jù)集中不同數(shù)據(jù)項之間的關系,如數(shù)據(jù)項對另一數(shù)據(jù)項的影響。下面介紹關聯(lián)規(guī)則的一些基本定義:定義1設I={i1,i2,…,im}是全體數(shù)據(jù)項(簡稱項)的集合。數(shù)據(jù)項集(簡稱項集)是由數(shù)據(jù)項構成的非空集合。設D是數(shù)據(jù)事務的集合,其中每個事務T是項的集合,使得每個事務有唯一的標識符TID。項集包含的元素個數(shù)稱為項集的長度,長度為k的項集稱為k項集。定義2設A,B分別為一個項集,關聯(lián)規(guī)則的形式為的蘊涵式,其中并且A作為規(guī)則的前項集,B作為規(guī)則的后項集。定義3支持度(support):假定A是一個項集,D是事務的集合,稱D中包含A的事務的個數(shù)與總的事務數(shù)之比為A在D中的支持度,記作:support(A)=P(A)(1)定義4最小支持度(minimumsupport):由用戶定義的衡量項集頻繁程度的一個閥值,記作min_sup。定義5頻繁項集(frequentitemset):對于一個項集A,如果A的支持度不小于最小支持度,即support(A)≥min_sup,稱A為頻繁項集。定義6置信度(confidence):對形如的關聯(lián)規(guī)則,其中A、B都是項集,置信度定義為事務集D中既包含A也包含B的事務的個數(shù)與D中包含A的事務的個數(shù)之比,用AUB表示既包含A也包含B的項集,置信度也可說是項集AUB的支持度與A的支持度之比,記作confidence()=P(B|A)。confidence(A⇒B)=support(A∪B)support(A)---(2)]]>定義7最小置信度(minimumconfidence):用戶定義的一個置信度閥值,表示規(guī)則的最低可靠性,記作min_conf定義8強關聯(lián)規(guī)則:對于給定的最小支持度和最小置信度閥值,支持度和置信度都大于相應閥值的規(guī)則成為強關聯(lián)規(guī)則。即滿足下列條件:support(A⇒B)=support(AUB)≥min_sup---(3)]]>confidence(A⇒B)=support(A∪B)support(A)≥min_conf---(4)]]>下面結合圖1對本申請的具體實現(xiàn)進行詳細地介紹。如圖1所示,為根據(jù)本申請一實施方式的交通工具類別識別方法的流程圖,具體例如可以包括:S101,獲取第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)以及所述第一樣本數(shù)據(jù)對應的交通工具類別,根據(jù)所述多個行車屬性數(shù)據(jù)與所述交通工具類別獲得頻繁項集。具體實現(xiàn)時,所述第一樣本數(shù)據(jù)為不同交通工具在行駛中采集的行車數(shù)據(jù)。本申請對采集行車數(shù)據(jù)的方式不進行限制,可以是利用智能手機的GPS模塊采集行車數(shù)據(jù),也可以采用其他傳感器或者裝置采集行車數(shù)據(jù)。所述獲取第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)可以包括:對第一樣本數(shù)據(jù)進行分析,獲取所述第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù);對所述行車屬性數(shù)據(jù)進行離散化處理,獲得離散化的行車屬性數(shù)據(jù)。其中,所述第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)用于表征所述樣本數(shù)據(jù)的行車特征。所述行車數(shù)據(jù)包括但不限于最大速度、平均速度、速度方差、停車次數(shù)、停車時間、單位距離停車次數(shù)、平均精度中的任意一種或多種的結合。在一些實施方式中,本申請對不同交通工具在行駛中采集的行車數(shù)據(jù)進行分析,獲得行車屬性數(shù)據(jù)。具體實現(xiàn)時,可以針對每一條行程數(shù)據(jù),建立屬性-值的關系,從而提取各行車數(shù)據(jù)的行車屬性數(shù)據(jù)。而后,對行車屬性數(shù)據(jù)進行離散化處理,獲得離散化的行車屬性數(shù)據(jù)。離散化處理的具體方式可以是多樣的,在此不進行限定。在一些實施方式中,根據(jù)所述多個行車屬性數(shù)據(jù)與所述交通工具類別獲得頻繁項集包括:將所述多個行車屬性數(shù)據(jù)與所述交通工具類別數(shù)據(jù)轉(zhuǎn)換成二維數(shù)組;掃描所述二維數(shù)組,生成K項集;其中,K為大于等于2的整數(shù);判斷所述K項集的支持度是否大于設定的最小支持度;若是,將所述K項集作為頻繁項集;其中,所述頻繁項集的后項為交通工具類別。其中,頻繁項集為支持度大于最小支持度的集合。在本申請中,頻繁項集至少為2項集,其后項為交通工具類別。具體實現(xiàn)可以參照圖3的示意圖。支持度的計算可以參照公式(3)的計算,所得到的頻繁項集的支持度應大于最小支持度。公式(3)中,A為行車屬性數(shù)據(jù),B為交通工具類別。S102,分析所述頻繁項集,生成關聯(lián)規(guī)則。具體實現(xiàn)時,判斷所述頻繁項集的置信度是否大于設定的最小置信度;若是,確定所述頻繁項集的前項和后項為強關聯(lián)關系,根據(jù)所述強關聯(lián)關系生成關聯(lián)規(guī)則。置信度的計算請參照公式(4)。其中,A為行車屬性數(shù)據(jù),B為交通工具類別。在一些實施方式中,還可以包括對關聯(lián)規(guī)則進行測試的步驟。例如,可以獲取第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù),所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同;根據(jù)所述第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;判斷得到的所述交通工具類別與所述第二樣本數(shù)據(jù)標注的交通工具類別是否一致,獲得判斷結果;根據(jù)所述判斷結果確定關聯(lián)規(guī)則的識別準確率;若所述識別準確率大于設定閾值,則輸出所述關聯(lián)規(guī)則。舉例說明,獲取第二樣本數(shù)據(jù)作為測試樣本數(shù)據(jù),提取所述第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)。所述行車屬性數(shù)據(jù)的類型與S102中關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型是相同的。根據(jù)關聯(lián)規(guī)則、所述行車屬性數(shù)據(jù)獲取第二樣本數(shù)據(jù)對應的交通工具的類別,并與標注的樣本數(shù)據(jù)的交通工具類別進行比較,判斷是否一致。從而獲得所述關聯(lián)規(guī)則的識別準確率,若所述準確率大于設定閾值,則說明關聯(lián)規(guī)則準確性較高,可以輸出關聯(lián)規(guī)則。在一些實施方式中,本申請?zhí)峁┑姆椒ㄟ€可以包括:對所述關聯(lián)規(guī)則進行處理,生成基于所述關聯(lián)規(guī)則的分類器,所述分類器用于識別待處理工具對應的交通工具的類別。S103,利用所述關聯(lián)規(guī)則識別待處理數(shù)據(jù)對應的交通工具類別。具體實現(xiàn)時,獲取待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù);所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同;根據(jù)所述待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別。在一些實施方式中,當對所述關聯(lián)規(guī)則進行處理,生成基于所述關聯(lián)規(guī)則的分類器后,還可以利用所述分類器對待處理數(shù)據(jù)分類,自動輸出待處理數(shù)據(jù)對應的交通工具的類別。為了便于本領域技術人員更清楚地理解本申請在具體場景下的實施方式,下面以一個具體示例對本申請實施方式進行介紹。需要說明的是,該具體示例僅為使得本領域技術人員更清楚地了解本申請,但本申請的實施方式不限于該具體示例。參見圖3,為本申請實施例提供的一種交通工具類別識別方法流程圖。S301,采集行車數(shù)據(jù)。例如,通過智能終端的GPS模塊采集行車數(shù)據(jù)。當然,本申請還可以適用于其他數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)。也就是說,本申請對采集行車數(shù)據(jù)的方式不進行限定。S302,存儲原始數(shù)據(jù)。舉例說明,采集的原始數(shù)據(jù)可以包括經(jīng)緯度、速度、方向角、精度、時間等,存儲所述數(shù)據(jù)。具體處理時,以采集GPS數(shù)據(jù)為例,可以將原始數(shù)據(jù)存儲為表1的格式,作為每次數(shù)據(jù)分析以及模型參數(shù)調(diào)整的基礎。表1原始數(shù)據(jù)列名數(shù)據(jù)類型空/非空約束條件DRIVE_IDstringN主鍵,唯一碼LONGITUDEdoubleNLATITUDEdoubleNSPEEDfloatNBEARINGfloatNACCURACYfloatNTIMElongN其中,DRIVE_ID為行程事務ID;LONGITUDE為經(jīng)度;LATITUDE為緯度;SPEED為速度;BEARING為方位;ACCURACY為精度;TIME為時間。S303,對原始數(shù)據(jù)進行預處理,獲得行車屬性數(shù)據(jù)。申請人發(fā)現(xiàn),在原始數(shù)據(jù)中,速度變化可以顯著描述車的運行特征。如圖2所示,為一次行程速度變化曲線示意圖。根據(jù)行車過程中的速度變化,可以通過運算得到行車屬性值,例如可以包括最大速度、平均速度、速度方差、停車次數(shù)、停車時間、單位距離停車次數(shù)、平均精度等屬性值。針對每一個行程,均可以提取上述行車屬性值。表2所示為通過GPS信息的二次計算,整理出行車屬性值,作為數(shù)據(jù)分析的數(shù)據(jù)倉庫。表2行車屬性數(shù)據(jù)列名數(shù)據(jù)類型空/非空約束條件DRIVE_IDstringN主鍵,唯一碼AVERAGE_SPEEDfloatNMAX_SPEEDfloatNSPEED_VARIANCEfloatNSTOP_NUMBERintNSTOP_NUMBER_PERKMfloatNAVERAGE_ACCURACYfloatN其中,DRIVE_ID為行程事務標識ID;AVERAGE_SPEED為平均速度;MAX_SPEED為最大速度;SPEED_VARIANCE為速度方差;STOP_NUMBER為停車次數(shù);STOP_NUMBER_PERKM為每千米停車次數(shù);AVERAGE_ACCURACY為平均精度。而后,對所述行車屬性數(shù)據(jù)進行離散化處理,獲得離散化的行車屬性數(shù)據(jù)。例如所述將屬性值離散化處理的方式可以是對每個屬性分成若干等級或標識,如高、中、低。當然,也可以采用其他方式對行車屬性數(shù)據(jù)進行離散化處理,在此不進行限定。如表3所示,為離散化處理后的行車屬性數(shù)據(jù)。表3離散處理后的行車屬性數(shù)據(jù)以及交通工具類別數(shù)據(jù)列名數(shù)據(jù)類型空/非空約束條件AVERAGE_SPEEDstringN等級MAX_SPEEDstringN等級SPEED_VARIANCEstringN等級STOP_NUMBERstringN等級STOP_NUMBER_PERKMstringN等級AVERAGE_ACCURACYstringN等級CLASS_IDstringN交通工具類別對樣本數(shù)據(jù)中的每條行程數(shù)據(jù)進行上述處理,即可以獲得如表4所示的所有行車事務集合,所述行程事務集合用于頻繁項集的挖掘。表4用于頻繁項集挖掘的所有行程事務集合IDAVERAGE_SPEEDMAX_SPEEDSPEED_VARIANCESTOP_NUMBERSTOP_NUMBER_PERKMAVERAGE_ACCURACYCLASS_ID1AS_LMS_LSV_HSN_HSNP_HAA_L汽車2AS_MMS_MSV_HSN_HSNP_HAA_M火車…………………………………高鐵N………………………………地鐵如表4所示,其中ID表示行程事務ID,CLASS_ID表示交通工具類別。舉例說明,行程事務ID為1的數(shù)據(jù),包括:(1)行車屬性數(shù)據(jù)平均速度,其值表示平均速度低(AS_L);(2)行車屬性數(shù)據(jù)最大速度,其值為最大速度低(MS_L);(3)行車屬性數(shù)據(jù)速度方差,其值為速度方差高(SV_H);(4)行車屬性數(shù)據(jù)停車次數(shù),其值為停車次數(shù)高(SN_H);(5)行車屬性數(shù)據(jù)每千米停車次數(shù),其值表示每千米停車次數(shù)高(SNP_H);(6)行車屬性數(shù)據(jù)平均精度,其值表示平均精度低(AA_L);(7)交通工具類別,其值為汽車。類似地,行程事務ID為2的數(shù)據(jù),包括:(1)行車屬性數(shù)據(jù)平均速度,其值表示平均速度中(AS_M);(2)行車屬性數(shù)據(jù)最大速度,其值為最大速度中(MS_M);(3)行車屬性數(shù)據(jù)速度方差,其值為速度方差高(SV_H);(4)行車屬性數(shù)據(jù)停車次數(shù),其值為停車次數(shù)高(SN_H);(5)行車屬性數(shù)據(jù)每千米停車次數(shù),其值表示每千米停車次數(shù)高(SNP_H);(6)行車屬性數(shù)據(jù)平均精度,其值表示平均精度中(AA_M);(7)交通工具類別,其值為火車。類似地,可以獲得其他行程事務集合中的各項數(shù)據(jù)。在一些實施方式中,本申請?zhí)峁┑姆椒?,還可以包括存儲行車屬性數(shù)據(jù)的步驟。具體實現(xiàn)時,可以將獲得的行車屬性數(shù)據(jù)存儲成如表4所示的形式,構成行程事務集合。在一些實施方式中,所述行車屬性數(shù)據(jù)可以劃分為兩個集合,一個集合可以稱之為訓練集(對應第一樣本數(shù)據(jù)),一個集合可以稱之為測試集(對應第二樣本數(shù)據(jù))。其中,所述訓練集中的數(shù)據(jù)用于進行S304的頻繁項集挖掘;所述測試集中的數(shù)據(jù)用于進行S307對關聯(lián)規(guī)則的驗證。訓練集和測試集的劃分方式可以是非常靈活的,在此不進行限定。S304,挖掘頻繁項集。具體實現(xiàn)時,可以使用訓練集中的數(shù)據(jù)進行頻繁項集挖掘。S305,關聯(lián)規(guī)則挖掘處理。具體實現(xiàn)時,S304和S305的實現(xiàn)可以參照圖4所示的關聯(lián)規(guī)則生成示意圖而實現(xiàn)。舉例說明,首先輸入設定的最小支持度值min_sup和最小置信度值min_conf。其中,最小支持度值min_sup為衡量項集頻繁程度的一個閥值,對于項集A而言,若A的支持度不小于最小支持度,即support(A)≥min_sup,稱A為頻繁項集。其中,最小置信度(minimumconfidence)為設定的一個置信度閥值,表示規(guī)則的最低可靠性,記作min_conf。具體實現(xiàn)時,可以將表4所示的數(shù)據(jù)庫表轉(zhuǎn)換成二維數(shù)組。掃描所述二維數(shù)組,產(chǎn)生K項集的集合。初始時,K=1。判斷所述K項集的支持度是否大于設定的最小支持度。若是,將所述K項集作為頻繁項集。若否,刪除所述K項集。經(jīng)過上述處理后,產(chǎn)生頻繁項集的集合Lk,保存所述頻繁項集Lk。對每個頻繁項集進行自連接產(chǎn)生候選項集Ck+1。舉例說明,假設產(chǎn)生的頻繁項集為A、B、C、D、E,自連接后產(chǎn)生的候選項集Ck+1包括AB、AC、AD、AE、BC、BD、BE、CD、CE、DE。對產(chǎn)生的候選項集Ck+1進行剪枝處理,去除重復的集合。再次掃描二維數(shù)組,計算每一個候選項集的支持度是否大于最小支持度,將大于最小支持度的項集作為頻繁項集。由此,逐漸產(chǎn)生二項集、三項集……K項集,直到找到所有頻繁項集的集合UkLk。需要說明的是,由于本申請旨在挖掘行車屬性數(shù)據(jù)與交通工具類別的關聯(lián)關系,因此,最終找到的頻繁項集至少應當是K項集且所述K項集的后項為交通工具類別,其中K大于等于2。舉例說明,假設最終找到若干個5項集,需要在這若干個5項集中找到包含交通工具類別這一項的項集。當然,也可以在一開始尋找頻繁項集的時候,從后項為交通工具類別的二項集開始迭代,直到找到所有包含交通工具類別的頻繁項集。在找尋到所有頻繁項集后,判斷所述頻繁項集的置信度是否大于最小置信度,若大于,生成關聯(lián)規(guī)則。其中,頻繁項集置信度的計算可以應用如下公式:confidence(A⇒B)=support(A∪B)support(A)≥min_conf]]>其中,A表示行車屬性數(shù)據(jù),B表示交通工具類別。S306,對關聯(lián)規(guī)則進行處理。具體實現(xiàn)時,會選取置信度較高的規(guī)則作為強關聯(lián)規(guī)則,例如“速度極快->高鐵”,“等車間隔短->公交”,“速度方差大->汽車”等等,并組織成用于分類的關聯(lián)規(guī)則。S307,使用測試集驗證關聯(lián)規(guī)則。具體實現(xiàn)時,可以采用第二樣本數(shù)據(jù)作為測試集數(shù)據(jù)用于驗證關聯(lián)規(guī)則。其中,所述第二樣本數(shù)據(jù)可以是S303中對原始數(shù)據(jù)預處理后獲得的數(shù)據(jù)集合的一部分。舉例說明,獲取所述第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)。所述行車屬性數(shù)據(jù)的類型與S102中關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型是相同的。根據(jù)關聯(lián)規(guī)則、所述行車屬性數(shù)據(jù)獲取第二樣本數(shù)據(jù)對應的交通工具的類別,并與標注的樣本數(shù)據(jù)的交通工具類別進行比較,判斷是否一致。從而獲得所述關聯(lián)規(guī)則的識別準確率,若所述準確率大于設定閾值,則說明關聯(lián)規(guī)則準確性較高,可以輸出關聯(lián)規(guī)則。S308,判斷是否滿足模型準確率。具體的模型準確率閾值可以根據(jù)經(jīng)驗設定。S309,若是,輸出分類規(guī)則。其中,所述分類規(guī)則為滿足模型準確率的關聯(lián)規(guī)則。S310,應用分類規(guī)則對新行車數(shù)據(jù)進行分類。具體實現(xiàn)時,可以生成基于分類規(guī)則的分類器,用于對新行車數(shù)據(jù)進行分類。本申請從實際行車數(shù)據(jù)出發(fā),建立行車標準數(shù)據(jù)樣本庫,并從中提取行車數(shù)據(jù)特征。一切以數(shù)據(jù)為出發(fā)點,通過大數(shù)據(jù)的分析技術,從實際數(shù)據(jù)中挖掘規(guī)律,生成預測標準。并且隨著數(shù)據(jù)量的增加,其生成的規(guī)則也會更加精確。本申請?zhí)峁┑淖R別方法一方面解決了目前手機作為UBI采集終端的行車工具分類問題,一方面摒棄了一般主觀設定閥值的分類辦法,提高了分類的客觀性、精確性,且分類規(guī)則是能夠隨著實際數(shù)據(jù)動態(tài)自動調(diào)整的。本申請還能夠達到如下技術效果:(1)本申請?zhí)岢龇椒?,可以基于GPS采集數(shù)據(jù),對交通工具進行分類,簡單易用,模型處理簡單,開發(fā)成本低。(2)本申請通過對行車數(shù)據(jù)的特征分析,指出具有代表意義的行車特征值,從而建立頻繁事務集,并以此挖掘出分類標準。方法本身從實際數(shù)據(jù)訓練出發(fā),并經(jīng)過實際數(shù)據(jù)測試,具備一定客觀性。(3)本申請?zhí)岢龌诙鄠€行車屬性值,并建立它們之間強關聯(lián)關系的判定方法,相比一般簡單的每次判斷只根據(jù)單一屬性來區(qū)分的方法,提高了分析維度以及準確性。(4)本申請?zhí)峁┑姆椒ň哂衅毡橥ㄓ眯?,對于各種行程,無論是走路、跑步、乘車都具有適用性,對行程產(chǎn)生的類別都可以通過生成分類規(guī)則的方式進行識別。以上是對本申請實施例所提供的交通工具類別識別方法進行的詳細描述,下面對本申請?zhí)峁┑慕煌üぞ哳悇e識別裝置進行詳細描述。圖5為本申請實施例提供的一種交通工具類別識別裝置示意圖。一種交通工具類別識別裝置500,所述裝置500包括:頻繁項集獲得模塊501,用于獲取第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)以及所述第一樣本數(shù)據(jù)對應的交通工具類別,根據(jù)所述多個行車屬性數(shù)據(jù)與所述交通工具類別獲得頻繁項集;所述頻繁項集的前項為行車屬性數(shù)據(jù),所述頻繁項集的后項為交通工具類別。關聯(lián)規(guī)則生成模塊502,用于分析所述頻繁項集,生成關聯(lián)規(guī)則;所述關聯(lián)規(guī)則用于描述行車屬性數(shù)據(jù)與交通工具類別的強關聯(lián)關系。識別模塊503,用于利用所述關聯(lián)規(guī)則識別待處理數(shù)據(jù)對應的交通工具類別。在一些實施方式中,所述裝置還可以包括:數(shù)據(jù)采集模塊,用于采集樣本數(shù)據(jù)和/或待處理數(shù)據(jù);所述數(shù)據(jù)為行車數(shù)據(jù)。在一些實施方式中,所述頻繁項集獲得模塊501具體用于:對第一樣本數(shù)據(jù)進行分析,獲取所述第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù);對所述行車屬性數(shù)據(jù)進行離散化處理,獲得離散化的行車屬性數(shù)據(jù);所述行車屬性數(shù)據(jù)包括最大速度、平均速度、速度方差、停車次數(shù)、停車時間、單位距離停車次數(shù)、平均精度中的任意一種或多種的結合。在一些實施方式中,所述頻繁項集獲得模塊501具體用于:將所述多個行車屬性數(shù)據(jù)與所述交通工具類別數(shù)據(jù)轉(zhuǎn)換成二維數(shù)組;掃描所述二維數(shù)組,生成K項集;判斷所述K項集的支持度是否大于設定的最小支持度;若是,將所述K項集作為頻繁項集;其中,所述頻繁項集的后項為交通工具類別,K為大于等于2的整數(shù)。在一些實施方式中,所述關聯(lián)規(guī)則生成模塊502具體用于:判斷所述頻繁項集的置信度是否大于設定的最小置信度;若是,確定所述頻繁項集的前項和后項為強關聯(lián)關系,根據(jù)所述強關聯(lián)關系生成關聯(lián)規(guī)則。在一些實施方式中,所述識別模塊503具體用于:獲取待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù);根據(jù)所述待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;其中,所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同。在一些實施方式中,所述裝置還包括:測試模塊,具體用于獲取第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù),所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同;根據(jù)所述第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;判斷得到的所述交通工具類別與所述第二樣本數(shù)據(jù)標注的交通工具類別是否一致,獲得判斷結果;根據(jù)所述判斷結果確定關聯(lián)規(guī)則的識別準確率;若所述識別準確率大于設定閾值,則輸出所述關聯(lián)規(guī)則。上述各模塊的功能可對應于圖1至圖4詳細描述的上述交通工具類別識別方法的處理步驟,于此不再贅述。參見圖6,是本申請另一實施例提供的交通工具類別識別的裝置的框圖。包括:至少一個處理器601(例如CPU),存儲器602和至少一個通信總線603,所述通信總線603用于實現(xiàn)這些裝置之間的連接通信。處理器601用于執(zhí)行存儲器602中存儲的可執(zhí)行模塊,例如計算機程序。存儲器602可能包含高速隨機存取存儲器(RAM:RandomAccessMemory),也可能還包括非不穩(wěn)定的存儲器(non-volatilememory),例如至少一個磁盤存儲器。一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器601執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:獲取第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù)以及所述第一樣本數(shù)據(jù)對應的交通工具類別,根據(jù)所述多個行車屬性數(shù)據(jù)與所述交通工具類別獲得頻繁項集;所述頻繁項集的前項為行車屬性數(shù)據(jù),所述頻繁項集的后項為交通工具類別;分析所述頻繁項集,生成關聯(lián)規(guī)則;所述關聯(lián)規(guī)則用于描述行車屬性數(shù)據(jù)與交通工具類別的強關聯(lián)關系;利用所述關聯(lián)規(guī)則識別待處理數(shù)據(jù)對應的交通工具類別。在一些實施方式中,處理器601具體用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:對第一樣本數(shù)據(jù)進行分析,獲取所述第一樣本數(shù)據(jù)的多個行車屬性數(shù)據(jù);對所述行車屬性數(shù)據(jù)進行離散化處理,獲得離散化的行車屬性數(shù)據(jù);其中,所述行車屬性數(shù)據(jù)包括最大速度、平均速度、速度方差、停車次數(shù)、停車時間、單位距離停車次數(shù)、平均精度中的任意一種或多種的結合。在一些實施方式中,處理器601具體用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:將所述多個行車屬性數(shù)據(jù)與所述交通工具類別數(shù)據(jù)轉(zhuǎn)換成二維數(shù)組;掃描所述二維數(shù)組,生成K項集;判斷所述K項集的支持度是否大于設定的最小支持度;若是,將所述K項集作為頻繁項集;其中,所述頻繁項集的后項為交通工具類別,K為大于等于2的整數(shù)。在一些實施方式中,所述處理器601具體還用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:判斷所述頻繁項集的置信度是否大于設定的最小置信度;若是,確定所述頻繁項集的前項和后項為強關聯(lián)關系,根據(jù)所述強關聯(lián)關系生成關聯(lián)規(guī)則。在一些實施方式中,所述處理器601具體還用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:獲取待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù);根據(jù)所述待處理數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同。在一些實施方式中,所述處理器601具體還用于執(zhí)行所述一個或者一個以上程序包含用于進行以下操作的指令:獲取第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù),所述行車屬性數(shù)據(jù)的類型與所述關聯(lián)規(guī)則包含的行車屬性數(shù)據(jù)的類型相同;根據(jù)所述第二樣本數(shù)據(jù)的一個或多個行車屬性數(shù)據(jù)、所述關聯(lián)規(guī)則,得到與所述行車屬性數(shù)據(jù)對應的交通工具類別;判斷得到的所述交通工具類別與所述第二樣本數(shù)據(jù)標注的交通工具類別是否一致,獲得判斷結果;根據(jù)所述判斷結果確定關聯(lián)規(guī)則的識別準確率;若所述識別準確率大于設定閾值,則輸出所述關聯(lián)規(guī)則。專業(yè)人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的模塊及算法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本申請的范圍。結合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結合來實施。軟件模塊可以置于隨機存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或
技術領域:
內(nèi)所公知的任意其它形式的存儲介質(zhì)中。以上所述的具體實施方式,對本申請的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本申請的具體實施方式而已,并不用于限定本申請的保護范圍,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本申請的保護范圍之內(nèi)。當前第1頁1 2 3