本發(fā)明涉及行為識別和知識挖掘技術領域,具體涉及一種基于手機傳感器的群體行為方法。
背景技術:
隨著手機移動網(wǎng)絡的迅猛發(fā)展及廣泛應用,手機網(wǎng)絡用戶的數(shù)量不斷增多,移動網(wǎng)絡已經(jīng)成為人們實現(xiàn)資源共享和信息交流的最重要傳播媒介。手機移動網(wǎng)絡的繁榮使得用戶數(shù)據(jù)以爆炸式的方式增長,這些海量數(shù)據(jù)蘊含著巨大的價值。對網(wǎng)絡群體行為進行分析不僅可以為用戶提供適應性強的個性化信息服務同時,也能夠在更大的范圍內(nèi)維護網(wǎng)絡空間安全,其具有一定的研究價值。網(wǎng)絡群體行為是絕大多數(shù)或全部網(wǎng)絡用戶在網(wǎng)絡活動中表現(xiàn)出的一種行為習慣。在網(wǎng)絡活動中,將所有網(wǎng)絡用戶視為一個整體,這些用戶的特定網(wǎng)絡行為表現(xiàn)為互動性和興趣愛好一致性。通過研究群體用戶網(wǎng)絡行為特征,使人們對群體用戶網(wǎng)絡行為規(guī)律有了較為深入的了解和把握,同時可以將用戶行為中的信息進行有效和合理的分類,通過對分類化的信息進行研究,可以最終找到其中涉及安全的問題?,F(xiàn)有技術的用戶群體行為分析方法,主要是通過獲取智能終端日志對網(wǎng)絡群體行為進行分析,然而在獲取智能終端日志需要較高的權限,同時在處理web日志海量數(shù)據(jù)時,現(xiàn)有的搜索引擎技術在對信息的檢索時,仍然存著搜索精度不高、覆蓋率有限等問題,無法更好地發(fā)現(xiàn)web日志上潛在、隱藏的知識。
智能手機等移動電子設備已成為人們?nèi)粘I钪胁豢扇鄙俚慕涣骱屯ㄓ嵲O備,而內(nèi)置于智能手機中的傳感器,如加速度計、陀螺儀等,以低廉的價格、較高的靈敏度和較小的體積被廣泛使用。手機傳感器其具有利用微型傳感器可以感知多種用戶活動、上下文信息、環(huán)境信息等,因此利用手機傳感器數(shù)據(jù)進行用戶活動信息識別較傳統(tǒng)獲取手機日志相比,手機傳感器調(diào)用不受限制有效解決了獲取手機日志需要較高的用戶權限的缺陷,同時手機傳感器還具有數(shù)據(jù)更加容易存儲等優(yōu)點。
技術實現(xiàn)要素:
根據(jù)現(xiàn)有技術的以上缺陷或改進需求,本發(fā)明提供一種基于手機傳感器的群體行為分析方法,本發(fā)明將手機加速度傳感器及觸摸屏傳感器信號作為行為分析的數(shù)據(jù)源,然后通過滑動平均濾波器對原始數(shù)據(jù)進行噪聲處理;對預處理后的數(shù)據(jù)在時域和頻域上進行特征提取,構建一種結合互信息與線性判別分析的降維方法對提取特征進行降維處理,將降維后的對應特征向量輸入行為分類模型,獲得用戶行為識別結果。進一步選擇訪問時間和訪問頻率作為群體行為屬性,最后利用近鄰傳播算法對用戶群體行為數(shù)據(jù)進行聚類分析,完成對群體行為的分析。
本發(fā)明實施例公開了一種基于手機傳感器的群體行為分析方法,其特征在于,包括以下步驟:
步驟1:通過手機內(nèi)置加速度及觸摸屏傳感器實時采集傳感器數(shù)據(jù),加速度傳感器的采樣頻率設為50hz,觸摸傳感器以0.02s定時采集,與加速度傳感器保持相同的頻率;
步驟2:對實時采集到的原始傳感器數(shù)據(jù)進行數(shù)據(jù)預處理,獲得當前時間滑動窗口si對應的數(shù)據(jù)段;同時對獲得的數(shù)據(jù)段提取行為特征,包括加速度傳感器和觸摸屏傳感器信號的時域和頻域特征,得到對應的特征向量f=[f1,f2,…,fm],m為特征維數(shù);通過構建的結合互信息與線性判別分析的降維模型對特征向量f進行特征選擇,降維后得到d維特征子集x={x1,x2,…,xd};
步驟3:訓練用戶瀏覽網(wǎng)頁、聊天、接打電話和游戲4種不同的行為分類模型ci,將降維后的特征子集x={x1,x2,…,xd}輸入行為分類模型ci,輸出用戶行為類別bi,bi∈b,b是由預先定義的行為構成集合b∈{瀏覽網(wǎng)頁,聊天,接打電話,游戲},bi即為最終的用戶行為識別結果;
步驟4:根據(jù)步驟3識別滑動窗口si的行為結果bi,其中滑動窗口si與行為bi具有一一對應關系;計算時間t內(nèi)n個用戶的行為訪問時間vt和訪問頻率vf作為群體行為屬性,利用近鄰傳播算法對數(shù)據(jù)進行聚類分析。
在本發(fā)明步驟2所述的加速度信號特征分為時域和頻域特征,時域特征提取三軸加速度的手勢信號能量,頻域特征提取快速傅里葉變換前64維系數(shù)。
(1)手勢在運動過程中的劇烈程度被稱為手勢能量,計算從手勢起點到終點的所有三軸加速度之和,如下:
其中l(wèi)為滑動窗口長度,g為重力加速度。
(2)快速傅里葉變換系數(shù)是加速度信號典型的頻域特征,反映了信號的頻率分量幅度。對于長度為l的數(shù)據(jù)窗,x軸加速度ax傅里葉變換如下:
觸摸屏信號分別提取手勢滑動速度和滑動方向特征:
(3)滑動速度反映了手機用戶操作不同程序時手指在屏幕上移動速度:
其中xmax,xmin,ymax,ymin分別為觸摸屏信息x、y軸的最大值和最小值;
(4)定義點(xi,yi)處手勢軌跡運動方向為:
進一步,所述的步驟2中所構建的結合互信息與線性判別分析的降維模型,為了能夠更好衡量特征之間非線性關系,設計一種結合互信息與線性判別分析的降維方法;利用互信息構建樣本的類內(nèi)離散度矩陣和樣本的類間離散度矩陣,以此來衡量特征向量集fm×n中各特征間相互關聯(lián)的程度,有:
其中,p(fi),p(fj)和p(fi,fj)表示為特征fi和fj各自的邊緣概率分布及聯(lián)合概率分布函數(shù)。則樣本的類內(nèi)離散度矩陣定義如下:
定義樣本的類間離散度矩陣:
最佳投影wopt的選擇是使得投影后類間離散度矩陣的行列式與類內(nèi)離散度矩陣的行列式比值最大的w,即:
其中{wi|i=1,2,...,m}是sb和sw的廣義特征向量,它們分別對應于所有廣義特征值中m個最大的廣義特征值{λi|i=1,2,...,m},即:
sbw=λsww(11)
若sw非奇異,則sw-1sbw=λw,則w的每一列為sw-1sb的前c-1個較大特征的值對應的特征向量。
通過以上步驟,本發(fā)明實現(xiàn)了一種利用手機加速度及觸摸屏傳感器分析用戶群體行為的方法。
本發(fā)明具有以下優(yōu)點:
1、本發(fā)明所提供的一種基于手機傳感器的群體行為分析方法,以手機加速度及觸摸屏傳感器信號作為行為分析的數(shù)據(jù)源,能夠可以感知多種用戶活動和上下文信息,有效解決了獲取手機日志需要較高的用戶權限的缺陷,同時手機傳感器還具有數(shù)據(jù)更加容易存儲等優(yōu)點。
2、本發(fā)明設計一種結合互信息與線性判別分析的降維方法,可以更好衡量特征之間非線性關系,優(yōu)化了特征空間,減少無效信息成分,降低了計算量。在有效提高行為識別性能同時減少了算法訓練時間。
3、本發(fā)明采用近鄰傳播聚類算法對群體行為數(shù)據(jù)進行分析,夠有效克服k-means算法對初始中心點敏感的問題,不需要預先指定類中心,近鄰傳播算法可自動決定聚類的類數(shù)。
附圖說明
圖1為本發(fā)明實施例提供一種基于手機傳感器群體行為分析方法的流程圖;
圖2為本發(fā)明實施例提供的用戶行為識別流程圖;
具體實施方案
下面結合附圖對本發(fā)明的實施例做進一步描述:
圖1為本發(fā)明實施例提供一種基于手機傳感器群體行為分析方法流程圖,本發(fā)明所述的基于手機傳感器的群體行為分析方法,包括以下步驟:
步驟1:利用手機內(nèi)置傳感器獲取加速度及觸摸屏傳感信號,加速度傳感器的采樣頻率設為50hz,觸摸傳感器以0.02s定時采集,與加速度傳感器保持相同的頻率。當手機觸摸屏在無觸摸手勢下,觸摸屏x、y軸存儲為0。
步驟2:采集的原始數(shù)據(jù)即包含手勢信息,還包含噪聲信息,為此,在提取特征之前用滑動平均濾波器對原始數(shù)據(jù)進行預處理,對數(shù)據(jù)進行預處理如式(12)
其中ax’(t)為預處理后的x軸加速度,m為滑動平均濾波器的窗口寬度。
對預處理后的數(shù)據(jù)通過添加滑動窗的方式進行處理,采用等長重疊的窗對數(shù)據(jù)進行分割。其中滑動窗口的長度設定為10s,而前后窗之間的重疊率選擇為50%。進一步對每個滑動窗口內(nèi)的分割數(shù)據(jù)進行特征提取。提取的特征向量由加速度信號特征和觸摸屏信號特征組成,加速度信號特征分為時域和頻域特征,在時域上提取三軸加速度的手勢信號能量,頻域上提取快速傅里葉變換前64維系數(shù);觸摸屏信號分別提取手勢滑動速度和滑動方向等特征。考慮到特征分布的不均衡性,提取的加速度信號以及觸摸屏信號特征來自時域、頻域,其取值差異較大。采用z-score方法規(guī)范化特征向量集,規(guī)范化后的特征向量集有:
其中:
規(guī)范前的特征向量集為f(i,j),m為特征矩陣中的樣本個數(shù),n是每個特征向量的維數(shù)。經(jīng)過規(guī)范化處理后的特征向量集仍存在維數(shù)較高,冗余信息較大等問題,利用本發(fā)明的一種結合互信息與線性判別分析的降維方法進行特征子集選擇,降維后得到d維特征子集x={x1,x2,…,xd};
步驟3:對用戶瀏覽網(wǎng)頁、聊天、接打電話和游戲4種不同的行為進行訓練得到分類模型,如圖2所示。其中訓練的行為分類模型為支持向量機模型,該模型由g(j)個支持向量機組成,函數(shù)g(x)由模型的多類別分類策略決定,j為分類目標即行為類別的數(shù)目;每個支持向量機對應的分類超平面表達式為f(x),根據(jù)輸入的特征向量x={x1,x2,…,xd}計算函數(shù)值f(x),獲得分類結果(f(x)≥0或者f(x)≤0);對所有支持向量機的分類結果進行加權處理,取最高值作為行為分類結果輸出。輸出用戶行為類別bi,bi∈b,b是由預先定義的行為構成集合b∈{瀏覽網(wǎng)頁,聊天,接打電話,游戲},此時即可得到各個用戶時間段t行為序列bu={but,t∈tu}。
步驟4:根據(jù)步驟3識別滑動窗口si的行為結果bi,其中滑動窗口si與行為bi具有一一對應關系;計算時間t內(nèi)n個用戶的行為訪問時間vt和訪問頻率vf作為群體行為屬性。訪問時間vt表示用戶在某一網(wǎng)絡行為上的在線時間總和,訪問頻率vf表示用戶訪問某一網(wǎng)絡行為的次數(shù)。針對n個用戶,可獲得數(shù)據(jù)集d,進一步將近鄰傳播算法應用于所獲取的用戶數(shù)據(jù)集d中,將數(shù)據(jù)集d通過近鄰傳播算法劃分為k個聚類簇,根據(jù)類中數(shù)據(jù)對象特點,對用戶群體行為進行分析。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應所述以權利要求的保護范圍為準。