本發(fā)明涉及通信技術領域,尤其涉及一種用戶行為模式分析方法及裝置。
背景技術:
現有技術中針對電子門禁的刷卡記錄的大多應用中,只能完成簡單的查找操作,例如根據用戶的唯一標示(ID)或者時段的信息,在數據記錄中篩選出符合條件的記錄集合,之后進行手工的分析、制圖、操作、研判等。在部分應用中,對于門禁刷卡記錄的使用只是停留在對于刷卡次數、重點時段的刷卡頻次等簡單的指標的統(tǒng)計。例如,對于圖書館進出刷卡記錄的使用,對于讀者的行為只是局限于提供日均的刷卡頻次的統(tǒng)計數據,用于分析進入圖書館的人流數量和總體的變化趨勢,為圖書館的日常管理,開放時間等提供規(guī)劃。因為缺乏相應的分析算法和輔助的工具,僅依據簡單的每日刷卡次數或者特殊時段的刷卡次數對門禁刷卡行為的分析方法,存在關注點單一,分析能力有限,效果較差的問題。
因此,面對大量的門禁數據,現有的分析能力有限,僅僅依靠簡單的出入頻次分析不能有足夠的甄別能力,無法對門禁刷卡數據進行深入分析,根據用戶的刷卡記錄不能識別判斷出用戶的可能類型,無法真正刻畫用戶的行為模式。
當前,通過門禁的刷卡記錄對刷卡用戶的行為模式進行建模分析,尚未有較好的實現方案。
技術實現要素:
本發(fā)明實施例提供一種用戶行為模式分析方法及裝置,用來實現對大量的 門禁刷卡數據進行建模分析,達到根據刷卡用戶的刷卡數據,識別出刷卡用戶的行為模式的要求。
本發(fā)明實施例提供一種用于分析用戶行為模式的模型的建立方法,包括:
獲取用戶的刷卡數據,根據所述刷卡數據構建N個帶有用戶標識的數據點,所述數據點為單個用戶在設定時間段內刷卡頻率的多時段分布向量,N為大于1的正整數;
對所述N個數據點進行迭代聚類,得到k個目標簇,每個目標簇中的數據點與該數據點歸屬的目標簇的中心點的相異度不大于該數據點與其他目標簇的中心點的相異度,k為大于1的正整數;
針對每個目標簇,執(zhí)行:
根據第m個目標簇中數據點的用戶標識,查找與所述用戶標識對應的用戶信息,并根據所述用戶信息,確定用于標記所述第m個目標簇的用戶行為模式的標簽信息,其中,m的取值位于1和k之間;
建立所述第m個目標簇的中心點與所述標簽信息的關聯關系;
將所述第m個目標簇的中心點確定為表征所述用戶行為模式的向量模型。
進一步地,所述對所述N個數據點進行迭代聚類,得到k個目標簇,包括以下步驟:
步驟1:從所述N個數據點中隨機選擇k個數據點分別作為k個目標簇的中心點,k為設定的目標簇的個數;
步驟2:將除中心點之外的每個數據點劃分到與該數據點相異度最小的中心點所在的簇;
步驟3:計算每個簇中各數據點的平均值,將每個簇中離平均值最近的數據點作為新的中心點;
步驟4:重復步驟2和步驟3;若滿足迭代次數或者每個簇的中心點不再發(fā)生變化,則停止;滿足迭代次數或者每個簇的中心點不再發(fā)生變化時,得到k個目標簇和k個目標簇的中心點。
進一步地,所述用戶信息為用戶信息庫中存儲的,以所述用戶標識為索引的用戶身份信息;
所述根據目標簇中數據點的用戶標識,查找與所述用戶標識對應的用戶信息,包括:
根據目標簇中數據點的用戶標識,在用戶信息庫中查找與所述用戶標識對應的用戶信息。
基于上述向量模型的建立方法,本發(fā)明實施例提供一種用戶行為模式分析方法,包括:
提取待識別用戶的刷卡數據,根據所述待識別用戶的刷卡數據構建帶有用戶標識的待識別數據點,所述待識別數據點為待識別用戶在設定時間段內刷卡頻率的多時段分布向量;
根據所述待識別數據點與標記為不同用戶行為模式的k個向量模型之間的相似程度,確定出待識別用戶的行為模式,其中,所述k個向量模型是通過對用戶刷卡數據進行迭代聚類所得到的k個目標簇的中心點,每一個目標簇的中心點與用于標記該目標簇的用戶行為模式的標簽信息關聯。
進一步地,所述根據所述待識別數據點與標記為不同用戶行為模式的k個向量模型之間的相似程度,確定出待識別用戶的行為模式,包括:
根據所述待識別數據點與每一個向量模型之間的距離,得到所述待識別數據點與每一個向量模型之間的相似程度;
將與待識別數據點相似度最高的向量模型所代表的用戶行為模式確定為待識別用戶的行為模式。
本發(fā)明實施例還提供一種用戶行為模式分析方法,包括:
從獲取的用戶刷卡數據中選取特征時段內的用戶刷卡數據作為備選集合;
統(tǒng)計備選集合中任一用戶與其余用戶的共現系數,所述共現系數是指在單個用戶單次刷卡前后的閾值時間段內,備選集合中其余用戶的刷卡次數;
根據第N用戶與其余用戶的共現系數,建立以所述第N用戶為索引,與 所述第N用戶的相似程度按照由高到低排序的用戶列表,N為大于1的正整數;
從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將滿足相似程度閾值的用戶確定為與已知用戶的行為模式相似的用戶,其中,備選集合中包括所述已知用戶的刷卡數據。
本發(fā)明實施例提供一種用于分析用戶行為模式的模型的建立裝置,包括:
獲取單元,用于獲取用戶的刷卡數據;
數據構建單元,用于根據所述刷卡數據構建N個帶有用戶標識的數據點,所述數據點為單個用戶在設定時間段內刷卡頻率的多時段分布向量,N為大于1的正整數;
聚類單元,用于對所述N個數據點進行迭代聚類,得到k個目標簇,每個目標簇中的數據點與該數據點歸屬的目標簇的中心點的相異度不大于該數據點與其他目標簇的中心點的相異度,k為大于1的正整數;
標簽確定單元,用于根據第m個目標簇中數據點的用戶標識,查找與所述用戶標識對應的用戶信息,并根據所述用戶信息,確定用于標記所述第m個目標簇的用戶行為模式的標簽信息,其中,m的取值位于1和k之間;
標簽標記單元,用于建立所述第m個目標簇的中心點與所述標簽信息的關聯關系;
向量模型確定單元,用于將所述第m個目標簇的中心點確定為表征所述用戶行為模式的向量模型。
進一步地,所述聚類單元具體用于執(zhí)行以下步驟:
步驟1:從所述N個數據點中隨機選擇k個數據點分別作為k個目標簇的中心點,k為設定的目標簇的個數;
步驟2:將除中心點之外的每個數據點劃分到離與該數據點相異度最小的中心點所在的簇;
步驟3:計算每個簇中各數據點的平均值,將每個簇中離平均值最近的數據點作為新的中心點;
步驟4:重復步驟2和步驟3;若滿足迭代次數或者每個簇的中心點不再發(fā)生變化,則停止;滿足迭代次數或者每個簇的中心點不再發(fā)生變化時,得到k個目標簇和k個目標簇的中心點。
進一步地,所述用戶信息為用戶信息庫中存儲的,以所述用戶標識為索引的用戶身份信息;
所述標簽確定單元具體用于:
根據目標簇中數據點的用戶標識,在用戶信息庫中查找與所述用戶標識對應的用戶信息。
本發(fā)明實施例提供一種用戶行為模式分析裝置,包括:
獲取單元,用于提取待識別用戶的刷卡數據;
數據構建單元,用于根據所述待識別用戶的刷卡數據構建帶有用戶標識的待識別數據點,所述待識別數據點為待識別用戶在設定時間段內刷卡頻率的多時段分布向量;
分析單元,用于根據所述待識別數據點與標記為不同用戶行為模式的k個向量模型之間的相似程度,確定出待識別用戶的行為模式,其中,所述k個向量模型是通過對用戶刷卡數據進行迭代聚類所得到的k個目標簇的中心點,每一個目標簇的中心點與用于標記該目標簇的用戶行為模式的標簽信息關聯。
進一步地,所述分析單元具體用于:
根據所述待識別數據點與每一個向量模型之間的距離,得到所述待識別數據點與每一個向量模型之間的相似程度;
將與待識別數據點相似度最高的向量模型所代表的用戶行為模式確定為待識別用戶的行為模式。
本發(fā)明實施例提供一種用戶行為模式分析裝置,包括:
獲取單元,用于從獲取的用戶刷卡數據中選取特征時段內的用戶刷卡數據作為備選集合;
統(tǒng)計單元,用于統(tǒng)計備選集合中任一用戶與其余用戶的共現系數,所述共 現系數是指在單個用戶單次刷卡前后的閾值時間段內,備選集合中其余用戶的刷卡次數;
建立單元,用于根據第N用戶與其余用戶的共現系數,建立以所述第N用戶為索引,與所述第N用戶的相似程度按照由高到低排序的用戶列表,N為大于1的正整數;
確定單元,用于從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將滿足相似程度閾值的用戶確定為與已知用戶的行為模式相似的用戶,其中,備選集合中包括所述已知用戶的刷卡數據。
上述實施例中,將用戶刷卡數據通過多時段分布向量進行表征,可以進行相似度、聚類等分析計算;采用聚類方法對典型模式進行自動分類學習,可以實現對大量的門禁刷卡數據進行深入的分析,達到對用戶刷卡行為進行建模以及分類的要求,通過對用戶的行為模式進行抽象的建模表示,可以自動學習到可能的用戶行為模式,刻畫出了用戶的活動規(guī)律。本發(fā)明將聚類產生的類別與標簽信息關聯,實現根據用戶的刷卡記錄識別判斷出用戶的可能類型。比如,基于門禁數據可以有效的將人群行為進行歸納分類,并與實際人群的背景相結合,可以將一般用戶(如正常上班)、特殊背景用戶(吸毒用戶)以及一些特殊職業(yè)的從業(yè)者(如早出晚歸者、店鋪經營者、小區(qū)安保)區(qū)分開?;趶乃⒖ㄓ涗浿凶詣泳垲惿赡承┯脩纛悇e相應的向量模型,以模型或者某重點用戶去匹配查找其它用戶,可以識別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域的普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為發(fā)明實施例提供的一種用于分析用戶行為模式的向量模型的建立方法的流程圖;
圖2為本發(fā)明實施例提供的一種用戶行為模式分析方法的流程圖;
圖3為本發(fā)明實施例提供的另一種用戶行為模式分析方法的流程圖;
圖4為發(fā)明實施例提供的一種用于分析用戶行為模式的向量模型的建立裝置的結構示意圖;
圖5為本發(fā)明實施例提供的一種用戶行為模式分析裝置的結構示意圖;
圖6為本發(fā)明實施例提供的另一種用戶行為模式分析裝置的結構示意圖。
具體實施方式
為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明作進一步地詳細描述,顯然,所描述的實施例僅僅是本發(fā)明一部份實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
現有分析技術中僅依據簡單的每日刷卡次數或者特殊時段的刷卡次數對門禁刷卡行為的分析方法,存在關注點單一,分析能力有限,效果較差的問題。通過門禁的刷卡記錄對刷卡用戶的行為模式進行建模分析,尚未有較好的實現方案。針對上述問題,本發(fā)明首次提出一種用戶行為模式分析方法,首次提出利用門禁電子數據對用戶的行為進行建模分析。首先對用戶的刷卡數據進行抽取,通過構建多時段分布向量,完成用戶刷卡數據的形式化表示;通過大量的向量聚類來獲取代表性的用戶行為模式。具體來說,對刷卡的數據進行聚類分析,將其歸類不同的類別,標記不同類別的含義,通過對用戶的行為模式進行抽象的建模表示,可以自動學習到可能的用戶行為模式,刻畫出了用戶的活動規(guī)律。對于某一人的刷卡數據,可以與已經總結的用戶行為模型相匹配搜索,識別出符合這一行為類型的用戶。
基于上述發(fā)明構思,本發(fā)明實施例提供一種如圖1所示的用于分析用戶行 為模式的模型的建立方法,該方法包括:
步驟101,獲取用戶的刷卡數據,根據刷卡數據構建N個帶有用戶標識的數據點,數據點為單個用戶在設定時間段內刷卡頻率的多時段分布向量,N為大于1的正整數;
步驟102,對N個數據點進行迭代聚類,得到k個目標簇,每個目標簇中的數據點與該數據點歸屬的目標簇的中心點的相異度不大于該數據點與其他目標簇的中心點的相異度,其中,k為大于1的正整數;
步驟103,針對每個目標簇,執(zhí)行:根據第m個目標簇中數據點的用戶標識,查找與所述用戶標識對應的用戶信息,并根據所述用戶信息,確定用于標記所述第m個目標簇的用戶行為模式的標簽信息,其中,m的取值位于1和k之間;建立所述第m個目標簇的中心點與所述標簽信息的關聯關系;將所述第m個目標簇的中心點確定為表征所述用戶行為模式的向量模型。
上述方法流程中,獲取的刷卡數據包括但不限于:時間標識,用戶身份標識(比如身份證號),用戶出入狀態(tài)信息(比如在某個門禁處、進出狀態(tài)),刷卡數據一般為日志記錄,例如提取到的所有用戶的刷卡數據用{log1,log2...logn}表示,n為用戶總數目。
電子門禁系統(tǒng)在社區(qū)管理中的安裝使用,不僅大大提升了警務管理的便利和有效性,同時也積累了海量的人員、房屋、以及刷卡的記錄數據,為深入的數據挖掘提供了良好的數據基礎。上述方法流程的步驟101中,從電子門禁系統(tǒng)存儲的用戶刷卡記錄中提取用戶的刷卡數據。電子門禁系統(tǒng)包括但不限于基于IC卡的門禁系統(tǒng),基于其他開鎖信號(例如指紋,圖像,電話號碼、短信消息、微信消息或電子郵件)的門禁系統(tǒng)也是適用的。所構建的每一個數據點是指單個用戶在設定時間段內刷卡頻率的多時段分布向量。將設定時間段按照單位時間長度可以分成多個時間段,因此,用戶在設定時間段內刷卡頻率的多時段分布向量可以用多維時段分布向量表示,其中每一維時段分布向量表征用戶在每個時段內的刷卡頻率。根據一個用戶在設定時間段內的刷卡數據,構 建用戶在設定時間段內刷卡頻率的多時段分布向量實現了將大量的門禁記錄進行簡潔的表示,同時可以用于后續(xù)相似度、聚類的計算和表示。
下面結合一個具體的例子說明上述步驟101構建數據點的過程。
假設設定時間段為一天,將一天按照小時分為24個時段,每個時段為1小時,例如0點到1點為一個時段,1點到2點為一個時段,以此類推。則單個用戶在設定時間段內刷卡頻率的多時段分布向量可以表示為24維的時段分布向量,實現對每一用戶在24小時內的刷卡頻次進行分時段統(tǒng)計。如果一個用戶在1個小時內的刷卡次數為N1,在這一天內的刷卡次數是N2,則該用戶在這1個時段內的刷卡頻率是N1/N2。每一維時段分布向量表征用戶在每個時段內的刷卡頻率。例如,第0維d0是指用戶在0點至1點的刷卡比例,第1維d1是指用戶在1點至2點的刷卡比例,依存類推。24維的刷卡時段分布向量表示為:若用表示每一維時段分布向量,則:
其中,HourCount是指單一用戶在每個時段(1小時)內的刷卡次數,是指單一用戶在設定時間段(一天24小時內)的刷卡總次數。通過這樣的方法,對每一個用戶的刷卡數據構建成一個24維的時段分布向量,N個用戶的刷卡數據,構建出N個24維的時段分布向量,即N個數據點,N為大于1的正整數。將用戶刷卡行為通過24小時的時段分布向量進行表征,實現了將大量的門禁記錄進行簡潔的表示,也可以用于后續(xù)相似度、聚類的計算和表示。設定時間段并不局限于1天,多時段并不局限于24個小時,可以根據具體情況確定。例如,設定的時間段也可以是連續(xù)的幾個小時,也可以是連續(xù)的幾天。
上述構建的N個數據點是帶有用戶標識的數據點,用于后續(xù)步驟根據用戶標識查找數據點的用戶信息,用戶標識是能夠代表用戶個人信息的標識,如用來標識用戶IC卡的卡號,用戶的身份證號,用戶電話號碼,用戶郵箱號,用 戶微信號或者用戶的居住地址等信息的用戶標識。
上述步驟102可通過K-means算法對N個數據點進行聚類,得到k個目標簇,k是指定的參數,可能有些聚類的中心并沒有太好的代表性,因此,k值一般大于或等于所期望的目標簇的個數。K-means聚類算法不僅對初始中心點敏感,同時簇個數的選擇也是影響聚類結果的重要因素,因此,可以根據實際情況確定合適的初始中心點和簇的個數,以達到減少聚類過程的迭代次數,提高聚類效果的目的。
采取K-means(無監(jiān)督)聚類方法對N個數據點進行聚類,可以實現對N個數據點自動歸類,供后續(xù)建模使用。具體的,步驟102采用K-means聚類算法對N個數據點進行聚類,包括以下步驟:
步驟1:從N個數據點中隨機選擇k個數據點作為初始中心點,k為設定的目標簇的個數;
步驟2:將除中心點之外的每個數據點劃分到與該數據點相異度最小的中心點所在的簇其中,劃分到同一個中心點的點集為一個簇;
步驟3:計算每個簇中點集的平均值,將每個簇中離平均值最近的數據點作為新的中心點,進而得到新的k個中心點;
步驟4:重復步驟2和步驟3;若滿足迭代次數或者每個簇的中心點不再發(fā)生變化,則停止;滿足迭代次數或者每個簇的中心點不再發(fā)生變化時,得到k個目標簇和k個目標簇的中心點。
上述方法流程的步驟103的用戶信息為用戶信息庫中存儲的,以用戶標識為索引的用戶身份信息,可以是預先登記的信息,如用戶建卡時采集的個人信息,也可以是后期更新的用戶個人信息。用戶信息包括用戶IC卡的卡號,用戶的身份證號,用戶電話號碼,用戶郵箱號,用戶微信號或者用戶的居住地址等信息,還可包括記錄的用戶的一些背景信息,例如年齡,職業(yè),病史,或者特殊背景信息。例如,用戶信息庫中可以包含一些用戶的違法犯罪或者特定職業(yè)的背景信息。因此,根據目標簇中數據點的用戶標識,在用戶信息庫中可以 查找與用戶標識對應的用戶信息,并根據用戶信息,確定用于標記目標簇的用戶行為模式的標簽信息。
具體的,通過步驟102得到k個目標簇之后,以第m個目標簇為例,根據第m個目標簇中每一數據點的用戶標識,在用戶信息庫中查找每一個數據點對應的用戶信息,查看所有用戶信息,分析這些用戶的行為特性,從所有用戶信息中提取出能夠代表大多數用戶的用戶行為模式的標簽信息。比如在第2目標簇的數據點對應的所有用戶信息中,發(fā)現80%的的用戶都是有吸毒前科的人,則將“有吸毒前科用戶”作為用于標記該目標簇的用戶行為模式的標簽信息,后續(xù)步驟將該目標簇的中心點與該標簽信息關聯,將第2目標簇的中心點確定為“有吸毒前科用戶”行為模式的向量模型,作為吸毒可疑用戶的行為代表向量。
通過步驟103,可以建立每一個目標簇的中心點與對應標簽信息的關聯關系,可以將每一個目標簇進行類別標記,使得每一個目標簇標記一種用戶行為模式,不同的目標簇標記了不同的用戶行為模式。將每一個目標簇的中心點作為表征每一類用戶行為模式的向量模型。因此,根據各種用戶的刷卡記錄,在聚類的基礎上,可以通過類別內包含的重點用戶或者嫌疑用戶的比例確定標簽信息,對分類后的確定的模型進行區(qū)分定義,解決了分類后無法得到類別標簽的問題。
上述實施例給出了一種建立向量模型的方法,通過對用戶刷卡數據進行聚類得到k個目標簇,每一個目標簇的中心點與用于標記該目標簇的用戶行為模式的標簽信息關聯,將每一個目標簇的中心點確定為表征每一類用戶行為模式的向量模型,進而得到k個向量模型。基于這k個向量模型,以模型去匹配查找其它用戶,可以判斷出用戶的可能類型,以及識別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。比如,基于門禁數據可以有效的將人群行為進行歸納分類,并與實際人群的背景相結合,可以將不同的類別標記為一般用戶(如正常上班)、特殊背景用戶(吸毒用戶)以及一些特殊職業(yè)的 從業(yè)者(如早出晚歸者、店鋪經營者、小區(qū)安保)。
基于上述實施例建立的代表不同用戶行為模式的向量模型,本發(fā)明實施例還提供了一種如圖2所示的一種用戶行為模式分析方法,該方法包括:
步驟201,提取待識別用戶的刷卡數據,根據待識別用戶的刷卡數據構建帶有用戶標識的待識別數據點,待識別數據點為待識別用戶在設定時間段內刷卡頻率的多時段分布向量;
步驟202,根據待識別數據點與標記為不同用戶行為模式的k個向量模型之間的相似程度,確定出待識別用戶的行為模式,其中,k個向量模型是通過對用戶刷卡數據進行聚類所得到的k個目標簇的中心點,每一個目標簇的中心點與用于標記該目標簇的用戶行為模式的標簽信息關聯。
步驟201根據待識別用戶的刷卡數據構建待識別用戶的待識別數據點的方法參見上述實施例,此處不再累述。
上述方法流程的步驟202包括:根據待識別數據點與每一個向量模型之間的距離,得到待識別數據點與每一個向量模型之間的相似程度;將與待識別數據點相似度最高的向量模型所代表的用戶行為模式確定為待識別用戶的行為模式。
具體的,待識別數據點與每一個向量模型之間的距離,通過計算待識別數據點與每一個目標簇的中心點之間的距離來確定。
例如,針對前面實例中所列舉的構建的數據點用24維的時段分布向量表示,因此,確定的每一個目標簇的中心點用24維的時段分布向量表示,為了計算待識別數據點與每一個目標簇的中心點之間的距離,待識別數據點也用24維的時段分布向量表示。所構建的待識別數據點24維的時段分布向量為每一個目標簇的中心點的時段分布向量為待識別數據點與每一個目標簇的中心點進行距離的計算時,距離的計算公式采用余弦距離Dis,其計算公式如下:
余弦距離Dis是0到1之間的數值,距離接近于1時,待識別數據點與目標簇的中心點越相似;距離接近0時,待識別數據點與目標簇的中心點越不相關。計算待識別數據點與各個中心點之間的距離之后,將待識別數據點與各個中心點之間的距離按照遞增或遞減進行排序,將余弦距離Dis值最大的中心點作為與待識別數據點相似度最高的向量模型,當然具體實施中也可以根據待識別數據點與各個中心點之間的距離,對每一個向量模型進行打分,將打分最高的向量模型作為與待識別數據點相似度最高的向量模型。確定出與待識別數據點相似度最高的向量模型后,將與待識別數據點相似度最高的向量模型所標記的用戶行為模式確定為待識別用戶的行為模式。
上述方法流程基于建立的向量模型進行用戶行為模式分析,以模型去匹配查找其它用戶,可以判斷出用戶的可能類型,以及識別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
上述實施例可以實現對大量的門禁刷卡數據進行深入的分析,達到對用戶行為進行建模以及分類的要求,通過對用戶的行為模式進行抽象的建模表示,可以自動學習到可能的用戶行為模式,刻畫出了用戶的活動規(guī)律。本發(fā)明可以根據用戶的刷卡記錄識別判斷出用戶的可能類型,比如,基于門禁數據可以有效的將人群行為進行歸納分類,并與實際人群的背景相結合,可以將一般用戶(如正常上班)、特殊背景用戶(吸毒用戶)以及一些特殊職業(yè)的從業(yè)者(如早出晚歸者、店鋪經營者、小區(qū)安保)區(qū)分開;從刷卡記錄中自動聚類生成某些用戶類別相應的用戶行為模型,以模型去匹配查找其它用戶,可以識別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
除了上述實施例提出的基于向量模型進行用戶行為模式的分析之外,在已知用戶的某種行為模式(比如某類用戶的特有的行為是夜出晝歸)的情況下, 如何在海量的用戶刷卡數據中查找出與已知用戶的行為模式相近的用戶的信息,針對這種“對于某個具體的用戶,查找與其相似的用戶或者用戶群”的應用情景,本發(fā)明實施例給出了一種“啟發(fā)式”的解決方案,可以快速進行計算,獲取與已知用戶的行為模式相似的用戶及用戶信息。啟發(fā)式的策略是指:選取重點的時間段(如凌晨時間),對相關用戶的一段時間內的共現情況進行統(tǒng)計,根據交集的數目進行排序,選取比例或者絕對閾值進行截斷得到排名靠前的相似用戶。啟發(fā)式策略可以達到比較好的搜索結果。
基于上述發(fā)明構思,本發(fā)明實施例提供一種如圖3所示的一種用戶行為模式分析方法,該方法包括:
步驟301,從獲取的用戶刷卡數據中選取特征時段內的用戶刷卡數據作為備選集合S;
其中,可以從關注的重點時段入手,采用這種具有較強區(qū)分性的特征時段進行近似性的判斷。例如,從獲取的用戶刷卡數據中,選取凌晨1點至3點的時間區(qū)間的用戶刷卡數據作為備選集合S。
步驟302,統(tǒng)計備選集合S中任一用戶與其余用戶的共現系數,共現系數是指在單個用戶單次刷卡前后的閾值時間段內,備選集合S中其余用戶的刷卡次數;
統(tǒng)計備選集合S中任一用戶與其余用戶的共現系數時,可以對于集合S中的每個個體si,與集合中其余的個體一一比較,在個體si每次刷卡的前后某個時間段內,如果可以找到曾經刷卡的個體sj,則得到共現對(si,sj)并計數保存,如果個體sj在這個時間段內刷卡次數較多,則計數自增,計數可以保存為用戶關系三元組,即(用戶甲,用戶乙,共現系數)。比如,用戶A與備選集合S中用戶B的共現系數用(A,B,x)表示,x為共現系數,用戶A在凌晨1點30分刷卡,在A刷卡前的15分鐘和刷卡后的15分鐘內,備選集合S中用戶B刷卡2次,用戶C刷卡1次,用戶D沒有刷卡,用戶A和用戶B、C、D的共現系數可以表示為(A,B,2),(A,C,1)(A,D,0)。
步驟303,根據第N用戶與其余用戶的共現系數,建立以第N用戶為索引,與第N用戶的相似程度按照由高到低排序的用戶列表,N為大于1的正整數;
步驟304,從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將所述滿足相似程度閾值的用戶確定為與所述已知用戶的行為模式相似的用戶,其中,備選集合中包括所述已知用戶的刷卡數據;
具體的,相似程度閾值是選取的表征相似程度高低的比例值或者閾值。從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將滿足相似程度閾值的用戶確定為與已知用戶的行為模式重點相似的用戶。。
基于以已知用戶為索引,與已知用戶的相似程度按照由高到低排序的的用戶列表,可以取比例(比如排名前1%的用戶)或者閾值(比如排名top前10名)來選擇出與已知行為模式的用戶重點相似的用戶或用戶群。
上述方法流程中,特征時間段可以是選取的重點時間段,利用關鍵區(qū)間的相似度判斷法選取重點的時間段(如凌晨時間),對相關用戶的一段時間內的共現情況進行統(tǒng)計,根據交集的數目進行排序,優(yōu)于上述實施例基于向量模型進行全量的向量相似度的計算。而且可以實現以某重點用戶去匹配查找其它用戶,進一步識別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
針對上述方法流程,本發(fā)明實施例還提供一種用于分析用戶行為模式的向量模型的建立裝置和用戶行為模式分析裝置,這些裝置的具體內容可以參照上述方法實施,在此不再贅述。
如圖4所示的一種用于分析用戶行為模式的模型的建立裝置,該裝置包括:
獲取單元401,用于獲取用戶的刷卡數據;
數據構建單元402,用于根據刷卡數據構建N個帶有用戶標識的數據點,數據點為單個用戶在設定時間段內刷卡頻率的多時段分布向量,N為大于1的正整數;
聚類單元403,用于對N個數據點進行聚類,得到k個目標簇,使得任一 目標簇中數據點的平均值不再發(fā)生變化,k為大于1的正整數;
標簽確定單元404,用于根據第m個目標簇中數據點的用戶標識,查找與所述用戶標識對應的用戶信息,并根據所述用戶信息,確定用于標記所述第m個目標簇的用戶行為模式的標簽信息,其中,m的取值位于1和k之間;
標簽標記單元405,用于建立所述第m個目標簇的中心點與所述標簽信息的關聯關系;
向量模型確定單元406,用于將所述第m個目標簇的中心點確定為表征所述用戶行為模式的向量模型。
進一步地,聚類單元403具體用于執(zhí)行以下步驟:
步驟1:從N個數據點中隨機選擇k個數據點作為初始中心點,k為設定的目標簇的個數;
步驟2:將除中心點之外的每個數據點劃分到與該數據點相異度最小的中心點所在的簇,其中,劃分到一個中心點的點集為一個簇;
步驟3:計算每個簇中點集的平均值,將每個簇中離平均值最近的數據點作為新的中心點;
步驟4:重復步驟2和步驟3;若滿足迭代次數或者每個簇的中心點不再發(fā)生變化,則停止;滿足迭代次數或者每個簇的中心點不再發(fā)生變化時,得到k個目標簇和k個目標簇的中心點。
進一步地,用戶信息為用戶信息庫中存儲的,以用戶標識為索引的用戶身份信息;
標簽確定單元404具體用于:
根據目標簇中數據點的用戶標識,在用戶信息庫中查找與用戶標識對應的用戶信息。
如圖5所示的一種用戶行為模式分析裝置,該裝置包括:
獲取單元501,用于提取待識別用戶的刷卡數據;
數據構建單元502,用于根據待識別用戶的刷卡數據構建帶有用戶標識的 待識別數據點,待識別數據點為待識別用戶在設定時間段內刷卡頻率的多時段分布向量;
分析單元503,用于根據待識別數據點與標記為不同用戶行為模式的k個向量模型之間的相似程度,確定出待識別用戶的行為模式,其中,k個向量模型是通過對用戶刷卡數據進行聚類所得到的k個目標簇的中心點,每一個目標簇的中心點與用于標記該目標簇的用戶行為模式的標簽信息關聯。
進一步地,分析單元503具體用于:
根據待識別數據點與每一個向量模型之間的距離,得到待識別數據點與每一個向量模型之間的相似程度;
將與待識別數據點相似度最高的向量模型所代表的用戶行為模式確定為待識別用戶的行為模式。
如圖6所示的一種用戶行為模式分析裝置,包括:
獲取單元601,用于從獲取的用戶刷卡數據中選取特征時段內的用戶刷卡數據作為備選集合;
統(tǒng)計單元602,用于統(tǒng)計備選集合中任一用戶與其余用戶的共現系數,共現系數是指在單個用戶單次刷卡前后的閾值時間段內,備選集合中其余用戶的刷卡次數;
建立單元603,用于根據第N用戶與其余用戶的共現系數,建立以第N用戶為索引,與第N用戶的相似程度按照由高到低排序的用戶列表,N為大于1的正整數;
確定單元604,用于從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將所述滿足相似程度閾值的用戶確定為與所述已知用戶的行為模式相似的用戶,其中,備選集合中包括所述已知用戶的刷卡數據。
上述實施例中,將用戶刷卡數據通過多時段分布向量進行表征,可以進行相似度、聚類等分析計算;采用聚類方法對典型模式進行自動分類學習,可以實現對大量的門禁刷卡數據進行深入的分析,達到對用戶刷卡行為進行建模以 及分類的要求,通過對用戶的行為模式進行抽象的建模表示,可以自動學習到可能的用戶行為模式,刻畫出了用戶的活動規(guī)律。本發(fā)明將聚類產生的類別與標簽信息關聯,實現根據用戶的刷卡記錄識別判斷出用戶的可能類型。比如,基于門禁數據可以有效的將人群行為進行歸納分類,并與實際人群的背景相結合,可以將一般用戶(如正常上班)、特殊背景用戶(吸毒用戶)以及一些特殊職業(yè)的從業(yè)者(如早出晚歸者、店鋪經營者、小區(qū)安保)區(qū)分開。基于從刷卡記錄中自動聚類生成某些用戶類別相應的向量模型,以模型或者某重點用戶去匹配查找其它用戶,可以識別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
本發(fā)明是參照根據本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執(zhí)行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要 求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內,則本發(fā)明也意圖包含這些改動和變型在內。