騷擾電話號(hào)碼確定方法、裝置和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本公開(kāi)涉及安全技術(shù)領(lǐng)域,特別涉及一種騷擾電話號(hào)碼確定方法、裝置和系統(tǒng)。
【背景技術(shù)】
[0002] 騷擾電話號(hào)碼通??梢园ㄍ其N保險(xiǎn)的電話號(hào)碼、房產(chǎn)中介的電話號(hào)碼和進(jìn)行詐 騙的電話號(hào)碼,這些騷擾電話號(hào)碼長(zhǎng)期干擾著人們的正常生活。
[0003] 相關(guān)技術(shù)中有一種騷擾電話號(hào)碼確定方法,該方法首先由大量用戶通過(guò)終端來(lái)確 認(rèn)接聽(tīng)到的號(hào)碼是否為騷擾電話號(hào)碼,并將確認(rèn)的騷擾電話號(hào)碼上傳至服務(wù)器,服務(wù)器將 大量用戶確認(rèn)的騷擾電話號(hào)碼進(jìn)行匯總生成騷擾電話號(hào)碼表。
[0004] 公開(kāi)內(nèi)容
[0005] 為了解決相關(guān)技術(shù)問(wèn)題,本公開(kāi)實(shí)施例提供了一種騷擾電話號(hào)碼確定方法、裝置 和系統(tǒng)。所述技術(shù)方案如下:
[0006] 第一方面,提供一種騷擾電話號(hào)碼確定方法,該方法包括:
[0007] 從至少一個(gè)終端獲取目標(biāo)通話記錄得到通話記錄集合,通話記錄集合中包含有預(yù) 定個(gè)數(shù)的目標(biāo)通話記錄,每個(gè)目標(biāo)通話記錄中包含有陌生號(hào)碼和至少一個(gè)關(guān)鍵詞,至少一 個(gè)關(guān)鍵詞是終端根據(jù)與陌生號(hào)碼通話的通話內(nèi)容文本數(shù)據(jù)得到的,用于表征通話內(nèi)容文本 數(shù)據(jù)的通話主題,陌生號(hào)碼為陌生號(hào)碼對(duì)應(yīng)的終端的通訊錄中未存儲(chǔ)的號(hào)碼;
[0008] 獲取通話記錄集合中N個(gè)可疑號(hào)碼,N個(gè)可疑號(hào)碼為預(yù)定個(gè)數(shù)的目標(biāo)通話記錄中 包含的陌生號(hào)碼按出現(xiàn)次數(shù)降序排列,排名前N位的陌生號(hào)碼;
[0009] 檢測(cè)每個(gè)可疑號(hào)碼所在的目標(biāo)通話記錄包含的關(guān)鍵詞中是否存在預(yù)設(shè)詞典記錄 的騷擾特征詞;
[0010] 若任一可疑號(hào)碼所在的目標(biāo)通話記錄包含的關(guān)鍵詞中存在預(yù)設(shè)詞典記錄的騷擾 特征詞,將所在的目標(biāo)通話記錄中存在騷擾特征詞的可疑號(hào)碼確定為騷擾電話號(hào)碼。
[0011] 本公開(kāi)的第一方面,能夠方便快捷的確定出通話記錄集合包含的大量電話號(hào)碼中 的騷擾電話號(hào)碼,提高了騷擾電話號(hào)碼的獲取效率。
[0012] 結(jié)合第一方面,在第一種可實(shí)現(xiàn)方式中,將所在的目標(biāo)通話記錄中存在騷擾特征 詞的可疑號(hào)碼確定為騷擾電話號(hào)碼,包括:
[0013] 獲取包含第一可疑電話號(hào)碼的目標(biāo)通話記錄組成的目標(biāo)通話記錄集合,第一可疑 電話號(hào)碼為任一所在的目標(biāo)通話記錄中存在騷擾特征詞的可疑號(hào)碼;
[0014] 根據(jù)預(yù)設(shè)的騷擾特征詞與騷擾類型的對(duì)應(yīng)關(guān)系,確定第一通話記錄包含的騷擾特 征詞的騷擾類型,騷擾類型表征第一可疑電話號(hào)碼的騷擾目的,第一通話記錄為目標(biāo)通話 記錄集合中的任一通話記錄;
[0015] 將第一通話記錄包含的騷擾特征詞的騷擾類型確定為第一通話記錄的騷擾類 型;
[0016] 統(tǒng)計(jì)目標(biāo)通話記錄集合中每種騷擾類型對(duì)應(yīng)的通話記錄的數(shù)量;
[0017] 根據(jù)每種騷擾類型對(duì)應(yīng)的通話記錄的數(shù)量與目標(biāo)通話記錄集合中通話記錄的總 數(shù)的比值,確定每種騷擾類型在目標(biāo)通話記錄集合中的比例;
[0018] 若目標(biāo)通話記錄集合中存在比例大于比例閾值的騷擾類型,則確定第一可疑電話 號(hào)碼為騷擾電話號(hào)碼。
[0019] 本公開(kāi)第一方面的第一種可實(shí)現(xiàn)方式,提高了確定的騷擾電話號(hào)碼的準(zhǔn)確性。
[0020] 結(jié)合第一種可實(shí)現(xiàn)方式,在第二種可實(shí)現(xiàn)方式中,該方法還包括:
[0021] 將目標(biāo)通話記錄集合中比例最大的騷擾類型作為騷擾電話號(hào)碼的騷擾類型。
[0022] 本公開(kāi)第一方面的第二種可實(shí)現(xiàn)方式,確定了騷擾電話號(hào)碼的騷擾類型。
[0023] 結(jié)合第一方面,或第一種可實(shí)現(xiàn)方式,或第二種可實(shí)現(xiàn)方式,在第三種可實(shí)現(xiàn)方式 中,每個(gè)目標(biāo)通話記錄中包含有兩個(gè)電話號(hào)碼,兩個(gè)電話號(hào)碼中包含有陌生號(hào)碼,獲取通話 記錄集合中N個(gè)可疑號(hào)碼,包括:
[0024] 對(duì)通話記錄集合進(jìn)行去重復(fù)處理,去重復(fù)處理用于丟棄至少兩個(gè)同類通話記錄中 除包含關(guān)鍵詞最多的目標(biāo)通話記錄之外的通話記錄,同類通話記錄為包含相同的兩個(gè)電話 號(hào)碼的目標(biāo)通話記錄;
[0025] 獲取處理后的通話記錄集合中N個(gè)可疑號(hào)碼。
[0026] 本公開(kāi)第一方面的第三種可實(shí)現(xiàn)方式,增加了最終確定的騷擾電話號(hào)碼的準(zhǔn)確 性。
[0027] 第二方面,提供一種騷擾電話號(hào)碼確定方法,該方法包括:
[0028] 獲取與陌生號(hào)碼通話的通話語(yǔ)音數(shù)據(jù)和通話記錄,通話記錄中包含有陌生號(hào)碼, 陌生號(hào)碼為通訊錄中未存儲(chǔ)的號(hào)碼;
[0029] 將通話語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為通話內(nèi)容文本數(shù)據(jù);
[0030] 獲取通話內(nèi)容文本數(shù)據(jù)的至少一個(gè)關(guān)鍵詞,至少一個(gè)關(guān)鍵詞為表征通話內(nèi)容文本 數(shù)據(jù)的通話主題的詞;
[0031] 根據(jù)至少一個(gè)關(guān)鍵詞和通話記錄生成目標(biāo)通話記錄,目標(biāo)通話記錄中包含有陌生 號(hào)碼和至少一個(gè)關(guān)鍵詞;
[0032] 將目標(biāo)通話記錄提供給服務(wù)器,服務(wù)器用于根據(jù)目標(biāo)通話記錄中的陌生號(hào)碼和至 少一個(gè)關(guān)鍵詞確定陌生號(hào)碼是否為騷擾電話號(hào)碼。
[0033] 本公開(kāi)的第二方面,使服務(wù)器能夠方便快捷的確定出通話記錄集合包含的大量電 話號(hào)碼中的騷擾電話號(hào)碼,提高了騷擾電話號(hào)碼的獲取效率。
[0034] 結(jié)合第二方面,在第一種可實(shí)現(xiàn)方式中,獲取通話內(nèi)容文本數(shù)據(jù)的至少一個(gè)關(guān)鍵 詞,包括:
[0035] 對(duì)內(nèi)容文本數(shù)據(jù)進(jìn)行分詞處理得到包含有至少一個(gè)詞的分詞結(jié)果;
[0036] 獲取分詞結(jié)果中每個(gè)詞的關(guān)鍵詞因子,關(guān)鍵詞因子正相關(guān)于每個(gè)詞的主題相關(guān) 度,每個(gè)詞的主題相關(guān)度用于指示每個(gè)詞與通話內(nèi)容文本數(shù)據(jù)的通話主題相關(guān)的程度; [0037] 按照關(guān)鍵詞因子的大小將分詞結(jié)果中的詞降序排列;
[0038] 將排名前M位的詞作為內(nèi)容文本數(shù)據(jù)的關(guān)鍵詞。
[0039] 本公開(kāi)第二方面的第一種可實(shí)現(xiàn)方式,提高了獲取的關(guān)鍵詞與主題的相關(guān)程度。
[0040] 結(jié)合第一種可實(shí)現(xiàn)方式,在第二種可實(shí)現(xiàn)方式中,獲取分詞結(jié)果中每個(gè)詞的關(guān)鍵 詞因子,包括:
[0041] 根據(jù)預(yù)設(shè)類型詞典獲取分詞結(jié)果中每個(gè)詞的類型,類型用于表征每個(gè)詞的特征;
[0042] 根據(jù)預(yù)設(shè)的類型與權(quán)值的對(duì)應(yīng)關(guān)系,按照分詞結(jié)果中每個(gè)詞的類型為每個(gè)詞分配 權(quán)值;
[0043] 獲取分詞結(jié)果中每個(gè)詞的詞頻;
[0044] 將每個(gè)詞的權(quán)值與詞頻的乘積作為每個(gè)詞的關(guān)鍵詞因子。
[0045] 本公開(kāi)第二種可實(shí)現(xiàn)方式,獲取了可信度較高的關(guān)鍵詞因子,提高了關(guān)鍵因子的 可靠性。
[0046] 結(jié)合第二種可實(shí)現(xiàn)方式,在第三種可實(shí)現(xiàn)方式中,獲取分詞結(jié)果中每個(gè)詞的關(guān)鍵 詞因子,包括:
[0047] 去除分詞結(jié)果中類型為語(yǔ)氣詞、人稱代詞和修飾詞的詞得到處理后的分詞結(jié)果;
[0048] 獲取處理后的分詞結(jié)果中每個(gè)詞的關(guān)鍵詞因子。
[0049] 本公開(kāi)第二方面第三種可實(shí)現(xiàn)方式,減少了終端的計(jì)算量,提高了關(guān)鍵詞因子的 可信度。
[0050] 第三方面,提供一種騷擾電話號(hào)碼確定裝置,該裝置包括:
[0051] 集合獲取模塊,被配置為從至少一個(gè)終端獲取目標(biāo)通話記錄得到通話記錄集合, 通話記錄集合中包含有預(yù)定個(gè)數(shù)的目標(biāo)通話記錄,每個(gè)目標(biāo)通話記錄中包含有陌生號(hào)碼 和至少一個(gè)關(guān)鍵詞,至少一個(gè)關(guān)鍵詞是終端根據(jù)與陌生號(hào)碼通話的通話內(nèi)容文本數(shù)據(jù)得到 的,用于表征通話內(nèi)容文本數(shù)據(jù)的通話主題,陌生號(hào)碼為陌生號(hào)碼對(duì)應(yīng)的終端的通訊錄中 未存儲(chǔ)的號(hào)碼;
[0052] 號(hào)碼獲取模塊,被配置為獲取通話記錄集合中N個(gè)可疑號(hào)碼,N個(gè)可疑號(hào)碼為預(yù)定 個(gè)數(shù)的目標(biāo)通話記錄中包含的陌生號(hào)碼按出現(xiàn)次數(shù)降序排列,排名前N位的陌生號(hào)碼;
[0053] 檢測(cè)模塊,被配置為檢測(cè)每個(gè)可疑號(hào)碼所在的目標(biāo)通話記錄包含的關(guān)鍵詞中是否 存在預(yù)設(shè)詞典記錄的騷擾特征詞;
[0054] 確定模塊,被配置為在任一可疑號(hào)碼所在的目標(biāo)通話記錄包含的關(guān)鍵詞中存在預(yù) 設(shè)詞典記錄的騷擾特征詞時(shí),將所在的目標(biāo)通話記錄中存在騷擾特征詞的可疑號(hào)碼確定為 騷擾電話號(hào)碼。
[0055] 結(jié)合第三方面,在第一種可實(shí)現(xiàn)方式中,確定模塊,包括:
[0056] 集合獲取子模塊,被配置為獲取包含第一可疑電話號(hào)碼的目標(biāo)通話記錄組成的目 標(biāo)通話記錄集合,第一可疑電話號(hào)碼為任一所在的目標(biāo)通話記錄中存在騷擾特征詞的可疑 號(hào)碼;
[0057] 特征詞確定子模塊,被配置為根據(jù)預(yù)設(shè)的騷擾特征詞與騷擾類型的對(duì)應(yīng)關(guān)系,確 定第一通話記錄包含的騷擾特征詞的騷擾類型,騷擾類型表征第一可疑電話號(hào)碼的騷擾目 的,第一通話記錄為目標(biāo)通話記錄集合中的任一通話記錄;
[0058] 記錄確定子模塊,被配置為將第一通話記錄包含的騷擾特征詞的騷擾類型確定為 第一通話記錄的騷擾類型;
[0059] 統(tǒng)計(jì)子模塊,被配置為統(tǒng)計(jì)目標(biāo)通話記錄集合中每種騷擾類型對(duì)應(yīng)的通話記錄的 數(shù)量;
[0060] 比例確定子模塊,被配置為根據(jù)每種騷擾類型對(duì)應(yīng)的通話記錄的數(shù)量與目標(biāo)通話 記錄集合中通話記錄的總數(shù)的比值,確定每種騷擾類型在目標(biāo)通話記錄集合中的比例;
[0061] 號(hào)碼確定子模塊,被配置為在目標(biāo)通話記錄集合中存在比例大于比例閾值的騷擾 類型時(shí),確定所述第一可疑電話號(hào)碼為騷擾電話號(hào)碼。
[0062] 結(jié)合第一種可實(shí)現(xiàn)方式,在第二種可實(shí)現(xiàn)方式中,該裝置還包括:
[0063] 類型確定模塊,被配置為將目標(biāo)通話記錄集合中比例最大的騷擾類型作為騷擾電 話號(hào)碼的騷擾類型。
[0064] 結(jié)合第三方面,或第一種可實(shí)現(xiàn)方式,或第二種可實(shí)現(xiàn)方式,在第三種可實(shí)現(xiàn)方式 中,每個(gè)目標(biāo)通話記錄中包含有兩個(gè)電話號(hào)碼,兩個(gè)電話號(hào)碼中包含有陌生號(hào)碼,
[0065] 號(hào)碼獲取模塊,被配置為對(duì)通話記錄集合進(jìn)行去重復(fù)處理,去重復(fù)處理用于丟棄 至少兩個(gè)同類通話記錄中除包含關(guān)鍵詞最多的目標(biāo)通話記錄之外的通話記錄,同類通話記 錄為包含相同的兩個(gè)電話號(hào)碼的目標(biāo)通話記錄;獲取處理后的通話記錄集合中N個(gè)可疑號(hào) 碼。
[0066] 第四方面,提供一種騷擾電話號(hào)碼確定裝置,該裝置包括:
[0067] 終端獲取模塊,被配置為獲取與陌生號(hào)碼通話的通話語(yǔ)音數(shù)據(jù)和通話記錄,通話 記錄中包含有陌生號(hào)碼,陌生號(hào)碼為通訊錄中未存儲(chǔ)的號(hào)碼;
[0068] 轉(zhuǎn)化模塊,被配置為將通話語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為通話內(nèi)容文本數(shù)據(jù);
[0069] 關(guān)鍵詞獲取模塊,被配置為獲取通話內(nèi)容文本數(shù)據(jù)的至少一個(gè)關(guān)鍵詞,至少一個(gè) 關(guān)鍵詞為表征通話內(nèi)容文本數(shù)據(jù)的通話主題的詞;
[0070] 目標(biāo)生成模塊,被配置為根據(jù)至少一個(gè)關(guān)鍵詞和通話記錄生成目標(biāo)通話記錄,目 標(biāo)通話記錄中包含有陌生號(hào)碼和至少一個(gè)關(guān)鍵詞;
[0071] 記錄提供模塊,被配置為將目標(biāo)通話記錄提供給服務(wù)器,服務(wù)器用于根據(jù)目標(biāo)通 話記錄中的陌生號(hào)碼和至少一個(gè)關(guān)鍵詞確定陌生號(hào)碼是否為騷擾電話號(hào)碼。
[0072] 結(jié)合第四方面,在第一種可實(shí)現(xiàn)方式中,關(guān)鍵詞獲取模塊,包括:
[0073] 分詞子模塊,被配置為對(duì)內(nèi)容文本數(shù)據(jù)進(jìn)行分詞處理得到包含有至少一個(gè)詞的分 詞結(jié)果;
[0074] 因子獲取子模塊,被配置為獲取分詞結(jié)果中每個(gè)詞的關(guān)鍵詞因子,關(guān)鍵詞因子正 相關(guān)于每個(gè)詞的主題相關(guān)度,每個(gè)詞的主題相關(guān)度用于指示每個(gè)詞與通話內(nèi)容文本數(shù)據(jù)的 通話主題相關(guān)的程度;
[0075] 因子排序子模塊,被配置為按照關(guān)鍵詞因子的大小將分詞結(jié)果中的詞降序排列;
[0076] 關(guān)鍵詞確定子模塊,被配置為將排名前M位的詞作為內(nèi)容文本數(shù)據(jù)的關(guān)鍵詞。
[0077] 結(jié)合第一種可實(shí)現(xiàn)方式,在第二種可實(shí)現(xiàn)方式中,因子獲取子模塊,被配置為根據(jù) 預(yù)設(shè)類型詞典獲取分詞結(jié)果中每個(gè)詞的類型,類型用于表征每個(gè)詞的特征;根據(jù)預(yù)設(shè)的類 型與權(quán)值的對(duì)應(yīng)關(guān)系,按照分詞結(jié)果中每個(gè)詞的類型為每個(gè)詞分配權(quán)值;獲取分詞結(jié)果中 每個(gè)詞的詞頻;將每個(gè)詞的權(quán)值與詞頻的乘積作為每個(gè)詞的關(guān)鍵詞因子。
[0078] 結(jié)合第二種可實(shí)現(xiàn)方式,在第三種可實(shí)現(xiàn)方式中,因子獲取子模塊,被配置為去除 分詞結(jié)果中類型為語(yǔ)氣詞、人稱代詞和修飾詞的詞得到處理后的分詞結(jié)果;獲取處理后的 分詞結(jié)果中每個(gè)詞的關(guān)鍵詞因子。
[0079] 第五方面,提供一種騷擾電話號(hào)碼確定裝置,該裝置包括:
[0080] 處理器;
[0081] 用于存儲(chǔ)處理器的可執(zhí)行指令的存儲(chǔ)器;
[0082] 其中,處理器被配置為:
[0083] 從至少一個(gè)終端獲取目標(biāo)通話記錄得到通話記錄集合,通話記錄集合中包含有預(yù) 定個(gè)數(shù)的目標(biāo)通話記錄,每個(gè)目標(biāo)通話記錄中包含有陌生號(hào)碼和至少一個(gè)關(guān)鍵詞,至少一 個(gè)關(guān)鍵詞是終端根據(jù)與陌生號(hào)碼通話的通話內(nèi)容文本數(shù)據(jù)得到的,用于表征通話內(nèi)容文本 數(shù)據(jù)的通話主題,陌生號(hào)碼為陌生號(hào)碼對(duì)應(yīng)的終端的通訊錄中未存儲(chǔ)的號(hào)碼;
[0084] 獲取通話記錄集合中N個(gè)可疑號(hào)碼,N個(gè)可疑號(hào)碼為預(yù)定個(gè)數(shù)的目標(biāo)通話記錄中 包含的陌生號(hào)碼按出現(xiàn)次數(shù)降序排列,排名前N位的陌生號(hào)碼;
[0085] 檢測(cè)每個(gè)可疑號(hào)碼所在的目標(biāo)通話記錄