區(qū)分性;根據(jù)候選測(cè)試號(hào)碼與目標(biāo)人的已知使用 號(hào)碼的通話情況對(duì)相似度得分進(jìn)行規(guī)整;根據(jù)候選測(cè)試號(hào)碼與目標(biāo)人的已知使用號(hào)碼的地 域信息的關(guān)聯(lián)度對(duì)相似度得分進(jìn)行規(guī)整;根據(jù)候選測(cè)試號(hào)碼與外界導(dǎo)入目標(biāo)人相關(guān)信息的 關(guān)聯(lián)度對(duì)相似度得分進(jìn)行規(guī)整包括以下任意一種或多種:目標(biāo)人某一時(shí)間段所處的地域信 息、某一時(shí)間段的聯(lián)系人通話信息、與目標(biāo)人相關(guān)的案件信息。其中,所述預(yù)設(shè)的函數(shù)為分 段函數(shù),相似度得分所處不同函數(shù)段對(duì)應(yīng)不同的系數(shù)。
[0078] 進(jìn)一步地,所述方法還包括:將相似度得分大于設(shè)定得分閾值的候選測(cè)試號(hào)碼作 為優(yōu)選測(cè)試號(hào)碼;所述基于候選測(cè)試號(hào)碼的通話信息與目標(biāo)人的已知使用號(hào)碼的通話信息 和/或外界導(dǎo)入的目標(biāo)人相關(guān)信息的關(guān)聯(lián)度對(duì)相似度得分進(jìn)行規(guī)整包括:基于優(yōu)選測(cè)試號(hào) 碼的通話信息與目標(biāo)人的已知使用號(hào)碼的通話信息和/或外界導(dǎo)入的目標(biāo)人相關(guān)信息的關(guān) 聯(lián)度對(duì)相似度得分進(jìn)行規(guī)整。通過(guò)對(duì)候選測(cè)試號(hào)碼進(jìn)行篩選獲取優(yōu)選測(cè)試號(hào)碼可以縮小需 要進(jìn)行相似度得分計(jì)算的對(duì)象的數(shù)量,以提高處理效率。
[0079] 在一個(gè)具體實(shí)施例中,對(duì)所述相似度得分的規(guī)整過(guò)程可以包括:
[0080] 首先,將各相似度得分乘以預(yù)設(shè)的函數(shù)以擴(kuò)大候選測(cè)試號(hào)碼的使用人的聲紋特征 與目標(biāo)人聲紋模型的相似度得分的區(qū)分性,其中,預(yù)設(shè)的函數(shù)為根據(jù)經(jīng)驗(yàn)而獲得的相似度 得分分類而設(shè)定的函數(shù),例如,為了擴(kuò)大候選測(cè)試號(hào)碼使用人與目標(biāo)人之間相似得分的區(qū) 分性,設(shè)定第二得分閾值,如果原始得分大于第二得分閾值,則原始得分乘以系數(shù)ε(-般為 略大于1的一個(gè)值,如1.1),否則原始得分乘以系數(shù)ξ(-般為0-1之間的一個(gè)值,如0.8)。所 述系數(shù)ε和系數(shù)ξ的值一般由大量實(shí)驗(yàn)結(jié)果或者經(jīng)驗(yàn)確定。當(dāng)然,該分段函數(shù)不僅僅可以為 兩段,還可以根據(jù)實(shí)際效果而分為三段或更多段。需要說(shuō)明的是,該函數(shù)可以為分段函數(shù) 外,還可以為根據(jù)實(shí)際使用效果選取的非線性函數(shù)等,例如余弦函數(shù)等,在此不做限定。
[0081] 然后,判斷集合Β中任一個(gè)候選測(cè)試號(hào)碼是否與集合Α中任意號(hào)碼有通話記錄,若 沒(méi)有,則每一個(gè)候選測(cè)試號(hào)碼的相似度得分減去W;如果有,則記錄該候選測(cè)試號(hào)碼在周期 T內(nèi)的所有通話次數(shù)M,與集合A中號(hào)碼的通話次數(shù)為m,與集合A'中號(hào)碼的通話次數(shù)為m',此 時(shí)每一個(gè)候選測(cè)試號(hào)碼的相似度得分加上〇 2,〇2的計(jì)算公式如式(5)所示:
[0082]
[0083]其中,ai、fo、&的值都是由大量實(shí)驗(yàn)或經(jīng)驗(yàn)或?qū)嶋H應(yīng)用情況確定。
[0084]接著,對(duì)集合B中的任一候選測(cè)試號(hào)碼,如果其地域信息與已知號(hào)碼a對(duì)應(yīng)的地域 信息相同、相鄰或相關(guān),則該候選測(cè)試號(hào)碼的相似度得分加上α3,α3的值都是由大量實(shí)驗(yàn)或 經(jīng)驗(yàn)或?qū)嶋H應(yīng)用情況確定。例如,當(dāng)候選測(cè)試號(hào)碼的地域信息和目標(biāo)人的近親屬或關(guān)系密 切人的地域信息相同時(shí),可以在該候選測(cè)試號(hào)碼的相似度得分加上α 3,當(dāng)然,低于信息相 同、相鄰或相關(guān)對(duì)應(yīng)的α3的值可以相同或不同,根據(jù)使用效果而定。此外,如果地域信息不 同、不相鄰或不相關(guān),也可以將該候選測(cè)試號(hào)碼的相似度得分減去一個(gè)值,且對(duì)于相同和相 鄰兩種情況可以加或減去不同的值,該值的大小一般與距離成反比,對(duì)此不做限定。
[0085] 然后,根據(jù)外界導(dǎo)入的目標(biāo)人相關(guān)信息和目標(biāo)人的已知使用號(hào)碼的通話信息的關(guān) 聯(lián)度對(duì)所述相似度得分進(jìn)行規(guī)整。其中,目標(biāo)人相關(guān)信息包括以下一種或多種:目標(biāo)人某一 時(shí)間段所處的地域信息、某一時(shí)間段的聯(lián)系人通話信息、與目標(biāo)人相關(guān)的案件信息。
[0086] 具體地,目標(biāo)人某一時(shí)間段的所處地域信息:由外界導(dǎo)入的目標(biāo)人地域信息,簡(jiǎn)單 說(shuō)就是預(yù)先通過(guò)一些渠道(一般在刑偵中會(huì)調(diào)查出相關(guān)人或案件的信息)獲取了目標(biāo)人的 活動(dòng)地域信息,如果集合Β中任一個(gè)測(cè)試號(hào)碼的地域信息與目標(biāo)人的地域信息一致,則該候 選測(cè)試號(hào)碼的相似度得分加上α 4,α4的值都是由大量實(shí)驗(yàn)或經(jīng)驗(yàn)或?qū)嶋H應(yīng)用情況確定;某一 時(shí)間段的聯(lián)系人通話信息:由外界某些渠道獲取到的某一時(shí)間段,目標(biāo)人與某些人有通話, 這些人的集合可以記為Α"是集合Α的子集,如果集合Β中任一測(cè)試號(hào)碼在該段時(shí)間內(nèi)也與Α" 有通話,則該候選測(cè)試號(hào)碼的相似度得分加上α 5,α5的值都是由大量實(shí)驗(yàn)或經(jīng)驗(yàn)或?qū)嶋H應(yīng)用 情況確定;可能與目標(biāo)人相關(guān)的案件信息:由外界某些渠道獲取到某個(gè)按鍵可能與目標(biāo)人 相關(guān),且該案件同時(shí)涉及其他人,可記為集合C,若集合Β中任一測(cè)試號(hào)碼與集合C中人員有 通話,則該候選測(cè)試號(hào)碼的相似度得分加上α 6,α6的值都是由大量實(shí)驗(yàn)或經(jīng)驗(yàn)或?qū)嶋H應(yīng)用情 況確定。
[0087] 同理,對(duì)于外界導(dǎo)入的目標(biāo)人相關(guān)信息對(duì)相似度得分的影響,除了對(duì)滿足上述條 件的相似度得分進(jìn)行提升,對(duì)于不滿足上述條件的相似度得分也可以進(jìn)行得分降低,該降 低的值可以是與相應(yīng)判斷條件的提升的值相同,也可以不同,對(duì)此本實(shí)施例不做限定。需要 說(shuō)明的是,上述步驟可以僅選取其中任意一個(gè)或幾個(gè)步驟對(duì)相似度得分進(jìn)行規(guī)整,且相關(guān) 順序也不是固定的,可以根據(jù)實(shí)際使用效果或具體要求做相應(yīng)的調(diào)整,以獲得最佳識(shí)別效 果。
[0088] 在另一個(gè)實(shí)施例中,首先將相似度得分大于第一得分閾值的候選測(cè)試號(hào)碼作為優(yōu) 選測(cè)試號(hào)碼;然后將各相似度得分乘以預(yù)設(shè)的函數(shù)以擴(kuò)大優(yōu)選測(cè)試號(hào)碼的使用人的聲紋特 征與目標(biāo)人聲紋模型的相似度得分的區(qū)分性;接著判斷任一個(gè)優(yōu)選測(cè)試號(hào)碼是否與集合A 中任意號(hào)碼有通話記錄等后續(xù)步驟,具體參考上一實(shí)施例,在此不再詳述。
[0089]步驟S06,根據(jù)規(guī)整后的相似度得分確認(rèn)目標(biāo)人使用的號(hào)碼。
[0090]在本實(shí)施例中,可以選取規(guī)整后相似度得分大于預(yù)先設(shè)定的第三得分閾值的候選 測(cè)試號(hào)碼,認(rèn)為這些候選測(cè)試號(hào)碼是目標(biāo)人未知的使用號(hào)碼。
[0091 ]本發(fā)明實(shí)施例提供的號(hào)碼發(fā)現(xiàn)方法通過(guò)對(duì)目標(biāo)人的語(yǔ)音數(shù)據(jù)構(gòu)建聲紋模型,然后 從獲取的目標(biāo)人已知使用號(hào)碼及候選測(cè)試號(hào)碼的相關(guān)信息中提取各號(hào)碼的通話信息,并提 取各候選測(cè)試號(hào)碼的使用人的聲紋特征,以獲取各候選測(cè)試號(hào)碼的使用人的聲紋特征與目 標(biāo)人聲紋模型的相似度得分,然后根據(jù)候選測(cè)試號(hào)碼的通話信息與外界導(dǎo)入的目標(biāo)人相關(guān) 信息和/或目標(biāo)人的已知使用號(hào)碼的通話信息的關(guān)聯(lián)度對(duì)所述相似度得分進(jìn)行規(guī)整,最終 根據(jù)規(guī)整的結(jié)果確認(rèn)目標(biāo)人未知的使用號(hào)碼。由于通過(guò)從獲取的目標(biāo)人已知使用號(hào)碼及候 選測(cè)試號(hào)碼的相關(guān)信息中提取各號(hào)碼的通話信息,然后根據(jù)候選測(cè)試號(hào)碼的通話信息與外 界導(dǎo)入的目標(biāo)人相關(guān)信息和/或目標(biāo)人的已知使用號(hào)碼的通話信息的關(guān)聯(lián)度對(duì)所述相似度 得分進(jìn)行規(guī)整,使得對(duì)相似度得分的規(guī)整不僅僅依賴于上述假冒者模型或背景模型,可以 根據(jù)候外界導(dǎo)入的目標(biāo)人相關(guān)信息和/或目標(biāo)人的已知使用號(hào)碼的通話信息進(jìn)一步地提升 識(shí)別結(jié)果的準(zhǔn)確性。
[0092] 相應(yīng)的,本發(fā)明還提供了一種號(hào)碼發(fā)現(xiàn)系統(tǒng),如圖2所示:
[0093] 建模模塊201,用于根據(jù)收集的目標(biāo)人的語(yǔ)音數(shù)據(jù)構(gòu)建目標(biāo)人聲紋模型;
[0094]獲取模塊202,用于獲取目標(biāo)人的已知使用號(hào)碼和候選測(cè)試號(hào)碼以及各號(hào)碼的通 話信息;
[0095] 特征提取模塊203,用于提取所述候選測(cè)試號(hào)碼的使用人的聲紋特征;
[0096] 相似度獲取模塊204,用于計(jì)算各候選測(cè)試號(hào)碼的使用人的聲紋特征與目標(biāo)人聲 紋模型的相似度得分;
[0097]規(guī)整模塊205,用于基于候選測(cè)試號(hào)碼的通話信息與目標(biāo)人的已知使用號(hào)碼的通 話信息和/或外界導(dǎo)入的目標(biāo)人相關(guān)信息的關(guān)聯(lián)度對(duì)所述相似度得分進(jìn)行規(guī)整;
[0098]查找模塊206,用于根據(jù)規(guī)整后的相似度得分確認(rèn)目標(biāo)人使用的號(hào)碼。
[0099]在本實(shí)施例中,所述規(guī)整模塊205包括以下任意一個(gè)或多個(gè)單元:
[0100] 第一規(guī)整單元,用于將各相似度得分乘以預(yù)設(shè)的函數(shù)以擴(kuò)大候選測(cè)試號(hào)碼的使用 人的聲紋特征與目標(biāo)人聲紋模型的相似度得分的區(qū)分性;
[0101] 第二規(guī)整單元,用于根據(jù)候選測(cè)試號(hào)碼與目標(biāo)人的已知使用號(hào)碼的通話情況對(duì)相 似度得分進(jìn)行規(guī)整;
[0102] 第三規(guī)整單元,用于根據(jù)候選測(cè)試號(hào)碼與目標(biāo)人的已知使用號(hào)碼的地域信息的關(guān) 聯(lián)度對(duì)相似度得分進(jìn)行規(guī)整;
[0103] 第四規(guī)整單元,用于根據(jù)候選測(cè)試號(hào)碼與外界導(dǎo)入目標(biāo)人相關(guān)信息的關(guān)聯(lián)度對(duì)相 似度得分進(jìn)行規(guī)整包括以下任意一種或多種:目標(biāo)人某一時(shí)間段所處的地域信息、某一時(shí) 間段的聯(lián)系人通話信息、與目標(biāo)人相關(guān)的案件信息。
[0104] 進(jìn)一步地,為了提升系統(tǒng)的處理效率,僅對(duì)相似度得分大于設(shè)定得分閾值的候選 測(cè)試號(hào)碼進(jìn)行相似度得分計(jì)算,如圖3所示,所述系統(tǒng)還包括: