本申請涉及計算機應用領域,尤其涉及一種文本相似度的計算方法及裝置。
背景技術:
社交應用,通常都會面臨內容審核的問題。而一款社交產品,通??赡軙袔浊f甚至幾億的用戶量,每天每時每刻都有巨大的信息量在交互。因此如何基于已審核出的不良歷史內容,快速的完成各種不良內容的實時線上防控,具有十分重要的意義。
在相關技術中,在基于已審核出的不良歷史內容針對各種不良內容進行實時的線上防控時,通常是基于文本相似度來實現(xiàn)的;比如,可以基于編輯距離或者余弦距離等算法,計算社交應用產生的文本樣本與已審核出每一條包含不良內容的黑樣本的文本相似度,然后通過計算出的文本相似度來完成不良內容的實時線上防控。
然而,通過諸如編輯距離或者余弦距離等算法,計算社交文本產生的文本樣本與每一條黑樣本的相似度時,通常都面臨著1:n的輪詢;因此,當黑樣本的數(shù)量較多,輪詢所有的黑樣本依次進行相似度的計算,從響應速度上看,無法滿足實時的線上防控的要求。
技術實現(xiàn)要素:
本申請?zhí)岢鲆环N文本相似度的計算方法,應用于計算機設備,所述計算機設備包括多個黑樣本庫;所述多個黑樣本庫為基于預設過濾策略,針對原始的黑樣本庫中的部分文本樣本進行過濾后,基于剩余的文本樣本創(chuàng)建得到;其中,所述多個黑樣本庫分別對應不同的文本過濾比例;所述方法包括:
針對新錄入的文本樣本進行分詞處理,得到若干文本分詞;
將所述多個黑樣本庫依次選定為目標樣本庫,并基于所述預設過濾策略,按照所述目標樣本庫對應的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進行過濾;
將所述若干文本分詞中剩余的文本分詞依次選定為目標文本分詞,并將所述目標文本分詞與所述目標樣本庫中的文本分詞依次進行匹配;
如果所述目標文本分詞與所述目標樣本庫中任一文本分詞匹配時,基于與所述目標樣本庫對應的文本過濾比例,為所述目標文本分詞設置黑樣本相似度。
本申請還提出一種文本相似度的計算裝置,應用于計算機設備,所述計算機設備包括多個黑樣本庫;所述多個黑樣本庫為基于預設過濾策略,針對原始的黑樣本庫中的部分文本樣本進行過濾后,基于剩余的文本樣本創(chuàng)建得到;其中,所述多個黑樣本庫分別對應不同的文本過濾比例;所述裝置包括:
分詞模塊,針對新錄入的文本樣本進行分詞處理,得到若干文本分詞;
過濾模塊,將所述多個黑樣本庫依次選定為目標樣本庫,并基于所述預設過濾策略,按照所述目標樣本庫對應的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進行過濾;
匹配模塊,將所述若干文本分詞中剩余的文本分詞依次選定為目標文本分詞,并將所述目標文本分詞與所述目標樣本庫中的文本分詞依次進行匹配;
設置模塊,如果所述目標文本分詞與所述目標樣本庫中任一文本分詞匹配時,基于與所述目標樣本庫對應的文本過濾比例,為所述目標文本分詞設置黑樣本相似度。
本申請中,通過基于相同的丟棄策略,對原始的黑樣本庫中的文本樣本以及新錄入的文本樣本進行分詞處理得到的文本分詞,按照多個保持梯度的文本過濾比例分別進行文本分詞過濾處理,并使用過濾后剩余的文本分詞分別對原始的黑樣本庫中的文本樣本以及新錄入的文本樣本進行重構,然后利用文本分詞的過濾比例來表征新錄入的文本樣本與黑樣本的相似度,通過匹配重構后的黑樣本庫與新錄入的文本樣本中的文本分詞,為新錄入的文本樣本進行分詞得到的文本分詞設置黑樣本相似度,可以顯著提升在計算新錄入的文本樣本與黑樣本庫中的文本樣本的相似度時的計算效率,從而在基于黑樣本對新錄入的文本樣本進行實時的線上防控時,可以快速的完成針對新錄入的文本樣本的內容審核,提高系統(tǒng)的響應速度。
附圖說明
圖1是本申請一實施例示出的一種文本相似度的計算方法的流程圖;
圖2是本申請一實施例示出的一種文本相似度算法的整體設計框架圖;
圖3是本申請一實施例示出的一種對原始的黑樣本庫中的社交文本進行重構的處理流程圖;
圖4是本申請一實施例示出的一種對新錄入的社交文本執(zhí)行相似度打分的處理流程圖;
圖5是本申請一實施例示出的一種文本相似度的計算裝置的邏輯框圖;
圖6是本申請一實施例示出的承載所述文本相似度的計算裝置的計算機設備所涉及的硬件結構圖。
具體實施方式
在相關技術中,在基于已審核出的包含不良內容的黑樣本,針對社交應用中產生的社交文本進行內容審核,完成實時的線上防控時,通??梢酝ㄟ^以下方式來實現(xiàn):
在示出的一種實現(xiàn)方式中,在社交應用上線之初,可以設置專門的風控人員,由風控人員通過手動瀏覽社交應用產生的社交文本,依靠人工來判斷用戶通過社交應用發(fā)布的消息或者服務內容等社交文本等,是否存在違反規(guī)定的不良內容。當社交應用的用戶數(shù)量不斷增長,依靠人工不足以支撐快速審核時,風控人員可以依照經(jīng)驗配置大量關鍵詞規(guī)則,進而審核平臺可以基于配置的這些關鍵詞規(guī)則來自動的檢查社交應用產生的社交文本中是否存在不良關鍵詞。
然而,關鍵詞規(guī)則往往是審核人員根據(jù)歷史審核經(jīng)驗提煉出來的,并不能涵蓋全部歷史審核信息,而且通過關鍵詞的形式進行內容審核比較機械,通常都是直接匹配,存在大量誤判斷的情況。
在示出的另一種實現(xiàn)方式中,可以針對社交應用中產生的社交文本,以及已審核出的包含不良內容的黑樣本進行行精確的內容匹配,進而完成對社交應用產生的社交文本的內容審核。
然而,通過精確匹配的方式,雖然能滿足在進行實時的線上防控時的響應速度的要求,然而社交應用產生的文本內容的表達形式豐富多樣,因而采用精確的內容匹配,召回率太低;而且,審核平臺需要耗費大量處理資源去做精確查詢,在進行內容審核的實效性很差,無法滿足實時的要求。
在示出的第三種實現(xiàn)方式中,可以基于編輯距離或者余弦距離等相似度算法,計算社交應用產生的社交文本與已審核出的每一條包含不良內容的黑樣本的文本相似度,將社交應用產生的社交文本與黑樣本進行模糊匹配,然后通過計算出的文本相似度對來完成不良內容的實時線上防控。
然而,通過模糊匹配的方式,在基于諸如編輯距離或者余弦距離等相似度算法,計算社交文本產生的文本樣本與每一條黑樣本的相似度時,通常都面臨著1:n的輪詢,需要依次計算社交應用產生單條社交文本,與黑樣本庫中的所有黑樣本的文本相似度,因此當黑樣本的數(shù)量較多,輪詢所有的黑樣本依次進行相似度的計算,從響應速度上看,無法滿足實時的線上防控的要求。
可見,目前在針對社交應用產生的社交文本進行內容審核,完成實時的線上防控時,并不能很好的兼顧在進行內容審核時的準確度以及系統(tǒng)的響應效率;因此,如何利用審核平臺沉淀的大量包含不良內容的黑樣本,快速高效的完成社交應用產生的社交文本的內容審核,成為業(yè)內亟待解決的問題。
有鑒于此,本申請?zhí)岢鲆环N利用文本分詞的文本過濾比例來表征新錄入的文本與黑樣本的文本相似度,并采用精確匹配文本分詞的方式,來完成新錄入的文本樣本與黑樣本的模糊匹配,進而得出二者的文本相似度的算法。
在該算法中,通過基于相同的丟棄策略,對原始的黑樣本庫中的文本樣本以及新錄入的文本樣本進行分詞處理得到的文本分詞,按照多個保持梯度的文本過濾比例分別進行文本分詞過濾處理,并使用過濾后剩余的文本分詞分別對原始的黑樣本庫中的文本樣本以及新錄入的文本樣本進行重構,然后利用文本分詞的過濾比例來表征新錄入的文本樣本與黑樣本的相似度,通過匹配重構后的黑樣本庫與新錄入的文本樣本中的文本分詞,為新錄入的文本樣本進行分詞得到的文本分詞設置黑樣本相似度,可以顯著提升在計算新錄入的文本樣本與黑樣本庫中的文本樣本的相似度時的計算效率,從而在基于黑樣本對新錄入的文本樣本進行實時的線上防控時,可以快速的完成針對新錄入的文本樣本的內容審核,提高系統(tǒng)的響應速度。
下面通過具體實施例并結合具體的應用場景對本申請進行描述。
請參考圖1,圖1是本申請一實施例提供的一種文本相似度的計算方法,應用于計算機設備,所述計算機設備包括多個黑樣本庫;所述多個黑樣本庫為基于預設過濾策略,針對原始的黑樣本庫中的部分文本樣本進行過濾后,基于剩余的文本樣本創(chuàng)建得到;其中,所述多個黑樣本庫分別對應不同的文本過濾比例;且所述多個黑樣本庫對應的文本過濾比例保持梯度;所述方法執(zhí)行以下步驟:
步驟101,針對新錄入的文本樣本進行分詞處理,得到若干文本分詞;
步驟102,將所述多個黑樣本庫依次選定為目標樣本庫,并基于所述預設過濾策略,按照選定的所述目標樣本庫對應的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進行過濾;
步驟103,將所述若干文本分詞中剩余的文本分詞依次選定為目標文本分詞,并將所述目標文本分詞與所述目標樣本庫中的文本分詞依次進行匹配;
步驟104,如果所述目標文本分詞與所述目標樣本庫中任一文本分詞匹配時,基于與所述目標樣本庫對應的文本過濾比例,為所述目標文本分詞設置黑樣本相似度。
上述計算機設備,可以包括用于搭載步驟101-104所示出的文本相似度算法,基于已審核完成的若干包含不良內容的黑樣本,完成對新錄入的文本樣本的內容審核的任何形式的計算機設備。在實際應用中,上述計算設備可以是服務端設備,也可以是客戶端設備;例如,上述計算機設備具體可以是內容審核平臺中一臺服務器,也可以是一臺與內容審核平臺對接的用于執(zhí)行內容審核的pc終端。
上述文本樣本,具體可以包括社交應用所產生的社交文本;例如,可以包括用戶通過社交應用發(fā)布的聊天消息,也可以包括用戶所使用的社交應用產生的與用戶社交相關的服務消息,等等。
上述新錄入的文本樣本,則可以是上述計算機設備提取到的,用戶在使用社交應用時錄入的新的社交文本;而上述黑樣本庫中的文本樣本,則可以是內容審核平臺的歷史審核記錄中沉淀的大量包含不良內容的社交文本。當然,在實際應用中,上述文本樣本也可以是社交文本以外的,其它類型的需要進行內容審核,完成實時的線上防控的線上文本,在本申請中將不進行特別限定。
在本申請中,將提出一種利用文本分詞的文本過濾比例來表征新錄入的文本與黑樣本的文本相似度,并采用精確匹配文本分詞的方式,來完成新錄入的文本樣本與黑樣本的模糊匹配,進而得出二者的文本相似度的算法。
請參見圖2,圖2為本申請示出的該文本相似度算法的整體設計框架圖。
如圖2所示,在該算法中,可以基于相同的丟棄策略,對黑樣本庫中全部的文本樣本以及新錄入的文本樣本進行分詞處理得到的文本分詞,按照多個保持梯度的過濾比例分別進行文本分詞過濾處理,并使用剩余的文本分詞的離散值,分別對原始的黑樣本庫本以及新錄入的文本樣本進行重構,然后利用文本分詞的文本過濾比例來表征新錄入的文本樣本與黑樣本的相似度,并通過匹配重構后的黑樣本庫與新錄入的文本樣本中的文本分詞,來為新錄入的文本樣本進行分詞得到的文本分詞,設置黑樣本相似度;
由于在該相似度算法中,通過簡單的文本分詞匹配,就可以快速完成文本相似度的計算,為新錄入的文本樣本分詞得到的文本分詞設置出黑樣本相似度,因此可以顯著提升在計算新錄入的文本樣本與黑樣本庫中的文本樣本的相似度時的計算效率,從而在基于黑樣本對新錄入的文本樣本進行實時的線上防控時,可以快速的完成針對新錄入的文本樣本的內容審核,提高系統(tǒng)的響應速度。
以下以上述文本樣本為社交應用產生的社交文本,并結合針對社交文本進行內容審核,完成實時的線上防控的應用場景為例進行說明。顯然,以上述文本樣本為社交應用為例,僅為示例性的,并不用于對本申請的技術方案進行限定。
在本申請中,上述計算機設備可以收集大量通用的社交文本,來創(chuàng)建一個通用樣本庫。該通用樣本庫中的社交文本,可以涵蓋需要由該計算機設備進行文本內容審核的社交應用所產生的社交文本,也可以涵蓋該計算機設備能夠收集到的互聯(lián)網(wǎng)上的一切其它的社交應用所產生的社交文本;即上述計算機設備,可以通過收集互聯(lián)網(wǎng)上各中社交應用所產生的社交文本,然后基于收集到的社交文本來創(chuàng)建上述通用樣本庫。
其中,在實際應用中,上述通用樣本庫中的社交文本的數(shù)量,需要保持一個較大的數(shù)量級,以便可以盡可能的確保該通用樣本庫中的社交文本,能夠涵蓋用戶在日常的線上社交中可能產生的一切關鍵詞;例如,在示出的一個例子中,上述計算機設備可以收集提取200億條線上的通用社交文本,來創(chuàng)建上述通用樣本庫。
當上述通用樣本庫創(chuàng)建完成后,首先可以針對通用樣本庫中的全量社交文本分別進行文本分詞處理;其中,在進行文本分詞處理時采用的文本分詞算法,在本申請中不進行特別限定,本領域技術人員在將本申請的技術方案付諸實現(xiàn)時,可以參考相關技術中的記載。
當針對通用文本庫中的全量社交文本分詞處理完成后,由于此時分詞得到的大量文本分詞中,可能包含一些無效的文本分詞;比如,標點符號,以及一些諸如“的”,“了”等沒有實際含義的停用詞;因此,當分詞完成后,上述計算機設備還可以進一步針對分詞處理得到的大量文本分詞,進行過濾處理,進一步去除這些文本分詞中的標點符號,并結合搭載的停用詞庫,去除這些文本分詞中的停用詞。
當然,在實際應用中,除了進一步標點符號以及停用詞過濾以外,也可以基于實際的需求進一步引入其它形式的過濾策略;例如,可以針對分詞處理后的大量文本分詞進行詞性分析,并依據(jù)詞性分析的結果,有選擇的保留哪些具有實際含義的文本分詞;比如,僅保留這些文本分詞中的主語、謂語以及賓語相關的文本分詞。
當針對分詞處理后的文本分詞進一步進行過濾完成后,此時上述計算機設備可以進一步結合預設的統(tǒng)計分析算法,量化出分詞處理后的各文本分詞對應于該通用樣本庫的重要程度,得到各文本分詞對應于該通用樣本庫的權重值。
其中,在量化各文本分詞對應于該通用樣本庫的重要程度是所采用的統(tǒng)計學方法,在本申請中不進行特別限定。
在示出的一種實施方式中,上述權重值具體可以是idf(inversedocumentfrequency,逆文本頻率)值;上述計算機設備可以基于idf值來表征各文本分詞對應于通用樣本庫的重要程度。
其中,在計算某一個語料庫中的目標詞語對應于該語料庫的idf值時,通??梢杂迷撜Z料庫中的總文件數(shù)目,除以包含該目標詞語的文件的數(shù)目,再將得到的商取對數(shù)得到。而上述計算機設備在計算各文本分詞對應于通用樣本庫的重要程度時,可以依次統(tǒng)計通用樣本庫中包含各文本分詞的社交文本的數(shù)量,然后使用通用樣本庫中社交文本的總數(shù)量,分別除以統(tǒng)計出的該數(shù)量,再將得到的商進行取對數(shù)計算得到各文本分詞相對于通用樣本庫的idf值。
當然,在實際應用中,除了通過idf值來表征文本分詞相對于通用樣本庫的重要程度以外,也可以使用其它形式的統(tǒng)計學方法來量化各文本分詞相對于通用樣本庫的重要程度;
例如,在實際應用中,還可以采用卡方統(tǒng)計、信息墑等統(tǒng)計方法,來量化各文本分詞相對于通用樣本庫的重要程度,在本申請中不再進行詳述,本領域技術人員在將本申請的技術方案付諸實施時,可以參考相關技術中的記載。
在本例中,上述計算機設備可以預配置一個原始的黑樣本庫,該黑樣本庫用于存儲內容審核平臺中沉淀的大量的已審核出的包含不良內容的社交文本(即黑樣本)。當上述計算機設備量化出各文本分詞,相對于通用樣本庫的重要程度,得到對應權重值后,后續(xù)可以以量化出的各文本分詞相對于通用樣本庫的權重值作為依據(jù),并按照預配置完成的多個保持梯度的文本過濾比例,針對原始的黑樣本庫中的部分黑樣本進行文本過濾處理,然后基于剩余的黑樣本對原始的黑樣本庫分別進行重構,得到多個重構后的黑樣本庫。
請參見圖3,圖3為本申請示出的一種對原始的黑樣本庫中的社交文本進行重構的處理流程圖。
在初始狀態(tài)下,內容審核平臺中通常會沉淀的大量的已審核出的包含不良內容的社交文本,為了充分利用這些已審核完成的社交文本,上述計算機設備可以將內容審核平臺沉淀下來的這些社交文本作為黑樣本,來創(chuàng)建原始的黑樣本庫,然后針對該原始的黑樣本庫中的全量社交文本進行重構。
如圖3所示,在針對黑樣本庫中的全量社交文本進行重構時,首先可以針對黑樣本庫中的全量社交文本分別進行文本分詞處理;其中,需要說明的是,對黑樣本庫中的社交文本進行分詞處理得到的文本分詞,通常可以是針對上述通用樣本庫進行分詞處理得到的文本分詞的子集。
當分詞處理完成后,上述計算機設備還可以進一步過濾文本分詞中的標點符號以及停用詞,或者進一步引入其它的過濾策略進行文本分詞過濾,具體的實現(xiàn)過程不再贅述。
請繼續(xù)參見圖3,當針對黑樣本庫進行分詞處理后得到文本分詞完成進一步的文本分詞過濾后,此時上述計算機設備可以基于預設過濾策略,按照預配置完成的多個保持梯度的文本過濾比例,針對上述原始的黑樣本庫分詞處理得到的文本分詞中的部分文本分詞分別進行文本過濾處理,并分別基于剩余的文本分詞的離散值來完成上述黑樣本庫的重構。其中,在這種情況下,重構完成的黑樣本庫,將分別對應不同的文本過濾比例。
在示出的一種實施方式中,由于通用樣本庫中的各文本分詞已經(jīng)預先量化出了相對于通用樣本的重要程度,并計算出了可以表征各文本分詞的重要程度的權重值;而且,對于針對原始的黑樣本庫中的社交文本進行分詞處理得到的文本分詞而言,通常是針對上述通用樣本庫中的社交文本進行分詞處理得到的文本分詞的子集;因此,對于原始的黑樣本庫中的每個社交文本而言,都有一個相對于通用樣本庫的權重值。
在這種情況下,在設置上述預設丟棄策略時,具體可以參考原始的黑樣本庫中的各文本分詞對應的權重值來有選擇的進行過濾,以完成針對原始的黑樣本庫的重構。
在示出的一種實施方式中,上述預設過濾策略具體可以包括以下丟棄策略中的任一:
僅丟棄權重值最高的文本分詞;
僅丟棄權重值最低的文本分詞;
同時丟棄權重值最高和最低的文本分詞。
在本申請中,由于是利用文本分詞的文本過濾比例,來表征新錄入的文本與黑樣本的文本相似度,因此最終丟棄掉的文本分詞所占的比例,在某種程度將影響最終的文本相似度的結果。
對于權重值最低的文本分詞,其重要程度最低,這部分重要程度低的文本分詞對最終的相似度結果的影響最小,如果優(yōu)先過濾掉重要程度最低的文本分詞,有助于提升最終的文本相似度結果的精準度;但精準度過高可能導致內容審核平臺最終在基于文本相似度判定新錄入的社交文本是否命中黑樣本庫中的文本分詞時的命中次數(shù)下降,內容審核平臺對于包含不良內容的社交文本的召回率過低的問題。因此,在這種情況下,如果本領域技術人員更加關注最終計算結果的準確度,那么可以將上述預設過濾策略設置為“丟棄權重值最低的文本分詞”。
相似的,由于權重值最高的文本分詞,重要程度最高,這部分重要程度高的文本分詞對最終的相似度結果的影響最大,因此優(yōu)先過濾掉重要程度最高的文本分詞,會導致最終的文本相似度結果的精準度較低,導致內容審核平臺最終在基于文本相似度判定新錄入的社交文本是否命中黑樣本庫中的文本分詞時的命中次數(shù)上升,內容審核平臺對于包含不良內容的社交文本的召回率過高的問題;因此,在這種情況下,如果本領域技術人員更加關注內容審核平臺對于包含不良內容的社交文本內的召回率,那么可以將上述預設過濾策略設置為“僅丟棄權重值最高的文本分詞”。
當然,在實際應用中,內容審核平臺通常需要兼顧文本相似度結果的準確度,以及對于包含不良內容的社交文本的召回率;因此,在這種情況下,本領域技術人員可以將上述預設過濾策略設置為“同時丟棄權重值最高和最低的文本分詞”;例如,如圖3所示,圖3中示出的過濾策略即為“同時丟棄權重值最高和最低的文本分詞”。
在示出的一種實施方式中,上述多個保持梯度的文本過濾比例的具體數(shù)量,以及各過濾比例之間的梯度值,在本申請中均不進行特別限定,本領域技術人員可以基于實際需求進行設置,或者也可以基于工程經(jīng)驗進行設置;例如,在一種實現(xiàn)方式中,上述多個保持梯度的預設過濾比例的數(shù)量為10%、20%、40%以及50%等四個保持梯度的過濾比例。
請繼續(xù)參見圖3,假設上述多個保持梯度的文本過濾比例,為10%、20%、40%以及50%等四個保持10%的增長梯度的文本過濾比例,上述計算機設備可以將該四個文本過濾比例,依次選定為目標過濾比例,然后按照上述預設丟棄策略,按照選定的該目標過濾比例,針對該黑樣本庫進行分詞處理得到的文本分詞中的部分文本分詞進行文本分詞丟棄,然后分別計算剩余的文本分詞的離散值(比如hash值),并基于原始的黑樣本庫中剩余的文本分詞的離散值,來重新構建出對應于上述目標過濾比例的離散值樣本庫(該離散值樣本庫即為重構后的黑樣本庫)。
其中,在示出的一種實施方式中,上述計算機設備在將上述多個保持梯度的預設過濾比例,依次選定為目標過濾比例時,具體可以按照過濾比例由低到高的順序,依次選定為目標過濾比例。
繼續(xù)參見圖3,以利用idf值表征各文本分詞對應于通用樣本庫的重要程度為例,在實現(xiàn)時,上述計算機設備首先可以按照10%的過濾比例,丟棄掉針對上述黑樣本庫進行文本分詞得到的文本分詞中,idf值高于95%分位(即idf值最高的5%)的文本分詞,以及低于5%分位(即idf值最低的5%)的文本分詞,然后分別計算剩余的文本分詞的離散值,基于計算出的各剩余的文本分詞的離散值,生成第一離散值樣本庫;
進一步的,在生成第一離散值樣本庫后,上述計算機設備,可以繼續(xù)按照20%的過濾比例,丟棄掉針對上述黑樣本庫進行文本分詞得到的文本分詞中,idf值高于90%分位的文本分詞,以及低于10%分位的文本分詞,然后分別計算剩余的文本分詞的離散值,基于計算出的各剩余的文本分詞的離散值,生成第二離散值樣本庫。
以此類推,上述計算機設備后續(xù)可以繼續(xù)按照40%的過濾比例,丟棄掉針對上述黑樣本庫進行文本分詞得到的文本分詞中,idf值高于80%分位的文本分詞,以及低于20%分位的文本分詞,然后分別計算剩余的文本分詞的離散值,生成第三離散值樣本庫。以及,可以繼續(xù)按照50%的過濾比例,丟棄掉針對上述黑樣本庫進行文本分詞得到的文本分詞中,idf值高于60%分位的文本分詞,以及低于30%分位的文本分詞,然后分別計算剩余的文本分詞的離散值,生成第四離散值樣本庫。
如圖3所示,上述計算機設備按照以上示出的方式對上述黑樣本庫進行重構完成后,將可以重構出4個分別對應不同的過濾比例的離散值樣本庫,此時上述計算機設備可以將重構完成的離散值樣本庫中的離散值記錄分別加載到內存中。此時針對上述原始的黑樣本庫的重構過程結束,原始的黑樣本庫已經(jīng)按照不同的文本過濾比例,被重構為了多個離散值樣本庫。由于最終重構完成的離散值樣本庫中,僅僅包括若干個基于黑樣本庫中的文本分詞的離散值,因此上述計算機設備需要加載的數(shù)據(jù)量顯著減少。
請參見圖4,圖4為本申請示出的一種對新錄入的社交文本執(zhí)行相似度打分的處理流程圖。
如圖4所示,上述計算機設備在提取到用戶通過社交應用新錄入的社交文本后,可以基于與已經(jīng)重構完成的多個離散值樣本庫對應的過濾比例,采用相同的丟棄策略依次進行文本重構。
首先,上述計算機設備可以針對提取到的新錄入的社交文本進行文本分詞處理,得到若干文本分詞,并在分詞處理完成后,還可以進一步過濾文本分詞中的標點符號以及停用詞,或者進一步引入其它的過濾策略進行文本分詞過濾,具體的實現(xiàn)過程不再贅述。
當針對新錄入的社交文本進行文本分詞處理后得到文本分詞完成進一步的文本分詞過濾后,此時上述計算機設備可以將上述重構后的多個離散值樣本庫依次選定為目標樣本庫;
其中,在示出的一種實施方式中,上述計算機設備在將上述多個離散值樣本庫,依次選定為目標樣本庫時,具體可以將上述多個離散值樣本庫按照對應的過濾比例由低到高的順序,依次選定為目標樣本庫。
當選定出目標樣本庫后,上述計算機設備可以基于相同的過濾策略,按照選定的該目標樣本庫對應的過濾比例,針對進行分詞處理得到的文本分詞中的部分文本分詞進行文本分詞過濾,完成針對新錄入的社交文本的第一次重構。
當?shù)谝淮沃貥嬐瓿珊?,可以將剩余的文本分詞依次選定為目標分詞,并計算選定的該目標分詞的離散值,然后將計算得到的該目標分詞的離散值與內存中加載的該目標樣本庫中的離散值依次進行匹配;如果該目標分詞的離散值與該目標樣本庫中任一離散值匹配時,則可以基于與該目標樣本對應的文本過濾比例,為該目標分詞設置黑樣本相似度;
其中,在示出的一種實施方式中,在基于與該目標樣本對應的文本過濾比例,為該目標分詞設置黑樣本相似度時,具體可以將與上述目標樣本庫對應的文本過濾比例轉換為目標數(shù)值,并計算1與該目標數(shù)值的差值,然后將該目標分詞的黑樣本相似度,設置為大于等于該差值;比如,當該目標過濾比例為10%時,則可以將該目標分詞與上述黑樣本庫中的黑樣本的相似度設置為大于等于0.9。
當然,如果該目標分詞的離散值與上述目標樣本庫中的離散值均不匹配,此時可以將下一個文本分詞選定為目標分詞,重新執(zhí)行以上過程,以此類推,直到所有的文本分詞的離散值與上述目標樣本庫中的離散值均完成匹配,此時第一次重構后的離散值匹配完成。
在完成第一次重構后的離散值匹配后,此時新錄入的社交文本分詞處理后的文本分詞中,可能仍然存在未設置出相似度的文本分詞。因此,在這種情況下,可以繼續(xù)將下一個離散值樣本庫選定為目標樣本庫,根據(jù)該目標樣本庫對應的文本過濾比例,按照以上示出的方式對該新錄入的社交文本進行第二次重構,并重新執(zhí)行以上示出的通過離散值匹配為各文本分詞評分的過程,以此類推,直到將新錄入的社交文本按照上述多個離散值樣本庫對應的文本過濾比例,分別完成重構,并完成相應的離散值匹配過程后時停止。
其中,需要說明的是,對于在上一次重構后已經(jīng)設置出相似度評分的文本分詞,如果在選定目標樣本庫時采用各離散值樣本庫的過濾比例由小到大的順序作為選定順序,那么該文本分詞可以不再參與下一次重構后的相似度評分過程。
繼續(xù)參見圖4,以利用idf值表征各文本分詞對應于通用樣本庫的重要程度,以及針對黑樣本庫按照10%、20%、40%以及50%等四個保持梯度的過濾比例分別進行重構,得到四個離散值樣本庫為例;在實現(xiàn)時,可以按照對應的過濾比例由大到小的順序,將上述四個離散值樣本庫依次選定為目標樣本庫。
如圖4所述,首先可以將對應的過濾比例為10%的第一離散值樣本庫選定為目標樣本庫,并按照10%的過濾比例,過濾掉針對新錄入的社交文本進行文本分詞得到的文本分詞中,idf值高于95%分位(即idf值最高的5%)的文本分詞,以及低于5%分位(即idf值最低的5%)的文本分詞,并分別計算剩余的文本分詞的離散值;然后,將剩余的各文本分詞的離散值依次選定為目標分詞,并將該目標分詞的離散值,與該第一離散值樣本庫中的離散值依次進行匹配;如果該目標分詞的離散值與該第一離散值樣本庫中的任一離散值匹配時,則可以將該目標分詞相對于上述黑樣本庫中的黑樣本的相似度,設置為不低于90%。
當然,如果該目標分詞的離散值與上述第一離散值樣本庫中的離散值均不匹配,此時可以將下一個文本分詞選定為目標分詞,重新執(zhí)行以上過程,以此類推,直到所有的文本分詞的離散值與上述第一離散值樣本庫中的離散值均完成匹配。
請繼續(xù)參見圖4,當新錄入的該社交文本進行分詞處理得到的所有的文本分詞的離散值與上述第一離散值樣本庫中的離散值均完成匹配,如果此時仍然存在未設置出相似度評分的文本分詞,此時可以將對應的文本過濾比例為20%的第二離散值樣本庫選定為目標樣本庫,并按照20%的文本過濾比例,過濾掉針對新錄入的社交文本進行文本分詞得到的文本分詞中,idf值高于90%分位的文本分詞,以及低于10%分位的文本分詞,并分別計算剩余的文本分詞的離散值;然后,將剩余的各文本分詞的離散值依次選定為目標分詞,并將該目標分詞的離散值,與該第二離散值樣本庫中的離散值依次進行匹配;如果該目標分詞的離散值與該第二離散值樣本庫中的任一離散值匹配時,則可以將該目標分詞相對于上述黑樣本庫中的黑樣本的相似度,設置為不低于80%。
如果該目標分詞的離散值與上述第二離散值樣本庫中的離散值均不匹配,此時可以將下一個文本分詞選定為目標分詞,重新執(zhí)行以上過程,以此類推,直到所有的文本分詞的離散值與上述第二離散值樣本庫中的離散值均完成匹配。
相似的,當新錄入的該社交文本進行分詞處理得到的所有的文本分詞的離散值與上述第二離散值樣本庫中的離散值均完成匹配,如果此時仍然存在未設置出相似度評分的文本分詞,此時可以將對應的過濾比例為40%的第三離散值樣本庫選定為目標樣本庫,按照40%的過濾比例,過濾掉針對新錄入的社交文本進行文本分詞得到的文本分詞中,idf值高于80%分位的文本分詞,以及低于20%分位的文本分詞,迭代執(zhí)行以上示出的相似度評分過程;
進一步的,當新錄入的該社交文本進行分詞處理得到的所有的文本分詞的離散值與上述第三離散值樣本庫中的離散值均完成匹配,如果此時仍然存在未設置出相似度評分的文本分詞,此時可以將對應的文本過濾比例為50%的第四離散值樣本庫選定為目標樣本庫,按照50%的文本過濾比例,過濾掉針對新錄入的社交文本進行文本分詞得到的文本分詞中,idf值高于60%分位的文本分詞,以及低于30%分位的文本分詞迭代執(zhí)行以上示出的相似度評分過程,具體的執(zhí)行過程不再贅述。
當然,在實際應用中,當新錄入的社交文本進行分詞處理后的文本分詞,分別按照上述多個離散值樣本庫對應的過濾比例,分別過濾掉部分的文本分詞完成重構,并且所有文本分詞的離散值與對應的離散值樣本庫中的所有離散值均完成了匹配后,此時如果該新錄入的文本樣本中的任一文本分詞,被選定為所述目標分詞,并且該文本分詞的離散值與上述多個離散值樣本庫中的離散值均不匹配時,則可以將該文本分詞的黑樣本相似度,即與上述黑樣本庫中的文本樣本的相似度設置0。
可見,通過利用文本分詞的文本過濾比例,來表征新錄入的社交文本與黑樣本的文本相似度,并采用離散值匹配的方式,來為新錄入的社交文本中的各文本分詞設置與黑樣本的相似度評分,可以實現(xiàn)以精確匹配的方式,完成新錄入的文本樣本與黑樣本的模糊匹配,與傳統(tǒng)的基于編輯距離或者余弦距離等相似度算法,來計算新錄入的社交文本與黑樣本的模糊匹配的方式相比,可以顯著的提升計算效率。
在本例中,當通過圖4示出的上述相似度評分流程,完成針對新錄入的上述社交文本進行分詞處理得到的各文本分詞的相似度評分后,上述計算機設備可以基于該相似度的評分結果,對該新錄入的社交文本進行內容審核。
具體的,上述計算機設備可以預設值一個相似度閾值,然后將該新錄入的社交文本中各文本分詞的相似度評分與該相似度閾值進行比較;如果該新錄入的社交文本中任一文本分詞的相似度達到該相似度閾值,此時可以將該文本分詞確定為敏感關鍵詞,并采取相應的安全防控措施(比如對文本進行屏蔽)將上述新錄入的社交文本作為包含不良內容的黑樣本進行實時的安全防控。
當然,如果該新錄入的社交文本中的文本分詞的相似度評分,均低于該相似度閾值,此時該新錄入的社交文本為正常的社交文本,可以不進行任何處理。
另外,需要說明的是,當基于相似度評分將新錄入的社交文本作為黑樣本進行相應的安全防控處理后,可以將該新錄入的社交文本作為黑樣本,更新到上述原始的黑樣本庫中。通過這種方式,可以基于內容審核的結果,不斷的對原始的黑樣本庫中的黑樣本庫進行增量更新,進而可以不斷豐富原始的黑樣本庫中的數(shù)據(jù)樣本。
與上述方法實施例相對應,本申請還提供了裝置的實施例。
請參見圖5,本申請?zhí)岢鲆环N文本相似度的計算裝置50,所述計算機設備包括多個黑樣本庫;所述多個黑樣本庫為基于預設過濾策略,針對原始的黑樣本庫中的部分文本樣本進行過濾后,基于剩余的文本樣本創(chuàng)建得到;其中,所述多個黑樣本庫分別對應不同的文本過濾比例;其中,請參見圖6,作為承載所述文本相似度的計算裝置50的計算機設備所涉及的硬件架構中,通常包括cpu、內存、非易失性存儲器、網(wǎng)絡接口以及內部總線等;以軟件實現(xiàn)為例,所述文本相似度的計算裝置50通常可以理解為加載在內存中的計算機程序,通過cpu運行之后形成的軟硬件相結合的邏輯裝置,所述裝置50包括:
分詞模塊501,針對新錄入的文本樣本進行分詞處理,得到若干文本分詞;
過濾模塊502,將所述多個黑樣本庫依次選定為目標樣本庫,并基于所述預設過濾策略,按照所述目標樣本庫對應的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進行過濾;
匹配模塊503,將所述若干文本分詞中剩余的文本分詞依次選定為目標文本分詞,并將所述目標文本分詞與所述目標樣本庫中的文本分詞依次進行匹配;
設置模塊504,如果所述目標文本分詞與所述目標樣本庫中任一文本分詞匹配時,基于與所述目標樣本庫對應的文本過濾比例,為所述目標文本分詞設置黑樣本相似度。
在本例中,所述分詞模塊501進一步:
針對所述黑樣本庫中的文本樣本依次進行分詞處理;
所述過濾模塊502進一步:
將預設的多個保持梯度的文本過濾比例,依次選定為目標過濾比例;基于所述預設丟棄策略,按照所述目標過濾比例,針對所述黑樣本庫進行分詞處理得到的文本分詞中的部分文本分詞進行過濾;
所述裝置50還包括:
創(chuàng)建模塊505(圖5中未示出),計算所述黑樣本庫中剩余的文本分詞的離散值,并基于計算出的所述剩余的文本分詞的離散值,創(chuàng)建對應于所述目標過濾比例的黑樣本庫。
在本例中,所述多個黑樣本庫對應的文本過濾比例保持梯度;所述過濾模塊502進一步:
將所述多個黑樣本庫按照對應的文本過濾比例由低到高的順序,依次選定為目標樣本庫。
在本例中,所述預設過濾策略包括以下策略中的任一:
僅丟棄權重值最高的文本分詞;
僅丟棄權重值最低的文本分詞;
同時丟棄權重值最高和最低的文本分詞。
在本例中,所述權重值為所述文本分詞對應于通用樣本庫的idf值。
在本例中,所述設置模塊504:
將與所述目標樣本庫對應的文本過濾比例轉換為目標數(shù)值;
計算1與所述目標數(shù)值的差值;
將所述目標文本分詞的黑樣本相似度,設置為大于等于所述差值。
在本例中,所述設置模塊504進一步:
當所述新錄入的文本樣本中的任一文本分詞,與所述多個黑樣本庫中的文本分詞均不匹配時,將該文本分詞的黑樣本相似度設置0。
在本例中,所述裝置50還包括:
防護模塊506(圖5中未示出),當所述新錄入的文本樣本中的任一文本分詞的黑樣本相似度達到預設閾值時,將所述新錄入的文本樣本作為包含不良內容的黑樣本進行實時的安全防控。
在本例中,所述文本樣本為社交文本;所述黑樣本庫中的文本樣本為包含不良內容的社交文本。
對于裝置實施例而言,由于其基本對應于方法實施例,所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上。可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本申請方案的目的。本領域普通技術人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
上述實施例闡明的系統(tǒng)、裝置、模塊或單元,具體可以由計算機芯片或實體實現(xiàn),或者由具有某種功能的產品來實現(xiàn)。一種典型的實現(xiàn)設備為計算機,計算機的具體形式可以是個人計算機、膝上型計算機、蜂窩電話、相機電話、智能電話、個人數(shù)字助理、媒體播放器、導航設備、電子郵件收發(fā)設備、游戲控制臺、平板計算機、可穿戴設備或者這些設備中的任意幾種設備的組合。
本領域技術人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本申請的其它實施方案。本申請旨在涵蓋本申請的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本申請的一般性原理并包括本申請未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的,本申請的真正范圍和精神由下面的權利要求指出。
應當理解的是,本申請并不局限于上面已經(jīng)描述并在附圖中示出的精確結構,并且可以在不脫離其范圍進行各種修改和改變。本申請的范圍僅由所附的權利要求來限制。
以上所述僅為本申請的較佳實施例而已,并不用以限制本申請,凡在本申請的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本申請保護的范圍之內。