聚類方法和裝置的制造方法
【技術領域】
[0001]本公開涉及數據處理技術領域,尤其涉及一種聚類方法和裝置。
【背景技術】
[0002]聚類是將物理或者抽象對象的集合分成由類似的對象組成的多個類的過程,由聚類所生成的類或者簇是一組數據對象的集合,這些對象與同一個類中的對象彼此相似,與其他類中的對象相異。
[0003]相關技術中,可以采取層次聚類算法以實現聚類,在層次聚類算法中,通常是根據每個類中的所有對象以計算兩個類之間的距離,進而會導致聚類結果的準確度較低。
【發(fā)明內容】
[0004]為克服相關技術中存在的問題,本公開提供一種聚類方法和裝置,已解決相關技術中聚類結果的準確度較低的問題。
[0005]根據本公開實施例的第一方面,提供一種聚類方法,包括:
[0006]分別識別每個目標類中的噪聲對象;
[0007]根據第一目標類和第二目標類中的非噪聲對象計算所述第一目標類和所述第二目標類之間的類距離;
[0008]如果所述第一目標類和所述第二目標類之間的類距離滿足預設的條件,則將所述第一目標類和所述第二目標類合并,以形成新的目標類。
[0009]可選的,所述分別識別每個目標類中的噪聲對象,包括:
[0010]針對所述目標類中的每個對象,判斷與目標對象的距離在預設距離內的對象的數量是否小于第一閾值;
[0011]如果與所述目標對象的距離在預設距離內的對象的數量小于所述第一閾值,則確認所述目標對象為噪聲對象。
[0012]可選的,所述分別識別每個目標類中的噪聲對象,包括:
[0013]計算所述目標類的類中心;
[0014]判斷所述目標類中的目標對象距離所述類中心的距離是否大于第二閾值;
[0015]如果所述目標對象距離所述類中心的距離大于所述第二閾值,則確認所述目標對象為噪聲對象。
[0016]可選的,在分別識別每個目標類中的噪聲對象之前,還包括:
[0017]根據預設的聚類算法對初始類進行擴展;
[0018]判斷擴展后的初始類中的對象的數量是否大于等于第三閾值;
[0019]如果擴展后的初始類中對象的數量大于等于所述第三閾值,則確認所述擴展后的初始類為目標類。
[0020]可選的,在將所述第一目標類和所述第二目標類進行合并之后,還包括:
[0021]判斷是否存在類距離滿足所述預設的條件的兩個目標類;
[0022]如果存在類距離滿足所述預設的條件的兩個目標類,則將所述兩個目標類進行合并。
[0023]根據本公開實施例的第二方面,提供一種聚類裝置,包括:
[0024]噪聲識別單元,用于分別識別每個目標類中的噪聲對象;
[0025]距離計算單元,用于根據第一目標類和第二目標類中的非噪聲對象計算所述第一目標類和所述第二目標類之間的類距離;
[0026]第一合并單元,用于在所述第一目標類和所述第二目標類之間的類距離滿足預設的條件時,將所述第一目標類和所述第二目標類合并,以形成新的目標類。
[0027]可選的,所述噪聲識別單元包括:
[0028]第一判斷子單元,用于針對所述目標類中的每個對象,判斷與目標對象的距離在預設距離內的對象的數量是否小于第一閾值;
[0029]第一確認子單元,用于在與所述目標對象的距離在預設距離內的對象的數量小于所述第一閾值時,確認所述目標對象為噪聲對象。
[0030]可選的,所述噪聲識別單元包括:
[0031]中心計算子單元,用于計算所述目標類的類中心;
[0032]第二判斷子單元,用于判斷所述目標類中的目標對象距離所述類中心的距離是否大于第二閾值;
[0033]第二確認子單元,用于在所述目標對象距離所述類中心的距離大于所述第二閾值時,確認所述目標對象為噪聲對象。
[0034]可選的,還包括:
[0035]初始擴展單元,用于根據預設的聚類算法對初始類進行擴展;
[0036]數量判斷單元,用于判斷擴展后的初始類的中對象的數量是否大于等于第三閾值;
[0037]目標確認單元,用于在擴展后的初始類中對象的數量大于等于所述第三閾值時,確認所述擴展后的初始類為目標類。
[0038]可選的,還包括:
[0039]距離判斷單元,用于在將所述第一目標類和所述第二目標類進行合并之后,判斷是否存在類距離滿足所述預設的條件的兩個目標類;
[0040]第二合并單元,用于在存在類距離滿足所述預設的條件的兩個目標類時,將所述兩個目標類合并。
[0041]根據本公開實施例的第三方面,提供一種聚類裝置,包括:
[0042]處理器;
[0043]用于存儲處理器可執(zhí)行指令的存儲器;
[0044]其中,所述處理器被配置為:
[0045]分別識別每個目標類中的噪聲對象;
[0046]根據第一目標類和第二目標類中的非噪聲對象計算所述第一目標類和所述第二目標類之間的類距離;
[0047]如果所述第一目標類和所述第二目標類之間的類距離滿足預設的條件,則將所述第一目標類和所述第二目標類合并,以形成新的目標類。
[0048]本公開的實施例提供的技術方案可以包括以下有益效果:
[0049]本公開通過識別每個目標類中的噪聲對象,進而可以在計算第一目標類和第二目標類之間的類距離時排除噪聲對象,根據所述第一目標類和所述第二目標類中的非噪聲對象計算所述類距離,并在所述類距離滿足條件時將所述第一目標類和所述第二目標類合并,從而提高聚類結果的準確度。
[0050]本公開可以通過判斷目標類中的目標對象是否為核心對象,進而在所述目標對象不是核心對象時,確認所述目標對象為噪聲對象,提高噪聲對象識別的準確度,進而提高聚類結果的準確度。
[0051]本公開可以通過判斷目標類中的目標對象與類中心的距離是否大于預設的第二閾值,進而在所述目標對象與類中心的距離大于所述第二閾值時,確認所述目標對象為噪聲對象,提高噪聲對象識別的準確度,進而提高聚類結果的準確度。
[0052]應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
【附圖說明】
[0053]此處的附圖被并入說明書中并構成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。
[0054]圖1是根據一示例性實施例示出的一種聚類方法的流程圖。
[0055]圖2是根據一示例性實施例示出的另一種聚類方法的流程圖。
[0056]圖3是根據一示例性實施例示出的一種識別目標類中的噪聲對象的流程圖。
[0057]圖4是根據一示例性實施例示出的另一種識別目標類中的噪聲對象的流程圖。
[0058]圖5是根據一示例性實施例示出的一種聚類裝置的框圖。
[0059]圖6是根據一示例性實施例示出的另一種聚類裝置的框圖。
[0060]圖7是根據一示例性實施例示出的另一種聚類裝置的框圖。
[0061]圖8是根據一示例性實施例示出的另一種聚類裝置的框圖。
[0062]圖9是根據一示例性實施例示出的另一種聚類裝置的框圖。
[0063]圖10是根據一示例性實施例示出的一種用于聚類裝置的一結構示意圖。
【具體實施方式】
[0064]這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
[0065]圖1是根據一示例性實施例示出的一種聚類方法的流程圖。
[0066]如圖1所示,所述聚類方法可以用于終端中,包括以下步驟:
[0067]在步驟SlOl中,分別識別每個目標類中的噪聲對象。
[0068]所述每個目標類中通常包括有多個對象,在本步驟中,分別識別每個目標類中的噪聲對象。比如:可以通過基于密度的聚類算法判斷所述目標類中的目標對象是否為核心對象,如果所述目標對象不是核心對象,則可以確認所述目標對象為噪聲對象。也可以通過判斷所述目標類中的目標對象與類中心的距離是否大于閾值,如果所述目標對象與類中心的距離大于所述閾值,則可以確認所述目標對象為噪聲對象。
[0069]在步驟S102中,根據第一目標類和第二目標類中的非噪聲對象計算所述第一目標類和所述第二目標類之間的類距離。
[0070]在本實施例中,在計算所述第一目標類和所述第二目標類的類距離時,排除噪聲對象,根據所第一目標類和所述第二目標類中的非噪聲對象計算所述兩個類的類距離。
[0071]在步驟S103中,如果所