文章指紋特征生成方法和裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及計算機技術領域,具體而言,涉及一種文章指紋特征生成方法和裝置。
【背景技術】
[0002]信息指紋,指的就是任何一篇一段文章,都可以對應成一段信息指紋,像人類身指紋一樣具者有唯一性,信息指紋就是利用一段文字對應一個不太長的隨機數(shù),生成自己獨特的信息的指紋(fingerprint)。而文章的指紋一般是通過某種算法對數(shù)據(jù)信息進行綜合計算得到的一個固定長度的數(shù)字序列,就目前的現(xiàn)有技術而言,通過算法對文章數(shù)據(jù)信息計算的過程太過復雜。
【發(fā)明內(nèi)容】
[0003]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的文章指紋特征生成方法和裝置。
[0004]依據(jù)本發(fā)明的一種文章指紋特征生成方法,包括:將待生成指紋特征的目標文章與預設的標桿文章進行比較,得到所述目標文章與所述標桿文章之間的距離;根據(jù)所述目標文章與所述標桿文章之間的距離,生成用于表征所述目標文章的指紋特征。
[0005]可選地,前述的方法,將待生成指紋特征的目標文章與預設的標桿文章進行比較,具體包括:獲取所述目標文章的特征屬性,并根據(jù)所述目標文章的特征屬性生成所述目標文章對應的向量;將所述目標文章對應的向量與預設的所述標桿文章對應的向量進行比較。
[0006]可選地,前述的方法,獲取所述目標文章的特征屬性,具體包括:對所述目標文章進行分詞得到多個詞,統(tǒng)計所述多個詞在所述目標文章中的詞頻作為所述目標文章的特征屬性。
[0007]可選地,前述的方法,獲取所述目標文章的特征屬性,具體包括:從所述目標文章的標題中獲取所述目標文章的特征屬性。
[0008]可選地,前述的方法,所述標桿文章的距離為多個;多個所述標桿文章對應多個指紋特征,所述多個指紋特征用于表征所述目標文章。
[0009]依據(jù)本發(fā)明的一種文章指紋特征生成裝置,包括:距離計算模塊,用于將待生成指紋特征的目標文章與預設的標桿文章進行比較,得到所述目標文章與所述標桿文章之間的距離;指紋特征生成模塊,用于根據(jù)所述目標文章與所述標桿文章之間的距離,生成用于表征所述目標文章的指紋特征。
[0010]可選地,前述的裝置,還包括:向量生成模塊,用于獲取所述目標文章的特征屬性,并根據(jù)所述目標文章的特征屬性生成所述目標文章對應的向量;所述距離計算模塊將所述目標文章對應的向量與預設的所述標桿文章對應的向量進行比較。
[0011 ]可選地,前述的裝置,所述向量生成模塊對所述目標文章進行分詞得到多個詞,統(tǒng)計所述多個詞在所述目標文章中的詞頻作為所述目標文章的特征屬性。
[0012]可選地,前述的裝置,所述向量生成模塊從所述目標文章的標題中獲取所述目標文章的特征屬性。
[0013]可選地,前述的裝置,所述標桿文章的距離為多個;多個所述標桿文章對應多個指紋特征,所述多個指紋特征用于表征所述目標文章。
[0014]根據(jù)以上技術方案,本發(fā)明的文章指紋特征生成方法和裝置至少具有以下優(yōu)點:
[0015]在本發(fā)明的技術方案中,不需要設計算法針對文章的數(shù)據(jù)信息進行復雜的計算,標桿文章與目標文章之間的距離結合標桿文章,實際上相當于目標文章,而由于標桿文章是固定不變的,僅基于標桿文章與目標文章之間的距離,即可生成表征目標文章的指紋特征,即該指紋特征結合標桿文章反映了目標文章;在本發(fā)明的技術方案中提供了一種新的生成指紋特征的技術方案,不涉及復雜算法,生成指紋特征的準確度、效率都很高。
[0016]上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0017]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0018]圖1示出了根據(jù)本發(fā)明的一個實施例的文章指紋特征生成方法的流程圖;
[0019]圖2示出了根據(jù)本發(fā)明的一個實施例的文章指紋特征生成裝置的框圖;
[0020]圖3示出了根據(jù)本發(fā)明的一個實施例的文章指紋特征生成裝置的框圖。
【具體實施方式】
[0021]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領域的技術人員。
[0022]如圖1所示,本發(fā)明的一個實施例中提供一種文章指紋特征生成方法,包括:
[0023]步驟110,將待生成指紋特征的目標文章與預設的標桿文章進行比較,得到目標文章與標桿文章之間的距離。在本實施例中,對標桿文章不進行限制,任何一篇文章都可以選定作為標桿文章。
[0024]步驟120,根據(jù)目標文章與標桿文章之間的距離,生成用于表征目標文章的指紋特征。在本實施例中,標桿文章與目標文章之間的距離結合標桿文章,實際上相當于目標文章,而由于標桿文章是固定不變的,僅基于標桿文章與目標文章之間的距離,即可生成表征目標文章的指紋特征,即該指紋特征結合標桿文章反映了目標文章;在本發(fā)明的技術方案中提供了一種新的生成指紋特征的技術方案,不涉及復雜算法,生成指紋特征的準確度、效率都很高。例如,標桿文章簡化為《明星A新片尺度大職場御姐范兒就得這么穿》,那么文章a《明星A新片尺度大一集親熱數(shù)次》與其距離分別為4,則可以根據(jù)數(shù)值4生成指紋特征。
[0025]本發(fā)明的一個實施例中提供一種文章指紋特征生成方法,相比于前述的實施例,本實施例的文章指紋特征生成方法,步驟110,具體包括:
[0026]獲取目標文章的特征屬性,并根據(jù)目標文章的特征屬性生成目標文章對應的向量;將目標文章對應的向量與預設的標桿文章對應的向量進行比較。
[0027]在本實施例中,對特征屬性不進行限制,例如該特征屬性可以是文章的關鍵詞、字數(shù)、標題、作者等等;利用文章的一個或多個特征屬性,容易將文章量化為數(shù)字,能夠更容易、更精確地計算文章之間的距離。
[0028]本發(fā)明的一個實施例中提供一種文章指紋特征生成方法,相比于前述的實施例,本實施例的文章指紋特征生成方法,步驟110,具體包括:
[0029]對目標文章進行分詞得到多個詞,統(tǒng)計多個詞在目標文章中的詞頻作為目標文章的特征屬性。在本實施例中,根據(jù)計算得到的詞頻,為目標文章構造出一個文章向量;同理也可以為標桿文章生成向量,詞頻能夠反映文章中個內(nèi)容的重要程度,適于作為特征屬性。
[0030]本發(fā)明的一個實施例中提供一種文章指紋特征生成方法,相比于前述的實施例,本實施例的文章指紋特征生成方法,步驟110,具體包括:從目標文章的標題中獲取目標文章的特征屬性。在本實施例中,因為文章的關鍵信息體現(xiàn)在標題中,所以直接從標題中獲取特征屬性即可,則提取特征屬性的效率非常高、準確率也非常高。
[0031]本發(fā)明的一個實施例中提供一種文章指紋特征生成方法,相比于前述的實施例,本實施例的文章指紋特征生成方法,標桿文章的距離為多個;多個標桿文章對應多個指紋特征,多個指紋特征用于表征目標文章。在本實施例中,多個特征指紋就可以表示一篇文章,通過多個特征指紋來表示文章,大大壓縮了文章的空間大小,則不必對整篇文章進行存儲,節(jié)省了存儲空間。
[0032]如圖2所示,本發(fā)明的一個實施例中提供一種文章指紋特征生成裝置,包括:
[0033]距離計算模塊210,用于將待生成指紋特征的目標文章與預設的標桿文章進行比較,得到目標文章與標桿文章之間的距離。在本實施例中,對標桿文章不進行限制,任何一篇文章都可以選定作為標桿文章。
[0034]指紋特征生成模塊220,用于根據(jù)目標文章與標桿文章之間的距離,生成用于表征目標文章的指紋特征。在本實施例中,標桿文章與目標文章之間的距離結合標桿文章,實際上相當于目標文章,而由于標桿文章是固定不變的,僅基于標桿文章與目標文章之間的距離,即可生成表征目標文章的指紋特征,即該指紋特征結合標桿文章反映了目標文章;在本發(fā)明的技術方案中提供了一種新的生成指紋特征的技術方案,不涉及復雜算法,生成指紋特征的準確度、效率都很高。例如,標桿文章簡化為《明星A新片尺度大職場御姐范兒就得這么穿》,那么文章a《明星A新片尺度大一集親熱數(shù)次》與其距離分別為4,則可以根據(jù)數(shù)值4生成指紋特征。
[0035]如圖3所示,本