国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種屬性信息的獲取方法及裝置、推送方法及裝置制造方法

      文檔序號:6624799閱讀:142來源:國知局
      一種屬性信息的獲取方法及裝置、推送方法及裝置制造方法
      【專利摘要】本發(fā)明實施例提供了一種屬性信息的獲取方法,包括:依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,N為大于或者等于1的整數(shù);獲得M個候選詞,所述M個候選詞為N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽,M為大于0且小于或者等于N的整數(shù);依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息,i的取值為1到M中的整數(shù),K為小于或者等于M且大于0的整數(shù);本發(fā)明實施例還提供一種屬性信息的獲取裝置、推送方法及裝置。本發(fā)明實施例提供的技術(shù)方案可以實現(xiàn)提高獲得對象的屬性信息的準確性。
      【專利說明】一種屬性信息的獲取方法及裝置、推送方法及裝置
      【【技術(shù)領(lǐng)域】】
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)應用技術(shù),尤其涉及一種屬性信息的獲取方法及裝置、推送方法及裝置。
      【【背景技術(shù)】】
      [0002]目前,獲得對象的屬性信息的方法是:對對象對應的文本信息進行切詞處理,獲得若干分詞;對于每個分詞,依據(jù)該分詞在語料庫中文本信息的出現(xiàn)次數(shù)的倒數(shù),獲得該分詞的權(quán)重值;將所有分詞中權(quán)重值最高的若干分詞作為該對象的關(guān)鍵詞,并進行存儲。這樣,當需要依據(jù)檢索詞進行檢索時,可以依據(jù)檢索詞和存儲的對象的關(guān)鍵詞,獲得與檢索詞相匹配的對象,然后將與檢索詞相匹配的對象推送給用戶。
      [0003]然而,由于依據(jù)分詞在語料庫中文本信息的出現(xiàn)次數(shù)的倒數(shù),獲得該分詞的權(quán)重值,因此分詞的出現(xiàn)次數(shù)越高,該分詞的權(quán)重值越低,使得該分詞不會作為對象的關(guān)鍵詞,而出現(xiàn)次數(shù)較少的分詞將作為對象的關(guān)鍵詞,往往出現(xiàn)次數(shù)較高的分詞是對象的主要關(guān)鍵詞,因此,目前獲得對象的屬性信息的準確性比較低。

      【發(fā)明內(nèi)容】

      [0004]有鑒于此,本發(fā)明實施例提供了一種屬性信息的獲取方法及裝置、推送方法及裝置,可以實現(xiàn)提高獲得對象的屬性信息的準確性。
      [0005]本發(fā)明實施例提供了一種屬性信息的獲取方法,包括:
      [0006]依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,N為大于或者等于I的整數(shù);
      [0007]獲得M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽,M為大于O且小于或者等于N的整數(shù);
      [0008]依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
      [0009]上述方法中,所述依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,包括:
      [0010]獲得所述語料庫中的文本信息;
      [0011]對所述文本信息進行切詞處理,以獲得所述N個關(guān)鍵詞。
      [0012]上述方法中,所述依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,包括:
      [0013]依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值;
      [0014]依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息。
      [0015]上述方法中,所述依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值,包括:
      [0016]獲得所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率;
      [0017]獲得所述共現(xiàn)概率的累加和;
      [0018]依據(jù)所述第i個候選詞的先驗概率和所述累加和,獲得所述第i個候選詞的權(quán)重值;其中,所述第i個候選詞的先驗概率為依據(jù)所述第i個候選詞的搜索次數(shù)獲得的。
      [0019]上述方法中,所述依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,包括:
      [0020]按照權(quán)重值由大到小的順序,對所述M個候選詞進行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個候選詞;或者,
      [0021]依據(jù)所述M個候選詞的權(quán)重值和預設的權(quán)重閾值,獲得所述M個候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個候選詞。
      [0022]上述方法中,所述文本信息為所述對象的標題信息;
      [0023]所述對象包括視頻、圖片、應用和網(wǎng)頁中至少一個;
      [0024]所述屬性信息包括所述對象的關(guān)鍵詞和/或所述對象的標簽。
      [0025]本發(fā)明實施例還提供了一種推送方法,包括:
      [0026]依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個候選詞,所述K個候選詞為依據(jù)M個候選詞中每i個候選詞與N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中獲得的,N個關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的;N為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù);
      [0027]依據(jù)所述屬性信息,獲得所述屬性信息所對應的對象;
      [0028]向所述客戶端推送所述對象。
      [0029]上述方法中,所述方法還包括:
      [0030]依據(jù)語料庫中的文本信息,獲得所述N個關(guān)鍵詞;
      [0031]獲得所述M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽;
      [0032]依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇所述K個候選詞,以作為所述文本信息對應的對象的屬性信肩、O
      [0033]本發(fā)明實施例還提供了一種屬性信息的獲取裝置,包括:
      [0034]關(guān)鍵詞獲取單元,用于依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,N為大于或者等于I的整數(shù);
      [0035]候選詞獲取單元,用于獲得M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽,M為大于O且小于或者等于N的整數(shù);
      [0036]屬性獲取單元,用于依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
      [0037]上述裝置中,所述關(guān)鍵詞獲取單元具體用于:
      [0038]獲得所述語料庫中的文本信息;
      [0039]對所述文本信息進行切詞處理,以獲得所述N個關(guān)鍵詞。
      [0040]上述裝置中,所述屬性獲取單元具體用于:
      [0041]依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值;
      [0042]依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息。
      [0043]上述裝置中,所述依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值,具體為:
      [0044]獲得所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率;
      [0045]獲得所述共現(xiàn)概率的累加和;
      [0046]依據(jù)所述第i個候選詞的先驗概率和所述累加和,獲得所述第i個候選詞的權(quán)重值;其中,所述第i個候選詞的先驗概率為依據(jù)所述第i個候選詞的搜索次數(shù)獲得的。
      [0047]上述裝置中,所述依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,具體為:
      [0048]按照權(quán)重值由大到小的順序,對所述M個候選詞進行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個候選詞;或者,
      [0049]依據(jù)所述M個候選詞的權(quán)重值和預設的權(quán)重閾值,獲得所述M個候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個候選詞。
      [0050]上述裝置中,所述文本信息為所述對象的標題信息;
      [0051]所述對象包括視頻、圖片、應用和網(wǎng)頁中至少一個;
      [0052]所述屬性信息包括所述對象的關(guān)鍵詞和/或所述對象的標簽。
      [0053]本發(fā)明實施例還提供了一種推送裝置,包括:
      [0054]匹配處理單元,用于依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個候選詞,所述K個候選詞為依據(jù)M個候選詞中每i個候選詞與N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中獲得的,N個關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的小為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù);
      [0055]屬性處理單元,用于依據(jù)所述屬性信息,獲得所述屬性信息所對應的對象;
      [0056]對象推送單元,用于向所述客戶端推送所述對象。
      [0057]上述裝置中,所述裝置還包括:
      [0058]屬性信息獲取單元,用于依據(jù)語料庫中的文本信息,獲得所述N個關(guān)鍵詞;獲得所述M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽;依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇所述K個候選詞,以作為所述文本信息對應的對象的屬性信息。
      [0059]由以上技術(shù)方案可以看出,本發(fā)明實施例具有以下有益效果:
      [0060]本發(fā)明實施例提供的技術(shù)方案中,依據(jù)候選詞與文本信息中關(guān)鍵詞之間的共現(xiàn)概率,來選擇候選詞作為文本信息對應的對象的關(guān)鍵詞,這樣,就可以實現(xiàn)將共現(xiàn)概率較高的候選詞作為該文本信息對應的對象的關(guān)鍵詞,而且往往共現(xiàn)概率較高的候選詞是該文本信息對應的對象的主要候選詞,因此,與現(xiàn)有技術(shù)中獲得對象的屬性信息的方法相比,本發(fā)明實施例獲得的對象的屬性信息與對象的主題更加匹配,因此獲得對象的屬性信息的準確性更高。
      【【專利附圖】

      【附圖說明】】
      [0061]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
      [0062]圖1是本發(fā)明實施例所提供的技術(shù)方案使用的系統(tǒng);
      [0063]圖2是本發(fā)明實施例所提供的屬性信息的獲取方法的流程示意圖;
      [0064]圖3是本發(fā)明實施例所提供的推送方法的流程示意圖;
      [0065]圖4是本發(fā)明實施例所提供的屬性信息的獲取裝置的功能方塊圖;
      [0066]圖5是本發(fā)明實施例所提供的推送裝置的功能方塊圖。
      【【具體實施方式】】
      [0067]為了更好的理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖對本發(fā)明實施例進行詳細描述。
      [0068]應當明確,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
      [0069]在本發(fā)明實施例中使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本發(fā)明。在本發(fā)明實施例和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。
      [0070]應當理解,本文中使用的術(shù)語“和/或”僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
      [0071]取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在......時”或
      “當......時”或“響應于確定”或“響應于檢測”。類似地,取決于語境,短語“如果確定”
      或“如果檢測(陳述的條件或事件)”可以被解釋成為“當確定時”或“響應于確定”或“當檢測(陳述的條件或事件)時”或“響應于檢測(陳述的條件或事件)”。
      [0072]本發(fā)明實施例所提供的技術(shù)方案使用的系統(tǒng)如圖1所示,主要由客戶端和服務器組成,本發(fā)明實施例所提供的屬性信息的獲取方法及裝置、推送方法及裝置在服務器側(cè)實現(xiàn)。
      [0073]可以理解的是,所述客戶端可以包括所有終端上的客戶端,所述終端可以包括個人計算機(Personal Computer, PC)、筆記本電腦、手機或平板電腦。
      [0074]本發(fā)明實施例給出一種屬性信息的獲取方法,請參考圖2,其為本發(fā)明實施例所提供的屬性信息的獲取方法的流程示意圖,如圖所示,該方法包括以下步驟:
      [0075]S201,依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,N為大于或者等于I的整數(shù)。
      [0076]具體的,服務器可以從預設的語料庫中獲得文本信息,即本發(fā)明實施例中服務器將語料庫中存儲的對象對應的文本信息作為本發(fā)明實施例中待處理的文本信息,服務器需要對文本信息進行切詞處理,以獲得所述N個關(guān)鍵詞。
      [0077]優(yōu)選的,服務器可以利用普通詞典和/或熱門詞典,對獲得的文本信息進行切詞處理,以獲得N個分詞,服務器將該N個分詞作為N個關(guān)鍵詞,如〈Wl、W2........wN)0
      [0078]優(yōu)選的,所述文本信息可以包括對象的標題信息。
      [0079]優(yōu)選的,所述對象可以包括視頻、圖片、應用和網(wǎng)頁中至少一個。
      [0080]例如,文本信息可以是廣場舞視頻的標題信息,如“廣場舞荷塘月色很贊”和“廣場舞荷塘月色愛奇藝”。
      [0081]優(yōu)選的,所述屬性信息可以包括對象的關(guān)鍵詞和/或?qū)ο蟮臉撕灐F渲?,對象的標簽用于表征該對象的特征,例如,對象的標簽可以是該對象的類型?br> [0082]例如,服務器對標題信息“廣場舞荷塘月色很贊”進行切詞處理,獲得候選詞“廣場舞”、“荷塘月色”和“很贊”。
      [0083]S202,獲得M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽,M為大于O且小于或者等于N的整數(shù)。
      [0084]具體的,服務器獲得M個候選詞。
      [0085]舉例說明,本發(fā)明實施例中,服務器獲得M個候選詞的方法可以包括以下兩種:
      [0086]第一種:服務器獲得N個關(guān)鍵詞中的M個關(guān)鍵詞,將該M個關(guān)鍵詞作為所述M個候選詞。
      [0087]例如,服務器可以統(tǒng)計N個關(guān)鍵詞中每個關(guān)鍵詞的出現(xiàn)次數(shù),然后獲取其中出現(xiàn)次數(shù)最多的M個關(guān)鍵詞。再例如,服務器可以直接將N個關(guān)鍵詞作為所述M個候選詞。
      [0088]第二種:服務器從標簽庫中獲得M個標簽,將M個標簽作為M個候選詞。例如,服務器可以從標簽庫中獲得出現(xiàn)次數(shù)最多的M個標簽。再例如,服務器可以直接將標簽庫中所有標簽作為所述M個候選詞。
      [0089]例如,服務器從標簽庫中獲得標簽“音樂”、“健身舞”和“短視頻”。
      [0090]S203,依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
      [0091]具體的,服務器依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞的方法可以包括:
      [0092]首先,服務器依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值。然后,服務器依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信肩、O
      [0093]舉例說明,服務器依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值的方法可以包括:
      [0094]首先,服務器獲得M個候選詞中第i個候選詞與N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,其中i的取值為I到M中的整數(shù),也就是說,第i個候選詞是M個候選詞中的每個候選詞,需要對M個候選詞中的每個候選詞,都獲得該候選詞的權(quán)重值。
      [0095]然后,服務器將該第i個候選詞與每個關(guān)鍵詞的共現(xiàn)概率進行累加,以獲得共現(xiàn)概率的累加和。
      [0096]最后,服務器依據(jù)第i個候選詞的先驗概率與所述累加和的乘積,獲得該第i個候選詞的權(quán)重值?;蛘?,服務器依據(jù)第i個候選詞的先驗概率與所述累加和的和值,獲得該第i個候選詞的權(quán)重值。
      [0097]可以理解的,對于M個候選詞中的每個候選詞都進行上述操作,從而可以獲得M個候選詞中每個候選詞的權(quán)重值。
      [0098]例如,下面以M個候選詞〈W1、W2........wM)中第i個候選詞Wi為例,說明獲得第
      I個候選詞的權(quán)重值的方法。其中,W1?Wm可以是M個關(guān)鍵詞,也可以是M個標簽。
      [0099]可以利用如下兩個公式中任意一個獲得M個候選詞中第i個候選詞的權(quán)重值:
      [0100]W(Wi) = P (Wi) Xp (Wi, title)
      [0101]W(Wi) = p (Wi)+p (Wi, title)
      [0102]其中,Wi表示第i個候選詞。
      [0103]其中,W(Wi)表示第i個候選詞的權(quán)重值。
      [0104]其中,P(Wi)表示第i個候選詞的先驗概率。優(yōu)選的,可以統(tǒng)計第i個候選詞的搜索次數(shù),然后獲得該搜索次數(shù)的函數(shù)值,將該函數(shù)值作為第i個候選詞的先驗概率。例如,可以獲得該搜索次數(shù)的sigmoid函數(shù)的函數(shù)值,將搜索次數(shù)的sigmoid函數(shù)的函數(shù)值作為該第i個候選詞的先驗概率。
      [0105]其中,p(Wi,title)表示第i個候選詞的聯(lián)合概率。
      [0106]可以利用如下公式獲得第i個候選詞的聯(lián)合概率P (Wi, title):
      [0107]P (wi; title) = Σ ρ (wi; wk)
      [0108]其中,p (Wi, wk)表示M個候選詞中第i個候選詞與N個關(guān)鍵詞中第k個關(guān)鍵詞詞的共現(xiàn)概率,因此第i個候選詞的聯(lián)合概率P (Wi,title)就是第i個候選詞與每個關(guān)鍵詞的共現(xiàn)概率的累加和。k的取值為從I到N的整數(shù)。
      [0109]可以利用如下公式獲得上述共現(xiàn)概率P Ov Wk):
      [0110]P (Wi, Wk) = P (wk) X P (Wi I wk)
      [0111]其中,P(Wk)表示N個關(guān)鍵詞中第k個關(guān)鍵詞的先驗概率。優(yōu)選的,可以統(tǒng)計第k個關(guān)鍵詞的搜索次數(shù),然后獲得該搜索次數(shù)的函數(shù)值,將該函數(shù)值作為第k個關(guān)鍵詞的先驗概率。例如,可以獲得該第k個關(guān)鍵詞的搜索次數(shù)的sigmoid函數(shù)的函數(shù)值,將該函數(shù)值作為第k個關(guān)鍵詞的先驗概率。
      [0112]其中,P(WiIwk)表示第k個關(guān)鍵詞Wk對第i個候選詞Wi的權(quán)重貢獻值。
      [0113]其中,獲得p(Wi|Wk)的方法可以包括以下兩種:
      [0114]第一種:可以預先設置好第k個關(guān)鍵詞Wk對第i個候選詞Wi的權(quán)重貢獻值P (Wi I wk),當需要使用第k個關(guān)鍵詞Wk對第i個候選詞Wi的權(quán)重貢獻值時,可以直接使用預先設置好的數(shù)值。
      [0115]例如,預先設置好P(籃球I科比)=Up(林丹I謝杏芳)=I。
      [0116]第二種:可以利用如下公式獲得第k個關(guān)鍵詞Wk對第i個候選詞&的權(quán)重貢獻值P(WiIwk):

      CCwi, Wl,)
      [0117]P (Wi I Wk) 二 ――~—

      L(Wk)
      [0118]其中,若M個候選詞是從N個關(guān)鍵詞中獲得的,則Wk和Wi同為關(guān)鍵詞,C (Wi, wk)表示第i個候選詞Wi與第k個關(guān)鍵詞Wk在語料庫存儲的文本信息中的共現(xiàn)次數(shù)。若M個候選詞是從標簽庫中獲得的M個標簽,則Wi為標簽,C (wi; wk)表示第i個候選詞Wi與第k個關(guān)鍵詞Wk在語料庫中的共現(xiàn)次數(shù)。
      [0119]相應的,C(Wk)表示第k個關(guān)鍵詞Wk在語料庫存儲的文本信息中的共現(xiàn)次數(shù)。
      [0120]舉例說明,服務器依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息可以包括以下兩種實現(xiàn)方法:
      [0121 ] 第一種:服務器在獲得M個候選詞中每個候選詞的權(quán)重值之后,服務器可以按照權(quán)重值由大到小的順序,對所述M個候選詞進行排序,以獲得排序結(jié)果,然后服務器獲得所述排序結(jié)果中排名靠前的K個候選詞,以實現(xiàn)從M個候選詞中選擇K個候選詞。
      [0122]第二種:服務器將M個候選詞中每個候選詞的權(quán)重值與預設的權(quán)重閾值進行比較,以獲得M個候選詞中權(quán)重值大于或者等于該權(quán)重閾值的K個候選詞,以實現(xiàn)從M個候選詞中選擇K個候選詞。
      [0123]服務器在獲得K個候選詞后,將該K個候選詞作為文本信息對應對象的屬性信息。
      [0124]服務器可以將對象與屬性信息的對應關(guān)系存儲在數(shù)據(jù)庫中,當需要依據(jù)用戶輸入的檢索詞,推送對象時,或者當需要向用戶主動推薦對象時,可以依據(jù)該對應關(guān)系完成推送。
      [0125]本發(fā)明實施例給出一種推送方法,該推送方法是利用上述方法獲得的屬性信息實現(xiàn)的。請參考圖3,其為本發(fā)明實施例所提供的推送方法的流程示意圖,如圖所示,該方法包括以下步驟:
      [0126]S301,依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個候選詞,所述K個候選詞為依據(jù)M個候選詞中每i個候選詞與N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中獲得的,N個關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的;N為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù)。
      [0127]具體的,服務器依據(jù)使用客戶端的用戶的歷史記錄,獲得使用該客戶端的用戶的興趣類型,然后服務器依據(jù)該興趣類型,獲得與該興趣類型相匹配的屬性信息。
      [0128]或者,服務器接收客戶端發(fā)送的檢索詞,然后在屬性信息中進行搜索,以獲得與該檢索詞相匹配的屬性信息。其中,客戶端發(fā)送給服務器的檢索詞為用戶在客戶端中輸入的檢索詞。
      [0129]S302,依據(jù)所述屬性信息,獲得所述屬性信息所對應的對象。
      [0130]具體的,服務器依據(jù)獲得的屬性信息,以及預先利用上述方法獲得的對象與屬性信息的對應關(guān)系,獲得該屬性信息所對應的對象。
      [0131]S303,向所述客戶端推送所述對象。
      [0132]具體的,服務器在獲得屬性信息所對應的對象后,將該對象推送給客戶端,以實現(xiàn)對象的檢索或者對象的推薦。
      [0133]可選的,S301之前,所述方法還可以包括:
      [0134]依據(jù)語料庫中的文本信息,獲得所述N個關(guān)鍵詞;
      [0135]獲得所述M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽;
      [0136]依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇所述K個候選詞,以作為所述文本信息對應的對象的屬性信肩、O
      [0137]也就是說,所述屬性信息為利用上述屬性信息的獲取方法獲得的。
      [0138]可以理解的,由于不同類型的對象的數(shù)目分布不均勻,如娛樂類、搞笑類的視頻的數(shù)目比較大,而科技類的視頻的數(shù)目比較少,因此,對于一些比較冷門的標簽,由于標簽在標簽庫中的出現(xiàn)次數(shù)比較少,導致其先驗概率比較低,如果利用現(xiàn)有技術(shù)中樸素貝葉斯算法計算標簽的權(quán)重值時,將會給數(shù)目比較少的視頻的標注上錯誤的標簽。如果利用本發(fā)明實施例提供的技術(shù)方案,可以通過預先設置好比較冷門的標簽的先驗概率,來避免該問題的發(fā)生,從而提高屬性信息的準確度。例如,可以預先設置P(穿越火線Icf視頻)=1、P (穿越火線I夏佐解說)=1、p (籃球I科比)=1、p (籃球I林書豪)=1、p (林丹I謝杏芳)=1等。在樸素貝葉斯算法中,由于沒有使用其他關(guān)鍵詞或者標簽的先驗概率,如果預先設置好關(guān)鍵詞或者標簽的先驗概率,也會給視頻的標題標注上錯誤的標簽。本發(fā)明實施例提供的方法中,由于會使用其他關(guān)鍵詞或者其他標簽的先驗概率,會提高屬性信息的準確度。
      [0139]下面分別舉例說明本發(fā)明實施例在獲得關(guān)鍵詞的權(quán)重值和標簽的權(quán)重值時的有益效果。
      [0140]1、獲得關(guān)鍵詞的權(quán)重值時的有益效果:
      [0141]以某視頻的標題信息為“廣場舞荷塘月色很贊”為例,對該標題信息進行切詞,獲得關(guān)鍵詞“廣場舞”、“荷塘月色”、“很贊”,按照分詞在語料庫的文本信息的出現(xiàn)次數(shù)由大到小的順序,對這些分詞進行排序,獲得排序結(jié)果“廣場舞”、“荷塘月色”、“很贊”。
      [0142]如果現(xiàn)有技術(shù)中依據(jù)分詞在語料庫中文本信息的出現(xiàn)次數(shù)的倒數(shù),獲得該分詞的權(quán)重值,排序結(jié)果是“很贊”、“荷塘月色”、“廣場舞”,也就是“很贊”由于權(quán)重值最高,將被作為該視頻的關(guān)鍵詞,但是很明顯,關(guān)鍵詞“很贊”與視頻的主題不匹配。
      [0143]如果利用本發(fā)明實施例提供的技術(shù)方案,將參考每個關(guān)鍵詞與其他關(guān)鍵詞的共現(xiàn)概率,還會考慮每個關(guān)鍵詞的搜索次數(shù),該搜索次數(shù)反映了用戶的搜索需求,共現(xiàn)概率反映了關(guān)鍵詞之間的貢獻。由于“廣場舞”的搜索次數(shù)高于其他關(guān)鍵詞,“荷塘月色”與“廣場舞”的共現(xiàn)概率較高,而“很贊”和其他關(guān)鍵詞的共現(xiàn)概率比較低,因此,可以得到的關(guān)鍵詞依據(jù)權(quán)重值由大到小的排序結(jié)果“廣場舞”、“荷塘月色”、“很贊”,并且關(guān)鍵詞“很贊”與其他兩個關(guān)鍵詞詞的權(quán)重值有較大的差距。如果取權(quán)重值最高的兩個關(guān)鍵詞,就可以得到這個視頻的關(guān)鍵詞為“廣場舞”和“荷塘月色”,很明顯,關(guān)鍵詞“廣場舞”和“荷塘月色”與視頻的主題相匹配。
      [0144]因此,由于使用了關(guān)鍵詞之間的共現(xiàn)次數(shù),本發(fā)明實施例提供的技術(shù)方案獲得的關(guān)鍵詞更加符合對象的主題,因此可以提高獲取的關(guān)鍵詞的準確性,具有很強的魯棒性。
      [0145]2、獲得標簽的權(quán)重值時的有益效果:
      [0146]以某視頻的標題信息為“廣場舞荷塘月色很贊”為例,其候選標簽可以為“健身舞”和“音樂”。
      [0147]如果利用現(xiàn)有技術(shù)中的樸素貝葉斯算法,可以得到如下的先驗概率:
      [0148]P (健身舞)=P (音樂)=0.3
      [0149]P (廣場舞I健身舞)=0.07
      [0150]P (荷塘月色I健身舞)=0.002
      [0151]P (很贊 I 健身舞)=0.001
      [0152]P (廣場舞 I 音樂)=0.002
      [0153]P (荷塘月色I音樂)=0.04
      [0154]P (很贊 I 音樂)=0.002
      [0155]標簽庫中存在不合理的先驗概率,使得p(廣場舞I音樂)=0.002大于P(很贊I健身舞)=0.001,受該噪聲影響,獲得的標簽“健身舞”的權(quán)重值為0.3X0.07X0.002X0.001 = 4.2e_8,標簽“音樂”的權(quán)重值為 0.3X0.002X0.04X0.002=4.8e-8。因此,視頻的標簽取其中權(quán)重值較大的標簽,即“音樂”。
      [0156]如果利用本發(fā)明實施例提供的技術(shù)方案,可以獲得如下先驗概率和聯(lián)合概率:
      [0157]P (健身舞)=P (音樂)=0.3
      [0158]P (廣場舞)=0.5
      [0159]P (荷塘月色)=0.4
      [0160]P (很贊)=0.1
      [0161]P (健身舞I廣場舞)=0.8
      [0162]P (健身舞I荷塘月色)=0.2
      [0163]p(健身舞I很贊)=0.1
      [0164]P (音樂I廣場舞)=O
      [0165]P (音樂I荷塘月色)=0.8
      [0166]P (音樂 I 很贊)=0.2
      [0167]獲得標簽“健身舞”的權(quán)重值為為0.3X (0.5X0.8+0.4X0.2+0.1X0.1)=
      0.147 ;標簽“音樂”的權(quán)重值為 0.3X (0.5X0+0.4X0.8+0.1X0.2) = 0.102。
      [0168]利用本發(fā)明實施例提供的技術(shù)方案,確定該是視頻的標簽是“健身舞”,很明顯,與標簽“音樂”相比,標簽“健身舞”與該視頻更加匹配。
      [0169]本發(fā)明實施例進一步給出實現(xiàn)上述方法實施例中各步驟及方法的裝置實施例。
      [0170]請參考圖4,其為本發(fā)明實施例所提供的屬性信息的獲取裝置的功能方塊圖。如圖所示,該裝置包括:
      [0171]關(guān)鍵詞獲取單元401,用于依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,N為大于或者等于I的整數(shù);
      [0172]候選詞獲取單元402,用于獲得M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽,M為大于O且小于或者等于N的整數(shù);
      [0173]屬性獲取單元403,用于依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息,I的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
      [0174]優(yōu)選的,所述關(guān)鍵詞獲取單元401具體用于:
      [0175]獲得所述語料庫中的文本信息;
      [0176]對所述文本信息進行切詞處理,以獲得所述N個關(guān)鍵詞。
      [0177]優(yōu)選的,所述屬性獲取單元403具體用于:
      [0178]依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值;
      [0179]依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息。
      [0180]優(yōu)選的,所述依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值,具體為:
      [0181]獲得所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞每個所述關(guān)鍵詞的共現(xiàn)概率;
      [0182]獲得所述共現(xiàn)概率的累加和;
      [0183]依據(jù)所述第i個候選詞的先驗概率和所述累加和,獲得所述第i個候選詞的權(quán)重值;其中,所述第i個候選詞的先驗概率為依據(jù)所述第i個候選詞的搜索次數(shù)獲得的。
      [0184]優(yōu)選的,所述依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,具體為:
      [0185]按照權(quán)重值由大到小的順序,對所述M個候選詞進行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個候選詞;或者,
      [0186]依據(jù)所述M個候選詞的權(quán)重值和預設的權(quán)重閾值,獲得所述M個候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個候選詞。
      [0187]優(yōu)選的,所述文本信息為所述對象的標題信息;
      [0188]所述對象包括視頻、圖片、應用和網(wǎng)頁中至少一個;
      [0189]所述屬性信息包括所述對象的關(guān)鍵詞和/或所述對象的標簽。
      [0190]由于本實施例中的各單元能夠執(zhí)行圖2所示的方法,本實施例未詳細描述的部分,可參考對圖2的相關(guān)說明。
      [0191]請參考圖5,其為本發(fā)明實施例所提供的推送裝置的功能方塊圖。如圖所示,該裝置包括:
      [0192]匹配處理單元501,用于依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個候選詞,所述K個候選詞為依據(jù)M個候選詞中每i個候選詞與N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中獲得的,N個關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的#為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù);
      [0193]屬性處理單元502,用于依據(jù)所述屬性信息,獲得所述屬性信息所對應的對象;
      [0194]對象推送單元503,用于向所述客戶端推送所述對象。
      [0195]可選的,所述裝置還包括:
      [0196]屬性信息獲取單元504,用于依據(jù)語料庫中的文本信息,獲得所述N個關(guān)鍵詞;獲得所述M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽;依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇所述K個候選詞,以作為所述文本信息對應的對象的屬性信肩、O
      [0197]由于本實施例中的各單元能夠執(zhí)行圖3所示的方法,本實施例未詳細描述的部分,可參考對圖3的相關(guān)說明。
      [0198]本發(fā)明實施例的技術(shù)方案具有以下有益效果:
      [0199]1、本發(fā)明實施例提供的技術(shù)方案中,依據(jù)候選詞與文本信息中關(guān)鍵詞之間的共現(xiàn)概率,來選擇候選詞作為文本信息對應的對象的關(guān)鍵詞,這樣,就可以實現(xiàn)將共現(xiàn)概率較高的候選詞作為文本信息對應對象的關(guān)鍵詞,往往共現(xiàn)概率較高的候選詞是文本信息對應的對象的主要候選詞,因此,與現(xiàn)有技術(shù)中獲得對象的屬性信息的方法相比,本發(fā)明實施例獲得的對象的屬性信息與對象的主題更加匹配,因此獲得對象的屬性信息的準確性更高。
      [0200]2、由于本發(fā)明實施例獲得對象的屬性信息的準確性更高,如果利用對象的屬性信息進行對象檢索和對象推薦,能夠提高對象檢索的檢索結(jié)果的質(zhì)量和對象推薦的準確度。
      [0201]3、本發(fā)明實施例中,在獲得候選詞的權(quán)重值時,利用共現(xiàn)概率求和的方式進行計算,使得共現(xiàn)概率較大的概率項起到最大的主導作用;與現(xiàn)有技術(shù)中利用樸素貝葉斯算法中采用乘積的方式相比,該方式由概率最小的概率項起主導作用,這樣很容易受到錯誤候選詞的干擾,為對象標注上錯誤的屬性信息。尤其對標題信息較短、主題相對集中的對象而言,干擾更大。而且,在獲得候選詞的權(quán)重值時,同時參考了候選詞的搜索次數(shù),從而可以通過參考搜索次數(shù),將搜索次數(shù)較少的冷門候選詞排除掉,能夠更加有益于抑制冷門候選詞的干擾。
      [0202]4、現(xiàn)有技術(shù)中利用樸素貝葉斯算法中采用乘積的方式,如果其中存在為O的項,還需要進行平滑處理,否則會導致候選詞的權(quán)重值為0,然而,不同的平滑處理方法對權(quán)重值的計算結(jié)果影響差異較大,容易導致為對象標注不相匹配的候選詞。而本發(fā)明中在獲得候選詞的權(quán)重值時,利用共現(xiàn)概率求和的方式進行計算,概率為O的項不會導致權(quán)重值為0,因此本發(fā)明實施例不需要進行平滑處理,因此,能夠為對象選出更加匹配的候選詞。
      [0203]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
      [0204]在本發(fā)明所提供的幾個實施例中,應該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如,多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
      [0205]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
      [0206]另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
      [0207]上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機裝置(可以是個人計算機,服務器,或者網(wǎng)絡裝置等)或處理器(Processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory, ROM)、隨機存取存儲器(Random Access Memory, RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
      [0208]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
      【權(quán)利要求】
      1.一種屬性信息的獲取方法,其特征在于,所述方法包括: 依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,N為大于或者等于I的整數(shù); 獲得M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽,M為大于O且小于或者等于N的整數(shù); 依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,包括: 獲得所述語料庫中的文本信息; 對所述文本信息進行切詞處理,以獲得所述N個關(guān)鍵詞。
      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,包括: 依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值; 依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息。
      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值,包括: 獲得所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率; 獲得所述共現(xiàn)概率的累加和; 依據(jù)所述第i個候選詞的先驗概率和所述累加和,獲得所述第i個候選詞的權(quán)重值;其中,所述第i個候選詞的先驗概率為依據(jù)所述第i個候選詞的搜索次數(shù)獲得的。
      5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于,所述依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,包括: 按照權(quán)重值由大到小的順序,對所述M個候選詞進行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個候選詞;或者, 依據(jù)所述M個候選詞的權(quán)重值和預設的權(quán)重閾值,獲得所述M個候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個候選詞。
      6.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述文本信息為所述對象的標題信息; 所述對象包括視頻、圖片、應用和網(wǎng)頁中至少一個; 所述屬性信息包括所述對象的關(guān)鍵詞和/或所述對象的標簽。
      7.—種推送方法,其特征在于,所述方法包括: 依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個候選詞,所述K個候選詞為依據(jù)M個候選詞中每i個候選詞與N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中獲得的,N個關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的;N為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù); 依據(jù)所述屬性信息,獲得所述屬性信息所對應的對象; 向所述客戶端推送所述對象。
      8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括: 依據(jù)語料庫中的文本信息,獲得所述N個關(guān)鍵詞; 獲得所述M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽; 依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇所述K個候選詞,以作為所述文本信息對應的對象的屬性信肩、O
      9.一種屬性信息的獲取裝置,其特征在于,所述裝置包括: 關(guān)鍵詞獲取單元,用于依據(jù)語料庫中的文本信息,獲得N個關(guān)鍵詞,N為大于或者等于I的整數(shù); 候選詞獲取單元,用于獲得M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽,M為大于O且小于或者等于N的整數(shù); 屬性獲取單元,用于依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
      10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述關(guān)鍵詞獲取單元具體用于: 獲得所述語料庫中的文本信息; 對所述文本信息進行切詞處理,以獲得所述N個關(guān)鍵詞。
      11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述屬性獲取單元具體用于: 依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值; 依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,以作為所述文本信息對應的對象的屬性信息。
      12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個候選詞的權(quán)重值,具體為: 獲得所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率; 獲得所述共現(xiàn)概率的累加和; 依據(jù)所述第i個候選詞的先驗概率和所述累加和,獲得所述第i個候選詞的權(quán)重值;其中,所述第i個候選詞的先驗概率為依據(jù)所述第i個候選詞的搜索次數(shù)獲得的。
      13.根據(jù)權(quán)利要求9或12所述的裝置,其特征在于,所述依據(jù)所述M個候選詞的權(quán)重值,從所述M個候選詞中選擇K個候選詞,具體為: 按照權(quán)重值由大到小的順序,對所述M個候選詞進行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個候選詞;或者, 依據(jù)所述M個候選詞的權(quán)重值和預設的權(quán)重閾值,獲得所述M個候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個候選詞。
      14.根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述文本信息為所述對象的標題信息; 所述對象包括視頻、圖片、應用和網(wǎng)頁中至少一個; 所述屬性信息包括所述對象的關(guān)鍵詞和/或所述對象的標簽。
      15.一種推送裝置,其特征在于,所述裝置包括: 匹配處理單元,用于依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個候選詞,所述K個候選詞為依據(jù)M個候選詞中每i個候選詞與N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中獲得的,N個關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的;N為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù); 屬性處理單元,用于依據(jù)所述屬性信息,獲得所述屬性信息所對應的對象; 對象推送單元,用于向所述客戶端推送所述對象。
      16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述裝置還包括: 屬性信息獲取單元,用于依據(jù)語料庫中的文本信息,獲得所述N個關(guān)鍵詞;獲得所述M個候選詞,所述M個候選詞為所述N個關(guān)鍵詞中的M個關(guān)鍵詞或者標簽庫中的M個標簽;依據(jù)所述M個候選詞中第i個候選詞與所述N個關(guān)鍵詞中每個所述關(guān)鍵詞的共現(xiàn)概率,從所述M個候選詞中選擇所述K個候選詞,以作為所述文本信息對應的對象的屬性信息。
      【文檔編號】G06F17/30GK104199898SQ201410425516
      【公開日】2014年12月10日 申請日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
      【發(fā)明者】馬小龍 申請人:百度在線網(wǎng)絡技術(shù)(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1