国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      描述短文本的作者的方法和設(shè)備與流程

      文檔序號:11829925閱讀:395來源:國知局
      描述短文本的作者的方法和設(shè)備與流程

      本發(fā)明一般地涉及信息處理領(lǐng)域。具體而言,本發(fā)明涉及一種能夠準確地描述短文本的作者以便于讀者容易地、準確地了解作者的興趣愛好的方法和設(shè)備。



      背景技術(shù):

      近年來,作為一種短文本的微博(microblog)得到了迅猛的發(fā)展,成為非常流行的網(wǎng)絡(luò)信息發(fā)布和獲取平臺。微博用戶通過關(guān)注其他微博用戶,能夠接收自動推送的關(guān)注用戶的微博內(nèi)容。一個顯而易見的問題是如何確定成千上萬的微博用戶中哪些用戶的內(nèi)容是自己感興趣的內(nèi)容。

      最簡單的方式是逐個閱讀其他微博用戶的已發(fā)表微博,了解到其他微博用戶的興趣喜好,然后決定是否關(guān)注。但是這種方式最費力、也是最不準確的。因為閱讀其他微博用戶的已發(fā)表微博需要消耗大量的時間,另外微博用戶可能近期發(fā)表的微博關(guān)注于近期的事件,不能很好地體現(xiàn)出微博用戶總體的興趣喜好。

      傳統(tǒng)的方法還有抽取微博用戶使用的高頻關(guān)鍵詞,利用所抽取的關(guān)鍵詞給微博用戶打標簽,幫助其他微博用戶了解該用戶。這種方法雖然較為節(jié)省時間,但是不一定準確,并且作為標簽的關(guān)鍵詞缺乏完整的語義信息,表達方式相對抽象,不容易被其他用戶更好的理解和使用。

      因此,期望一種能夠以簡單、容易理解的方式對短文本的作者的興趣喜好進行描述以便于讀者快速地、準確地了解短文本的作者的方法和設(shè)備。



      技術(shù)實現(xiàn)要素:

      在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。

      本發(fā)明的目的是針對現(xiàn)有技術(shù)的上述問題,提出了一種能夠語義上對短文本的作者進行描述的方法和設(shè)備。

      為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種描述短文本的作者的方法,該方法包括:根據(jù)作者的多個短文本,確定作者感興趣的類別;以及提取作者感興趣的類別的代表性短文本,作為對作者的描述。

      根據(jù)本發(fā)明的另一個方面,提供了一種描述短文本的作者的設(shè)備,該設(shè)備包括:興趣確定裝置,被配置為:根據(jù)作者的多個短文本,確定作者感興趣的類別;以及描述生成裝置,被配置為:提取作者感興趣的類別的代表性短文本,作為對作者的描述。

      另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質(zhì)。所述存儲介質(zhì)包括機器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。

      此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時,所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。

      附圖說明

      參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原 理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標記來表示。附圖中:

      圖1示出了根據(jù)本發(fā)明的實施例的描述短文本的作者的方法的流程圖;

      圖2示出了根據(jù)本發(fā)明的實施例的步驟S1的一種實現(xiàn)方式;

      圖3示出了根據(jù)本發(fā)明實施例的描述短文本的作者的設(shè)備的結(jié)構(gòu)方框圖;以及

      圖4示出了可用于實施根據(jù)本發(fā)明實施例的方法和設(shè)備的計算機的示意性框圖。

      具體實施方式

      在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施方式的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。

      在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細節(jié)。另外,還需要指出的是,在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。

      本發(fā)明的基本思想是確定短文本的作者感興趣的類別,然后提取該類別的代表性短文本,作為對作者的描述。讀者通過閱讀代表性短文本,能夠容易、準確地了解作者的興趣喜好,從而便于判斷是否與自己志趣相投, 是否關(guān)注作者。

      下面將參照圖1描述根據(jù)本發(fā)明的實施例的描述短文本的作者的方法的流程。

      圖1示出了根據(jù)本發(fā)明的實施例的描述短文本的作者的方法的流程圖。如圖1所示,根據(jù)本發(fā)明的實施例的描述短文本的作者的方法包括如下步驟:根據(jù)作者的多個短文本,確定作者感興趣的類別(步驟S1);以及提取作者感興趣的類別的代表性短文本,作為對作者的描述(步驟S2)。

      在步驟S1中,根據(jù)作者的多個短文本,確定作者感興趣的類別。

      從作者已發(fā)表的多個短文本中,挖掘出作者的興趣喜好,可以利用很多種手段。下文中僅給出示例和優(yōu)選的手段,本發(fā)明不限于此。

      圖2示出了根據(jù)本發(fā)明的實施例的步驟S1的一種實現(xiàn)方式。如圖2所示,步驟S1可以包括:利用主題模型,將作者的多個短文本中的每一個轉(zhuǎn)換為對應(yīng)的主題向量(步驟S21);對主題向量進行聚類,以得到代表短文本內(nèi)容的類別的多個簇(步驟S22);對多個簇進行排序,將排序結(jié)果靠前的若干簇所代表的類別確定為作者感興趣的類別(步驟S23)。

      首先,進行預(yù)處理。即,對作者的多個短文本進行分詞,并對所得到的詞語進行去重,從而將每個短文本表示為一個詞向量。此時的詞向量的維度往往能夠達到幾萬維,并且其中的數(shù)據(jù)非常的稀疏。

      從短文本挖掘信息的一個困難在于直接抽取出來的往往是詞語,而詞語構(gòu)成的詞向量維度很大、十分稀疏,不利于深入進行數(shù)據(jù)挖掘。

      針對于此,本發(fā)明利用主題模型將詞向量降維。

      主題模型包括但不限于:LDA(Latent Dirichlet Allocation,潛在狄利克雷分配)、LSA(Latent Semantic Analysis,潛在語義分析)、PLSA(Probability Latent Semantic Analysis,概率潛在語義分析)。

      在步驟S21中,利用主題模型發(fā)現(xiàn)隱含主題,并形成詞語與主題之間的轉(zhuǎn)換關(guān)系,將詞向量轉(zhuǎn)換為主題向量。

      主題模型的主題數(shù)目可以根據(jù)經(jīng)驗設(shè)定為幾十到幾百。這樣,幾萬維 的稀疏的詞向量就可以轉(zhuǎn)換為幾十到幾百維的主題向量,從而在語義層次上對詞向量進行了降維。

      主題模型的訓(xùn)練方法是首先設(shè)定主題模型的輸出主題數(shù),然后向主題模型輸入多個訓(xùn)練用短文本,以輸出符合設(shè)定的輸出主題數(shù)的多個主題向量。經(jīng)過訓(xùn)練的主題模型能夠?qū)⒔o定的詞向量轉(zhuǎn)換為主題向量。

      接著,在步驟S22中,對主題向量進行聚類,以得到代表短文本內(nèi)容的類別的多個簇。

      主題向量以向量的形式體現(xiàn)了短文本內(nèi)容在潛在主題上的分布。通過對主題向量進行聚類,可以獲得潛在主題更上一級別的內(nèi)容類別的信息。

      可以采用任何適當(dāng)?shù)木垲惙椒?,對主題向量進行聚類。

      根據(jù)一個實施例,采用根據(jù)經(jīng)驗指定的歐氏距離/相似度閾值對主題向量進行聚類。

      根據(jù)優(yōu)選的實施例,可以確定用于聚類的自適應(yīng)閾值,然后利用所確定的自適應(yīng)閾值,對主題向量進行聚類。

      自適應(yīng)閾值的確定方法例如是計算主題向量中兩兩之間的歐式距離的平均值與大于0且小于或等于1的調(diào)整系數(shù)的乘積,作為自適應(yīng)閾值。調(diào)整系數(shù)可以根據(jù)經(jīng)驗指定,優(yōu)選為0.9。

      假設(shè)有x個主題向量,則自適應(yīng)閾值可以表示為

      <mrow> <mi>T</mi> <mo>=</mo> <mi>w</mi> <mo>*</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>x</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>x</mi> </munderover> <mi>Ed</mi> <mrow> <mo>(</mo> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> <mfrac> <mrow> <mi>x</mi> <mo>*</mo> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> </mfrac> <mo>.</mo> </mrow>

      其中,T為自適應(yīng)閾值,w為調(diào)整系數(shù),為x個主題向量中每兩個主題向量構(gòu)成的向量對的個數(shù),S(mi)和S(mj)分別表示短文本mi和mj對應(yīng)的主題向量,Ed(S(mi),S(mj))表示S(mi)和S(mj)的歐式距離,表示兩兩主題向量的歐式距離的總和。

      自適應(yīng)閾值的確定方法還例如是計算主題向量中兩兩之間的相似度的平均值與大于或等于1的調(diào)整系數(shù)的乘積,作為自適應(yīng)閾值。調(diào)整系數(shù) 可以根據(jù)經(jīng)驗指定。

      確定了自適應(yīng)閾值之后,可以采用如下方法基于自適應(yīng)閾值對主題向量進行聚類。下面以歐氏距離相關(guān)的自適應(yīng)閾值為例進行說明,相似度相關(guān)的自適應(yīng)閾值的聚類類似。

      (1)隨機選擇一個主題向量,作為一個新簇;

      (2)隨機選擇一個未聚類的主題向量,計算其與每一個已有簇的中心向量之間的歐式距離;

      (3)將歐式距離小于自適應(yīng)閾值的主題向量,加入到對應(yīng)的簇中;

      (4)將歐式距離均大于或等于自適應(yīng)閾值的主題向量,作為一個新簇;

      重復(fù)上述步驟(2)-(4)直至所有主題模型均被聚類。

      值得一提的是上述自適應(yīng)閾值的方法具有很好的技術(shù)效果。如果采用固定閾值進行聚類成預(yù)定義的類別,那么一方面可能作者的喜好比較特殊,沒有合適的預(yù)定義類別適合分入,另一方面可能作者的喜好分布粒度較細,無法對作者的喜好進行細分,而是可能將作者完全歸入一類預(yù)定義類別中。但是采用自適應(yīng)閾值的方法,可以自動適應(yīng)作者喜好的分布和粒度,進行適當(dāng)?shù)姆诸悺?/p>

      舉例來說,如果預(yù)定義的類別只有新聞、體育、娛樂、軍事、歷史等方面,而作者的喜好實際上是非常小眾的敦煌壁畫,則無法適當(dāng)?shù)姆诸悺2捎米赃m應(yīng)閾值就可以將作者的短文本類別分類為類別1、類別2、類別3等,其中例如類別3對應(yīng)于敦煌壁畫。在后面的步驟中,以一條敦煌壁畫的代表性短文本體現(xiàn)這種類別。

      再比如,如果作者發(fā)布的所有短文本都是關(guān)于籃球的,那么只能被分類到體育。但實際上,作者的興趣分布粒度實際上更細,應(yīng)該是籃球下面的籃球視頻、籃球廣告、籃球周邊、籃球明星、NBA、CBA中的籃球明星。采用自適應(yīng)閾值就可以將作者的短文本類別分類為例如籃球視頻、籃球廣告、籃球周邊、籃球明星、NBA、CBA。在后面的步驟中,以一條籃球明星的代表性短文本體現(xiàn)作者細粒度的喜好。

      在步驟S23中,對多個簇進行排序,將排序結(jié)果靠前的若干簇所代表 的類別確定為作者感興趣的類別。

      例如,可以根據(jù)每個簇中的主題向量的數(shù)量,對多個簇進行排序。簇中的主題向量的數(shù)量越多,表明作者對該簇所代表的類別更感興趣。

      例如,除了根據(jù)每個簇中的主題向量的數(shù)量,還根據(jù)每個簇中的主題向量對應(yīng)的短文本的發(fā)表時間,對多個簇進行排序。簇對應(yīng)的短文本的發(fā)表時間約接近現(xiàn)在,表明作者近期對該簇所代表的類別更感興趣。

      排序所依據(jù)的評價值例如可以表示為

      評價值I(ci)表示作者對類別ci感興趣的程度,類別ci對應(yīng)于第i個簇,Ni是指類別ci包含的短文本數(shù)量,對應(yīng)于第i個簇中包括的主題向量的個數(shù),exp()是以自然常數(shù)e為底的指數(shù)函數(shù),tj是類別ci中包含的短文本mj的發(fā)表時間,tp是指現(xiàn)在的時間,γ是衰減內(nèi)核參數(shù),表示興趣衰減的快慢,優(yōu)選地,γ設(shè)定為7(天)。

      經(jīng)過步驟S1,即可獲知作者的興趣喜好。在步驟S2中,抽取能夠代表作者興趣喜好的代表性短文本,作為對作者的描述,以便于讀者了解作者。

      應(yīng)理解,可以從作者感興趣的類別對應(yīng)的簇中的主題向量對應(yīng)的短文本中選擇適當(dāng)?shù)拇硇远涛谋尽?/p>

      一種優(yōu)選的方式是針對在步驟S23中的排序結(jié)果靠前的若干簇中的每一個,基于其中的主題向量與簇的中心向量之間的距離和/或主題向量對應(yīng)的短文本的長度,選擇一個主題向量對應(yīng)的短文本,作為代表該簇對應(yīng)的類別的代表性短文本。

      主題向量與簇的中心向量之間的距離表明主題向量對應(yīng)的短文本與該簇代表的類別的貼近程度。距離越小,越好代表對應(yīng)的類別。

      主題向量對應(yīng)的短文本的長度體現(xiàn)了表達語義的豐富程度。短文本的長度越長,短文本提供的語義信息越豐富。

      因此,可以基于以上兩個因素中的一個或兩者,來提取適當(dāng)?shù)拇硇远涛谋荆碚髯髡呦埠玫念悇e。

      舉例來說,選擇類別的代表性短文本的依據(jù)可以是

      <mrow> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Ed</mi> <mrow> <mo>(</mo> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>_</mo> <msub> <mi>m</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

      其中,c_mj是短文本mj所在的類別,R(mj)是指短文本mj對于類別c_mj的關(guān)鍵程度,L(mj)是短文本mj的長度。S(mj)是短文本mj對應(yīng)的主題向量,S(c_mj)是類別c_mj內(nèi)所有短文本的主題向量的平均向量(平均向量的每一維度的值是類別內(nèi)所有短文本的主題向量在該維度上的值的算術(shù)平均值),Ed(S(mj),S(c_mj))是主題向量S(mj)和S(c_mj)的歐式距離。R(mj)與L(mj)成正比,而與Ed(S(mj),S(c_mj))成反比。

      優(yōu)選地,還可以將所選擇的代表性短文本,按照排序結(jié)果,呈現(xiàn)給用戶。

      在以上描述中,短文本例如是微博,短文本的作者例如是微博博主。

      根據(jù)本發(fā)明的方法能夠以簡單、容易理解的方式對短文本的作者的興趣喜好進行描述以便于讀者快速地、準確地了解短文本的作者。不僅大大降低了讀者閱讀作者發(fā)表的短文本所耗費的時間,方便讀者快速了解作者的興趣喜好,決定是否關(guān)注,而且較之背景技術(shù)中描述的基于高頻關(guān)鍵詞方式的用戶描述方法更加易于理解。

      根據(jù)本發(fā)明的方法,采用主題模型降維,有效解決短文本太短所帶來的詞向量稀疏問題。閾值自適應(yīng)聚類方法能夠避免統(tǒng)一設(shè)定閾值的聚類方法對特殊喜好或細粒度用戶進行計算時產(chǎn)生的不協(xié)調(diào)?;陬悇e內(nèi)短文本數(shù)量和短文本發(fā)表時間對作者興趣類別進行排序、基于短文本長度和短文本與聚類中心相似度來抽取類別內(nèi)代表性短文本,可以獲得更為準確的喜好類別并且選擇更好代表類別的短文本。以代表性短文本的方式體現(xiàn)作者的興趣喜好在語義上提供更多信息,易于讀者理解。

      下面,將參照圖3描述根據(jù)本發(fā)明實施例的描述短文本的作者的設(shè)備。

      圖3示出了根據(jù)本發(fā)明實施例的描述短文本的作者的設(shè)備的結(jié)構(gòu)方框圖。如圖3所示,根據(jù)本發(fā)明的描述設(shè)備300包括:興趣確定裝置31,被配置為:根據(jù)作者的多個短文本,確定作者感興趣的類別;以及描述生 成裝置32,被配置為:提取作者感興趣的類別的代表性短文本,作為對作者的描述。

      在一個實施例中,興趣確定裝置31包括:主題模型,被配置為:將作者的多個短文本中的每一個轉(zhuǎn)換為對應(yīng)的主題向量;聚類單元,被配置為:對主題向量進行聚類,以得到代表短文本內(nèi)容的類別的多個簇;排序單元,被配置為:對多個簇進行排序,將排序結(jié)果靠前的若干簇所代表的類別確定為作者感興趣的類別。

      在一個實施例中,描述設(shè)備300還包括訓(xùn)練裝置,用于訓(xùn)練所述主題模型,所述訓(xùn)練裝置被配置為:設(shè)定主題模型的輸出主題數(shù);向主題模型輸入多個短文本,以輸出符合設(shè)定的輸出主題數(shù)的多個主題向量。

      在一個實施例中,多個短文本在輸入主題模型之前,被分詞和去重并轉(zhuǎn)換為詞向量。

      在一個實施例中,聚類單元包括:閾值確定子單元,被配置為:確定用于聚類的自適應(yīng)閾值;聚類子單元,被配置為:利用所確定的自適應(yīng)閾值,對主題向量進行聚類。

      在一個實施例中,閾值確定子單元被進一步配置為:計算主題向量中兩兩之間的歐式距離的平均值與大于0且小于或等于1的調(diào)整系數(shù)的乘積,作為所述自適應(yīng)閾值。

      在一個實施例中,閾值確定子單元被進一步配置為:計算主題向量中兩兩之間的相似度的平均值與大于或等于1的調(diào)整系數(shù)的乘積,作為所述自適應(yīng)閾值。

      在一個實施例中,聚類子單元被進一步配置為:(1)隨機選擇一個主題向量,作為一個新簇;(2)隨機選擇一個未聚類的主題向量,計算其與每一個已有簇的中心向量之間的歐式距離;(3)將歐式距離小于自適應(yīng)閾值的主題向量,加入到對應(yīng)的簇中;(4)將歐式距離均大于或等于自適應(yīng)閾值的主題向量,作為一個新簇;重復(fù)上述步驟(2)-(4)直至所有主題模型均被聚類。

      在一個實施例中,排序單元被進一步配置為:根據(jù)每個簇中的主題向量的數(shù)量,對多個簇進行排序。

      在一個實施例中,排序單元被進一步配置為:根據(jù)每個簇中的主題向量的數(shù)量以及每個簇中的主題向量對應(yīng)的短文本的發(fā)表時間,對多個簇進行排序。

      在一個實施例中,描述生成裝置32被進一步配置為:針對排序結(jié)果靠前的若干簇中的每一個,基于其中的主題向量與簇的中心向量之間的距離和/或主題向量對應(yīng)的短文本的長度,選擇一個主題向量對應(yīng)的短文本,作為代表該簇對應(yīng)的類別的代表性短文本。

      在一個實施例中,描述設(shè)備300還包括:呈現(xiàn)裝置,被配置為:將所選擇的代表性短文本,按照排序結(jié)果,呈現(xiàn)給用戶。

      在一個實施例中,短文本包括微博,作者包括微博博主。

      由于在根據(jù)本發(fā)明的描述設(shè)備300中所包括的各個裝置和單元中的處理分別與上面描述的描述方法中所包括的各個步驟中的處理類似,因此為了簡潔起見,在此省略這些裝置和單元的詳細描述。

      此外,這里尚需指出的是,上述設(shè)備中各個組成裝置、單元可以通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計算機(例如圖4所示的通用計算機400)安裝構(gòu)成該軟件的程序,該計算機在安裝有各種程序時,能夠執(zhí)行各種功能等。

      圖4示出了可用于實施根據(jù)本發(fā)明實施例的方法和設(shè)備的計算機的示意性框圖。

      在圖4中,中央處理單元(CPU)401根據(jù)只讀存儲器(ROM)402中存儲的程序或從存儲部分408加載到隨機存取存儲器(RAM)403的程序執(zhí)行各種處理。在RAM 403中,還根據(jù)需要存儲當(dāng)CPU 401執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 401、ROM 402和RAM 403經(jīng)由總線404彼此連接。輸入/輸出接口405也連接到總線404。

      下述部件連接到輸入/輸出接口405:輸入部分406(包括鍵盤、鼠標等等)、輸出部分407(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存儲部分408(包括硬盤等)、通信部分409(包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分409經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器410也可連接到輸入/輸出接口405??刹鹦督橘|(zhì)411比如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等可以根據(jù)需要被安裝在驅(qū)動器410上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分408中。

      在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)411安裝構(gòu)成軟件的程序。

      本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖4所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)411??刹鹦督橘|(zhì)411的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可以是ROM 402、存儲部分408中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。

      本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明實施例的方法。

      相應(yīng)地,用于承載上述存儲有機器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包括在本發(fā)明的公開中。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等等。

      在上面對本發(fā)明具體實施例的描述中,針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。

      應(yīng)該強調(diào),術(shù)語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并不排除一個或更多個其它特征、要素、步驟或組件的存 在或附加。

      此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其他的時間順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術(shù)范圍構(gòu)成限制。

      盡管上面已經(jīng)通過對本發(fā)明的具體實施例的描述對本發(fā)明進行了披露,但是,應(yīng)該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計對本發(fā)明的各種修改、改進或者等同物。這些修改、改進或者等同物也應(yīng)當(dāng)被認為包括在本發(fā)明的保護范圍內(nèi)。

      附記

      1.一種描述短文本的作者的方法,包括:

      根據(jù)作者的多個短文本,確定作者感興趣的類別;以及

      提取作者感興趣的類別的代表性短文本,作為對作者的描述。

      2.如附記1所述的方法,其中,所述根據(jù)作者的多個短文本,確定作者感興趣的類別包括:

      利用主題模型,將作者的多個短文本中的每一個轉(zhuǎn)換為對應(yīng)的主題向量;

      對主題向量進行聚類,以得到代表短文本內(nèi)容的類別的多個簇;

      對多個簇進行排序,將排序結(jié)果靠前的若干簇所代表的類別確定為作者感興趣的類別。

      3.如附記2所述的方法,其中,所述對主題向量進行聚類,以得到代表短文本內(nèi)容的類別的多個簇包括:

      確定用于聚類的自適應(yīng)閾值;

      利用所確定的自適應(yīng)閾值,對主題向量進行聚類。

      4.如附記3所述的方法,其中,所述確定用于聚類的自適應(yīng)閾值包 括:

      計算主題向量中兩兩之間的歐式距離的平均值與大于0且小于或等于1的調(diào)整系數(shù)的乘積,作為所述自適應(yīng)閾值。

      5.如附記3所述的方法,其中,所述確定用于聚類的自適應(yīng)閾值包括:

      計算主題向量中兩兩之間的相似度的平均值與大于或等于1的調(diào)整系數(shù)的乘積,作為所述自適應(yīng)閾值。

      6.如附記3所述的方法,其中,所述利用所確定的自適應(yīng)閾值,對主題向量進行聚類包括:

      (1)隨機選擇一個主題向量,作為一個新簇;

      (2)隨機選擇一個未聚類的主題向量,計算其與每一個已有簇的中心向量之間的歐式距離;

      (3)將歐式距離小于自適應(yīng)閾值的主題向量,加入到對應(yīng)的簇中;

      (4)將歐式距離均大于或等于自適應(yīng)閾值的主題向量,作為一個新簇;

      重復(fù)上述步驟(2)-(4)直至所有主題模型均被聚類。

      7.如附記2所述的方法,其中,所述對多個簇進行排序,將排序結(jié)果靠前的若干簇所代表的類別確定為作者感興趣的類別包括:

      根據(jù)每個簇中的主題向量的數(shù)量,對多個簇進行排序。

      8.如附記7所述的方法,其中,還根據(jù)每個簇中的主題向量對應(yīng)的短文本的發(fā)表時間,對多個簇進行排序。

      9.如附記2所述的方法,其中,所述提取作者感興趣的類別的代表性短文本,作為對作者的描述包括:

      針對排序結(jié)果靠前的若干簇中的每一個,基于其中的主題向量與簇的中心向量之間的距離和/或主題向量對應(yīng)的短文本的長度,選擇一個主題向量對應(yīng)的短文本,作為代表該簇對應(yīng)的類別的代表性短文本。

      10.如附記9所述的方法,還包括:

      將所選擇的代表性短文本,按照排序結(jié)果,呈現(xiàn)給用戶。

      11.一種描述短文本的作者的設(shè)備,包括:

      興趣確定裝置,被配置為:根據(jù)作者的多個短文本,確定作者感興趣的類別;以及

      描述生成裝置,被配置為:提取作者感興趣的類別的代表性短文本,作為對作者的描述。

      12.如附記11所述的設(shè)備,其中,所述興趣確定裝置包括:

      主題模型,被配置為:將作者的多個短文本中的每一個轉(zhuǎn)換為對應(yīng)的主題向量;

      聚類單元,被配置為:對主題向量進行聚類,以得到代表短文本內(nèi)容的類別的多個簇;

      排序單元,被配置為:對多個簇進行排序,將排序結(jié)果靠前的若干簇所代表的類別確定為作者感興趣的類別。

      13.如附記12所述的設(shè)備,其中,所述聚類單元包括:

      閾值確定子單元,被配置為:確定用于聚類的自適應(yīng)閾值;

      聚類子單元,被配置為:利用所確定的自適應(yīng)閾值,對主題向量進行聚類。

      14.如附記13所述的設(shè)備,其中,所述閾值確定子單元被進一步配置為:

      計算主題向量中兩兩之間的歐式距離的平均值與大于0且小于或等于1的調(diào)整系數(shù)的乘積,作為所述自適應(yīng)閾值。

      15.如附記13所述的設(shè)備,其中,所述閾值確定子單元被進一步配置為:

      計算主題向量中兩兩之間的相似度的平均值與大于或等于1的調(diào)整系數(shù)的乘積,作為所述自適應(yīng)閾值。

      16.如附記13所述的設(shè)備,其中,所述聚類子單元被進一步配置為:

      (1)隨機選擇一個主題向量,作為一個新簇;

      (2)隨機選擇一個未聚類的主題向量,計算其與每一個已有簇的中心向量之間的歐式距離;

      (3)將歐式距離小于自適應(yīng)閾值的主題向量,加入到對應(yīng)的簇中;

      (4)將歐式距離均大于或等于自適應(yīng)閾值的主題向量,作為一個新 簇;

      重復(fù)上述步驟(2)-(4)直至所有主題模型均被聚類。

      17.如附記12所述的設(shè)備,其中,所述排序單元被進一步配置為:

      根據(jù)每個簇中的主題向量的數(shù)量,對多個簇進行排序。

      18.如附記17所述的設(shè)備,其中,所述排序單元被進一步配置為:根據(jù)每個簇中的主題向量的數(shù)量以及每個簇中的主題向量對應(yīng)的短文本的發(fā)表時間,對多個簇進行排序。

      19.如附記12所述的設(shè)備,其中,所述描述生成裝置被進一步配置為:

      針對排序結(jié)果靠前的若干簇中的每一個,基于其中的主題向量與簇的中心向量之間的距離和/或主題向量對應(yīng)的短文本的長度,選擇一個主題向量對應(yīng)的短文本,作為代表該簇對應(yīng)的類別的代表性短文本。

      20.如附記19所述的設(shè)備,還包括:呈現(xiàn)裝置,被配置為:將所選擇的代表性短文本,按照排序結(jié)果,呈現(xiàn)給用戶。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1