本發(fā)明涉及一種信息技術(shù),尤其涉及一種基于文本內(nèi)容匹配技術(shù)的信息發(fā)布方法和裝置。
背景技術(shù):信息發(fā)布技術(shù)用途十分廣泛。信息發(fā)布是指在特定的位置和/或特定時間發(fā)布待發(fā)布信息。待發(fā)布信息可以是廣告信息、警告信息、警示信息、引導(dǎo)信息、國家法令規(guī)定等信息。例如,發(fā)布廣告是將待發(fā)布信息放置在特定的地方,以便人們了解這些待發(fā)布信息。發(fā)布警告是將警告信息與特定信息一起發(fā)布,以便人們了解該特定信息的負面效果,例如,在基礎(chǔ)文本為有關(guān)“抽煙”的內(nèi)容時,可在發(fā)布該基礎(chǔ)文本時,同時發(fā)布抽煙有害身體健康的警示信息,及發(fā)布關(guān)于與煙草有關(guān)的最新國家法令。發(fā)布引導(dǎo)信息是將引導(dǎo)信息與特定文本文本一起發(fā)布,以便人們了解與該特定文本相關(guān)的信息,例如,在基礎(chǔ)文本為“游戲”時,可在發(fā)布該基礎(chǔ)文本時,同時發(fā)布游戲時間不要過長的引導(dǎo)信息,及發(fā)布關(guān)于與游戲有關(guān)的最新國家規(guī)定。內(nèi)容匹配技術(shù)是指給定一個文本,從一個較大的文本集合里找出內(nèi)容相近的文本來。目前還沒有將信息發(fā)布技術(shù)和文本內(nèi)容匹配技術(shù)結(jié)合起來發(fā)布信息的技術(shù),該技術(shù)可提高信息發(fā)布的效率。
技術(shù)實現(xiàn)要素:本發(fā)明的實施例提供了一種信息發(fā)布方法和裝置,可提高信息發(fā)布的效率。本發(fā)明的實施例提供了一種信息發(fā)布方法,包括:接收待發(fā)布信息;將基礎(chǔ)信息與待發(fā)布信息進行匹配;若基礎(chǔ)信息與待發(fā)布信息匹配成功,在該基礎(chǔ)信息處發(fā)布所述待發(fā)布信息。所述基礎(chǔ)信息包括發(fā)布基礎(chǔ)信息和/或用戶信息。所述基礎(chǔ)信息為發(fā)布基礎(chǔ)信息時,所述將基礎(chǔ)信息與待發(fā)布信息進行匹配具體包括:獲得發(fā)布基礎(chǔ)信息的主題分布向量;獲得待發(fā)布信息的主題分布向量;將發(fā)布基礎(chǔ)信息的主題分布向量與待發(fā)布信息的主題分布向量進行匹配。所述將發(fā)布基礎(chǔ)信息的主題分布向量與待發(fā)布信息的主題分布向量進行匹配具體包括:當發(fā)布基礎(chǔ)信息的主題分布向量與待發(fā)布信息的主題分布向量之間的歐式距離小于預(yù)定值時,確定為二者匹配成功,所述歐式距離由下式給出:其中d'代表基礎(chǔ)信息,p(ti|d')是基礎(chǔ)信息的主題分布向量的一個元素。d是待發(fā)布信息,p(ti|d)是待發(fā)布信息的主題分布向量中的一個元素,n代表主題數(shù)目。所述基礎(chǔ)信息為用戶信息時,所述將基礎(chǔ)信息與待發(fā)布信息進行匹配具體包括:獲得用戶信息的主題分布向量;獲得待發(fā)布信息的主題分布向量;將用戶信息的主題分布向量與待發(fā)布信息的主題分布向量進行匹配。所述將用戶信息的主題分布向量與待發(fā)布信息的主題分布向量進行匹配具體包括:當用戶信息的主題分布向量與待發(fā)布信息的主題分布向量之間的歐式距離小于預(yù)定值時,確定為二者匹配成功,所述歐式距離由下式給出:其中d'代表用戶信息,p(ti|d')是d'用戶信息的主題分布向量的一個元素。d是待發(fā)布信息,p(ti|d)是待發(fā)布信息的主題分布向量中的一個元素,n代表主題數(shù)目。本發(fā)明實施例還提供了一種信息發(fā)布裝置,其特征在于,包括:接收單元,用于接收待發(fā)布信息;匹配單元,用于將接收單元接收的待發(fā)布信息與基礎(chǔ)信息進行匹配;判斷單元,判斷基礎(chǔ)信息與待發(fā)布信息匹配是否成功,若是啟動發(fā)布單元;發(fā)布單元,用于在基礎(chǔ)信息處發(fā)布所述待發(fā)布信息。所述匹配單元具體包括:第一獲得單元,用于獲得基礎(chǔ)信息的主題分布向量;第二獲得單元,用于獲得待發(fā)布信息的主題分布向量;匹配子單元,用于將基礎(chǔ)信息的主題分布向量與待發(fā)布信息的主題分布向量進行匹配。所述匹配子單元具體包括:判斷單元,判斷基礎(chǔ)信息的主題分布向量與待發(fā)布信息的主題分布向量之間的歐式距離是否小于預(yù)定值,若是,啟動確定單元;所述歐式距離由下式給出:其中d’代表基礎(chǔ)信息,p(ti|d')是基礎(chǔ)信息的主題分布向量的一個元素。d是待發(fā)布信息,p(ti|d)是待發(fā)布信息的主題分布向量中的一個元素,n代表主題數(shù)目;確定單元,用于確定發(fā)布基礎(chǔ)信息與待發(fā)布信息匹配成功。根據(jù)本發(fā)明實施例,通過基于文本內(nèi)容匹配的方法進行信息發(fā)布,可使信息在發(fā)布的目的性更強,從而使提高了信息的針對性,進而提高了信息發(fā)布的效率。在文本內(nèi)容匹配過程中,進行非監(jiān)督機器學習方法提取微博和用戶主題,從而省去人工建立知識庫的繁雜步驟。通過實驗表明,其匹配的精度達到90%以上,遠比基于知識庫的方法高。附圖說明圖1示出了本發(fā)明實施例的主題模型匹配的過程;圖2示出了微博的一個例子;圖3示出了本發(fā)明實施例的在用戶主頁投放的例子;圖4示出了本發(fā)明實施例的相關(guān)內(nèi)容推薦的例子;圖5示出了本發(fā)明實施例的信息發(fā)布裝置。具體實施方式為了便于本領(lǐng)域一般技術(shù)人員理解和實現(xiàn)本發(fā)明,現(xiàn)結(jié)合附圖描繪本發(fā)明的實施例。實施例一本實施例提供了一種信息發(fā)布方法,該方法包括步驟:接收待發(fā)布信息;將基礎(chǔ)信息與待發(fā)布信息進行匹配;若基礎(chǔ)信息與待發(fā)布信息匹配成功,在該基礎(chǔ)信息處發(fā)布待發(fā)布信息。所述基礎(chǔ)信息包括發(fā)布基礎(chǔ)信息和/或用戶信息。根據(jù)本發(fā)明實施例,優(yōu)選地,發(fā)布基礎(chǔ)信息為微博,或是博文,可以是已發(fā)布或未發(fā)布的微博、博文等。下面以發(fā)布基礎(chǔ)信息為微博、待發(fā)布信息為廣告為例,來介紹本發(fā)明實施例的信息發(fā)布方法。在微博中,用戶的即時興趣通常會隱含在其某個時刻或時段發(fā)送或轉(zhuǎn)發(fā)的內(nèi)容當中。用戶較長時期發(fā)送或轉(zhuǎn)發(fā)的大量內(nèi)容,隱含了用戶的長期的興趣愛好,甚至職業(yè)信息。根據(jù)本發(fā)明實施例,在廣告發(fā)布過程中,廣告匹配引擎可以根據(jù)廣告中的文字內(nèi)容,去匹配用戶所發(fā)送或轉(zhuǎn)發(fā)的微博得內(nèi)容,并根據(jù)匹配結(jié)果投放廣告,當匹配成功時,投放廣告,這樣會精確定位到廣告所投放的位置,提高廣告的效率。廣告匹配引擎也可以利用廣告的文字內(nèi)容去匹配用戶,并根據(jù)匹配結(jié)果投放廣告,當匹配成功時,投放廣告,這樣會精確定位到廣告所投放的具體用戶。內(nèi)容推薦技術(shù)和廣告匹配基本類似,可以把用戶產(chǎn)生的一條博文當作一條廣告,內(nèi)容推薦引擎可以利用類似的匹配算法,把博文推薦給最適合的用戶。所以,文本匹配技術(shù)是廣告匹配引擎和內(nèi)容推薦引擎的核心。根據(jù)本發(fā)明實施例,在匹配技術(shù)中,優(yōu)選地,采用基于主題模型(TopicModel)的內(nèi)容匹配技術(shù)。該技術(shù)的主要特征是采用非監(jiān)督學習的方法,能從大量的文本集合中抽取主題,從而得到每個文本的主題分布向量。此技術(shù)同時提供推理機制,能夠快速有效地從新的文本中抽取主題。在匹配過程中,比較文本內(nèi)容上的相似性,可以通過比較文本的主題分布的相似性來實現(xiàn)。因此,可以從一定程度上避免短文本帶來的數(shù)據(jù)稀疏問題。同時,可以通過對用戶所發(fā)送和轉(zhuǎn)發(fā)的博文及這些博文的主題分布向量的分析,也可以綜合得到用戶主題分布向量。在此基礎(chǔ)上,通過比較文本的主題分布向量和用戶的主題分布向量,來實現(xiàn)對用戶投放廣告和推薦的目的。此外,通過比較用戶之間主題分布向量的相似度,還可以找出相同興趣的用戶。這項文本匹配技術(shù)的最大優(yōu)勢是非監(jiān)督學習方法,一切由機器自動完成,不需要人工建立知識庫。算法的操作性也比較簡單,在應(yīng)用過程中不需要復(fù)雜的推理和計算機制。通過大量的微博數(shù)據(jù)的評估,這種方法的性能明顯優(yōu)于基于分類的方法和基于知識庫的方法。下面介紹基于主題模型的內(nèi)容匹配方法。一、基于主題模型的內(nèi)容匹配方法文本內(nèi)容匹配有多種方法。一種方法是基于分類的內(nèi)容匹配。這種方法是設(shè)計一個分類器,分類的類別可以根據(jù)需求按照某種意義去定義。一般的方法是人工標注大量的文本,然后按照統(tǒng)計方法對分類器進行訓練。匹配的原則是如果一個文本分到某個類中,則認為與該類匹配成功。另一種方法是根據(jù)知識庫的方法,這種方法通常需要建立龐大的知識庫,知識庫中的詞按照不同種類,不同層次打上標簽。文本匹配的過程是首先對文本進行關(guān)鍵詞抽取,然后通過對知識庫的查找,以及查找結(jié)果的綜合來確定文本的內(nèi)容標簽,最后通過內(nèi)容標簽的比較結(jié)果來判定兩個文本從內(nèi)容上來說是否相似?;诜诸惖姆椒ǖ娜秉c之一是需要確定分類的類別。對微博而言,如果類別過粗,匹配的價值就不是特別大;如果分類過細,分類器就很難做到精準?;谥R庫的方法存在的問題在于建立合理可用的知識體系以及過程,而建立知識庫通常需要大量的人工工作。第三種方法就是下面將要介紹的基于主體模型的方法。通過對現(xiàn)有的這三種方法應(yīng)用于微博內(nèi)容匹配進行比較,可以發(fā)現(xiàn)基于主體模型的方法無論從精度還是可操作性來說,具有明顯的優(yōu)勢。下面詳細介紹基于主題模型的內(nèi)容匹配方法。主題模型文本在計算機里的表達有多種方式,不同的應(yīng)用有不同的表達方式。例如在信息檢索過程中可以用向量空間模型來表達。所謂的向量空間模型就是把一個文本表達為一個向量,向量的每一維對應(yīng)一個詞,而向量中元素的值可以是這個詞在此文本中出現(xiàn)的頻率。通常把文本的這種向量表達叫做對應(yīng)文本的特征向量,詞叫做特征,詞頻叫做特征值。對一個大的文本集合(例如搜索系統(tǒng))而言,其詞匯表往往很大,而每個詞并不一定要出現(xiàn)在每個文本當中。如果用一種統(tǒng)一的格式的向量來表達這個集合,文本的向量就會變得非常稀疏,沒有在特定文本中出現(xiàn)的詞對應(yīng)的向量中元素的值就是零。顯而易見,文本越短,其向量就越稀疏。在主題模型中,可以將一個文本簡單地理解為由若干個主題來組成,這和通常對文本的一般理解基本一致。構(gòu)造一個文本,首先構(gòu)造若干個主題,而這些主題是一些隱性變量,顯性的詞是由這些主題按照一定的規(guī)律來生成。重要的一點就是從文本到主題,再從主題到詞是按照一定的概率分布來構(gòu)造的。通常情況下,在一個主題模型中,采用的主題數(shù)要遠遠少于詞匯數(shù)。根據(jù)不同的文本集合,主題數(shù)目的選擇可以用實驗的方式來獲得。主題模型有一整套完整的訓練算法。按照這些算法,可以把文本集的向量空間表達轉(zhuǎn)換到概率空間的表達方式。為了簡單起見,以PLSA主題模型為例來說明在概率空間文本表達方式。p(d)=∏w∑tp(t|d)p(w|t)(1)在以上公式中,d代表文本,w代表詞,t代表主題變量;p(d)稱為文本d的似然值,p(t|d)表示主題t在文本d中的分布概率,p(w|t)表示主題t產(chǎn)生詞w的概率。其中p(t|d)也可以解釋為對文本的軟分類,即文本d屬于不同主題類別t的概率。我們可以注意到對一個文本d而言,p(t|d)是一個概率分布向量,它的維數(shù)就是主題t的數(shù)目,從而它也可以解釋為一種降維方式,即把文本從用詞匯表達的向量空間轉(zhuǎn)換為用主題表達的向量空間。在維數(shù)較小的向量空間比較,可以避免數(shù)據(jù)稀疏帶來的不準確的問題。主題模型的訓練過程也叫主題解析過程。LDA主題模型是對PLSA主題模型的改進,其主要特征是用Dirichlet分布函數(shù)來模擬主題的分布,而不是用參數(shù)的形式來直接描述的分布。其重要的優(yōu)點之一是為新的文本根據(jù)已訓練過的數(shù)據(jù)提供主體推理的機制。在本發(fā)明,優(yōu)選地采用LDA主題模型。事實上,主題模型的應(yīng)用范圍遠遠不止在文本處理領(lǐng)域,可以擴展到多個類似的樣本空間。在這里被處理的文本表達為以詞為特征,詞頻為特征值的特征向量。任何被處理的樣本,只要有固定數(shù)目的特征及量化的特征值,都可以用主題模型進行處理。在微博中,如果把每個用戶看作一個文本,而用戶發(fā)表的內(nèi)容所用到的詞看作這個文本中用到的詞,那么以用戶為單位的樣本空間同樣可以用主題模型來解析,從而得到用戶的主題分布。實際上用戶的主體分布就代表了用戶的興趣愛好。利用主題模型抽取微博和用戶主題分布的目的主要是解決數(shù)據(jù)稀疏帶來的問題,而通過比較用戶之間的主題分布可以尋找內(nèi)容相近的博文或興趣相近的用戶群體。下面介紹主題模型的匹配方法流程。主題模型的匹配方法流程通過以上分析,根據(jù)給定的樣本(例如廣告文本、微博、用戶信息),可以利用主題模型的方法進行解析,然后在主題分布向量空間匹配與主題相似內(nèi)容的微博和用戶信息。也可以通過相互比較發(fā)現(xiàn)主題分布(興趣)相近的用戶。匹配過程如下:●對微博用主題模型抽取主題,產(chǎn)生博文的主題分布向量●根據(jù)用戶發(fā)送/轉(zhuǎn)發(fā)/評論內(nèi)容,產(chǎn)生用戶的主題分布向量●使給定的樣本(如待發(fā)布信息)的主題分布向量和其它博文或用戶的主題分布向量進行匹配,以獲得與該給定的樣本相近的博文或用戶,并根據(jù)匹配結(jié)果發(fā)布該給定的文本。如圖1所示,主題模型匹配在邏輯上分為兩層,即學習層和解碼層。學習層負責模型的訓練,也就是主題提取的過程;解碼層負責從訓練所得到的模型進行匹配。下面對兩個層面分別作一介紹。1、學習層(機器學習過程)基于主題模型的學習方法是一種無監(jiān)督學習過程,不需要任何人工輔助的方法就可以獲得微博和用戶的主題分布向量。相對于知識庫和基于分類的方法,可以省去繁重的手工工作。機器學習的過程是微博集和用戶信息,輸出是微博主題分布向量集和用戶主題分布向量集。首先介紹微博主題分布向量的學習過程。給定微博文本集,其中集合中的每一條信息對應(yīng)發(fā)送或轉(zhuǎn)發(fā)微博的用戶編號,和微博的正文內(nèi)容。圖2給出一個微博的例子,在本發(fā)明的系統(tǒng)中只處理正文部分。其中用戶名在系統(tǒng)中用用戶標識碼代替,圖片、視頻等鏈接都未作處理內(nèi)容。第一步要經(jīng)過文本預(yù)處理。其中,分詞是指對博文進行詞的切分;特征提取是指去掉文本中在主題提取過程中沒有用的詞,如“的”,“在”等助詞和介詞等;垃圾和作弊過濾是指過濾掉沒有意義的微博和通過關(guān)鍵詞作弊的微博(關(guān)鍵詞作弊是微博中的一個特有的作弊手段,其目的是在一條微博中加入不相關(guān)的熱門關(guān)鍵詞并在兩端放置#,以被搜索引擎建立索引而容易搜到)。通過預(yù)處理過程,可把每一條微博轉(zhuǎn)換為以特征詞為單位的詞特征向量。微博的詞特征向量可以理解為一個一維向量,其中每一個元素代表一個不同的詞,元素的值是該詞在文本中出現(xiàn)的次數(shù)。圖2的微博正文的詞特征向量如表1所示。從表1我們可以看出,由于短文本的原因,大多數(shù)詞在文本中只出現(xiàn)一次。表1在經(jīng)過預(yù)處理流程以后,經(jīng)過LDA主題模型把詞特征向量集合轉(zhuǎn)換為以主體分布概率為單位的主題分布向量集。在此過程中主題數(shù)的選擇可以針對文本的特點進行反復(fù)實驗得到。在本發(fā)明的實施例中,將主題數(shù)設(shè)定為500。表2給出了在實驗中選擇16個主題獲得的主題分布向量。其中每個元素代表對應(yīng)微博主題分布概率。表20.000.010.160.000.260.000.100.050.000.000.000.10.000.320.000.00用戶主題抽取過程和微博主題抽取過程類似。其不同的地方是要用到用戶信息。所述用戶信息可以是該用戶某個時段發(fā)送的所有微博。例如,一種最簡單的方法,可以把同一用戶某個時段發(fā)送的微博合并到一起,這樣每一個用戶就好像轉(zhuǎn)換成一個文本。同樣通過LDA主題模型,獲得用戶的主題分布向量。用戶的主題分布向量就代表用戶的興趣和愛好。用戶的興趣愛好通過主題以概率的形式來表達。這樣,我們通過分析用戶發(fā)送的內(nèi)容,就可以為每個用戶建立起其主題分布向量。然而,在實際應(yīng)用中我們發(fā)現(xiàn)利用這種方法得到的用戶主題進行推理準確性不夠好,為了提高用戶主題的準確度,在本實施例中,采用從微博主題分布向量和微博數(shù)據(jù)來導(dǎo)出用戶主題分布向量的方法。具體的方法如公式(2)。在公式(2)中,I代表一個用戶標識,如用戶編號,dI代表用戶I的一條微博,DI代表用戶I的微博的集合,n(dI,w)是詞W在微博dI中出現(xiàn)的次數(shù),可以從微博詞特征向量中獲得。p(t|DI)就是我們需要的用戶主題分布向量,p(t|dI,w)的意義是文本dI產(chǎn)生詞W時用到特定主題t的概率,p(t'|dI,w)的意義和p(t|dI,w)類似,只是t'表示任意的主題其計算方式如下公式(3)。其中p(t|d)和p(w|t)是微博主題抽取后的結(jié)果,p(t|d)是主題t在文本(微博)d中的分布,p(w|t)是主題t產(chǎn)生詞w的概率。通過以上方法,我們就可以得到用戶主題分布向量p(t|DI)。這種計算方式也是一種半監(jiān)督學習過程。用戶主題抽取可直接從微博主題抽取獲得輸入,該輸入為微博主題分布向量p(t|d)和詞分布概率p(w|t),文本預(yù)處理模塊產(chǎn)生的微博詞特征向量,以及用戶信息(用戶信息實際上就是用戶名和用戶標識的對照表),采用公式(2)和(3)就可以得到用戶主題分布向量。2、解碼層(匹配過程)解碼過程可以理解為利用獲得的主題分布向量進行內(nèi)容匹配的過程。具體的內(nèi)容有三個方面:●文本內(nèi)容比較,即微博之間的比較,或廣告文字內(nèi)容和微博的比較。●文本和用戶之間的比較,即微博或廣告文字內(nèi)容和用戶進行比較?!裼脩糁g的比較,如發(fā)現(xiàn)興趣相近的用戶。所有的這些比較,都在主題分布向量之間的比較過程中完成。LDA主題模型提供一種推理機制,我們可以利用這種推理機制,推斷出新文本的主題。然而LDA主題模型提供的推理需要通過多次迭代來完成,在實際應(yīng)用中對大規(guī)模實時文本處理存在一定困難。結(jié)合實際應(yīng)用,我們提出了B-LDA方法,以獲得主題分布向量,該方法使用下式獲得主題分布向量:在公式(4)中,d代表用戶發(fā)的一條微博,n(w)是詞W在微博d中出現(xiàn)的次數(shù),可以從微博詞特征向量中獲得。p(t|d)就是我們需要的用戶主題分布向量,p(t|w)的意義是文本產(chǎn)生詞w時用到特定主題t的概率,p(t'|w)的意義和p(t|w)類似,只是t'表示任意的主題,其計算方法可以用簡單的貝葉斯公式,如(5)所示。其中p(t)表示主題t的先驗概率,P(w)表示詞w的概率。p(w|t)是用LDA主題模型訓練所得到的主題t生成詞w的概率。公式(4)的時間復(fù)雜度分析如下:p(t)和p(t|w)可以線下計算得到,所以線上實際只計算n(w),即微博d中每個詞的出現(xiàn)次數(shù),所以公式(4)的時間復(fù)雜度為O(N),而傳統(tǒng)LDA的推理時間復(fù)雜度為O(N*I*T),N為微博d中的詞數(shù),I為迭代次數(shù),T為主題數(shù)。故公式(4)的時間復(fù)雜度較傳統(tǒng)LDA至少要快I倍,而傳統(tǒng)LDA中I通常要在100以上才可以達到較為理想的結(jié)果。這個方法的主要優(yōu)點是速度快,它比LDA精確的推理算法快80倍左右,而推理所得的精度和LDA精確推理的結(jié)果接近。它可以滿足大規(guī)模實時文本處理的需求。對新文本,通過分詞和特征提取模塊獲得其以特征詞為單位得特征向量,然后利用我們提出的B-LDA方法以獲得此文本的主題分布向量。主題分布向量的比較方式有多種,其中最直觀比較方式可以用向量之間的歐式距離,具體如下公式(4):其中d’代表發(fā)布基礎(chǔ)信息(如微博),p(ti|d')是發(fā)布基礎(chǔ)信息的主題分布向量的一個元素。d是待發(fā)布信息(如廣告信息、警告信息等),p(ti|d)是待發(fā)布信息的主題分布向量中的一個元素,n代表主題數(shù)目。在比較過程中,我們可以通過實驗的方法獲得一個閾值α,我們只選擇Dist小于α的微博認為匹配成功,剩余的微博認為內(nèi)容不相匹配。利用文本和微博匹配的方法而得到內(nèi)容相近的微博,可以在該微博出現(xiàn)的位置作為廣告投放的地點。文本和用戶信息匹配的方法和文本與微博匹配方法類似,其計算方法如下(7)利用文本和用戶匹配的方法而得到內(nèi)容相近的用戶,可以將該用戶作為廣告投放的對象,或者內(nèi)容推薦的對象。給定用戶I,與其他用戶J進行比較,可以用類似公式(4)的計算方法計算其距離Dist(DI,DJ),距離小于閾值的用戶認為是匹配的用戶,可以作為興趣相近的推薦對象。實驗結(jié)果為了證實方法的性能,我們對廣告和微博內(nèi)容匹配、微博和用戶的匹配、用戶之間的興趣匹配作了實驗。為了簡單起見,這里只列出廣告和微博匹配的部分實驗結(jié)果,分別為汽車廣告匹配和運動服裝廣告匹配的數(shù)據(jù)。在實驗過程中我們隨即抽取500萬條原創(chuàng)微博進行主題抽取。測試內(nèi)容都訓練集范圍之內(nèi)。1.汽車廣告和微博匹配結(jié)果汽車廣告匹配實驗過程,我們選擇了一條視頻的標題“元首座駕!??!寶馬防彈汽車”為正文。這樣選擇的目的是正文及其簡短,匹配難度較大。匹配過程是在500萬條隨機抽取的微博中進行。首先我們對500萬條微博進行主題抽取,并在此基礎(chǔ)上對廣告文本進行主題推斷,獲得其主題分布向量。利用公式(6)計算廣告和500萬條微博主題分布向量之間的距離,按距離從小到大的順序排序。廣告和微博匹配的部分結(jié)果如下表3所示。在表3中,為了簡單起見,我們只列出了匹配微博特征詞。匹配距離是指廣告的主題分布向量和微博的主題分布向量之間的距離;次序指匹配距離按從小到大排序的順序。次序1至30列出了和廣告距離最短的前30條微博。次序28543至28559是閾值在0.294時,匹配到的最后17條微博。表32.運動服廣告和微博匹配結(jié)果運動服廣告“知名運動品牌Nike推出了NBA著名球星KobeBryant的ZoomKobeVI“3D””的特點是其中含有英文詞,其匹配結(jié)果如表4所示,解釋方法和“汽車廣告匹配結(jié)果”類似。表4廣告和內(nèi)容推薦實例1用戶主頁廣告投放如圖3所示,用戶“http://weibo.com/u/1670145683”發(fā)布與汽車相關(guān)的相當數(shù)量的微博(圖中“用戶所發(fā)內(nèi)容“)。如果汽車商(如寶馬)要做廣告,我們可以根據(jù)廣告的文字內(nèi)容匹配到用戶所發(fā)的微博的相似的內(nèi)容。然后系統(tǒng)可以將用戶所發(fā)的廣告投放到用戶的主頁(圖中”企業(yè)微博投放廣告“所指)。這樣該用戶可以在其主頁看到其廣告。針對不同的用戶所發(fā)表的內(nèi)容,投放不同的廣告,是精準廣告投放方法之一。2相關(guān)內(nèi)容推薦如圖4所示,在用戶的每一條微博內(nèi)容下面設(shè)置一個“相關(guān)“的按鈕。當鼠標聚焦到該按鈕,或點擊該按鈕時便顯示出在一定時段內(nèi)和此條微博的內(nèi)容相似,但不相同的微博。如上圖所示,用戶接收到一條有關(guān)雞肉套餐的微博(圖中”原始微博“)系統(tǒng)可以找到在一定時段內(nèi),如一天或一小時內(nèi),相關(guān)的幾條內(nèi)容,在上圖中同樣代表雞肉套餐(圖中“匹配微博1,匹配微博2”)。這樣可以方便用戶進行比較,達到推薦的目的。實施例二如圖5所示,本實施例提供了一種信息發(fā)布裝置,包括:接收單元,用于接收待發(fā)布信息;匹配單元,用于將接收單元接收的待發(fā)布信息與基礎(chǔ)信息進行匹配;判斷單元,判斷基礎(chǔ)信息與待發(fā)布信息匹配是否成功,若是啟動發(fā)布單元;發(fā)布單元,用于在基礎(chǔ)信息處發(fā)布所述待發(fā)布信息。所述基礎(chǔ)信息為發(fā)布基礎(chǔ)信息時,所述匹配單元具體包括:第一獲得單元,用于獲得基礎(chǔ)信息的主題分布向量;第二獲得單元,用于獲得發(fā)布基礎(chǔ)信息的主題分布向量;匹配子單元,用于將基礎(chǔ)信息的主題分布向量與發(fā)布基礎(chǔ)信息的主題分布向量進行匹配。所述匹配子單元具體包括:判斷單元,判斷發(fā)布基礎(chǔ)信息的主題分布向量與待發(fā)布信息的主題分布向量之間的歐式距離是否小于預(yù)定值,若是,啟動確定單元;所述歐式距離由下式給出:其中d’代表發(fā)布基礎(chǔ)信息,p(ti|d')是發(fā)布基礎(chǔ)信息的主題分布向量的一個元素。d是待發(fā)布信息,p(ti|d)是待發(fā)布信息的主題分布向量中的一個元素,n代表主題數(shù)目;確定單元,用于確定發(fā)布基礎(chǔ)信息與待發(fā)布信息匹配成功。本實施例的各個單元的工作原理可參見實施例一的描述。根據(jù)本發(fā)明實施例,通過基于文本內(nèi)容匹配的方法進行信息發(fā)布,可使信息在發(fā)布的目的性更強,從而使提高了信息的針對性,進而提高了信息發(fā)布的效率。在文本內(nèi)容匹配過程中,進行非監(jiān)督機器學習方法提取微博和用戶主題,從而省去人工建立知識庫的繁雜步驟。通過實驗表明,其匹配的精度達到90%以上,遠比基于知識庫的方法高。雖然通過實施例描繪了本發(fā)明,但本領(lǐng)域普通技術(shù)人員知道,在不脫離本發(fā)明的精神和實質(zhì)的情況下,就可使本發(fā)明有許多變形和變化,本發(fā)明的范圍由所附的權(quán)利要求來限定。