針對短不相關(guān)文本的檢測的上下文感知方法
【技術(shù)領(lǐng)域】
[0001] 本文公開的主題一般設(shè)及用于確定和移除不相關(guān)文本的系統(tǒng)和方法,并且, 尤其設(shè)及基于周圍多個文本或在缺少足夠數(shù)量的文本時從類似文本中確定的傳遞 (transferred)上下文來確定短文本是否不相關(guān)。
【背景技術(shù)】
[0002] 流行的在線內(nèi)容提供者每天吸引數(shù)百萬的訪問者。內(nèi)容提供者可提供具有各種訪 問者可讀取的內(nèi)容的一個或多個網(wǎng)頁。該一個或多個網(wǎng)頁可配置成允許訪問者來提供對于 該一個或多個網(wǎng)頁的主題的反饋(例如評論)。例如,網(wǎng)頁可W是新聞文章,并且在線內(nèi)容 提供者可允許訪問者來提供關(guān)于文章的評論。
[0003] 然而,為了促進訪問者間的討論,在線內(nèi)容提供者可能不會掩蔽(例如節(jié)制)由訪 問者留下的評論。在運種情況下,惡意訪問者(例如垃圾郵件制作者或其他不可靠訪問者) 可能留下與給定網(wǎng)頁的話題不相關(guān)的評論。運些評論可包括離家工作的提議、產(chǎn)品推廣、項 目推廣、廣告、營銷材料W及其他運樣的評論。由于它們貶低由在線內(nèi)容提供者推進的開放 論壇并驅(qū)趕合法訪問者(例如留下與網(wǎng)頁話題相關(guān)評論的訪問者)離開,運些類型的評論 是有問題的。運反過來減少至在線內(nèi)容提供者的總體訪問者通信量。由于在線內(nèi)容提供者 典型地依賴訪問者通信量來產(chǎn)生收入,合法訪問者的減少影響在線內(nèi)容提供者來產(chǎn)生運樣 的收入。
【附圖說明】
[0004] -些實施例通過示例的方式來例示,并不限于附圖中的圖形。
[000引圖1A-1B是例示在針對由在線內(nèi)容提供者公布的給定文章的評論集合中不相關(guān) 評論的比例的圖表。
[0006] 圖2是依照示例實施例的系統(tǒng)框圖,其包括用戶裝置和社交網(wǎng)絡服務器。
[0007] 圖3依照示例實施例、例示在在線內(nèi)容提供者公布的文章之后的不相關(guān)評論。
[0008] 圖4A-4C依照示例實施例、例示用于確定在所公布文章之后的給定評論是否不相 關(guān)的各種技術(shù)。
[0009] 圖5是依照示例實施例、例示社交網(wǎng)絡服務器的各種組件的框圖。
[0010] 圖6A-6E是例示針對各種語言模型的準確性改進的圖表,其中改進針對第一集合 的文章使用依照示例實施例確定的、第一先天上下文感知特征。
[0011] 圖7A-7E是例示針對各種語言模型的準確性改進的圖表,其中改進針對第二集合 的文章使用依照示例實施例確定的、第二先天上下文感知特征。
[001引圖8A-8B是例示精度-召回率曲線的圖表,其中該精度-召回率曲線依照示例實 施例基于先天上下文感知特征。
[0013]圖9A-9C是例示針對給定話題模型的準確性改進的圖表,其中改進基于評論數(shù)量W及依照示例實施例確定的、所確定傳遞上下文感知特征。
[0014] 圖lOA-lOB例示依照示例實施例用于確定從評論集合中選擇的評論是否不相關(guān) 的方法。
[0015] 圖11是例示機器的組件的框圖,其中該機器的組件依照示例實施例配置成從機 器可讀介質(zhì)中讀取指令。
【具體實施方式】
[0016] 檢測對文章或公告的不相關(guān)評論是困難的。第一,評論通常非常短,并且給定運樣 有限的信息,捕獲評論的語義和相關(guān)性是困難的。
[0017] 第二,在不同上下文的情況下,相同的單詞能夠具有完全不同的含義。例如,分別 給定關(guān)于房地產(chǎn)和NASA的火星探測計劃的兩個新聞文章,在運些文章的評論中使用的術(shù) 語"space"能夠指"作為營業(yè)場所租用或出售的區(qū)域"或"超出地球大氣層的物理宇宙",其 是兩個完全不同的概念。特別地,評論的上下文在定義評論的語義和相關(guān)性中具有重要作 用。
[0018] 第Ξ,在現(xiàn)實世界應用中,存在不相關(guān)評論在文章發(fā)布后立即公布的情況,其中僅 具有少量評論。為了例示,圖1A和1B是例示在針對由在線內(nèi)容提供者公布的給定文章的 評論集合中不相關(guān)評論的比例的圖表。特別地,圖1A和1B演示大量文章在第一批10個評 論中(如圖1A所示)或在第一批20個評論中(如圖1B所示)具有至少一個不相關(guān)評論。 運些不相關(guān)評論越早被移除,至在線內(nèi)容提供者的訪問者將被轉(zhuǎn)移得越少。然而,在早期場 景(例如,在從文章公布后的相對短時間內(nèi))測量評論的上下文感知語義和相關(guān)性能夠是 困難的,因為可能存在少于足夠數(shù)量的評論來為正被討論的評論提供上下文。
[0019] 所公開的系統(tǒng)和方法針對導出短文本的上下文依賴(例如,上下文感知)的語 義,使得與在不考慮上下文(上下文不可知)情況下導出的那些相比,相關(guān)性測量更準確。 通過評論的語義環(huán)境(周圍文本)確定評論的上下文依賴的語義(諸如上述示例中的詞 "space"的變化的含義)。運個公開從事于將評論的"先天(native)上下文"構(gòu)建為針對 相同文章和/或公告所公布的評論集合,因為運些評論在諸如語言、話題、術(shù)語等的各種屬 性之中更可能彼此相似。所構(gòu)建的先天上下文可與一種或多種語言模型禪合來從運樣短評 論中導出上下文依賴的語義。
[0020] 在一個實施例中,所公開系統(tǒng)和方法采用(leverage)先天上下文作為主體并使 用各種語言模型,諸如潛在狄利克雷分配("LDA")或奇異值分解("SVD"),來找到評論的 上下文依賴的潛在話題。在本文構(gòu)建的先天上下文假設(shè)存在針對一個文章所公布的足夠的 評論來充當評論的上下文。足夠評論的數(shù)量(例如評論闊值)可W事先預確定,并且,在各 種實施例中,可W是特定數(shù)量的評論、所公布的評論的比例、所公布評論的總字數(shù),W及其 他運樣的度量。
[0021] 在文章被公布后不久,一般有相對少的評論。對于大多數(shù)語言模型而言,具有少量 評論可能難于用來確定與運樣的評論關(guān)聯(lián)的話題。然而,針對具有與正被討論的文章相類 似話題的文章所公布的評論更可能具有類似的語言用法。例如,在關(guān)于"房地產(chǎn)"的文章之 后的評論更可能將術(shù)語"space"用于"住宅/商業(yè)區(qū)域"而不是"太空探索"的意義。因此, 在一個實施例中,所公開的系統(tǒng)和方法從事于從類似話題的其他文章中傳遞類似短文本來 構(gòu)建"傳遞上下文",其繼承先天上下文的力量但避免了上下文信息的稀疏。已構(gòu)建傳遞上 下文的情況下,所公開語言模型可隨后導出上下文依賴的語義來確定與正被討論的文章關(guān) 聯(lián)的給定評論是否是相關(guān)的。
[0022] 鑒于前述內(nèi)容,W下示例系統(tǒng)和方法針對于確定在文章或公告之后的評論(例 如,短段落文本)是否與文章或公告不相關(guān)。特別地,所公開系統(tǒng)和方法采用針對評論集合 的所確定上下文來基于所確定上下文確定給定評論是否與該評論集合不相關(guān)。此外,所確 定上下文可W是從該評論集合中確定的先天上下文,或從話題相似的第二評論集合中確定 的傳遞上下文。運樣所確定上下文的技術(shù)效果,無論其是先天的或是傳遞的,是存在通過語 言分類器確定從評論集合中選擇的評論是否不相關(guān)的總體精確性的增加。
[0023] 在一個實施例中,運個公開提供用于檢測不相關(guān)文本的方法,其中該方法包括從 多個文章中選擇興趣文章,該文章與先前從已訪問該文章的一個或多個實體中提供的第一 批多個評論關(guān)聯(lián),W及提取第一批多個評論。響應于第一批多個評論超過評論闊值的確定, 該方法還包括基于上下文感知話題分布W及所選評論與所選文章之間的相似性為從所提 取第一批多個評論中選擇的評論確定上下文感知特征,使用所確定上下文感知特征將文本 分類器應用于所提取一個或多個評論,該文本分類器提供來自所提取多個評論的給定評論 是否不相關(guān)的指示,W及響應于所應用的文本分類器,基于所提供指示對給定評論采取行 動。
[0024] 另外,響應于所提取一個或多個評論并未超過評論闊值的確定,該方法也包括從 選自于多個文章的文章子集中提取第二批多個評論,所提取第二批多個評論與所提取第一 批多個評論話題相似,定義傳遞上下文為所提取第一批多個評論和所提取第二批多個評論 的組合,基于傳遞上下文及所選評論與所選文章之間的相似性為選自于第一批多個評論中 的評論確定傳遞上下文感知特征,使用所確定傳遞上下文感知特征將文本分類器應用于所 提取第一批多個評論,該文本分類器提供來自所提取第一批多個評論中的給定評論是否不 相關(guān)的指示,W及響應于所應用的文本分類器,基于所提供指示對給定評論采取行動。
[0025] 在該方法的另一實施例中,該方法包括確定與傳遞上下文關(guān)聯(lián)的話題的傳遞上下 文感知話題分布,其中,傳遞上下文感知特征的確定是基于所確定的傳遞上下文感知話題 分布。
[0026] 在該方法的又一實施例中,該方法包括為第一批多個評論確定術(shù)語-評論矩陣, 術(shù)語-評論矩陣識別存在于第一批多個評論中的多個術(shù)語,W及將矩陣因子分解應用到術(shù) 語-評論矩陣來獲取與第一批多個評論關(guān)聯(lián)的話題的上下文感知話題分布。
[0027] 在該方法的又一實施例中,應用到術(shù)語-評論矩陣的矩陣因子分解包括非負矩陣 因子分解。
[0028] 在該方法的又一實施例中,所選評論與所選文章之間的相似性定義為
其中: /、;;:{、;是通過使用單值分解矩陣因子分解來分解術(shù)語-評論矩陣所獲得的矢量-矢 量變換; 是從選自于多個文章中的第d個文章的所提取一個或多個評論中選取的第k個評 論;化及 1?定義為
其中 Qd是針對選自于多個文章中的第d個文章從所提取一個或多個評論來構(gòu)建的術(shù)語-文 檔矩陣; q是從所提取一個或多個評論中選取的評論;W及Cd是與所選文章關(guān)聯(lián)的所提取一個或多個評論的數(shù)量。
[0029] 在該方法的另一實施例中,所采取行動包括基于超過先前設(shè)立的闊值的指示將給 定評論識別為不相關(guān)評論,W及移除給定評論與所選文章的關(guān)聯(lián)。
[0030] 在該方法的又一實施例中,所采取行動包括基于超過第一先前設(shè)立的闊值的指示 將給定評論識別為不相關(guān)評論,W及基于未超過第二先前設(shè)立的闊值的指示來識別給定評 論W供由審查者進行的節(jié)制(moderation)。
[0031] 本公開也描述用于檢測不相關(guān)文本的系統(tǒng)。在一個實施例中,該系統(tǒng)包括具有儲 存于其上的計算機可執(zhí)行指令的非暫時性、計算機可讀介質(zhì),W及已執(zhí)行計算機可執(zhí)行指 令、與非暫時性、計算機可讀介質(zhì)通信的一個或多個處理器,其配置成從多個文章中選擇興 趣文章,所選文章與先前從已訪問所選文章的一個或多個實體中提供的第一批多個評論關(guān) 聯(lián),W及提取該第一批多個評論。該一個或多個處理器還配置成,響應于第一批多個評論超 過評論闊值的確定,基于上下文感知話題分布及所選評論與所選文章之間的相似性為從所 提取第一批多個評論中選擇的評論確定上下文感知特征,使用所確定上下文感知特征將文 本分類器應用于所提取一個或多個評論,文本分類器提供來自所提取多個評論中的給定評 論是否不相關(guān)的指示,W及響應于所應用的文本分類器,基于所提供的指示對給定評論采 取行動。
[0