国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于觀點語句可信度的話題觀點強度計算方法與流程

      文檔序號:11155181閱讀:1065來源:國知局
      基于觀點語句可信度的話題觀點強度計算方法與制造工藝

      本發(fā)明涉及一種基于觀點語句可信度的話題觀點強度計算方法,用于量化表征互聯(lián)網(wǎng)中與話題有關(guān)觀點的強度,屬于互聯(lián)網(wǎng)與信息技術(shù)領(lǐng)域。



      背景技術(shù):

      隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)日益成為人們獲取信息和日常娛樂的主要途徑。在日常的學(xué)習(xí)和生活中,人們越來越依賴于從互聯(lián)網(wǎng)中獲取知識、掌握時事,越來越需要借助互聯(lián)網(wǎng)了解圍繞某一熱點話題的不同觀點。在互聯(lián)網(wǎng)中,網(wǎng)頁是最常見的信息載體,也是聯(lián)系信息和網(wǎng)民的紐帶。然而,由于互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)量眾多,每個人的精力相對有限,因此受時間和精力等因素制約,人們往往無法深入了解圍繞某一話題的所有觀點的細節(jié)?,F(xiàn)有的話題檢測與跟蹤(Topic Detection and Tracking)技術(shù),多側(cè)重于對新聞媒體信息流進行新話題的自動識別和已知話題的持續(xù)跟蹤等方面,還少有專門針對話題的不同觀點進行話題觀點強度計算方面的有效方法。

      如果可以區(qū)分不同的話題觀點,借助適宜的方法計算這些觀點強度,并通過觀點強度來揭示大眾觀點和小眾觀點,人們就能夠更加迅速在了解和勾勒出話題的全貌,并可以進一步根據(jù)自己的興趣偏好,有選擇性地了解話題不同觀點的觀點細節(jié)。例如,當人們在搜索某個熱點事件的時候,通常受時間和精力的限制只能夠閱讀少數(shù)幾個或者幾十個網(wǎng)頁,這樣就難以通過有限的網(wǎng)頁了解該熱點事件的所有觀點及每一觀點的支持比例。但是,如果可以根據(jù)與話題有關(guān)的網(wǎng)頁進行自動分析計算,進而獲得圍繞該話題的不同觀點及其觀點強度,則可以方便人們快速、理性地認識事件的主流觀點與看法。因此,亟需設(shè)計一種能對網(wǎng)頁進行自動處理的話題觀點強度計算方法,定量地計算話題不同觀點的觀點強度,既能呈現(xiàn)話題的全貌,又能展示話題不同觀點的細節(jié)。



      技術(shù)實現(xiàn)要素:

      發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題與不足,本發(fā)明提供了一種基于觀點語句可信度的話題觀點強度計算方法,該方法能夠計算話題不同觀點的觀點強度,方便用戶定量地了解圍繞話題的不同觀點的觀點強度大小,區(qū)分主要觀點和次要觀點,有選擇地去了解不同觀點的細節(jié)信息。

      技術(shù)方案:一種基于觀點語句可信度的話題觀點強度計算方法,先通過網(wǎng)頁的多個關(guān)鍵屬性計算出網(wǎng)頁的可信程度(簡稱網(wǎng)頁可信度),接著通過計算網(wǎng)頁中觀點語句(包含有觀點的語句)和網(wǎng)頁主題的關(guān)聯(lián)性,獲得網(wǎng)頁主題(主要是標題和關(guān)鍵詞)對于觀點語句的支持度,然后綜合網(wǎng)頁可信度和觀點語句支持度得到觀點語句的可信度,最后通過對隸屬于給定觀點類的所有觀點語句的可信度進行求和,計算得到該話題觀點類的觀點強度。

      假設(shè)圍繞某話題的觀點共分為n(≥1)類,由這n個觀點類所構(gòu)成的集合VCS={VC1,VC2,VC3,...,VCn},其中任一觀點類VCi(VCi∈VCS)包含Ci(≥1)個觀點語句,即上述n個觀點類中的所有觀點語句來源于m(≥1)個網(wǎng)頁,這m個網(wǎng)頁所構(gòu)成的集合記為VCD={d1,d2,d3,...,dm},其中任一網(wǎng)頁dk(dk∈VCD)包含Dk(≥1)個觀點語句,這Dk個觀點語句構(gòu)成網(wǎng)頁dk的觀點語句集合則話題觀點類VCi的觀點強度計算主要分為三個步驟,具體如下:

      步驟1:網(wǎng)頁可信度計算。對m個網(wǎng)頁中的每一個網(wǎng)頁dk(dk∈VCD),綜合考慮網(wǎng)頁dk的多個關(guān)鍵屬性,主要包括網(wǎng)頁dk的NPR因子、網(wǎng)頁dk的NTR因子、以及網(wǎng)頁dk的時間因子,計算出網(wǎng)頁dk的網(wǎng)頁可信度;

      步驟2:觀點語句支持度計算。對于VCi中任一觀點語句(即),不失一般性,假定滿足則首先采用余弦相似度計算方法,計算觀點語句和網(wǎng)頁dk的標題間的相似度;接著,采用余弦相似度計算方法,計算觀點語句和網(wǎng)頁dk的關(guān)鍵詞間的相似度;最后,在前述兩種相似度中,選擇取值較大的相似度,作為網(wǎng)頁dk對觀點語句的支持度;

      步驟3:話題觀點強度值計算。綜合步驟1得到的網(wǎng)頁dk的網(wǎng)頁可信度,以及步驟2得到的網(wǎng)頁dk對觀點語句的支持度,獲得觀點類VCi中任一觀點語句的可信度。最后,通過對觀點類VCi中的所有觀點語句的可信度進行求和,計算得到話題觀點的強度值。

      有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點:

      1.通過觀點語句支持度表征觀點語句和網(wǎng)頁主題的關(guān)系,并從觀點語句和網(wǎng)頁標題之間的相似度以及觀點語句和網(wǎng)頁關(guān)鍵詞之間的相似度兩個方面,更加合理地刻畫網(wǎng)頁主題對觀點語句的支持程度;

      2.給出了話題觀點強度的量化計算方法,綜合考慮了網(wǎng)頁的可信度和網(wǎng)頁對話題觀點語句的支持程度,能夠幫助用戶定量地了解話題不同觀點的觀點強度,區(qū)分主要觀點和次要觀點,加深對話題觀點的細節(jié)認識。

      附圖說明

      圖1為基于觀點語句可信度的話題觀點強度計算流程;

      圖2為話題觀點類、觀點語句和來源網(wǎng)頁的對應(yīng)關(guān)系示意圖。

      具體實施方式

      下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。

      本發(fā)明主要根據(jù)觀點語句可信度對話題觀點強度進行計算,具體計算流程如圖1所示,包括三個步驟:網(wǎng)頁可信度計算、觀點語句支持度計算和觀點強度值計算階段。假設(shè)圍繞某話題的觀點共分為n(≥1)類,由這n個觀點類所構(gòu)成的集合記為VCS={VC1,VC2,VC3,...,VCn},其中任一觀點類VCi(VCi∈VCS)包含Ci(≥1)個觀點語句,即上述n個觀點類中的所有觀點語句來源于m(≥1)個網(wǎng)頁,這m個網(wǎng)頁所構(gòu)成的集合記為VCD={d1,d2,d3,...,dm},其中任一網(wǎng)頁dk(dk∈VCD)包含Dk(≥1)個觀點語句,這Dk個觀點語句構(gòu)成網(wǎng)頁dk的觀點語句集合話題觀點類、觀點語句和來源網(wǎng)頁之間的關(guān)系如圖2所示。

      不失一般性,下面對任一話題觀點類VCi(VCi∈VCS)的觀點強度進行計算,具體三個實施步驟如下:

      步驟1:網(wǎng)頁可信度計算。對于網(wǎng)頁集合VCD中的每一個網(wǎng)頁dk(dk∈VCD),綜合考慮網(wǎng)頁dk的多個關(guān)鍵屬性,主要包括網(wǎng)頁dk的NPR因子、網(wǎng)頁dk的NTR因子、以及網(wǎng)頁dk的時間因子,采用公式(1)計算出網(wǎng)頁dk的網(wǎng)頁可信度DRW(dk);

      DRW(dk)=λ1NPR(dk)+λ2NTR(dk)+λ3T(dk) 公式(1)

      公式(1)中的3個系數(shù)λ1、λ2和λ3滿足:在本發(fā)明中,取λ1=0.8,λ2=0.1,λ3=0.1。NPR(dk)表示網(wǎng)頁dk的NPR因子,NTR(dk)表示網(wǎng)頁dk的NTR因子,T(dk)表示網(wǎng)頁dk的時間因子。這三個因子的計算方法如下:

      網(wǎng)頁dk的NPR因子計算基于Google搜索引擎所采用的鏈接分析算法PageRank,該算法為用戶的瀏覽行為建立了一個隨機訪問模型:當用戶訪問一個網(wǎng)頁的時候,或者以概率g沿著超鏈接進行訪問,或者以概率(1-g)從一個新的頁面開始訪問。而一個頁面被訪問的概率,主要取決于鏈接到這個頁面的頁面訪問概率。如果一個頁面的入鏈越多,或者入鏈的PR值(即PageRank值)越高,則該網(wǎng)頁的PR值越高。網(wǎng)頁的PR值的取值范圍為PR∈[0,10),對網(wǎng)頁的PR值進行歸一化處理,可以得到該網(wǎng)頁的NPR(New PageRank)值。因此,網(wǎng)頁dk的NPR因子的計算如公式(2)所示,其中PR(dk)表示網(wǎng)頁dk的PageRank值(即PR值):

      網(wǎng)頁dk的NTR因子計算基于垃圾網(wǎng)站檢測算法TrustRank,該算法為每個網(wǎng)站計算一個TR值,該值的高低與網(wǎng)站是垃圾網(wǎng)站的概率大小有關(guān)。TrustRank算法首先挑選出一定數(shù)量的“種子”網(wǎng)站,并賦予這些“種子”網(wǎng)站很高的TR值;這些“種子”網(wǎng)站鏈接出的網(wǎng)站的TR值稍微降低,但仍舊很高;類似地,第二層權(quán)威網(wǎng)站鏈接向第三層權(quán)威網(wǎng)站,則第三層權(quán)威網(wǎng)站的TR值比第二層權(quán)威網(wǎng)站的TR值又稍微降低。那么,TR值與第一層權(quán)威網(wǎng)站相差較大的網(wǎng)站有很大的可能性是垃圾網(wǎng)站。本發(fā)明對TrustRank算法進行簡化處理,假定AP是權(quán)威專業(yè)網(wǎng)站的集合(包括域名為edu、org、以及挑選出的其他權(quán)威網(wǎng)站,如新華網(wǎng)、人民網(wǎng)、科學(xué)網(wǎng)、知乎等),當網(wǎng)頁屬于AP時,其NTR值設(shè)為α(在本發(fā)明中α的值取1);否則,該網(wǎng)頁的NTR值設(shè)為0。則網(wǎng)頁dk的NTR因子的計算如公式(3)所示:

      網(wǎng)頁dk的時間因子基于這樣的考慮:網(wǎng)頁的可信度高低,與網(wǎng)頁的發(fā)布時間有密切的關(guān)系。對于同樣的信息,發(fā)布時間較晚的網(wǎng)頁,搜集到的資料更加豐富和全面,自然更加能夠反應(yīng)事物的本質(zhì)信息。所以,發(fā)布時間較晚的網(wǎng)頁具有更高的可信度,相對應(yīng)地,應(yīng)該為發(fā)布時間較晚的網(wǎng)頁設(shè)置更高的可信度權(quán)重。網(wǎng)頁dk的時間因子計算如公式(4)所示:

      其中,td表示網(wǎng)頁dk的最后修改時間,而tmax表示集合VCD中修改時間最晚的網(wǎng)頁的修改時間。

      步驟2:觀點語句支持度計算。本發(fā)明使用網(wǎng)頁標題和網(wǎng)頁關(guān)鍵詞來表征網(wǎng)頁的主題,網(wǎng)頁標題可以通過對網(wǎng)頁源碼的<title>標簽獲得,而網(wǎng)頁關(guān)鍵詞則通過對網(wǎng)頁正文用TF-IDF算法得到。假設(shè)為VCi中的任一觀點語句(即),且滿足網(wǎng)頁dk的標題經(jīng)過分詞、去停用詞之后,所得的詞語集合記為取網(wǎng)頁dk的所有關(guān)鍵詞構(gòu)成集合而觀點語句經(jīng)過分詞、去停用詞之后,所得的詞語集合記為并且令

      下面示例利用余弦相似度計算方法,計算觀點語句和網(wǎng)頁dk的標題之間的相似度的過程,觀點語句和網(wǎng)頁dk的關(guān)鍵詞之間的相似度的計算過程與此類似。首先,計算網(wǎng)頁dk的標題詞語集合W1相對于詞語集合WTS的詞語向量其中元素的取值滿足公式(5):

      接著,計算觀點語句的詞語集合W3相對于詞語集合WTS的詞語向量其中元素的取值滿足公式(6):

      然后,利用公式(7)計算VT1和VS1之間的余弦相似度:

      類似地,計算網(wǎng)頁dk的關(guān)鍵詞集合W2相對于詞語集合WKS的詞語向量以及觀點語句的詞語集合W3相對于詞語集合WKS的詞語向量進而計算VT2和VS2之間的余弦相似度Cos(VT2,VS2)。

      在此基礎(chǔ)上,采用公式(8)網(wǎng)頁dk的對觀點語句的支持度:

      步驟3:話題觀點強度值計算。首先,根據(jù)步驟1得到的網(wǎng)頁dk的網(wǎng)頁可信度DRW(dk),以及步驟2得到的網(wǎng)頁dk的對觀點語句的支持度采用公式(9)計算觀點語句的可信度:

      然后,采用公式(10)對觀點類VCi中的所有觀點語句的可信度進行求和,計算得到話題觀點類VCi的強度值:

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1