国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      處理新聞數(shù)據(jù)的方法及裝置與流程

      文檔序號(hào):12364378閱讀:982來(lái)源:國(guó)知局
      處理新聞數(shù)據(jù)的方法及裝置與流程

      本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種處理新聞數(shù)據(jù)的方法及裝置。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的新聞?lì)愋驮絹?lái)越豐富,新聞數(shù)量也越來(lái)越多,從而人們?cè)诖罅啃侣勚胁檎页雠c某影視相關(guān)新聞的難度越來(lái)越大,進(jìn)而如何使計(jì)算機(jī)自動(dòng)識(shí)別影視相關(guān)新聞是極其重要的。

      現(xiàn)有的識(shí)別影視相關(guān)新聞的方法主要有兩種:(1)將當(dāng)前影視的影視名稱(chēng)或者影視人物與待識(shí)別新聞進(jìn)行字面匹配,若待識(shí)別新聞中包含當(dāng)前影視的影視名稱(chēng)或者影視人物,則確定該新聞與當(dāng)前影視相關(guān),若不包含,則確定該新聞與當(dāng)前影視不相關(guān);(2)統(tǒng)計(jì)待識(shí)別新聞中包含當(dāng)前影視的影視名稱(chēng)或者影視人物的數(shù)量,若數(shù)量超過(guò)閾值,則確定該新聞與當(dāng)前影視相關(guān),若數(shù)量沒(méi)有超過(guò)閾值,則確定該新聞與當(dāng)前影視不相關(guān)。

      然而,發(fā)明人在實(shí)現(xiàn)上述發(fā)明的過(guò)程中發(fā)現(xiàn),有的新聞中雖然提及過(guò)某影視的影視名稱(chēng)或者影視人物,但是整個(gè)新聞的重點(diǎn)卻是廣告、個(gè)人評(píng)論等信息,因此采用第一種方法(或者第二種方法)可能會(huì)將包含當(dāng)前影視的影視信息但是新聞內(nèi)容卻與當(dāng)前影視不相關(guān)的新聞?wù)`判為相關(guān)新聞;有的新聞卻因篇幅較短,所提及的影視名稱(chēng)或者影視人物的次數(shù)不多,但是整個(gè)新聞的重點(diǎn)卻是與該影視相關(guān),例如該新聞是對(duì)某影視發(fā)布會(huì)的簡(jiǎn)單介紹,因此采用第二種方法會(huì)將新聞內(nèi)容與當(dāng)前影視相關(guān)但提及影視名稱(chēng)或者影視人物的次數(shù)較少的新聞?wù)`判為不相關(guān)新聞。由此可知,現(xiàn)有的識(shí)別影視相關(guān)新聞的準(zhǔn)確率較低。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明實(shí)施例提供一種處理新聞數(shù)據(jù)的方法及裝置,能夠解決現(xiàn)有技術(shù)中識(shí)別影視相關(guān)新聞時(shí),準(zhǔn)確率較低的問(wèn)題。

      一方面,本發(fā)明實(shí)施例提供了一種處理新聞數(shù)據(jù)的方法,所述方法包括:

      獲取待識(shí)別的新聞庫(kù);

      將所述新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中,所述預(yù)設(shè)關(guān)注條件用于限定新聞受關(guān)注程度;

      分別將所述第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配;

      將匹配成功的新聞標(biāo)題對(duì)應(yīng)的新聞添加到第二候選新聞集合中;

      將所述第二候選新聞集合中滿足預(yù)設(shè)相關(guān)條件的新聞?wù)膶?duì)應(yīng)的新聞確定為與所述目標(biāo)對(duì)象相關(guān)的新聞,所述預(yù)設(shè)相關(guān)條件用于限定新聞?wù)陌c所述目標(biāo)對(duì)象不相關(guān)信息的程度以及相關(guān)信息的程度。

      另一方面,本發(fā)明實(shí)施例提供了一種處理新聞數(shù)據(jù)的裝置,所述裝置包括:

      獲取單元,用于獲取待識(shí)別的新聞庫(kù);

      添加單元,用于將所述獲取單元獲取的所述新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中,所述預(yù)設(shè)關(guān)注條件用于限定新聞受關(guān)注程度;

      匹配單元,用于分別將所述添加單元獲得的所述第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配;

      所述添加單元還用于將所述匹配單元匹配成功的新聞標(biāo)題對(duì)應(yīng)的新聞添加到第二候選新聞集合中;

      確定單元,用于將所述添加單元獲得的所述第二候選新聞集合中滿足預(yù)設(shè)相關(guān)條件的新聞?wù)膶?duì)應(yīng)的新聞確定為與所述目標(biāo)對(duì)象相關(guān)的新聞,所述預(yù)設(shè)相關(guān)條件用于限定新聞?wù)陌c所述目標(biāo)對(duì)象不相關(guān)信息的程度以及相關(guān)信息的程度。

      本發(fā)明實(shí)施例提供的處理新聞數(shù)據(jù)的方法及裝置,能夠在獲得待識(shí)別的新聞庫(kù)后,先將新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中,然后分別將第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配,若匹配成功,則將對(duì)應(yīng)的新聞添加到第二候選新聞集合中,最后根據(jù)用于限定新聞?wù)陌c目標(biāo)對(duì)象不相關(guān)信息程度以及相關(guān)信息程度的預(yù)設(shè)相關(guān)條件,從第二候選新聞集合中篩選出與目標(biāo)對(duì)象相關(guān)的新聞。由此可知,本發(fā)明實(shí)施例能夠通過(guò)新聞受關(guān)注程度、新聞標(biāo)題與當(dāng)前影視(即目標(biāo)對(duì)象)的匹配程度以及新聞?wù)呐c當(dāng)前影視的匹配程度等多個(gè)維度對(duì)待識(shí)別新聞庫(kù)中的新聞進(jìn)行綜合分析,來(lái)判斷其是否為與當(dāng)前影視相關(guān),而非粗濾地通過(guò)檢測(cè)新聞中是否包含某影視的影視信息或者通過(guò)統(tǒng)計(jì)新聞中包含影視信息的數(shù)據(jù)量來(lái)判斷該新聞是否與當(dāng)前影視相關(guān),從而提高了識(shí)別影視相關(guān)新聞的準(zhǔn)確率。

      附圖說(shuō)明

      為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1為本發(fā)明實(shí)施例提供的一種處理新聞數(shù)據(jù)的方法的流程圖;

      圖2為本發(fā)明實(shí)施例提供的另一種處理新聞數(shù)據(jù)的方法的流程圖;

      圖3為本發(fā)明實(shí)施例提供的一種處理新聞數(shù)據(jù)的裝置的組成框圖;

      圖4為本發(fā)明實(shí)施例提供的另一種處理新聞數(shù)據(jù)的裝置的組成框圖。

      具體實(shí)施方式

      為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      本發(fā)明實(shí)施例提供了一種處理新聞數(shù)據(jù)的方法,如圖1所示,該方法主要包括:

      101、獲取待識(shí)別的新聞庫(kù)。

      在實(shí)際應(yīng)用中,新聞識(shí)別設(shè)備可以實(shí)時(shí)或者定時(shí)獲取網(wǎng)絡(luò)上新產(chǎn)生的新聞,然后將獲取的新聞保存至待識(shí)別的新聞庫(kù)中,以便后續(xù)需要識(shí)別這些新聞與各個(gè)目標(biāo)對(duì)象的相關(guān)性時(shí),從待識(shí)別的新聞庫(kù)中獲取待識(shí)別的新聞,并對(duì)其進(jìn)行相關(guān)性識(shí)別。

      其中,新聞識(shí)別設(shè)備可以為服務(wù)器,也可以為終端,在此不做限定。目標(biāo)對(duì)象包括電視劇、電影、綜藝節(jié)目、小說(shuō)等。

      102、將所述新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中。

      其中,預(yù)設(shè)關(guān)注條件用于限定新聞受關(guān)注程度。在實(shí)際應(yīng)用中,受關(guān)注程度較高的新聞中的中心內(nèi)容往往與某目標(biāo)對(duì)象(例如某影視)相關(guān),而受關(guān)注程度較低的新聞往往僅是提及某目標(biāo)名稱(chēng)或者相關(guān)人物,而其中心內(nèi)容卻是與該目標(biāo)對(duì)象無(wú)關(guān)的個(gè)人廣告、個(gè)人評(píng)論等其他信息。因此,可以將受關(guān)注程度較高的新聞添加至第一候選新聞集合中進(jìn)行后續(xù)識(shí)別,而將受關(guān)注程度較低的新聞直接判定為與目標(biāo)對(duì)象無(wú)關(guān)的新聞。此外,與新聞受關(guān)注程度相關(guān)的參數(shù)主要包括新聞來(lái)源、新聞轉(zhuǎn)發(fā)量等,新聞識(shí)別設(shè)備可以通過(guò)新聞來(lái)源、新聞轉(zhuǎn)發(fā)量等多個(gè)方面判斷新聞是否可以添加至第一候選新聞集合中進(jìn)行后續(xù)判斷。

      103、分別將所述第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配。

      其中,信息包括目標(biāo)名稱(chēng)、相關(guān)人物的人物列表。由于新聞標(biāo)題往往能夠體現(xiàn)出新聞?wù)牡闹行乃枷?,所以?dāng)新聞識(shí)別設(shè)備從待識(shí)別的新聞庫(kù)中篩選出滿足預(yù)設(shè)關(guān)注條件的新聞后,可以進(jìn)一步對(duì)這些新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息的匹配程度進(jìn)行識(shí)別,以便確定新聞在用于標(biāo)志中心思想的新聞標(biāo)題上是否與目標(biāo)對(duì)象相關(guān)。

      104、將匹配成功的新聞標(biāo)題對(duì)應(yīng)的新聞添加到第二候選新聞集合中。

      當(dāng)新聞識(shí)別設(shè)備確定第一候選新聞集合中某新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息匹配成功時(shí),可以確定該新聞標(biāo)題與目標(biāo)對(duì)象相關(guān),但還無(wú)法確定新聞?wù)闹忻枋龅膬?nèi)容是否與目標(biāo)對(duì)象相關(guān),因此可以將該新聞添加到第二候選新聞集合中,以便后續(xù)根據(jù)新聞?wù)倪M(jìn)行進(jìn)一步判斷;當(dāng)新聞識(shí)別設(shè)備確定第一候選新聞集合中某新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息匹配失敗時(shí),可以直接將該新聞確定為與目標(biāo)對(duì)象不相關(guān)的新聞,而不再進(jìn)行后續(xù)判斷。

      105、將所述第二候選新聞集合中滿足預(yù)設(shè)相關(guān)條件的新聞?wù)膶?duì)應(yīng)的新聞確定為與所述目標(biāo)對(duì)象相關(guān)的新聞。

      其中,預(yù)設(shè)相關(guān)條件用于限定新聞?wù)陌c目標(biāo)對(duì)象不相關(guān)信息的程度以及相關(guān)信息的程度。由于新聞?wù)闹邪c目標(biāo)對(duì)象不相關(guān)的信息越少,包含與目標(biāo)對(duì)象相關(guān)的信息越多,該新聞?wù)膶?duì)應(yīng)的新聞與目標(biāo)對(duì)象越相關(guān),而新聞?wù)闹邪c目標(biāo)對(duì)象不相關(guān)的信息越多,包含與目標(biāo)對(duì)象相關(guān)的信息越少,該新聞?wù)膶?duì)應(yīng)的新聞與目標(biāo)對(duì)象越不相關(guān),所以在獲得第二候選新聞集合后,可以通過(guò)判斷新聞?wù)闹邪c目標(biāo)對(duì)象不相關(guān)信息的程度以及相關(guān)信息的程度來(lái)確定該新聞是否為與目標(biāo)對(duì)象相關(guān)的新聞。

      需要說(shuō)明的是,本發(fā)明實(shí)施例提供的識(shí)別相關(guān)新聞的方法,不僅可以應(yīng)用于影視場(chǎng)景中,還可以應(yīng)用于其他類(lèi)似場(chǎng)景中,例如小說(shuō)等。

      本發(fā)明實(shí)施例提供的處理新聞數(shù)據(jù)的方法,能夠在獲得待識(shí)別的新聞庫(kù)后,先將新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中,然后分別將第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配,若匹配成功,則將對(duì)應(yīng)的新聞添加到第二候選新聞集合中,最后根據(jù)用于限定新聞?wù)陌c目標(biāo)對(duì)象不相關(guān)信息程度以及相關(guān)信息程度的預(yù)設(shè)相關(guān)條件,從第二候選新聞集合中篩選出與目標(biāo)對(duì)象相關(guān)的新聞。由此可知,本發(fā)明實(shí)施例能夠通過(guò)新聞受關(guān)注程度、新聞標(biāo)題與當(dāng)前影視(即目標(biāo)對(duì)象)的匹配程度以及新聞?wù)呐c當(dāng)前影視的匹配程度等多個(gè)維度對(duì)待識(shí)別新聞庫(kù)中的新聞進(jìn)行綜合分析,來(lái)判斷其是否為與當(dāng)前影視相關(guān),而非粗濾地通過(guò)檢測(cè)新聞中是否包含某影視的影視信息或者通過(guò)統(tǒng)計(jì)新聞中包含影視信息的數(shù)據(jù)量來(lái)判斷該新聞是否與當(dāng)前影視相關(guān),從而提高了識(shí)別影視相關(guān)新聞的準(zhǔn)確率。

      需要說(shuō)明的是,由于本發(fā)明實(shí)施例提高了識(shí)別影視相關(guān)新聞的準(zhǔn)確率,所以在基于本發(fā)明實(shí)施例獲得各個(gè)影視相關(guān)的新聞后,基于這些新聞統(tǒng)計(jì)熱點(diǎn)新聞、熱點(diǎn)影視的準(zhǔn)確率也會(huì)隨之提高。此外,當(dāng)基于搜索引擎查找某影視相關(guān)新聞時(shí),若采用本發(fā)明實(shí)施例的識(shí)別方法,則可以提高搜索相關(guān)新聞的準(zhǔn)確率。

      進(jìn)一步的,依據(jù)上述方法實(shí)施例,本發(fā)明的另一個(gè)實(shí)施例提供了一種處理新聞數(shù)據(jù)的方法,如圖2所示,該方法主要包括:

      201、獲取待識(shí)別的新聞庫(kù)。

      202、將所述新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中。

      本步驟的具體實(shí)現(xiàn)方式可以為:

      (a)獲取新聞可靠來(lái)源庫(kù)。

      其中,構(gòu)建新聞可靠來(lái)源庫(kù)的具體實(shí)現(xiàn)方式可以為:獲取數(shù)據(jù)庫(kù)中存儲(chǔ)的新聞;確定每篇新聞的新聞來(lái)源;根據(jù)每個(gè)新聞來(lái)源的出現(xiàn)頻次,對(duì)新聞來(lái)源進(jìn)行排序;將出現(xiàn)頻次為前N名的新聞來(lái)源添加至新聞可靠來(lái)源庫(kù)中,其中,N為正整數(shù)。

      其中,數(shù)據(jù)庫(kù)中存儲(chǔ)的新聞是從各個(gè)網(wǎng)站上采集的所有新聞,即包括已識(shí)別的新聞和未識(shí)別的新聞,而待識(shí)別的新聞庫(kù)中的新聞為本發(fā)明采集的未識(shí)別的新聞。N可以根據(jù)大量的統(tǒng)計(jì)經(jīng)驗(yàn)獲得,例如可以為100。在確定每篇新聞的新聞來(lái)源時(shí),可以從新聞開(kāi)頭部分或者新聞結(jié)尾部分獲得,也可以通過(guò)其他方式獲得。

      (b)確定所述新聞庫(kù)中每篇新聞的新聞來(lái)源。

      (c)若所述新聞的新聞來(lái)源包含在所述新聞可靠來(lái)源庫(kù)中,則將所述新聞添加到所述第一候選新聞集合中。

      若某新聞的新聞來(lái)源沒(méi)有包含在新聞可靠來(lái)源庫(kù)中,則新聞識(shí)別設(shè)備可以確定該新聞的來(lái)源不可靠,從而直接確定該新聞與目標(biāo)對(duì)象不相關(guān)。

      然而,在實(shí)際應(yīng)用中,可靠來(lái)源網(wǎng)站中也存在只提及目標(biāo)名稱(chēng)或者相關(guān)人物,而實(shí)際內(nèi)容與該目標(biāo)對(duì)象無(wú)關(guān)的新聞,且這些新聞被關(guān)注的程度往往較低,所以還需要通過(guò)用于表征關(guān)注程度的其他參數(shù)對(duì)可靠來(lái)源的新聞進(jìn)行二次篩選。因此,在確定某新聞的新聞來(lái)源包含在新聞可靠來(lái)源庫(kù)中后,還可以再統(tǒng)計(jì)一下該新聞的轉(zhuǎn)發(fā)量,若轉(zhuǎn)發(fā)量大于預(yù)設(shè)轉(zhuǎn)發(fā)閾值,則再將該新聞添加到第一候選新聞集合中,若轉(zhuǎn)發(fā)量小于等于預(yù)設(shè)轉(zhuǎn)發(fā)閾值,則直接將該新聞確定為與目標(biāo)對(duì)象不相關(guān)的新聞。

      203、分別將所述第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配。

      具體的,在上述實(shí)施例中提及信息包括目標(biāo)名稱(chēng)、相關(guān)人物的人物列表,因此本步驟的具體實(shí)現(xiàn)方式可以為:針對(duì)第一候選新聞集合,分別判斷每篇新聞的新聞標(biāo)題中是否包含目標(biāo)對(duì)象的人物列表中至少一個(gè)人物以及新聞標(biāo)題中的內(nèi)容是否包含在目標(biāo)對(duì)象的目標(biāo)名稱(chēng)中;若新聞標(biāo)題包含目標(biāo)對(duì)象的人物列表中至少一個(gè)人物或者新聞標(biāo)題中的內(nèi)容包含在目標(biāo)對(duì)象的目標(biāo)名稱(chēng)中,則匹配成功;若新聞標(biāo)題不包含目標(biāo)對(duì)象的人物列表中至少一個(gè)人物且新聞標(biāo)題中的內(nèi)容不包含在目標(biāo)對(duì)象的目標(biāo)名稱(chēng)中,則匹配失敗。

      需要說(shuō)明的是,由于影視名稱(chēng)等通常增加有書(shū)名號(hào),且新聞標(biāo)題中除了影視名稱(chēng)外,往往還含有其他內(nèi)容,因此,為了提高匹配的準(zhǔn)確度,可以將“判斷新聞標(biāo)題中的內(nèi)容是否包含在目標(biāo)對(duì)象的目標(biāo)名稱(chēng)中”具體細(xì)化為“判斷新聞標(biāo)題的書(shū)名號(hào)中的內(nèi)容是否包含在目標(biāo)對(duì)象的目標(biāo)名稱(chēng)中”。

      204、將匹配成功的新聞標(biāo)題對(duì)應(yīng)的新聞添加到第二候選新聞集合中。

      205、獲取不相關(guān)詞詞典。

      其中,構(gòu)建不相關(guān)詞詞典的具體實(shí)現(xiàn)方式可以為:獲取數(shù)據(jù)庫(kù)中存儲(chǔ)的新聞;分別對(duì)每篇新聞進(jìn)行分詞處理;根據(jù)每個(gè)詞語(yǔ)出現(xiàn)的次數(shù),對(duì)詞語(yǔ)進(jìn)行排序;將次數(shù)位于前M名以及最后P名的詞語(yǔ)構(gòu)成的集合確定為不相關(guān)詞詞典,其中,M和P為正整數(shù)。

      由于在實(shí)際應(yīng)用中,如“的”“地”等詞在一篇新聞中出現(xiàn)的次數(shù)相對(duì)較高,所以可以將出現(xiàn)次數(shù)位于前M名的詞語(yǔ)加入不相關(guān)詞詞典中,又由于出現(xiàn)次數(shù)位于最后P名的詞語(yǔ)往往是一些無(wú)關(guān)緊要的詞語(yǔ),所以可以次數(shù)位于最后P名的詞語(yǔ)加入不相關(guān)詞詞典中。其中,M、P可以根據(jù)大量經(jīng)驗(yàn)獲得,例如M為50,P為80。

      此外,還可以將實(shí)際經(jīng)驗(yàn)積累的一些與影視無(wú)關(guān)的詞加入到不相關(guān)詞詞典,例如,“搶票”、“排片”等。

      206、分別統(tǒng)計(jì)所述第二候選新聞集合中每篇新聞的新聞?wù)闹邪霾幌嚓P(guān)詞詞典中詞語(yǔ)的個(gè)數(shù),以及包含所述目標(biāo)對(duì)象的信息的個(gè)數(shù)。

      具體的,新聞識(shí)別設(shè)備在獲得第二候選新聞集合后,可以分別對(duì)集合中的新聞?wù)倪M(jìn)行分詞處理,然后分別統(tǒng)計(jì)新聞?wù)闹邪幌嚓P(guān)詞(即不相關(guān)詞詞典中的詞語(yǔ))的個(gè)數(shù)以及包含目標(biāo)對(duì)象的信息的個(gè)數(shù)。

      其中,目標(biāo)對(duì)象的目標(biāo)名稱(chēng)和/或相關(guān)人物出現(xiàn)在新聞?wù)牡囊痪湓捴谢蛘叱霈F(xiàn)在新聞?wù)牡囊欢卧捴械膫€(gè)數(shù)越多,表明該新聞?wù)牡膶?shí)質(zhì)內(nèi)容與目標(biāo)對(duì)象越相關(guān),因此,分別統(tǒng)計(jì)第二候選新聞集合中每篇新聞的新聞?wù)闹邪繕?biāo)對(duì)象的信息的個(gè)數(shù)的具體實(shí)現(xiàn)方式可以為:分別統(tǒng)計(jì)第二候選新聞集合中每篇新聞的新聞?wù)闹忻烤湓挵繕?biāo)對(duì)象的目標(biāo)名稱(chēng)和/或人物列表中至少一個(gè)人物的個(gè)數(shù);或者,分別統(tǒng)計(jì)第二候選新聞集合中每篇新聞的新聞?wù)闹忻慷挝淖职繕?biāo)對(duì)象的目標(biāo)名稱(chēng)和/或人物列表中至少一個(gè)人物的個(gè)數(shù)。

      207、若所述新聞的新聞?wù)闹邪霾幌嚓P(guān)詞詞典中詞語(yǔ)的個(gè)數(shù)小于第一預(yù)設(shè)閾值且所述新聞的新聞?wù)闹邪瞿繕?biāo)對(duì)象的信息的個(gè)數(shù)大于第二預(yù)設(shè)閾值,則將所述新聞確定為與所述目標(biāo)對(duì)象相關(guān)的新聞。

      若所述新聞的新聞?wù)闹邪霾幌嚓P(guān)詞詞典中詞語(yǔ)的個(gè)數(shù)大于等于第一預(yù)設(shè)閾值,或者所述新聞的新聞?wù)闹邪瞿繕?biāo)對(duì)象的信息的個(gè)數(shù)小于等于第二預(yù)設(shè)閾值,則將所述新聞確定為與所述目標(biāo)對(duì)象不相關(guān)的新聞。

      具體的,當(dāng)新聞?wù)闹邪幌嚓P(guān)詞詞典中詞語(yǔ)的個(gè)數(shù)小于第一預(yù)設(shè)閾值時(shí),新聞識(shí)別設(shè)備可以確定該新聞?wù)陌呐c目標(biāo)對(duì)象不相關(guān)的、無(wú)意義的詞語(yǔ)較少;當(dāng)新聞?wù)闹邪繕?biāo)對(duì)象的信息的個(gè)數(shù)大于第二預(yù)設(shè)閾值時(shí),新聞識(shí)別設(shè)備可以確定該新聞?wù)闹邪繕?biāo)對(duì)象的信息較多。因此,當(dāng)某新聞?wù)耐瑫r(shí)滿足這兩個(gè)條件時(shí),新聞識(shí)別設(shè)備可以確定該新聞?wù)膶?duì)應(yīng)的新聞與目標(biāo)對(duì)象相關(guān),當(dāng)某新聞?wù)淖疃酀M足這兩個(gè)條件中的一個(gè)條件時(shí),新聞識(shí)別設(shè)備可以確定該新聞?wù)膶?duì)應(yīng)的新聞與目標(biāo)對(duì)象不相關(guān)。

      本發(fā)明實(shí)施例提供的處理新聞數(shù)據(jù)的方法,能夠在獲得待識(shí)別的新聞庫(kù)后,先從新聞庫(kù)中篩選出具有可靠來(lái)源且轉(zhuǎn)發(fā)量較高的新聞,然后從篩選出的新聞中查找出新聞標(biāo)題包含目標(biāo)對(duì)象的目標(biāo)名稱(chēng)或者相關(guān)人物的新聞,最后將查找出的新聞?wù)陌幌嚓P(guān)詞個(gè)數(shù)小于第一預(yù)設(shè)閾值且包含信息個(gè)數(shù)大于第二預(yù)設(shè)閾值的新聞確定為與目標(biāo)對(duì)象相關(guān)的新聞,將其他新聞確定為與目標(biāo)對(duì)象無(wú)關(guān)的新聞,由此本發(fā)明實(shí)施例在可靠來(lái)源、轉(zhuǎn)發(fā)量、新聞標(biāo)題包含當(dāng)前影視(即目標(biāo)對(duì)象)的影視信息情況、新聞?wù)陌幌嚓P(guān)詞情況以及新聞?wù)陌?dāng)前影視的影視信息情況等多方面對(duì)待識(shí)別新聞進(jìn)行了分析,而非粗濾地通過(guò)檢測(cè)新聞中是否包含某影視的影視信息或者通過(guò)統(tǒng)計(jì)新聞中包含影視信息的數(shù)據(jù)量來(lái)對(duì)待識(shí)別新聞進(jìn)行分析,從而提高了識(shí)別影視相關(guān)新聞的準(zhǔn)確率。

      進(jìn)一步的,依據(jù)上述方法實(shí)施例,本發(fā)明的另一個(gè)實(shí)施例還提供了一種處理新聞數(shù)據(jù)的裝置,如圖3所示,該裝置主要包括:獲取單元31、添加單元32、匹配單元33以及確定單元34。其中,

      獲取單元31,用于獲取待識(shí)別的新聞庫(kù);

      添加單元32,用于將所述獲取單元31獲取的所述新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中,所述預(yù)設(shè)關(guān)注條件用于限定新聞受關(guān)注程度;

      匹配單元33,用于分別將所述添加單元32獲得的所述第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配;

      所述添加單元32還用于將所述匹配單元33匹配成功的新聞標(biāo)題對(duì)應(yīng)的新聞添加到第二候選新聞集合中;

      確定單元34,用于將所述添加單元32獲得的所述第二候選新聞集合中滿足預(yù)設(shè)相關(guān)條件的新聞?wù)膶?duì)應(yīng)的新聞確定為與所述目標(biāo)對(duì)象相關(guān)的新聞,所述預(yù)設(shè)相關(guān)條件用于限定新聞?wù)陌c所述目標(biāo)對(duì)象不相關(guān)信息的程度以及相關(guān)信息的程度。

      本發(fā)明實(shí)施例提供的處理新聞數(shù)據(jù)的裝置,能夠在獲得待識(shí)別的新聞庫(kù)后,先將新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中,然后分別將第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配,若匹配成功,則將對(duì)應(yīng)的新聞添加到第二候選新聞集合中,最后根據(jù)用于限定新聞?wù)陌c目標(biāo)對(duì)象不相關(guān)信息程度以及相關(guān)信息程度的預(yù)設(shè)相關(guān)條件,從第二候選新聞集合中篩選出與目標(biāo)對(duì)象相關(guān)的新聞。由此可知,本發(fā)明實(shí)施例能夠通過(guò)新聞受關(guān)注程度、新聞標(biāo)題與當(dāng)前影視(即目標(biāo)對(duì)象)的匹配程度以及新聞?wù)呐c當(dāng)前影視的匹配程度等多個(gè)維度對(duì)待識(shí)別新聞庫(kù)中的新聞進(jìn)行綜合分析,來(lái)判斷其是否為與當(dāng)前影視相關(guān),而非粗濾地通過(guò)檢測(cè)新聞中是否包含某影視的影視信息或者通過(guò)統(tǒng)計(jì)新聞中包含影視信息的數(shù)據(jù)量來(lái)判斷該新聞是否與當(dāng)前影視相關(guān),從而提高了識(shí)別影視相關(guān)新聞的準(zhǔn)確率。

      進(jìn)一步的,如圖4所示,所述添加單元32包括:

      第一獲取模塊321,用于獲取新聞可靠來(lái)源庫(kù);

      第一確定模塊322,用于確定所述新聞庫(kù)中每篇新聞的新聞來(lái)源;

      第一添加模塊323,用于當(dāng)所述新聞的新聞來(lái)源包含在所述新聞可靠來(lái)源庫(kù)中時(shí),將所述新聞添加到所述第一候選新聞集合中。

      進(jìn)一步的,如圖4所示,所述添加單元32還包括:

      第一統(tǒng)計(jì)模塊324,用于在將所述新聞添加到所述第一候選新聞集合中之前,統(tǒng)計(jì)所述新聞的轉(zhuǎn)發(fā)量。

      進(jìn)一步的,所述第一添加模塊323還用于當(dāng)所述轉(zhuǎn)發(fā)量大于預(yù)設(shè)轉(zhuǎn)發(fā)閾值時(shí),將所述新聞添加到第一候選新聞集合中。

      進(jìn)一步的,如圖4所示,所述第一獲取模塊321包括:

      第一獲取子模塊3211,用于獲取數(shù)據(jù)庫(kù)中存儲(chǔ)的新聞;

      第一確定子模塊3212,用于確定所述第一獲取子模塊3211獲取的每篇新聞的新聞來(lái)源;

      第一排序子模塊3213,用于根據(jù)所述第一確定子模塊3212確定的每個(gè)新聞來(lái)源的出現(xiàn)頻次,對(duì)新聞來(lái)源進(jìn)行排序;

      添加子模塊3214,用于將所述第一排序子模塊3213獲得的出現(xiàn)頻次為前N名的新聞來(lái)源添加至所述新聞可靠來(lái)源庫(kù)中,其中,所述N為正整數(shù)。

      進(jìn)一步的,如圖4所示,所述匹配單元33包括:

      判斷模塊331,用于針對(duì)所述第一候選新聞集合,分別判斷每篇新聞的新聞標(biāo)題中是否包含所述目標(biāo)對(duì)象的人物列表中至少一個(gè)人物以及所述新聞標(biāo)題中的內(nèi)容是否包含在所述目標(biāo)對(duì)象的目標(biāo)名稱(chēng)中;

      第二確定模塊332,用于當(dāng)所述判斷模塊331的判斷結(jié)果為所述新聞標(biāo)題包含所述目標(biāo)對(duì)象的人物列表中至少一個(gè)人物或者所述新聞標(biāo)題中的內(nèi)容包含在所述目標(biāo)對(duì)象的目標(biāo)名稱(chēng)中,則匹配成功;

      所述第二確定模塊332還用于當(dāng)所述判斷模塊331的判斷結(jié)果為所述新聞標(biāo)題不包含所述目標(biāo)對(duì)象的人物列表中至少一個(gè)人物且所述新聞標(biāo)題中的內(nèi)容不包含在所述目標(biāo)對(duì)象的目標(biāo)名稱(chēng)中時(shí),匹配失敗。

      進(jìn)一步的,如圖4所示,所述確定單元34包括:

      第二獲取模塊341,用于獲取不相關(guān)詞詞典;

      第二統(tǒng)計(jì)模塊342,用于分別統(tǒng)計(jì)所述第二候選新聞集合中每篇新聞的新聞?wù)闹邪霾幌嚓P(guān)詞詞典中詞語(yǔ)的個(gè)數(shù),以及包含所述目標(biāo)對(duì)象的信息的個(gè)數(shù);

      第三確定模塊343,用于當(dāng)所述第二統(tǒng)計(jì)模塊342的統(tǒng)計(jì)結(jié)果為所述新聞的新聞?wù)闹邪霾幌嚓P(guān)詞詞典中詞語(yǔ)的個(gè)數(shù)小于第一預(yù)設(shè)閾值且所述新聞的新聞?wù)闹邪瞿繕?biāo)對(duì)象的信息的個(gè)數(shù)大于第二預(yù)設(shè)閾值時(shí),將所述新聞確定為與所述目標(biāo)對(duì)象相關(guān)的新聞。

      進(jìn)一步的,如圖4所示,所述第二統(tǒng)計(jì)模塊342包括:

      第一統(tǒng)計(jì)子模塊3421,用于分別統(tǒng)計(jì)所述第二候選新聞集合中每篇新聞的新聞?wù)闹忻烤湓挵瞿繕?biāo)對(duì)象的目標(biāo)名稱(chēng)和/或人物列表中至少一個(gè)人物的個(gè)數(shù);

      第二統(tǒng)計(jì)子模塊3422,用于分別統(tǒng)計(jì)所述第二候選新聞集合中每篇新聞的新聞?wù)闹忻慷挝淖职瞿繕?biāo)對(duì)象的目標(biāo)名稱(chēng)和/或人物列表中至少一個(gè)人物的個(gè)數(shù)。

      進(jìn)一步的,如圖4所示,所述第二獲取模塊341包括:

      第二獲取子模塊3411,用于獲取數(shù)據(jù)庫(kù)中存儲(chǔ)的新聞;

      分詞子模塊3412,用于分別對(duì)所述第二獲取子模塊3411獲得的每篇新聞進(jìn)行分詞處理;

      第二排序子模塊3413,用于根據(jù)每個(gè)詞語(yǔ)出現(xiàn)的次數(shù),對(duì)詞語(yǔ)進(jìn)行排序;

      第二確定子模塊3414,用于將所述次數(shù)位于前M名以及最后P名的詞語(yǔ)構(gòu)成的集合確定為所述不相關(guān)詞詞典,其中,所述M和所述P為正整數(shù)。

      本發(fā)明實(shí)施例提供的處理新聞數(shù)據(jù)的裝置,能夠在獲得待識(shí)別的新聞庫(kù)后,先從新聞庫(kù)中篩選出具有可靠來(lái)源且轉(zhuǎn)發(fā)量較高的新聞,然后從篩選出的新聞中查找出新聞標(biāo)題包含目標(biāo)對(duì)象的目標(biāo)名稱(chēng)或者相關(guān)人物的新聞,最后將查找出的新聞?wù)陌幌嚓P(guān)詞個(gè)數(shù)小于第一預(yù)設(shè)閾值且包含信息個(gè)數(shù)大于第二預(yù)設(shè)閾值的新聞確定為與目標(biāo)對(duì)象相關(guān)的新聞,將其他新聞確定為與目標(biāo)對(duì)象無(wú)關(guān)的新聞,由此本發(fā)明實(shí)施例在可靠來(lái)源、轉(zhuǎn)發(fā)量、新聞標(biāo)題包含當(dāng)前影視(即目標(biāo)對(duì)象)的影視信息情況、新聞?wù)陌幌嚓P(guān)詞情況以及新聞?wù)陌?dāng)前影視的影視信息情況等多方面對(duì)待識(shí)別新聞進(jìn)行了分析,而非粗濾地通過(guò)檢測(cè)新聞中是否包含某影視的影視信息或者通過(guò)統(tǒng)計(jì)新聞中包含影視信息的數(shù)據(jù)量來(lái)對(duì)待識(shí)別新聞進(jìn)行分析,從而提高了識(shí)別影視相關(guān)新聞的準(zhǔn)確率。

      上述裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,上述裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,上述實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。

      所述處理新聞數(shù)據(jù)的裝置包括處理器和存儲(chǔ)器,上述獲取單元、添加單元、匹配單元以及確定單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來(lái)實(shí)現(xiàn)相應(yīng)的功能。

      處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)為用戶提供更多用戶體感操作的游戲道具。

      存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。

      本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:

      獲取待識(shí)別的新聞庫(kù);

      將所述新聞庫(kù)中滿足預(yù)設(shè)關(guān)注條件的新聞添加到第一候選新聞集合中,所述預(yù)設(shè)關(guān)注條件用于限定新聞受關(guān)注程度;

      分別將所述第一候選新聞集合中每篇新聞的新聞標(biāo)題與目標(biāo)對(duì)象的信息進(jìn)行匹配;

      將匹配成功的新聞標(biāo)題對(duì)應(yīng)的新聞添加到第二候選新聞集合中;

      將所述第二候選新聞集合中滿足預(yù)設(shè)相關(guān)條件的新聞?wù)膶?duì)應(yīng)的新聞確定為與所述目標(biāo)對(duì)象相關(guān)的新聞,所述預(yù)設(shè)相關(guān)條件用于限定新聞?wù)陌c所述目標(biāo)對(duì)象不相關(guān)信息的程度以及相關(guān)信息的程度。

      本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

      本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

      這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

      這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

      在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。

      存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。

      計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類(lèi)型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤(pán)只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(pán)(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤(pán)存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。

      以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。

      當(dāng)前第1頁(yè)1 2 3 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1