国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      信息挖掘方法、電子裝置及可讀存儲(chǔ)介質(zhì)與流程

      文檔序號(hào):11199267閱讀:1071來(lái)源:國(guó)知局
      信息挖掘方法、電子裝置及可讀存儲(chǔ)介質(zhì)與流程

      本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種信息挖掘方法、電子裝置及可讀存儲(chǔ)介質(zhì)。



      背景技術(shù):

      目前,在信息挖掘和推送領(lǐng)域,業(yè)界通常是實(shí)時(shí)或者定時(shí)在預(yù)先確定的數(shù)據(jù)源(例如,各大新聞網(wǎng)站)對(duì)特定類(lèi)型的信息(例如,新聞標(biāo)題信息)進(jìn)行分析篩選,以自動(dòng)挖掘出目標(biāo)信息。現(xiàn)有的分析篩選方案是:預(yù)先訓(xùn)練好識(shí)別信息的類(lèi)別標(biāo)簽的分類(lèi)器;再利用訓(xùn)練好的分類(lèi)器對(duì)特定類(lèi)型的信息的類(lèi)別標(biāo)簽進(jìn)行識(shí)別,以識(shí)別出屬于預(yù)設(shè)類(lèi)別標(biāo)簽的目標(biāo)信息。這種現(xiàn)有的分析篩選方案只能識(shí)別出屬于預(yù)設(shè)類(lèi)別標(biāo)簽的目標(biāo)信息,無(wú)法對(duì)目標(biāo)信息指向的核心觀點(diǎn)信息進(jìn)行深度挖掘,使得目標(biāo)信息的挖掘和推送的準(zhǔn)確性無(wú)法保障,容易出錯(cuò)。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明的主要目的在于提供一種信息挖掘方法、電子裝置及可讀存儲(chǔ)介質(zhì),旨在有效挖掘出核心觀點(diǎn)信息。

      為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種信息挖掘方法,所述方法包括以下步驟:

      實(shí)時(shí)或者定時(shí)從預(yù)先確定的數(shù)據(jù)源獲取特定類(lèi)型的信息;

      對(duì)獲取的各個(gè)信息進(jìn)行分詞處理,并對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注;

      根據(jù)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞的分詞順序和詞性,將各個(gè)信息對(duì)應(yīng)的各個(gè)分詞構(gòu)建成預(yù)設(shè)結(jié)構(gòu)分詞樹(shù);

      在一個(gè)信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)構(gòu)建完成后,根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。

      優(yōu)選地,所述對(duì)獲取的各個(gè)信息進(jìn)行分詞處理的步驟包括:

      根據(jù)正向最大匹配法將每一信息中待處理的字符串與通用字詞典庫(kù)進(jìn)行匹配,得到第一匹配結(jié)果,所述第一匹配結(jié)果中包含有第一數(shù)量的第一詞組和第三數(shù)量的單字;

      根據(jù)逆向最大匹配法將每一信息中待處理的字符串與通用字詞典庫(kù)進(jìn)行匹配,得到第二匹配結(jié)果,所述第二匹配結(jié)果中包含有第二數(shù)量的第二詞組和第四數(shù)量的單字;

      若所述第一數(shù)量與所述第二數(shù)量相等,且所述第三數(shù)量小于或者等于所述第四數(shù)量,則將所述第一匹配結(jié)果作為該信息的分詞結(jié)果;

      若所述第一數(shù)量與所述第二數(shù)量相等,且所述第三數(shù)量大于所述第四數(shù)量,則將所述第二匹配結(jié)果作為該信息的分詞結(jié)果;

      若所述第一數(shù)量與所述第二數(shù)量不相等,且所述第一數(shù)量大于所述第二數(shù)量,則將所述第二匹配結(jié)果作為該信息的分詞結(jié)果;

      若所述第一數(shù)量與所述第二數(shù)量不相等,且所述第一數(shù)量小于所述第二數(shù)量,則將所述第一匹配結(jié)果作為該信息的分詞結(jié)果。

      優(yōu)選地,所述對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注的步驟包括:

      根據(jù)通用字詞典庫(kù)中字和詞分別與詞性的映射關(guān)系,及/或,預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系,確定各個(gè)信息的各個(gè)分詞對(duì)應(yīng)的詞性;

      為各個(gè)信息的各個(gè)分詞標(biāo)注對(duì)應(yīng)的詞性。

      優(yōu)選地,所述預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)包括多級(jí)節(jié)點(diǎn),第一級(jí)節(jié)點(diǎn)為各個(gè)信息本身,第二級(jí)節(jié)點(diǎn)為分詞短語(yǔ),第二級(jí)節(jié)點(diǎn)之后的每一級(jí)節(jié)點(diǎn)均是上一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的下一級(jí)分詞或者分詞短語(yǔ),所述根據(jù)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞的分詞順序和詞性,將各個(gè)信息對(duì)應(yīng)的各個(gè)分詞構(gòu)建成預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)的步驟包括:

      a1、在各個(gè)信息對(duì)應(yīng)的各個(gè)分詞中,找出各個(gè)預(yù)設(shè)詞性的目標(biāo)分詞;

      a2、根據(jù)各個(gè)信息中各個(gè)目標(biāo)分詞的順序,確定各個(gè)第二級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞短語(yǔ);

      a3、若一個(gè)分詞短語(yǔ)不可以進(jìn)一步分詞,則確定該分詞短語(yǔ)為所在節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn);

      a4、若一個(gè)分詞短語(yǔ)可以進(jìn)一步分詞,則找出該分詞短語(yǔ)中的各個(gè)預(yù)設(shè)詞性的目標(biāo)分詞,并根據(jù)該分詞短語(yǔ)對(duì)應(yīng)的各個(gè)目標(biāo)分詞的順序,確定該分詞短語(yǔ)的下一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞或者分詞短語(yǔ);

      a5、重復(fù)執(zhí)行上述步驟a3和a4,直到確定出各個(gè)節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞。

      優(yōu)選地,所述根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息的步驟包括:

      基于構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),計(jì)算各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞與各個(gè)預(yù)設(shè)第二關(guān)鍵詞性的分詞之間的距離;

      分別找出與各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞距離最近的預(yù)設(shè)第二關(guān)鍵詞性的分詞,并將各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞與距離其最近的預(yù)設(shè)第二關(guān)鍵詞性的分詞按照在該信息中的順序組成對(duì)應(yīng)的核心觀點(diǎn)信息。

      此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種電子裝置,所述電子裝置包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的信息挖掘系統(tǒng),所述信息挖掘系統(tǒng)被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如下步驟:

      實(shí)時(shí)或者定時(shí)從預(yù)先確定的數(shù)據(jù)源獲取特定類(lèi)型的信息;

      對(duì)獲取的各個(gè)信息進(jìn)行分詞處理,并對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注;

      根據(jù)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞的分詞順序和詞性,將各個(gè)信息對(duì)應(yīng)的各個(gè)分詞構(gòu)建成預(yù)設(shè)結(jié)構(gòu)分詞樹(shù);

      在一個(gè)信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)構(gòu)建完成后,根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。

      優(yōu)選地,所述對(duì)獲取的各個(gè)信息進(jìn)行分詞處理的步驟包括:

      根據(jù)正向最大匹配法將每一信息中待處理的字符串與通用字詞典庫(kù)進(jìn)行匹配,得到第一匹配結(jié)果,所述第一匹配結(jié)果中包含有第一數(shù)量的第一詞組和第三數(shù)量的單字;

      根據(jù)逆向最大匹配法將每一信息中待處理的字符串與通用字詞典庫(kù)進(jìn)行匹配,得到第二匹配結(jié)果,所述第二匹配結(jié)果中包含有第二數(shù)量的第二詞組和第四數(shù)量的單字;

      若所述第一數(shù)量與所述第二數(shù)量相等,且所述第三數(shù)量小于或者等于所述第四數(shù)量,則將所述第一匹配結(jié)果作為該信息的分詞結(jié)果;

      若所述第一數(shù)量與所述第二數(shù)量相等,且所述第三數(shù)量大于所述第四數(shù)量,則將所述第二匹配結(jié)果作為該信息的分詞結(jié)果;

      若所述第一數(shù)量與所述第二數(shù)量不相等,且所述第一數(shù)量大于所述第二數(shù)量,則將所述第二匹配結(jié)果作為該信息的分詞結(jié)果;

      若所述第一數(shù)量與所述第二數(shù)量不相等,且所述第一數(shù)量小于所述第二數(shù)量,則將所述第一匹配結(jié)果作為該信息的分詞結(jié)果。

      優(yōu)選地,所述對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注的步驟包括:

      根據(jù)通用字詞典庫(kù)中字和詞分別與詞性的映射關(guān)系,及/或,預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系,確定各個(gè)信息的各個(gè)分詞對(duì)應(yīng)的詞性;為各個(gè)信息的各個(gè)分詞標(biāo)注對(duì)應(yīng)的詞性。

      優(yōu)選地,所述預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)包括多級(jí)節(jié)點(diǎn),第一級(jí)節(jié)點(diǎn)為各個(gè)信息本身,第二級(jí)節(jié)點(diǎn)為分詞短語(yǔ),第二級(jí)節(jié)點(diǎn)之后的每一級(jí)節(jié)點(diǎn)均是上一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的下一級(jí)分詞或者分詞短語(yǔ),所述根據(jù)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞的分詞順序和詞性,將各個(gè)信息對(duì)應(yīng)的各個(gè)分詞構(gòu)建成預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)的步驟包括:

      在各個(gè)信息對(duì)應(yīng)的各個(gè)分詞中,找出各個(gè)預(yù)設(shè)詞性的目標(biāo)分詞;根據(jù)各個(gè)信息中各個(gè)目標(biāo)分詞的順序,確定各個(gè)第二級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞短語(yǔ);若一個(gè)分詞短語(yǔ)不可以進(jìn)一步分詞,則確定該分詞短語(yǔ)為所在節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn);若一個(gè)分詞短語(yǔ)可以進(jìn)一步分詞,則找出該分詞短語(yǔ)中的各個(gè)預(yù)設(shè)詞性的目標(biāo)分詞,并根據(jù)該分詞短語(yǔ)對(duì)應(yīng)的各個(gè)目標(biāo)分詞的順序,確定該分詞短語(yǔ)的下一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞或者分詞短語(yǔ),直到確定出各個(gè)節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞。

      進(jìn)一步地,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有信息挖掘系統(tǒng),所述信息挖掘系統(tǒng)可被至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器執(zhí)行如上述的信息挖掘方法的步驟。

      本發(fā)明提出的信息挖掘方法、電子裝置及可讀存儲(chǔ)介質(zhì),對(duì)從數(shù)據(jù)源獲取的特定類(lèi)型的信息進(jìn)行分詞及對(duì)各個(gè)分詞進(jìn)行詞性標(biāo)注,并根據(jù)各個(gè)分詞的順序和詞性構(gòu)建預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),基于構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。由于能對(duì)獲取的信息進(jìn)行分詞,并根據(jù)各個(gè)分詞的詞性構(gòu)建預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),利用預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)來(lái)挖掘信息中各個(gè)分詞的深度聯(lián)系以得到核心觀點(diǎn)信息,從而實(shí)現(xiàn)對(duì)信息的深度挖掘,準(zhǔn)確獲取到信息中的核心觀點(diǎn)信息。

      附圖說(shuō)明

      圖1為本發(fā)明信息挖掘系統(tǒng)10較佳實(shí)施例的運(yùn)行環(huán)境示意圖;

      圖2為本發(fā)明信息挖掘系統(tǒng)10一實(shí)施例的功能模塊示意圖;

      圖3為本發(fā)明信息挖掘方法一實(shí)施例中預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)的示意圖;

      圖4為本發(fā)明信息挖掘方法一實(shí)施例的流程示意圖。

      本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說(shuō)明。

      具體實(shí)施方式

      為了使本發(fā)明所要解決的技術(shù)問(wèn)題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

      本發(fā)明提供一種信息挖掘系統(tǒng)。請(qǐng)參閱圖1,是本發(fā)明信息挖掘系統(tǒng)10較佳實(shí)施例的運(yùn)行環(huán)境示意圖。

      在本實(shí)施例中,所述的信息挖掘系統(tǒng)10安裝并運(yùn)行于電子裝置1中。該電子裝置1可包括,但不僅限于,存儲(chǔ)器11、處理器12及顯示器13。圖1僅示出了具有組件11-13的電子裝置1,但是應(yīng)理解的是,并不要求實(shí)施所有示出的組件,可以替代的實(shí)施更多或者更少的組件。

      所述存儲(chǔ)器11在一些實(shí)施例中可以是所述電子裝置1的內(nèi)部存儲(chǔ)單元,例如該電子裝置1的硬盤(pán)或內(nèi)存。所述存儲(chǔ)器11在另一些實(shí)施例中也可以是所述電子裝置1的外部存儲(chǔ)設(shè)備,例如所述電子裝置1上配備的插接式硬盤(pán),智能存儲(chǔ)卡(smartmediacard,smc),安全數(shù)字(securedigital,sd)卡,閃存卡(flashcard)等。進(jìn)一步地,所述存儲(chǔ)器11還可以既包括所述電子裝置1的內(nèi)部存儲(chǔ)單元也包括外部存儲(chǔ)設(shè)備。所述存儲(chǔ)器11用于存儲(chǔ)安裝于所述電子裝置1的應(yīng)用軟件及各類(lèi)數(shù)據(jù),例如所述信息挖掘系統(tǒng)10的程序代碼等。所述存儲(chǔ)器11還可以用于暫時(shí)地存儲(chǔ)已經(jīng)輸出或者將要輸出的數(shù)據(jù)。

      所述處理器12在一些實(shí)施例中可以是一中央處理器(centralprocessingunit,cpu),微處理器或其他數(shù)據(jù)處理芯片,用于運(yùn)行所述存儲(chǔ)器11中存儲(chǔ)的程序代碼或處理數(shù)據(jù),例如執(zhí)行所述信息挖掘系統(tǒng)10等。

      所述顯示器13在一些實(shí)施例中可以是led顯示器、液晶顯示器、觸控式液晶顯示器以及oled(organiclight-emittingdiode,有機(jī)發(fā)光二極管)觸摸器等。所述顯示器13用于顯示在所述電子裝置1中處理的信息以及用于顯示可視化的用戶界面,例如應(yīng)用菜單界面、應(yīng)用圖標(biāo)界面等。所述電子裝置1的部件11-13通過(guò)系統(tǒng)總線相互通信。

      請(qǐng)參閱圖2,是本發(fā)明信息挖掘系統(tǒng)10較佳實(shí)施例的功能模塊圖。在本實(shí)施例中,所述的信息挖掘系統(tǒng)10可以被分割成一個(gè)或多個(gè)模塊,所述一個(gè)或者多個(gè)模塊被存儲(chǔ)于所述存儲(chǔ)器11中,并由一個(gè)或多個(gè)處理器(本實(shí)施例為所述處理器12)所執(zhí)行,以完成本發(fā)明。例如,在圖2中,所述的信息挖掘系統(tǒng)10可以被分割成獲取模塊01、分詞模塊02、構(gòu)建模塊03、解析模塊04;上述各模塊包括一系列計(jì)算機(jī)程序指令段,這些計(jì)算機(jī)程序指令段可被處理器12執(zhí)行,以實(shí)現(xiàn)本申請(qǐng)各實(shí)施例所提供的對(duì)應(yīng)的功能。以下描述將具體介紹所述模塊01-04的功能。

      獲取模塊01,用于實(shí)時(shí)或者定時(shí)從預(yù)先確定的數(shù)據(jù)源獲取特定類(lèi)型的信息。例如,可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等工具實(shí)時(shí)或者定時(shí)從預(yù)先確定的數(shù)據(jù)源(例如,各大新聞網(wǎng)站、論壇等)獲取特定類(lèi)型的信息(例如,新聞標(biāo)題信息、索引信息、簡(jiǎn)介信息等)。

      分詞模塊02,用于對(duì)獲取的各個(gè)信息進(jìn)行分詞處理,并對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注。對(duì)從數(shù)據(jù)源中獲取到的特定類(lèi)型的各個(gè)信息后,可對(duì)獲取的各個(gè)信息進(jìn)行分詞處理。例如,可利用字符串匹配的分詞方法對(duì)各個(gè)信息進(jìn)行分詞處理,如正向最大匹配法,把一個(gè)信息中的字符串從左至右來(lái)分詞,即從左到右將待分詞的信息文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞;或者,反向最大匹配法,把一個(gè)信息中的字符串從右至左來(lái)分詞,即從待分詞的信息文本的末端開(kāi)始匹配掃描,從右至左將待分詞的信息文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞;或者,最短路徑分詞法,一個(gè)信息中的字符串里面要求切出的詞數(shù)是最少的;或者,雙向最大匹配法,正反向同時(shí)進(jìn)行分詞匹配。還可利用詞義分詞法對(duì)各個(gè)信息進(jìn)行分詞處理,詞義分詞法是一種機(jī)器語(yǔ)音判斷的分詞方法,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象來(lái)分詞。還可利用統(tǒng)計(jì)分詞法對(duì)各個(gè)信息進(jìn)行分詞處理,從當(dāng)前用戶的歷史搜索記錄或大眾用戶的歷史搜索記錄中,根據(jù)詞組的統(tǒng)計(jì),會(huì)統(tǒng)計(jì)有些兩個(gè)相鄰的字出現(xiàn)的頻率較多,則可將這兩個(gè)相鄰的字作為詞組來(lái)進(jìn)行分詞。對(duì)獲取的各個(gè)信息完成分詞處理后,可對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞(包括詞組和單字)進(jìn)行詞性標(biāo)注。例如,所述詞性包括:實(shí)詞—名詞、動(dòng)詞、形容詞、數(shù)量詞、代詞等;虛詞—副詞、介詞、連詞、助詞、嘆詞、擬聲詞等。

      構(gòu)建模塊03,用于根據(jù)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞的分詞順序和詞性,將各個(gè)信息對(duì)應(yīng)的各個(gè)分詞構(gòu)建成預(yù)設(shè)結(jié)構(gòu)分詞樹(shù);

      解析模塊04,用于在一個(gè)信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)構(gòu)建完成后,根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。

      對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注后,根據(jù)各個(gè)信息中各個(gè)分詞的順序以及各個(gè)分詞標(biāo)注的詞性,將各個(gè)信息對(duì)應(yīng)的各個(gè)分詞構(gòu)建成預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)。如可設(shè)置預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中不同詞性對(duì)應(yīng)的節(jié)點(diǎn)級(jí)別,將一個(gè)信息中的各個(gè)分詞作為不同節(jié)點(diǎn),構(gòu)建該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù);還可將不同詞性的分詞組成分詞短語(yǔ),以與各個(gè)分詞形成不同的節(jié)點(diǎn)級(jí)別,構(gòu)建該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)。在一個(gè)信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)構(gòu)建完成后,根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。例如,可設(shè)置某一詞性的分詞為核心信息,或從歷史搜索記錄中統(tǒng)計(jì)確定出核心信息對(duì)應(yīng)的詞性的分詞,將該詞性設(shè)置為核心詞性,則在該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中找出屬于核心詞性,且在預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中到主節(jié)點(diǎn)的節(jié)點(diǎn)距離最短的分詞,作為該信息對(duì)應(yīng)的核心觀點(diǎn)信息。還可設(shè)置多個(gè)核心詞性,在該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中找出屬于核心詞性的多個(gè)分詞,且找到預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中屬于核心詞性的多個(gè)分詞之間節(jié)點(diǎn)距離最短的分詞組合,將該分詞組合對(duì)應(yīng)的信息作為該信息的核心觀點(diǎn)信息。

      本實(shí)施例對(duì)從數(shù)據(jù)源獲取的特定類(lèi)型的信息進(jìn)行分詞及對(duì)各個(gè)分詞進(jìn)行詞性標(biāo)注,并根據(jù)各個(gè)分詞的順序和詞性構(gòu)建預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),基于構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。由于能對(duì)獲取的信息進(jìn)行分詞,并根據(jù)各個(gè)分詞的詞性構(gòu)建預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),利用預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)來(lái)挖掘信息中各個(gè)分詞的深度聯(lián)系以得到核心觀點(diǎn)信息,從而實(shí)現(xiàn)對(duì)信息的深度挖掘,準(zhǔn)確獲取到信息中的核心觀點(diǎn)信息。

      進(jìn)一步地,在其他實(shí)施例中,在根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息之后,上述解析模塊04還用于:

      利用預(yù)先訓(xùn)練好的分類(lèi)器識(shí)別出該信息的核心觀點(diǎn)信息對(duì)應(yīng)的分類(lèi)標(biāo)簽;若識(shí)別出的分類(lèi)標(biāo)簽屬于預(yù)先確定的分類(lèi)標(biāo)簽,則將該信息的全部?jī)?nèi)容,及/或,該信息的全部?jī)?nèi)容的鏈接地址推送給預(yù)先確定的終端。例如,若用戶感興趣的為體育類(lèi)的信息,則可預(yù)先確定分類(lèi)標(biāo)簽為“體育”,在解析出從數(shù)據(jù)源得到的信息中的核心觀點(diǎn)信息之后,可進(jìn)一步地識(shí)別出該信息的核心觀點(diǎn)信息對(duì)應(yīng)的分類(lèi)標(biāo)簽,若識(shí)別出的分類(lèi)標(biāo)簽屬于“體育”類(lèi)標(biāo)簽,則判斷該信息為用戶感興趣的信息,則將該信息的全部?jī)?nèi)容,及/或,該信息的全部?jī)?nèi)容的鏈接地址推送給預(yù)先確定的終端如用戶的手機(jī)、平板電腦等,從而實(shí)現(xiàn)目標(biāo)信息的有效挖掘和精準(zhǔn)推送。

      進(jìn)一步地,在其他實(shí)施例中,上述分詞模塊02還用于:

      根據(jù)正向最大匹配法將每一信息中待處理的字符串與通用字詞典庫(kù)進(jìn)行匹配,得到第一匹配結(jié)果;

      根據(jù)逆向最大匹配法將每一信息中待處理的字符串與通用字詞典庫(kù)進(jìn)行匹配,得到第二匹配結(jié)果。其中,所述第一匹配結(jié)果中包含有第一數(shù)量的第一詞組,所述第二匹配結(jié)果中包含有第二數(shù)量的第二詞組;所述第一匹配結(jié)果中包含有第三數(shù)量的單字,所述第二匹配結(jié)果中包含有第四數(shù)量的單字。

      若所述第一數(shù)量與所述第二數(shù)量相等,且所述第三數(shù)量小于或者等于所述第四數(shù)量,則輸出所述第一匹配結(jié)果(包括詞組和單字);

      若所述第一數(shù)量與所述第二數(shù)量相等,且所述第三數(shù)量大于所述第四數(shù)量,則輸出所述第二匹配結(jié)果(包括詞組和單字);

      若所述第一數(shù)量與所述第二數(shù)量不相等,且所述第一數(shù)量大于所述第二數(shù)量,則輸出所述第二匹配結(jié)果(包括詞組和單字);

      若所述第一數(shù)量與所述第二數(shù)量不相等,且所述第一數(shù)量小于所述第二數(shù)量,則輸出所述第一匹配結(jié)果(包括詞組和單字)。

      本實(shí)施例中采用雙向匹配法來(lái)對(duì)獲取的各個(gè)信息進(jìn)行分詞處理,通過(guò)正反向同時(shí)進(jìn)行分詞匹配來(lái)分析各個(gè)信息待處理的字符串中前后組合內(nèi)容的粘性,由于通常情況下詞組能代表核心觀點(diǎn)信息的概率更大,即通過(guò)詞組更能表達(dá)出核心觀點(diǎn)信息。因此,通過(guò)正反向同時(shí)進(jìn)行分詞匹配找出單字?jǐn)?shù)量更少,詞組數(shù)量更多的分詞匹配結(jié)果,以作為信息的分詞結(jié)果,從而提高分詞及信息挖掘的準(zhǔn)確性。

      進(jìn)一步地,在其他實(shí)施例中,上述分詞模塊02還用于:

      根據(jù)通用字詞典庫(kù)中字和詞分別與詞性的映射關(guān)系(例如,通用字詞典庫(kù)中,操場(chǎng)對(duì)應(yīng)的詞性是名詞),及/或,預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系(例如,預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系中,操場(chǎng)對(duì)應(yīng)的詞性是常用名詞),確定各個(gè)信息的各個(gè)分詞對(duì)應(yīng)的詞性,并為各個(gè)信息的各個(gè)分詞標(biāo)注對(duì)應(yīng)的詞性。其中,預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系的詞性標(biāo)注優(yōu)先級(jí)高于通用字詞典庫(kù)中字和詞分別與詞性的映射關(guān)系。例如,若通用字詞典庫(kù)中操場(chǎng)對(duì)應(yīng)的詞性是名詞,而預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系中操場(chǎng)對(duì)應(yīng)的詞性是常用名詞,則優(yōu)先按照預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系來(lái)標(biāo)注,即對(duì)操場(chǎng)標(biāo)注的詞性為常用名詞。

      進(jìn)一步地,在其他實(shí)施例中,所述預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)包括多級(jí)節(jié)點(diǎn),第一級(jí)節(jié)點(diǎn)為各個(gè)信息本身,第二級(jí)節(jié)點(diǎn)為分詞短語(yǔ),第二級(jí)節(jié)點(diǎn)之后的每一級(jí)節(jié)點(diǎn)均是上一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的下一級(jí)分詞或者分詞短語(yǔ),上述構(gòu)建模塊03還用于:

      在各個(gè)信息對(duì)應(yīng)的各個(gè)分詞中,找出各個(gè)預(yù)設(shè)詞性的目標(biāo)分詞;根據(jù)各個(gè)信息中各個(gè)目標(biāo)分詞的順序,確定各個(gè)第二級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞短語(yǔ);若一個(gè)分詞短語(yǔ)不可以進(jìn)一步分詞,則確定該分詞短語(yǔ)為所在節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn);若一個(gè)分詞短語(yǔ)可以進(jìn)一步分詞,則找出該分詞短語(yǔ)中的各個(gè)預(yù)設(shè)詞性的目標(biāo)分詞,并根據(jù)該分詞短語(yǔ)對(duì)應(yīng)的各個(gè)目標(biāo)分詞的順序,確定該分詞短語(yǔ)的下一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞或者分詞短語(yǔ),直到確定出各個(gè)節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞。

      上述解析模塊04還用于:

      基于構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),計(jì)算各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞與各個(gè)預(yù)設(shè)第二關(guān)鍵詞性的分詞之間的距離;分別找出與各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞距離最近的預(yù)設(shè)第二關(guān)鍵詞性的分詞,并將各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞與距離其最近的預(yù)設(shè)第二關(guān)鍵詞性的分詞按照在該信息中的順序組成對(duì)應(yīng)的核心觀點(diǎn)信息。

      在一種具體實(shí)施方式中,如圖3所示,該信息為“我去操場(chǎng)踢足球”,對(duì)應(yīng)的分詞結(jié)果為“我去操場(chǎng)踢足球”,詞性標(biāo)注的結(jié)果為“我/代詞去/動(dòng)詞操場(chǎng)/常用名詞踢足球/常用名詞”。為該信息“我去操場(chǎng)踢足球”構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)參見(jiàn)圖3所示,該預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)包括多級(jí)節(jié)點(diǎn),第一級(jí)節(jié)點(diǎn)為信息本身,第二級(jí)節(jié)點(diǎn)為分詞短語(yǔ)(例如,名詞短語(yǔ)、動(dòng)詞短語(yǔ)及斷句符如“?!?。本實(shí)施例中,在各個(gè)信息對(duì)應(yīng)的各個(gè)分詞中,找出各個(gè)預(yù)設(shè)詞性“例如,名詞、動(dòng)詞等”的目標(biāo)分詞;根據(jù)信息中各個(gè)目標(biāo)分詞的順序,確定各個(gè)第二級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞短語(yǔ)。第二級(jí)節(jié)點(diǎn)之后的每一級(jí)節(jié)點(diǎn)均是其上一級(jí)節(jié)點(diǎn)所對(duì)應(yīng)的下一級(jí)分詞或者分詞短語(yǔ),第三級(jí)節(jié)點(diǎn)為第二級(jí)節(jié)點(diǎn)的分詞或者分詞短語(yǔ)。如圖3中所示,對(duì)該信息進(jìn)行詞性標(biāo)注的結(jié)果為“我/代詞去/動(dòng)詞操場(chǎng)/常用名詞踢足球/常用名詞”,根據(jù)該信息中各個(gè)分詞的分詞順序如從左至右的順序來(lái)確定第二級(jí)節(jié)點(diǎn),預(yù)先設(shè)定第二級(jí)節(jié)點(diǎn)為分詞短語(yǔ)包括名詞短語(yǔ)、動(dòng)詞短語(yǔ)等,該信息中從左至右,“我”為代詞屬于名詞短語(yǔ),因此“我”確定為第二級(jí)節(jié)點(diǎn),排序在“我”之后的“去”、“操場(chǎng)”、“踢足球”可組成動(dòng)詞短語(yǔ)“去操場(chǎng)踢足球”,因此,可確定“去操場(chǎng)踢足球”為第二級(jí)節(jié)點(diǎn)。因此,該信息的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中第二級(jí)節(jié)點(diǎn)包括“我”、“去操場(chǎng)踢足球”。進(jìn)一步地,第二級(jí)節(jié)點(diǎn)“我”不可以進(jìn)一步分詞,則確定該分詞短語(yǔ)為所在節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn)。而作為第二級(jí)節(jié)點(diǎn)的動(dòng)詞短語(yǔ)“去操場(chǎng)踢足球”,可以進(jìn)一步分詞,則該第二級(jí)節(jié)點(diǎn)“去操場(chǎng)踢足球”的分詞或者分詞短語(yǔ)可作為第三級(jí)節(jié)點(diǎn),該第三級(jí)節(jié)點(diǎn)包括動(dòng)詞“去”和名詞短語(yǔ)“操場(chǎng)踢足球”,進(jìn)一步地,名詞短語(yǔ)“操場(chǎng)踢足球”還可以分為第四級(jí)節(jié)點(diǎn)“操場(chǎng)”、“踢足球”。若一個(gè)分詞短語(yǔ)可以進(jìn)一步分詞,則找出該分詞短語(yǔ)中的各個(gè)預(yù)設(shè)詞性“例如,名詞、動(dòng)詞等”的目標(biāo)分詞,并根據(jù)該分詞短語(yǔ)對(duì)應(yīng)的各個(gè)目標(biāo)分詞的順序,確定該分詞短語(yǔ)的下一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞或者分詞短語(yǔ);若一個(gè)分詞短語(yǔ)不可以進(jìn)一步分詞,則確定該分詞短語(yǔ)為所在節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn)。

      基于構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),計(jì)算各個(gè)第一關(guān)鍵詞性(例如,動(dòng)詞)分詞與各個(gè)第二關(guān)鍵詞性(例如,名詞)分詞的距離,將各個(gè)第一關(guān)鍵詞性分詞與各個(gè)第二關(guān)鍵詞性分詞之間相隔的節(jié)點(diǎn)數(shù)作為所述距離。其中,第一關(guān)鍵詞性、第二關(guān)鍵詞性可根據(jù)實(shí)際需要自定義設(shè)定,或根據(jù)該用戶的歷史搜索記錄中核心信息通常對(duì)應(yīng)的詞性進(jìn)行相應(yīng)設(shè)置。分別找出與各個(gè)第一關(guān)鍵詞性分詞距離最近的第二關(guān)鍵詞性分詞,分別將各個(gè)第一關(guān)鍵詞性分詞與距離其最近的第二關(guān)鍵詞性分詞按照在該信息中的順序組成對(duì)應(yīng)的核心觀點(diǎn)信息。如圖3中的“去操場(chǎng)”、“去踢足球”作為挖掘出的該信息“我去操場(chǎng)踢足球”對(duì)應(yīng)的核心觀點(diǎn)信息。

      本發(fā)明進(jìn)一步提供一種信息挖掘方法。

      參照?qǐng)D4,圖4為本發(fā)明信息挖掘方法一實(shí)施例的流程示意圖。

      在一實(shí)施例中,該信息挖掘方法包括:

      步驟s10,實(shí)時(shí)或者定時(shí)從預(yù)先確定的數(shù)據(jù)源獲取特定類(lèi)型的信息。例如,可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等工具實(shí)時(shí)或者定時(shí)從預(yù)先確定的數(shù)據(jù)源(例如,各大新聞網(wǎng)站、論壇等)獲取特定類(lèi)型的信息(例如,新聞標(biāo)題信息、索引信息、簡(jiǎn)介信息等)。

      步驟s20,對(duì)獲取的各個(gè)信息進(jìn)行分詞處理,并對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注。

      對(duì)從數(shù)據(jù)源中獲取到的特定類(lèi)型的各個(gè)信息后,可對(duì)獲取的各個(gè)信息進(jìn)行分詞處理。例如,可利用字符串匹配的分詞方法對(duì)各個(gè)信息進(jìn)行分詞處理,如正向最大匹配法,把一個(gè)信息中的字符串從左至右來(lái)分詞,即從左到右將待分詞的信息文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞;或者,反向最大匹配法,把一個(gè)信息中的字符串從右至左來(lái)分詞,即從待分詞的信息文本的末端開(kāi)始匹配掃描,從右至左將待分詞的信息文本中的幾個(gè)連續(xù)字符與詞表匹配,如果匹配上,則切分出一個(gè)詞;或者,最短路徑分詞法,一個(gè)信息中的字符串里面要求切出的詞數(shù)是最少的;或者,雙向最大匹配法,正反向同時(shí)進(jìn)行分詞匹配。還可利用詞義分詞法對(duì)各個(gè)信息進(jìn)行分詞處理,詞義分詞法是一種機(jī)器語(yǔ)音判斷的分詞方法,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象來(lái)分詞。還可利用統(tǒng)計(jì)分詞法對(duì)各個(gè)信息進(jìn)行分詞處理,從當(dāng)前用戶的歷史搜索記錄或大眾用戶的歷史搜索記錄中,根據(jù)詞組的統(tǒng)計(jì),會(huì)統(tǒng)計(jì)有些兩個(gè)相鄰的字出現(xiàn)的頻率較多,則可將這兩個(gè)相鄰的字作為詞組來(lái)進(jìn)行分詞。

      對(duì)獲取的各個(gè)信息完成分詞處理后,可對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞(包括詞組和單字)進(jìn)行詞性標(biāo)注。例如,所述詞性包括:實(shí)詞—名詞、動(dòng)詞、形容詞、數(shù)量詞、代詞等;虛詞—副詞、介詞、連詞、助詞、嘆詞、擬聲詞等。

      步驟s30,根據(jù)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞的分詞順序和詞性,將各個(gè)信息對(duì)應(yīng)的各個(gè)分詞構(gòu)建成預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)。

      步驟s40,在一個(gè)信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)構(gòu)建完成后,根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。

      對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注后,根據(jù)各個(gè)信息中各個(gè)分詞的順序以及各個(gè)分詞標(biāo)注的詞性,將各個(gè)信息對(duì)應(yīng)的各個(gè)分詞構(gòu)建成預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)。如可設(shè)置預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中不同詞性對(duì)應(yīng)的節(jié)點(diǎn)級(jí)別,將一個(gè)信息中的各個(gè)分詞作為不同節(jié)點(diǎn),構(gòu)建該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù);還可將不同詞性的分詞組成分詞短語(yǔ),以與各個(gè)分詞形成不同的節(jié)點(diǎn)級(jí)別,構(gòu)建該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)。在一個(gè)信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)構(gòu)建完成后,根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。例如,可設(shè)置某一詞性的分詞為核心信息,或從歷史搜索記錄中統(tǒng)計(jì)確定出核心信息對(duì)應(yīng)的詞性的分詞,將該詞性設(shè)置為核心詞性,則在該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中找出屬于核心詞性,且在預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中到主節(jié)點(diǎn)的節(jié)點(diǎn)距離最短的分詞,作為該信息對(duì)應(yīng)的核心觀點(diǎn)信息。還可設(shè)置多個(gè)核心詞性,在該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中找出屬于核心詞性的多個(gè)分詞,且找到預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中屬于核心詞性的多個(gè)分詞之間節(jié)點(diǎn)距離最短的分詞組合,將該分詞組合對(duì)應(yīng)的信息作為該信息的核心觀點(diǎn)信息。

      本實(shí)施例對(duì)從數(shù)據(jù)源獲取的特定類(lèi)型的信息進(jìn)行分詞及對(duì)各個(gè)分詞進(jìn)行詞性標(biāo)注,并根據(jù)各個(gè)分詞的順序和詞性構(gòu)建預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),基于構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息。由于能對(duì)獲取的信息進(jìn)行分詞,并根據(jù)各個(gè)分詞的詞性構(gòu)建預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),利用預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)來(lái)挖掘信息中各個(gè)分詞的深度聯(lián)系以得到核心觀點(diǎn)信息,從而實(shí)現(xiàn)對(duì)信息的深度挖掘,準(zhǔn)確獲取到信息中的核心觀點(diǎn)信息。

      進(jìn)一步地,在其他實(shí)施例中,在根據(jù)該信息對(duì)應(yīng)的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)解析出該信息對(duì)應(yīng)的核心觀點(diǎn)信息之后,該方法還包括:

      利用預(yù)先訓(xùn)練好的分類(lèi)器識(shí)別出該信息的核心觀點(diǎn)信息對(duì)應(yīng)的分類(lèi)標(biāo)簽;若識(shí)別出的分類(lèi)標(biāo)簽屬于預(yù)先確定的分類(lèi)標(biāo)簽,則將該信息的全部?jī)?nèi)容,及/或,該信息的全部?jī)?nèi)容的鏈接地址推送給預(yù)先確定的終端。例如,若用戶感興趣的為體育類(lèi)的信息,則可預(yù)先確定分類(lèi)標(biāo)簽為“體育”,在解析出從數(shù)據(jù)源得到的信息中的核心觀點(diǎn)信息之后,可進(jìn)一步地識(shí)別出該信息的核心觀點(diǎn)信息對(duì)應(yīng)的分類(lèi)標(biāo)簽,若識(shí)別出的分類(lèi)標(biāo)簽屬于“體育”類(lèi)標(biāo)簽,則判斷該信息為用戶感興趣的信息,則將該信息的全部?jī)?nèi)容,及/或,該信息的全部?jī)?nèi)容的鏈接地址推送給預(yù)先確定的終端如用戶的手機(jī)、平板電腦等,從而實(shí)現(xiàn)目標(biāo)信息的有效挖掘和精準(zhǔn)推送。

      進(jìn)一步地,在其他實(shí)施例中,上述步驟s20中對(duì)獲取的各個(gè)信息進(jìn)行分詞處理的步驟包括:

      根據(jù)正向最大匹配法將每一信息中待處理的字符串與通用字詞典庫(kù)進(jìn)行匹配,得到第一匹配結(jié)果;

      根據(jù)逆向最大匹配法將每一信息中待處理的字符串與通用字詞典庫(kù)進(jìn)行匹配,得到第二匹配結(jié)果。其中,所述第一匹配結(jié)果中包含有第一數(shù)量的第一詞組,所述第二匹配結(jié)果中包含有第二數(shù)量的第二詞組;所述第一匹配結(jié)果中包含有第三數(shù)量的單字,所述第二匹配結(jié)果中包含有第四數(shù)量的單字。

      若所述第一數(shù)量與所述第二數(shù)量相等,且所述第三數(shù)量小于或者等于所述第四數(shù)量,則輸出所述第一匹配結(jié)果(包括詞組和單字);

      若所述第一數(shù)量與所述第二數(shù)量相等,且所述第三數(shù)量大于所述第四數(shù)量,則輸出所述第二匹配結(jié)果(包括詞組和單字);

      若所述第一數(shù)量與所述第二數(shù)量不相等,且所述第一數(shù)量大于所述第二數(shù)量,則輸出所述第二匹配結(jié)果(包括詞組和單字);

      若所述第一數(shù)量與所述第二數(shù)量不相等,且所述第一數(shù)量小于所述第二數(shù)量,則輸出所述第一匹配結(jié)果(包括詞組和單字)。

      本實(shí)施例中采用雙向匹配法來(lái)對(duì)獲取的各個(gè)信息進(jìn)行分詞處理,通過(guò)正反向同時(shí)進(jìn)行分詞匹配來(lái)分析各個(gè)信息待處理的字符串中前后組合內(nèi)容的粘性,由于通常情況下詞組能代表核心觀點(diǎn)信息的概率更大,即通過(guò)詞組更能表達(dá)出核心觀點(diǎn)信息。因此,通過(guò)正反向同時(shí)進(jìn)行分詞匹配找出單字?jǐn)?shù)量更少,詞組數(shù)量更多的分詞匹配結(jié)果,以作為信息的分詞結(jié)果,從而提高分詞及信息挖掘的準(zhǔn)確性。

      進(jìn)一步地,在其他實(shí)施例中,上述步驟s20中對(duì)各個(gè)信息對(duì)應(yīng)的各個(gè)分詞進(jìn)行詞性標(biāo)注的步驟包括:

      根據(jù)通用字詞典庫(kù)中字和詞分別與詞性的映射關(guān)系(例如,通用字詞典庫(kù)中,操場(chǎng)對(duì)應(yīng)的詞性是名詞),及/或,預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系(例如,預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系中,操場(chǎng)對(duì)應(yīng)的詞性是常用名詞),確定各個(gè)信息的各個(gè)分詞對(duì)應(yīng)的詞性,并為各個(gè)信息的各個(gè)分詞標(biāo)注對(duì)應(yīng)的詞性。其中,預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系的詞性標(biāo)注優(yōu)先級(jí)高于通用字詞典庫(kù)中字和詞分別與詞性的映射關(guān)系。例如,若通用字詞典庫(kù)中操場(chǎng)對(duì)應(yīng)的詞性是名詞,而預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系中操場(chǎng)對(duì)應(yīng)的詞性是常用名詞,則優(yōu)先按照預(yù)設(shè)的字和詞分別與詞性的映射關(guān)系來(lái)標(biāo)注,即對(duì)操場(chǎng)標(biāo)注的詞性為常用名詞。

      進(jìn)一步地,在其他實(shí)施例中,所述預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)包括多級(jí)節(jié)點(diǎn),第一級(jí)節(jié)點(diǎn)為各個(gè)信息本身,第二級(jí)節(jié)點(diǎn)為分詞短語(yǔ),第二級(jí)節(jié)點(diǎn)之后的每一級(jí)節(jié)點(diǎn)均是上一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的下一級(jí)分詞或者分詞短語(yǔ),上述步驟s30包括:

      a1、在各個(gè)信息對(duì)應(yīng)的各個(gè)分詞中,找出各個(gè)預(yù)設(shè)詞性的目標(biāo)分詞;

      a2、根據(jù)各個(gè)信息中各個(gè)目標(biāo)分詞的順序,確定各個(gè)第二級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞短語(yǔ);具體地,可將后一個(gè)目標(biāo)分詞之前的字詞作為前一個(gè)目標(biāo)分詞的分詞短語(yǔ);將最后一個(gè)目標(biāo)分詞及其之后的字詞作為最后一個(gè)分詞短語(yǔ)。

      a3、若一個(gè)分詞短語(yǔ)不可以進(jìn)一步分詞,則確定該分詞短語(yǔ)為所在節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn);

      a4、若一個(gè)分詞短語(yǔ)可以進(jìn)一步分詞,則找出該分詞短語(yǔ)中的各個(gè)預(yù)設(shè)詞性的目標(biāo)分詞,并根據(jù)該分詞短語(yǔ)對(duì)應(yīng)的各個(gè)目標(biāo)分詞的順序,確定該分詞短語(yǔ)的下一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞或者分詞短語(yǔ);

      a5、重復(fù)執(zhí)行上述步驟a3和a4,直到確定出各個(gè)節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞。

      上述步驟s40包括:

      基于構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),計(jì)算各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞與各個(gè)預(yù)設(shè)第二關(guān)鍵詞性的分詞之間的距離;

      分別找出與各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞距離最近的預(yù)設(shè)第二關(guān)鍵詞性的分詞,并將各個(gè)預(yù)設(shè)第一關(guān)鍵詞性的分詞與距離其最近的預(yù)設(shè)第二關(guān)鍵詞性的分詞按照在該信息中的順序組成對(duì)應(yīng)的核心觀點(diǎn)信息。

      在一種具體實(shí)施方式中,如圖3所示,圖3為本發(fā)明信息挖掘方法一實(shí)施例中預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)的示意圖。該信息為“我去操場(chǎng)踢足球”,對(duì)應(yīng)的分詞結(jié)果為“我去操場(chǎng)踢足球”,詞性標(biāo)注的結(jié)果為“我/代詞去/動(dòng)詞操場(chǎng)/常用名詞踢足球/常用名詞”。為該信息“我去操場(chǎng)踢足球”構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)參見(jiàn)圖3所示,該預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)包括多級(jí)節(jié)點(diǎn),第一級(jí)節(jié)點(diǎn)為信息本身,第二級(jí)節(jié)點(diǎn)為分詞短語(yǔ)(例如,名詞短語(yǔ)、動(dòng)詞短語(yǔ)及斷句符如“?!?。本實(shí)施例中,在各個(gè)信息對(duì)應(yīng)的各個(gè)分詞中,找出各個(gè)預(yù)設(shè)詞性“例如,名詞、動(dòng)詞等”的目標(biāo)分詞;根據(jù)信息中各個(gè)目標(biāo)分詞的順序,確定各個(gè)第二級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞短語(yǔ)。第二級(jí)節(jié)點(diǎn)之后的每一級(jí)節(jié)點(diǎn)均是其上一級(jí)節(jié)點(diǎn)所對(duì)應(yīng)的下一級(jí)分詞或者分詞短語(yǔ),第三級(jí)節(jié)點(diǎn)為第二級(jí)節(jié)點(diǎn)的分詞或者分詞短語(yǔ)。如圖3中所示,對(duì)該信息進(jìn)行詞性標(biāo)注的結(jié)果為“我/代詞去/動(dòng)詞操場(chǎng)/常用名詞踢足球/常用名詞”,根據(jù)該信息中各個(gè)分詞的分詞順序如從左至右的順序來(lái)確定第二級(jí)節(jié)點(diǎn),預(yù)先設(shè)定第二級(jí)節(jié)點(diǎn)為分詞短語(yǔ)包括名詞短語(yǔ)、動(dòng)詞短語(yǔ)等,該信息中從左至右,“我”為代詞屬于名詞短語(yǔ),因此“我”確定為第二級(jí)節(jié)點(diǎn),排序在“我”之后的“去”、“操場(chǎng)”、“踢足球”可組成動(dòng)詞短語(yǔ)“去操場(chǎng)踢足球”,因此,可確定“去操場(chǎng)踢足球”為第二級(jí)節(jié)點(diǎn)。因此,該信息的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù)中第二級(jí)節(jié)點(diǎn)包括“我”、“去操場(chǎng)踢足球”。進(jìn)一步地,第二級(jí)節(jié)點(diǎn)“我”不可以進(jìn)一步分詞,則確定該分詞短語(yǔ)為所在節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn)。而作為第二級(jí)節(jié)點(diǎn)的動(dòng)詞短語(yǔ)“去操場(chǎng)踢足球”,可以進(jìn)一步分詞,則該第二級(jí)節(jié)點(diǎn)“去操場(chǎng)踢足球”的分詞或者分詞短語(yǔ)可作為第三級(jí)節(jié)點(diǎn),該第三級(jí)節(jié)點(diǎn)包括動(dòng)詞“去”和名詞短語(yǔ)“操場(chǎng)踢足球”,進(jìn)一步地,名詞短語(yǔ)“操場(chǎng)踢足球”還可以分為第四級(jí)節(jié)點(diǎn)“操場(chǎng)”、“踢足球”。若一個(gè)分詞短語(yǔ)可以進(jìn)一步分詞,則找出該分詞短語(yǔ)中的各個(gè)預(yù)設(shè)詞性“例如,名詞、動(dòng)詞等”的目標(biāo)分詞,并根據(jù)該分詞短語(yǔ)對(duì)應(yīng)的各個(gè)目標(biāo)分詞的順序,確定該分詞短語(yǔ)的下一級(jí)節(jié)點(diǎn)對(duì)應(yīng)的分詞或者分詞短語(yǔ);若一個(gè)分詞短語(yǔ)不可以進(jìn)一步分詞,則確定該分詞短語(yǔ)為所在節(jié)點(diǎn)分支的最后一級(jí)節(jié)點(diǎn)。

      基于構(gòu)建的預(yù)設(shè)結(jié)構(gòu)分詞樹(shù),計(jì)算各個(gè)第一關(guān)鍵詞性(例如,動(dòng)詞)分詞與各個(gè)第二關(guān)鍵詞性(例如,名詞)分詞的距離,將各個(gè)第一關(guān)鍵詞性分詞與各個(gè)第二關(guān)鍵詞性分詞之間相隔的節(jié)點(diǎn)數(shù)作為所述距離。其中,第一關(guān)鍵詞性、第二關(guān)鍵詞性可根據(jù)實(shí)際需要自定義設(shè)定,或根據(jù)該用戶的歷史搜索記錄中核心信息通常對(duì)應(yīng)的詞性進(jìn)行相應(yīng)設(shè)置。分別找出與各個(gè)第一關(guān)鍵詞性分詞距離最近的第二關(guān)鍵詞性分詞,分別將各個(gè)第一關(guān)鍵詞性分詞與距離其最近的第二關(guān)鍵詞性分詞按照在該信息中的順序組成對(duì)應(yīng)的核心觀點(diǎn)信息。如圖3中的“去操場(chǎng)”、“去踢足球”作為挖掘出的該信息“我去操場(chǎng)踢足球”對(duì)應(yīng)的核心觀點(diǎn)信息。

      此外,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有信息挖掘系統(tǒng),所述信息挖掘系統(tǒng)可被至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器執(zhí)行如上述實(shí)施例中的信息挖掘方法的步驟,該信息挖掘方法的步驟s10、s20、s30等具體實(shí)施過(guò)程如上文所述,在此不再贅述。

      需要說(shuō)明的是,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者裝置所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。

      通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件來(lái)實(shí)現(xiàn),但很多情況下前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如rom/ram、磁碟、光盤(pán))中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。

      以上參照附圖說(shuō)明了本發(fā)明的優(yōu)選實(shí)施例,并非因此局限本發(fā)明的權(quán)利范圍。上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

      本領(lǐng)域技術(shù)人員不脫離本發(fā)明的范圍和實(shí)質(zhì),可以有多種變型方案實(shí)現(xiàn)本發(fā)明,比如作為一個(gè)實(shí)施例的特征可用于另一實(shí)施例而得到又一實(shí)施例。凡在運(yùn)用本發(fā)明的技術(shù)構(gòu)思之內(nèi)所作的任何修改、等同替換和改進(jìn),均應(yīng)在本發(fā)明的權(quán)利范圍之內(nèi)。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1