国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      使用有機(jī)物件數(shù)據(jù)模型來(lái)組織社群智能信息的系統(tǒng)及方法

      文檔序號(hào):6334791閱讀:186來(lái)源:國(guó)知局
      專利名稱:使用有機(jī)物件數(shù)據(jù)模型來(lái)組織社群智能信息的系統(tǒng)及方法
      技術(shù)領(lǐng)域
      本公開(kāi)案涉及擷取及分析線上社群智能信息(online collectiveintelligence information)的領(lǐng)域,且更明確而言,是關(guān)于用于自線上社群(online social community) 收集數(shù)據(jù)并管理數(shù)據(jù),且使用有機(jī)物件架構(gòu)(organic object architecture)來(lái)提供高品 質(zhì)搜尋結(jié)果的系統(tǒng)及方法。
      背景技術(shù)
      Web 2.0網(wǎng)站允許其使用者彼此互動(dòng)以成為網(wǎng)站的內(nèi)容的提供者,而在有些網(wǎng)站 上,使用者被限制于僅能被動(dòng)地觀看提供給他們的信息。由于能夠建立及更新內(nèi)容,所以許 多網(wǎng)絡(luò)作者能夠一起協(xié)同創(chuàng)作。舉例而言,在維基百科(wikis)中,使用者可擴(kuò)充、取消及 重作彼此的創(chuàng)作。在部落格中,個(gè)人的發(fā)貼及評(píng)論會(huì)隨時(shí)間而逐漸累積。社群智能(social intelligence, Si)是指分析從一群互聯(lián)網(wǎng)使用者中所收集 的數(shù)據(jù)的概念,其使人能夠了解社會(huì)群體中的意見(jiàn)以及過(guò)去及未來(lái)的行為。為了使線上搜 尋引擎(online search engine)能夠提供回應(yīng)性的線上搜尋結(jié)果(responsive online search result),搜尋系統(tǒng)必須有效地?cái)X取及管理來(lái)自各種來(lái)源的SI信息。Web 2.0網(wǎng)站中關(guān)鍵詞搜尋(keyword search)是常用的線上搜尋方法的其中之 一。然而,關(guān)鍵詞搜尋具有若干缺點(diǎn)。關(guān)鍵詞搜尋易于過(guò)度搜尋,亦即發(fā)現(xiàn)非相關(guān)文件;且 易于搜尋不足,亦即未發(fā)現(xiàn)某些相關(guān)文件。而且,關(guān)鍵詞搜尋的結(jié)果通常并不區(qū)分不同上下 文內(nèi)的相同關(guān)鍵詞。因此,互聯(lián)網(wǎng)使用者可能需要花數(shù)分鐘或甚至數(shù)小時(shí)來(lái)掃描搜尋結(jié)果, 以識(shí)別有用信息。關(guān)鍵詞搜尋的此等缺點(diǎn)在處理大量SI信息時(shí)甚至更顯著。本公開(kāi)的實(shí)施例是針對(duì)通過(guò)使用有機(jī)物件數(shù)據(jù)模型來(lái)管理收集到的社群智能信 息,以促進(jìn)有效線上搜尋且克服上述的問(wèn)題中的一個(gè)或多個(gè)。

      發(fā)明內(nèi)容
      在本發(fā)明的一個(gè)方面中,本公開(kāi)是針對(duì)一種使用有機(jī)物件數(shù)據(jù)模型來(lái)擷取及組織 線上收集到的數(shù)據(jù)的方法。所公開(kāi)的方法包含接收含有社群智能數(shù)據(jù)的一個(gè)或多個(gè)網(wǎng)頁(yè); 對(duì)所述含有社群智能數(shù)據(jù)的一個(gè)或多個(gè)網(wǎng)頁(yè)的內(nèi)容進(jìn)行斷詞;識(shí)別所述一個(gè)或多個(gè)網(wǎng)頁(yè)的 經(jīng)斷詞的內(nèi)容中的附名實(shí)體;識(shí)別一個(gè)或多個(gè)網(wǎng)頁(yè)的經(jīng)斷詞的內(nèi)容中的主題;識(shí)別一個(gè)或 多個(gè)網(wǎng)頁(yè)的經(jīng)斷詞的內(nèi)容中的意見(jiàn);整合所識(shí)別的附名實(shí)體、主題及意見(jiàn),以建構(gòu)有機(jī)物件 數(shù)據(jù)模型;以及將與所建構(gòu)的有機(jī)物件數(shù)據(jù)模型相關(guān)聯(lián)的有機(jī)物件數(shù)據(jù)存儲(chǔ)于有機(jī)物件數(shù) 據(jù)庫(kù)中。在本發(fā)明的另一個(gè)方面中,本公開(kāi)是針對(duì)一種用于擷取及組織線上收集到的社群 智能數(shù)據(jù)的系統(tǒng),所述系統(tǒng)由一個(gè)或多個(gè)計(jì)算機(jī)處理器實(shí)際操作,所述計(jì)算機(jī)處理器執(zhí)行 存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。所述系統(tǒng)包括斷詞及整合模塊、物件辨識(shí)模 塊、主題分類及辨識(shí)模塊、意見(jiàn)探勘及情感分析模塊以及物件關(guān)系建構(gòu)模塊。斷詞及整合模 塊耦接至訓(xùn)練數(shù)據(jù)庫(kù)并且用以接收含有社群智能數(shù)據(jù)的網(wǎng)頁(yè)。物件辨識(shí)模塊耦接至斷詞及整合模塊并且用以識(shí)別包含于所接收到的網(wǎng)頁(yè)中的附名實(shí)體。主題分類及辨識(shí)模塊耦接至 斷詞及整合模塊,并且用以識(shí)別所接收到的網(wǎng)頁(yè)的每一句子及段落的主題。意見(jiàn)探勘及情 感分析模塊耦接至斷詞及整合模塊,并且用以判定接收到的網(wǎng)頁(yè)的句子中的意見(jiàn)及與所識(shí) 別的附名實(shí)體相關(guān)聯(lián)的意見(jiàn)。物件關(guān)系建構(gòu)模塊耦接至斷詞及整合模塊,并且用以界定附 名實(shí)體之間的關(guān)系。在本發(fā)明的又一方面中,本公開(kāi)是針對(duì)一種用于擷取及組織線上收集到的社群智 能數(shù)據(jù)的系統(tǒng)。所述系統(tǒng)可由一個(gè)或多個(gè)計(jì)算機(jī)處理器實(shí)際操作,所述計(jì)算機(jī)處理器執(zhí)行 存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。所述系統(tǒng)包括斷詞及整合模塊、物件辨識(shí)模 塊、主題分類及辨識(shí)模塊、意見(jiàn)探勘及情感分析模塊以及物件關(guān)系建構(gòu)模塊。斷詞及整合模 塊耦接至訓(xùn)練數(shù)據(jù)庫(kù),并且用以接收含有社群智能數(shù)據(jù)的網(wǎng)頁(yè),其中斷詞及整合模塊支持 包含有機(jī)物件的有機(jī)物件模型、與所述有機(jī)物件相關(guān)聯(lián)的自產(chǎn)生屬性、與所述有機(jī)物件相 關(guān)聯(lián)的領(lǐng)域?qū)S脤傩砸约芭c所述有機(jī)物件相關(guān)聯(lián)的社會(huì)屬性。物件辨識(shí)模塊耦接至斷詞及 整合模塊,并且用以識(shí)別包含于所接收到的網(wǎng)頁(yè)中的附名實(shí)體,其中所判定的附名實(shí)體為 有機(jī)物件。主題分類及辨識(shí)模塊耦接至斷詞及整合模塊,并且用以識(shí)別所接收到的網(wǎng)頁(yè)的 每一句子及段落的主題,其中所識(shí)別的主題為與其對(duì)應(yīng)的有機(jī)物件相關(guān)聯(lián)的社會(huì)屬性。意 見(jiàn)探勘及情感分析模塊耦接至斷詞及整合模塊,并且用以判定接收到的網(wǎng)頁(yè)的句子中的意 見(jiàn)及與所識(shí)別的附名實(shí)體相關(guān)聯(lián)的意見(jiàn),其中所識(shí)別的意見(jiàn)為與其對(duì)應(yīng)的有機(jī)物件相關(guān)聯(lián) 的社會(huì)屬性。物件關(guān)系建構(gòu)模塊耦接至斷詞及整合模塊,并且用以界定有機(jī)物件之間的關(guān) 系。


      圖Ia為繪示線上搜尋引擎硬件架構(gòu)的范例方塊圖。圖Ib為繪示有機(jī)物件數(shù)據(jù)模型的范例方塊圖。圖2為繪示有機(jī)數(shù)據(jù)物件的范例方塊圖。圖3為繪示以有機(jī)物件數(shù)據(jù)模型為基礎(chǔ)的信息擷取及管理系統(tǒng)的范例方塊圖。圖4為會(huì)次圖3所示的信息擷取及管理系統(tǒng)的物件辨識(shí)模塊的程序的范例流程 圖。圖5為說(shuō)明通過(guò)圖3所示的物件辨識(shí)模塊來(lái)應(yīng)用N字母組合并演算法的程序的范 例流程圖。圖6為繪示應(yīng)用N字母組合并演算法的程序的范例示意圖。圖7為繪示物件辨識(shí)模塊中所使用的信賴值的計(jì)算的范例示意圖。圖8為繪示圖3所示的主題分類及辨識(shí)模塊的范例方塊圖。圖9為繪示主題分類及辨識(shí)模塊所應(yīng)用的語(yǔ)意相似性的計(jì)算的范例。圖10為繪示由主題分類及辨識(shí)模塊實(shí)施的用于收集及改良訓(xùn)練數(shù)據(jù)的品質(zhì)的程 序的范例流程圖。圖11為繪示由主題分類及辨識(shí)模塊實(shí)施的用于收集及改善訓(xùn)練數(shù)據(jù)的品質(zhì)的程 序的更詳細(xì)的范例方塊圖。圖12a為繪示圖3所示的意見(jiàn)探勘及情感分析模塊的范例方塊圖。圖12b為說(shuō)明由意見(jiàn)探勘及情感分析模塊實(shí)施的測(cè)試程序的范例方塊圖。
      圖12c為繪示可用于實(shí)施主題分類及辨識(shí)模塊以及意見(jiàn)探勘及情感分析模塊的 架構(gòu)的范例方塊圖。圖13為繪示圖3所示的斷詞及整合模塊的范例方塊圖。主要元件符號(hào)說(shuō)明10 互聯(lián)網(wǎng)20 負(fù)載平衡服務(wù)器30:網(wǎng)絡(luò)服務(wù)器40 廣告服務(wù)器50 數(shù)據(jù)搜集服務(wù)器60:文件數(shù)據(jù)庫(kù)70:線上搜尋引擎100 有機(jī)物件數(shù)據(jù)模型110 有機(jī)物件(母物件)120:自產(chǎn)生屬性130 領(lǐng)域?qū)S脤傩?40 社會(huì)屬性150 子物件160:時(shí)間戳記170 肯定或否定意見(jiàn)200:有機(jī)物件210:附名餐館221 價(jià)格222 地址223 促銷活動(dòng)224 免費(fèi)禮物225 折扣231 菜肴類型232 停車空間241 使用者評(píng)論對(duì)2:氛圍243 服務(wù)244 價(jià)格245:食物口味300 信息擷取及管理系統(tǒng)310 斷詞及整合模塊320 物件辨識(shí)模塊330 物件關(guān)系建構(gòu)模塊340 主題分類及辨識(shí)模塊350 意見(jiàn)探勘及情感分析模塊360 訓(xùn)練數(shù)據(jù)庫(kù) 370 網(wǎng)頁(yè)380a 有機(jī)物件數(shù)據(jù)庫(kù)380b 專用名詞詞典440 智能NE過(guò)濾模塊450 自動(dòng)斷詞器訓(xùn)練數(shù)據(jù)產(chǎn)生模塊452 自動(dòng)NER訓(xùn)練數(shù)據(jù)產(chǎn)生模塊460 以CRF為基礎(chǔ)的斷詞器訓(xùn)練模塊470 斷詞模塊480 =NE辨識(shí)模塊485 以CRF為基礎(chǔ)的NER訓(xùn)練模塊 490 后處理分類器495斷詞程序496物件辨識(shí)程序 861 主題樣式表格 862:主題語(yǔ)意向量表格 863 主題相似性表格 870 主題分類器模塊1010、1020、1030、1040、1050、1060 用于收集及改善訓(xùn)練數(shù)據(jù)集合的品質(zhì)的程序 1110:經(jīng)人工標(biāo)記的數(shù)據(jù)集合1111句子組/經(jīng)標(biāo)記的數(shù)據(jù)集合1112句子組/經(jīng)標(biāo)記的數(shù)據(jù)集合1113句子組/經(jīng)標(biāo)記的數(shù)據(jù)集合1114句子組/經(jīng)標(biāo)記的數(shù)據(jù)集合1115句子組/經(jīng)標(biāo)記的數(shù)據(jù)集合1116訓(xùn)練數(shù)據(jù)集合1117測(cè)試數(shù)據(jù)集合 1120 SVM訓(xùn)練器 1130 SVM 模型 1140 SVM分類器 1150:句子組/數(shù)據(jù)集合 1160 驗(yàn)證器1210 意見(jiàn)探勘程序1220 以CRF為基礎(chǔ)的意見(jiàn)詞及樣式探測(cè)器模塊 1222 表格 1224 表格 1226 表格1240 機(jī)器學(xué)習(xí)分類器/意見(jiàn)探勘分類器1250 以語(yǔ)法及規(guī)則為基礎(chǔ)的分類器/意見(jiàn)探勘分類器
      1260意見(jiàn)決策評(píng)分1270意見(jiàn)決策評(píng)分1280意見(jiàn)探勘分類器1310經(jīng)斷詞的結(jié)果、所發(fā)現(xiàn)的物件、主題及意見(jiàn)1330模塊接口1340整合模塊
      具體實(shí)施例方式本公開(kāi)的系統(tǒng)及方法擷取并管理收集到的社群智能信息,以便提供更快且更準(zhǔn)確 的線上搜尋結(jié)果以回應(yīng)使用者詢問(wèn)。本公開(kāi)的實(shí)施例使用有機(jī)物件數(shù)據(jù)模型來(lái)提供一架構(gòu) 以擷取及分析自線上社群網(wǎng)絡(luò)及其他線上群落以及其他網(wǎng)頁(yè)收集到的信息。有機(jī)物件數(shù)據(jù) 模型反映由線上社群網(wǎng)絡(luò)及群落建立的智能信息的異質(zhì)性質(zhì)。通過(guò)應(yīng)用有機(jī)物件數(shù)據(jù)模 型,本公開(kāi)的信息擷取及管理系統(tǒng)可高效地將大量信息分類,并根據(jù)請(qǐng)求而呈現(xiàn)搜尋到的 fn息ο本公開(kāi)的實(shí)施例包含軟件模塊及數(shù)據(jù)庫(kù),其可由計(jì)算機(jī)軟件及硬件組件的各種配 置來(lái)實(shí)際操作。每一軟件及硬件的配置可以是各種計(jì)算機(jī)存儲(chǔ)介質(zhì)、用以執(zhí)行某些所公開(kāi) 的功能的各種計(jì)算機(jī)、各種第三方軟件應(yīng)用程序以及實(shí)施所公開(kāi)的系統(tǒng)功能性的軟件應(yīng)用程序。圖Ia為繪示線上搜尋引擎(online search engine) 70的范例硬件架構(gòu)的方塊 圖。線上搜尋引擎70是指任何用以在接收到使用者的搜尋請(qǐng)求后提供線上內(nèi)容的搜尋結(jié) 果的軟件及硬件。線上搜尋引擎的熟知范例為Google搜尋引擎。如圖Ia所示,線上搜尋 引擎70自互聯(lián)網(wǎng)10接收使用者的詢問(wèn),諸如搜尋請(qǐng)求。線上搜尋引擎70也可自線上社群 中收集SI信息。線上搜尋引擎70可通過(guò)使用一個(gè)或多個(gè)服務(wù)器(諸如由Intel生產(chǎn)的一 或多個(gè)2X300MHZ Dual Pentium II服務(wù)器)來(lái)實(shí)際操作。服務(wù)器是指運(yùn)行服務(wù)器操作系 統(tǒng)的計(jì)算機(jī),但也可以是任何能夠提供服務(wù)的軟件或?qū)S糜布?。線上搜尋引擎70包含一或多個(gè)負(fù)載平衡服務(wù)器(load balancing server) 20, 其可自互聯(lián)網(wǎng)10接收搜尋請(qǐng)求,且將所述請(qǐng)求轉(zhuǎn)發(fā)至多個(gè)網(wǎng)絡(luò)服務(wù)器30中的其中之一。 網(wǎng)絡(luò)服務(wù)器30可協(xié)調(diào)自互聯(lián)網(wǎng)10中接收的查詢的執(zhí)行,格式化從數(shù)據(jù)搜集服務(wù)器(data gathering server) 50中所接收的對(duì)應(yīng)搜尋結(jié)果,從廣告服務(wù)器(Ad server) 40中擷取廣告 清單,且產(chǎn)生搜尋結(jié)果以回應(yīng)于自互聯(lián)網(wǎng)10中所接收到的使用者的搜尋請(qǐng)求。廣告服務(wù)器 40用以管理與線上搜尋引擎70相關(guān)聯(lián)的廣告。數(shù)據(jù)搜集服務(wù)器50用以從互聯(lián)網(wǎng)10中收 集SI信息,且通過(guò)為數(shù)據(jù)編索引或使用各種數(shù)據(jù)結(jié)構(gòu)來(lái)組織收集到的數(shù)據(jù)。數(shù)據(jù)搜集服務(wù) 器50會(huì)將所組織的數(shù)據(jù)存儲(chǔ)于文件數(shù)據(jù)庫(kù)60中,及從文件數(shù)據(jù)庫(kù)60擷取所組織的數(shù)據(jù)。 在一范例實(shí)例中,數(shù)據(jù)搜集服務(wù)器50可依據(jù)有機(jī)物件數(shù)據(jù)模型而托管信息擷取及管理系 統(tǒng)。以下將配合圖Ib及圖2來(lái)描述有機(jī)物件數(shù)據(jù)模型,并且配合圖3來(lái)描述信息擷取及管 理系統(tǒng)。圖Ib為有機(jī)物件數(shù)據(jù)模型100的方塊圖。如圖Ib所示,有機(jī)物件110可為具 有子物件150的附名實(shí)體(例如,附名餐館)。子物件150可為繼承其母物件110的特性 的附名實(shí)體。有機(jī)物件110可具有至少三種類型的屬性自產(chǎn)生屬性(self-producingattribute) 120、領(lǐng)域?qū)S脤傩?domain-specificattribute) 130 以及社會(huì)屬性(social attribute) 140。自產(chǎn)生屬性120包括由物件110本身產(chǎn)生的屬性。領(lǐng)域?qū)S脤傩?30包 括描述物件110的主題領(lǐng)域的屬性。社會(huì)屬性140包括由與物件110有關(guān)的線上社群所貢 獻(xiàn)的經(jīng)分類的智能信息。在一范例實(shí)例中,由線上社群貢獻(xiàn)的智能信息可為使用者意見(jiàn),例 如關(guān)于物件110或其屬性的肯定或否定意見(jiàn)170。經(jīng)分類的智能信息的每一類別可為與一 個(gè)或多個(gè)意見(jiàn)相關(guān)聯(lián)的主題。主題也可以是社會(huì)屬性。有機(jī)物件110包括時(shí)間戳記(time stamp) 160 (TS 160),其可使物件110與時(shí)間周 期或時(shí)刻相關(guān)聯(lián)。TS 160可指示物件壽命周期,其可為物件110的建立與刪除之間的時(shí)間 周期,或者為物件110的有效時(shí)間周期。在另一范例實(shí)例中,TS 160可以是與物件110有 關(guān)的信息登錄(entry)的建立時(shí)間。如圖Ib所示,與物件110相關(guān)聯(lián)的所有屬性(120、130 及140)及子物件(150)也可具有與其相關(guān)聯(lián)的時(shí)間戳記。圖2提供有機(jī)物件200的范例。如圖2所示,附名餐館210(例如,McDonalds)可 為有機(jī)物件。餐館210的子物件(圖2中未繪示)例如包括在餐館210中供應(yīng)的不同類型 的食物,例如漢堡、炸薯?xiàng)l等。有機(jī)物件餐館210的自產(chǎn)生屬性120包含許多信息,例如餐 館210的地址222、餐館210所設(shè)定的價(jià)格221以及餐館210的促銷活動(dòng)223 (例如,免費(fèi)贈(zèng) 品2 及折扣22 。餐館210的領(lǐng)域?qū)S脤傩?30包含餐館210供應(yīng)的菜肴類型231、餐 館210的停車空間232等。餐館210的社會(huì)屬性140包含餐館210的使用者評(píng)論Ml以及 關(guān)于諸如氣氛M2、服務(wù)M3、價(jià)格244及食物口味245等主題的使用者意見(jiàn)。使用者意見(jiàn) 可為負(fù)面的(例如,價(jià)格太貴)或正面的(例如,服務(wù)極佳)。如圖2所示,屬性可與時(shí)間戳 記(化)相關(guān)聯(lián),以指示其有效時(shí)間。圖3繪示用于從互聯(lián)網(wǎng)擷取信息且使用有機(jī)物件模型來(lái)組織所述信息的信息擷 取及管理系統(tǒng)300。信息擷取及管理系統(tǒng)300會(huì)收集由線上社群網(wǎng)絡(luò)及其他群落提供的社 群智能信息,通過(guò)應(yīng)用有機(jī)物件數(shù)據(jù)模型來(lái)分類并存儲(chǔ)所收集到的社群智能信息。信息擷 取及管理系統(tǒng)300會(huì)接收請(qǐng)求搜尋某一信息(例如,對(duì)特定餐館的餐館評(píng)論)的使用者詢 問(wèn)。信息擷取及管理系統(tǒng)300會(huì)通過(guò)擷取依據(jù)有機(jī)物件模型所擷取及組織的信息來(lái)回應(yīng)使 用者詢問(wèn)。信息擷取及管理系統(tǒng)300包括斷詞及整合模塊310、物件辨識(shí)模塊320、物件關(guān)系 建構(gòu)模塊(object relation construction module) 330、主題分類及辨識(shí)模塊;340以及意 見(jiàn)探勘及情感分析模塊350。信息擷取及管理系統(tǒng)300可還包括訓(xùn)練數(shù)據(jù)庫(kù)360、有機(jī)物 件數(shù)據(jù)庫(kù)380a及專用名詞詞典(lexiCondiCtionary)380b。訓(xùn)練數(shù)據(jù)庫(kù)360存儲(chǔ)數(shù)據(jù)記 錄,例如,NE(附名實(shí)體)、主題或主題樣式、意見(jiàn)詞以及意見(jiàn)樣式。訓(xùn)練數(shù)據(jù)庫(kù)360可為物 件辨識(shí)模塊320、主題分類及辨識(shí)模塊340、意見(jiàn)探勘及情感分析模塊350提供訓(xùn)練數(shù)據(jù)集 合,以促進(jìn)機(jī)器學(xué)習(xí)程序。訓(xùn)練數(shù)據(jù)庫(kù)360可接收來(lái)自物件辨識(shí)模塊320、主題分類及辨識(shí) 模塊340、意見(jiàn)探勘及情感分析模塊350的訓(xùn)練數(shù)據(jù),以促進(jìn)機(jī)器學(xué)習(xí)程序。有機(jī)物件數(shù)據(jù) 庫(kù)380a可存儲(chǔ)有機(jī)物件(例如,圖2中的200)。專用名詞詞典380b存儲(chǔ)所辨識(shí)的NE(有 機(jī)物件)、主題(社會(huì)屬性)、主題樣式(社會(huì)屬性)、意見(jiàn)(社會(huì)屬性)、意見(jiàn)樣式(社會(huì)屬 性)以及由信息擷取及管理系統(tǒng)300的一個(gè)或多個(gè)模塊所分類的其他信息。斷詞及整合模塊310會(huì)從互聯(lián)網(wǎng)中接收網(wǎng)頁(yè)370。網(wǎng)頁(yè)370可為自線上社群中所 收集的任何含有社群智能數(shù)據(jù)的網(wǎng)頁(yè)。斷詞及整合模塊310更會(huì)對(duì)網(wǎng)頁(yè)370中的內(nèi)容進(jìn)行斷詞,且識(shí)別每一句子中的專用名詞的邊界。舉例而言,中文與英文之間的一個(gè)差異為中文 句子中的專用名詞不具有清楚的邊界。因此,在處理來(lái)自網(wǎng)頁(yè)370的任何中文語(yǔ)言內(nèi)容之 前,斷詞及整合模塊310需先對(duì)句子中的專用名詞進(jìn)行斷詞。傳統(tǒng)上,軟件應(yīng)用程序是通過(guò) 含有各種語(yǔ)言樣式/語(yǔ)法規(guī)則的外掛(Plug-in)模塊來(lái)進(jìn)行文本(text)的斷詞。線性鏈 式條件隨機(jī)域(Conditional Random Field, CRF)演算法是用于對(duì)文本進(jìn)行斷詞的改良演 算法的其中之一中,其廣泛用于中文詞的斷詞。CRF方法的其中一個(gè)缺點(diǎn)為其在處理快速改變的輸入數(shù)據(jù)時(shí)效能不佳。然而,線上 社群網(wǎng)絡(luò)及群落提供的社群智能信息為快速變化的數(shù)據(jù)。因此,在本范例實(shí)施例中,斷詞及 整合模塊310是使用改良后的機(jī)器學(xué)習(xí)方法,其受益于其他模塊(物件辨識(shí)模塊320、主題 分類及辨識(shí)模塊340以及意見(jiàn)探勘模塊350)的機(jī)器學(xué)習(xí)功能來(lái)實(shí)施改良后的機(jī)器學(xué)習(xí)及 斷詞程序。以下圖4至圖13中進(jìn)一步公開(kāi)改良后的機(jī)器學(xué)習(xí)程序的范例。在一范例實(shí)例中,訓(xùn)練數(shù)據(jù)庫(kù)360是由物件辨識(shí)模塊320、主題分類及辨識(shí)模塊 340及意見(jiàn)探勘模塊350中的訓(xùn)練程序來(lái)更新,以改善訓(xùn)練數(shù)據(jù)的品質(zhì)。來(lái)自訓(xùn)練數(shù)據(jù)庫(kù) 360的高品質(zhì)訓(xùn)練數(shù)據(jù)可改善由斷詞及整合模塊310所執(zhí)行的斷詞的準(zhǔn)確性。圖4繪示物件辨識(shí)模塊320。物件辨識(shí)模塊320用以識(shí)別NE,分類對(duì)所識(shí)別的 NE,且將所分類的NE存儲(chǔ)于專用名詞詞典380b中。專用名詞詞典380b含有多個(gè)附名實(shí) 體專用名詞,例如,食物NE、餐館NE及地理位置NE。斷詞程序495及物件辨識(shí)(Object Recognition,NER)程序496分別地包含兩個(gè)程序?qū)W習(xí)程序及測(cè)試程序。在學(xué)習(xí)程序期間, 信息擷取及管理系統(tǒng)300的模塊(例如訓(xùn)練模塊)會(huì)從訓(xùn)練數(shù)據(jù)庫(kù)(例如,數(shù)據(jù)庫(kù)360)中 讀取經(jīng)標(biāo)記的數(shù)據(jù),并計(jì)算用于與機(jī)器學(xué)習(xí)有關(guān)的數(shù)學(xué)模型的參數(shù)。在學(xué)習(xí)程序期間,訓(xùn)練 模塊也可依據(jù)所計(jì)算出的參數(shù)以及與機(jī)器學(xué)習(xí)有關(guān)的數(shù)學(xué)模型來(lái)配置分類器。分類器是指 依據(jù)輸入數(shù)據(jù)的一個(gè)或多個(gè)屬性將多組輸入數(shù)據(jù)映射至多個(gè)類別的軟件模塊。舉例而言, 類別是指主題、意見(jiàn)或任何其他依據(jù)輸入數(shù)據(jù)的一個(gè)或多個(gè)屬性的分類。之后,信息擷取及 管理系統(tǒng)300的模塊(亦即,測(cè)試模塊)會(huì)使用分類器來(lái)測(cè)試新的數(shù)據(jù),此操作可稱為測(cè)試 程序。在測(cè)試程序期間,測(cè)試模塊會(huì)將新讀取的數(shù)據(jù)標(biāo)記為不同NE,例如餐館、食物類型或 地理位置。訓(xùn)練數(shù)據(jù)庫(kù)360含有領(lǐng)域?qū)S糜?xùn)練文件,其可被標(biāo)記以用于不同NE。如圖4所示,物件辨識(shí)模塊320會(huì)自專用名詞詞典380b及訓(xùn)練數(shù)據(jù)庫(kù)360中擷取 數(shù)據(jù)。斷詞程序495包含自動(dòng)斷詞器訓(xùn)練數(shù)據(jù)產(chǎn)生模塊(autosegmenter training data producing module) 450、以 CRF為基礎(chǔ)的斷詞器訓(xùn)練模塊(CRF-based segmenter training module)460以及斷詞器測(cè)試模塊(segmenter testing module)470。斷詞程序495可實(shí)際 操作為斷詞及整合模塊310的一部分,或者實(shí)際操作為物件辨識(shí)模塊320的一部分。當(dāng)信 息擷取及管理系統(tǒng)300擷取網(wǎng)頁(yè)370時(shí),系統(tǒng)300會(huì)先執(zhí)行斷詞程序495以對(duì)網(wǎng)頁(yè)370的 內(nèi)容進(jìn)行斷詞。系統(tǒng)300接著會(huì)在物件辨識(shí)模塊320中執(zhí)行附名物件辨識(shí)程序496,以識(shí)別 內(nèi)容中的NE0接下來(lái),物件辨識(shí)模塊320會(huì)使用后處理分類器 (post-processingclassifier) 490來(lái)對(duì)所辨識(shí)的NE進(jìn)行分類。后處理分類器490會(huì)使用 NE周圍的句子的上下文來(lái)決定NE類別。舉例而言,網(wǎng)頁(yè)370可能包含討論在不同地理位 置的若干餐館的社群評(píng)論。后處理分類器490會(huì)將所辨識(shí)的NE分類為至少三個(gè)實(shí)體類食 物、餐館及地理位置。
      如圖4所示,斷詞程序495及物件辨識(shí)程序496均包含自動(dòng)訓(xùn)練數(shù)據(jù)產(chǎn)生模塊 (450及45 。自動(dòng)訓(xùn)練數(shù)據(jù)產(chǎn)生模塊450與452會(huì)自智能NE過(guò)濾模塊(intelligent NE filtering module) 440中接收所辨識(shí)的NE,并且將接收到的NE存儲(chǔ)于訓(xùn)練數(shù)據(jù)庫(kù)360中。 自動(dòng)訓(xùn)練數(shù)據(jù)產(chǎn)生模塊450與452也可存取存儲(chǔ)于訓(xùn)練數(shù)據(jù)庫(kù)360中的NE,并將所擷取的 NE發(fā)送至訓(xùn)練模塊460與485。斷詞程序495及物件辨識(shí)程序496均包含以CRF為基礎(chǔ)的訓(xùn) 練模塊460及485。另外,以CRF為基礎(chǔ)的訓(xùn)練模塊460與485會(huì)使用以N字母組(N-gram) 為基礎(chǔ)的NE辨識(shí)訓(xùn)練。CRF是指常用于標(biāo)記或剖析連續(xù)數(shù)據(jù)(例如,自然語(yǔ)言文本或生物 序列)的一種區(qū)別機(jī)率模型。N字母組是指來(lái)自給定順序的η個(gè)項(xiàng)目(例如字母、音節(jié)等) 的子序列。而且,斷詞程序495及物件辨識(shí)程序496均可使用來(lái)自于訓(xùn)練數(shù)據(jù)庫(kù)360的訓(xùn)練 數(shù)據(jù),來(lái)訓(xùn)練斷詞器訓(xùn)練模塊460及NE辨識(shí)訓(xùn)練模塊485以更佳地識(shí)別ΝΕ。數(shù)據(jù)庫(kù)360中 的訓(xùn)練數(shù)據(jù)的品質(zhì)(例如,以及訓(xùn)練數(shù)據(jù)集合的完整性與平衡(數(shù)據(jù)在類別間的平滑分布) 會(huì)影響模塊310及320(圖幻的效能。訓(xùn)練數(shù)據(jù)的品質(zhì)可通過(guò)由每一模塊所達(dá)到的精確度 (precision)與召回率(recall)值來(lái)測(cè)量。在重復(fù)訓(xùn)練程序之后,以CRF為基礎(chǔ)的斷詞或NE辨識(shí)可達(dá)成高度的精確度 (precision)及完整性(recall)。斷詞模塊470接著會(huì)對(duì)網(wǎng)頁(yè)370中的內(nèi)容進(jìn)行斷詞,且 將所斷詞的內(nèi)容發(fā)送至NE辨識(shí)(NE recognition, NER)模塊480。NE辨識(shí)模塊480包括并 行的辨識(shí)子模塊。舉例而言,每一辨識(shí)子模塊可識(shí)別一個(gè)類的NE。如果NE包含三個(gè)類的 NE (諸如食物、餐館及地理位置),則NE辨識(shí)模塊480可實(shí)際操作三個(gè)子模塊來(lái)識(shí)別每一類 的NE (食物名稱、餐館名稱及地理位置)。NE辨識(shí)模塊480接著會(huì)識(shí)別NE,且接著將NE發(fā) 送至后處理分類器490。如果來(lái)自于NE辨識(shí)模塊480的輸出是不明確的,則后處理分類器490會(huì)仲裁所述 結(jié)果。舉例而言,如果兩個(gè)NE辨識(shí)子模塊(例如,一個(gè)用于食物,一個(gè)用于餐館)分別地將 一個(gè)NE (例如,美式大餛飩)映射至有機(jī)物件數(shù)據(jù)模型中,則后處理分類器490會(huì)使用NE 周圍的句子上下文來(lái)決定其正確的類別(例如,「美式大餛飩」是指食物本身,或是由句子 中的餐館供應(yīng)的一道菜)。后處理分類器490會(huì)將NE分類為多個(gè)類別(例如,食物名稱、餐 館名稱及地理位置),且將所識(shí)別的NE發(fā)送至智能NE過(guò)濾模塊440。如圖4所示,智能NE過(guò)濾模塊440會(huì)判定由NE辨識(shí)模塊480識(shí)別的最佳品質(zhì)物 件,且發(fā)送欲存儲(chǔ)于訓(xùn)練數(shù)據(jù)庫(kù)360中的新識(shí)別的NE (物件)。智能NE過(guò)濾模塊440也可 將新識(shí)別的NE加入至專用名詞詞典380b。智能NE過(guò)濾模塊440更會(huì)將所識(shí)別的NE發(fā)送 至NE辨識(shí)模塊480中。圖5繪示由智能NE過(guò)濾模塊440 (包含其與系統(tǒng)300的其他組件 的接口)的范例實(shí)施方案所執(zhí)行的程序的方塊圖。如圖5所示,智能NE過(guò)濾模塊440會(huì)使用N字母組合并演算法510來(lái)識(shí)別NE樣 式。NE樣式是指NE在各種句子中的置放,包含其詞長(zhǎng)度(例如,詞中的字元的數(shù)目)以及 與鄰近于其的其他詞的相對(duì)位置。智能NE過(guò)濾模塊440可通過(guò)檢查與NE相關(guān)聯(lián)的句子中 的時(shí)間戳記及位置來(lái)判定各種NE樣式的頻率(term frequenc,TF) (520)。TF是指NE或NE 樣式在一特定時(shí)間周期內(nèi)的出現(xiàn)頻率。如圖5所示,智能NE過(guò)濾模塊440會(huì)判定每一 NE 樣式在當(dāng)前時(shí)間周期中(530)及所有時(shí)間歷程中(540)的TF,以濾出過(guò)時(shí)的NE。接下來(lái), 依據(jù)所計(jì)算出的TF,智能NE過(guò)濾模塊440可判定哪些NE樣式是正確的(例如,高于臨限值的TF),且發(fā)送所選擇的NE樣式以由后續(xù)程序作進(jìn)一步檢查(步驟550)。智能NE過(guò)濾模 塊440也可對(duì)欲監(jiān)視的不明確NE樣式(例如,低于臨限值的TF)進(jìn)行分組(560及575)。 智能NE過(guò)濾模塊440會(huì)接著在其識(shí)別出正確的NE樣式時(shí)使用此監(jiān)視結(jié)果(575及550)。為了進(jìn)一步分析正確的NE樣式(570),智能NE過(guò)濾模塊440會(huì)計(jì)算置信心值 (580)、可信賴值(58 ,并檢測(cè)NE樣式的邊界(584)。以下將配合圖6及圖7作進(jìn)一步描 述。智能NE過(guò)濾模塊440會(huì)接著檢查NE樣式的信心值,且例如若信心值高于臨限值時(shí),則 發(fā)送欲存儲(chǔ)于專用名詞詞典380b中或欲加入至訓(xùn)練數(shù)據(jù)庫(kù)360中的NE樣式。智能NE過(guò) 濾模塊440會(huì)類似地檢查NE樣式的可信賴值(58 ,且將NE樣式發(fā)送至自動(dòng)NER訓(xùn)練數(shù)據(jù) 產(chǎn)生模塊452中,以存儲(chǔ)為存于訓(xùn)練數(shù)據(jù)庫(kù)360中的訓(xùn)練數(shù)據(jù)的一部分。智能NE過(guò)濾模塊 440亦會(huì)判定NE的邊界,并計(jì)算NE邊界(584)的信心值,且使用此邊界以在句子中識(shí)別正 確的NE (496)。智能NE過(guò)濾模塊440接著會(huì)將所識(shí)別的NE發(fā)送至后處理分類器490,后處 理分類器490又可對(duì)NE進(jìn)行分類,并發(fā)送欲存儲(chǔ)于專用名詞詞典380b中的NE。或者,智能 NE過(guò)濾模塊440也可將正確的NE直接發(fā)送存儲(chǔ)至專用名詞詞典380b (586)。圖6繪示用于計(jì)算可信賴值及信心值的程序600的范例。如圖6所示,智能NE過(guò) 濾模塊440會(huì)識(shí)別具有在2個(gè)字元與6個(gè)字元之間的樣式長(zhǎng)度的N字母組樣式(610)。智 能NE過(guò)濾模塊440會(huì)根據(jù)NE樣式的長(zhǎng)度對(duì)所有NE樣式進(jìn)行排序,且接著還根據(jù)在文件中 出現(xiàn)的頻率來(lái)對(duì)結(jié)果清單進(jìn)行排序(620)。智能NE過(guò)濾模塊440也可依據(jù)NE樣式的出現(xiàn) 頻率來(lái)計(jì)算NE樣式信心值(見(jiàn)圖6,660)。依據(jù)NE樣式的信心值,智能NE過(guò)濾模塊440會(huì) 檢查NE樣式第一次出現(xiàn)的時(shí)間戳記,以及其在某一時(shí)間周期內(nèi)的出現(xiàn)頻率。舉例而言,如 果NE樣式出現(xiàn)過(guò)期,則智能NE過(guò)濾模塊會(huì)將過(guò)期的NE自訓(xùn)練數(shù)據(jù)庫(kù)360刪除,以改善訓(xùn) 練數(shù)據(jù)的品質(zhì)。智能NE過(guò)濾模塊440接著會(huì)檢查某些NE樣式是否可合并(640)。對(duì)于經(jīng)合并的 NE樣式,智能NE過(guò)濾模塊440會(huì)根據(jù)預(yù)合并NE的出現(xiàn)頻率來(lái)判定可信賴值(640)。圖7繪 示NE樣式可信賴值的計(jì)算范例,其反映NE辨識(shí)在某一時(shí)間周期內(nèi)的可靠性。如圖7所示, 為了判定可信賴值,智能NE過(guò)濾模塊440會(huì)先自NE提取字首碼、字中間碼及字尾碼N字母 組特征(710)。舉例而言,中文NE「意大利面」具有字首碼「意大」、字中間碼「大利」以及 字尾碼「利面」作為其雙字母組特征。接下來(lái),智能NE過(guò)濾模塊440可判定所提取的特征 是否屬于特定領(lǐng)域(例如,餐飲)的特征組(720)。之后,智能NE過(guò)濾模塊440會(huì)依據(jù)N字 母組特征的長(zhǎng)度及其出現(xiàn)頻率來(lái)計(jì)算每一所提取的特征的權(quán)重(730)。接下來(lái),智能NE過(guò) 濾模塊440會(huì)根據(jù)N字母組特征的權(quán)重來(lái)判定可信賴值(740)。另外,通過(guò)計(jì)算字首碼、字 中間碼及字尾碼的可信賴值,智能NE過(guò)濾模塊440也可判定新NE的邊界。如圖7所示,如 果特定NE樣式的可信賴值較低,則通過(guò)人工數(shù)據(jù)處理人員(例如,數(shù)據(jù)錄入員)來(lái)檢視數(shù) 據(jù)并校正N字母組特征或特征的出現(xiàn)頻率(750)。圖8繪示主題分類及辨識(shí)模塊340的范例方塊圖。主題分類及辨識(shí)模塊340會(huì) 分析從斷詞及整合模塊310中接收的已斷詞的網(wǎng)頁(yè)內(nèi)容以識(shí)別線上社群所討論的主題,用 所識(shí)別的主題來(lái)標(biāo)記每一句子及段落,并且將所識(shí)別并標(biāo)記的主題發(fā)送至斷詞及整合模塊 310以進(jìn)一步地分析。如圖8所示,主題分類及辨識(shí)模塊340會(huì)根據(jù)存儲(chǔ)于有機(jī)物件數(shù)據(jù)庫(kù) 380a中的有機(jī)物件數(shù)據(jù)以及專用名詞詞典380b中的主題及意見(jiàn)而從訓(xùn)練數(shù)據(jù)庫(kù)360中的 句子提取主題樣式(810)。接下來(lái),主題分類及辨識(shí)模塊340可通過(guò)移除通常與句子中所討論的主題無(wú)關(guān)的停止詞及其他常用詞來(lái)減小所提取的主題樣式長(zhǎng)度(820)。接下來(lái),主題 分類及辨識(shí)模塊340可通過(guò)人工標(biāo)記以建立階層式主題樣式分組(步驟830)。舉例而言, 請(qǐng)參照?qǐng)D2,使用者檢視Ml可為一寬泛主題,其包含更多特定主題氛圍M2、服務(wù)M3、價(jià) 格244以及味道M5。主題分類及辨識(shí)模塊340可將氛圍M2、服務(wù)M3、價(jià)格M4以及味道 245分組成四個(gè)主題樣式群組。接下來(lái),主題分類及辨識(shí)模塊340會(huì)計(jì)算兩個(gè)主題之間的語(yǔ)意相似性(840)。圖9 繪示語(yǔ)意相似性計(jì)算的范例。如圖9所示,主題i及j可由主題語(yǔ)意向量Vi及Vj表示,其 中主題i與j之間的語(yǔ)意相似性可界定為相似性(V”Vj) = cos (Vi, Vj) = cos θ假設(shè)dave為一組主題中的主題之間的平均相似性,則當(dāng)主題分類及辨識(shí)模塊340 判定主題1與主題η之間的語(yǔ)意相似性dn大于dare時(shí),其可確定主題η為新主題。在所公 開(kāi)的范例中,主題分類及辨識(shí)模塊340在計(jì)算語(yǔ)意相似性(840)之前會(huì)對(duì)主題樣式進(jìn)行分 組(830),以改善新主題檢測(cè)的準(zhǔn)確性。請(qǐng)?jiān)賲⒄請(qǐng)D8,在計(jì)算語(yǔ)意相似性(840)之后,主題分類及辨識(shí)模塊340會(huì)將主題 樣式、主題語(yǔ)意向量以及語(yǔ)意相似性存儲(chǔ)于一個(gè)或多個(gè)表格中(860)。如圖8所示,主題分 類及辨識(shí)模塊340會(huì)將所識(shí)別的主題樣式加入至訓(xùn)練數(shù)據(jù)庫(kù)360中,以用作為訓(xùn)練數(shù)據(jù)。如圖8所示,主題分類器模塊870會(huì)匹配存儲(chǔ)于主題樣式表格861中的主題樣式, 并依據(jù)存儲(chǔ)于主題語(yǔ)意向量表格862及語(yǔ)意相似性表格863中的數(shù)據(jù)來(lái)檢查語(yǔ)意相似性, 藉此來(lái)處理所斷詞的網(wǎng)頁(yè)370(由斷詞及整合模塊310斷詞)。之后,主題分類器模塊870 會(huì)對(duì)網(wǎng)頁(yè)370的內(nèi)容中的主題進(jìn)行分類,并檢測(cè)內(nèi)容中的新主題。最后,主題分類及辨識(shí)模 塊340會(huì)標(biāo)記并組成與網(wǎng)頁(yè)370上的每一句子有關(guān)的主題,并依據(jù)段落中的句子的主題來(lái) 判定每一段落的主題(880)。主題分類及辨識(shí)模塊340會(huì)將句子主題及段落主題發(fā)送至斷 詞及整合模塊310中,以作進(jìn)一步的處理。圖10繪示由主題分類及辨識(shí)模塊340實(shí)際操作的用于收集及改善訓(xùn)練數(shù)據(jù)集合 的品質(zhì)的程序1000的范例。其他模塊,例如物件辨識(shí)模塊320及意見(jiàn)探勘模塊350,可使用 類似的程序來(lái)改善訓(xùn)練數(shù)據(jù)品質(zhì)。如圖10所示,信息擷取及管理系統(tǒng)300會(huì)以原始訓(xùn)練數(shù) 據(jù)集合來(lái)開(kāi)始(1010),例如從線上社群網(wǎng)絡(luò)的網(wǎng)頁(yè)收集的較大數(shù)目的句子及段落。舉例而 言,原始數(shù)據(jù)集合可包含50,000個(gè)句子。接下來(lái),數(shù)據(jù)擷取及管理系統(tǒng)300會(huì)對(duì)來(lái)自原始 數(shù)據(jù)集合的句子進(jìn)行采樣(例如,對(duì)每10個(gè)句子中的其中之一進(jìn)行采樣)(1020)。例如,人 工數(shù)據(jù)處理人員(例如數(shù)據(jù)錄入員)會(huì)通過(guò)標(biāo)記5,000個(gè)樣本句子中的主題來(lái)標(biāo)記所采樣 的數(shù)據(jù)集合,并將所標(biāo)記的數(shù)據(jù)存儲(chǔ)于訓(xùn)練數(shù)據(jù)庫(kù)360中(1030)。之后,數(shù)據(jù)擷取及管理系 統(tǒng)300會(huì)驗(yàn)證并校正人工標(biāo)記的數(shù)據(jù)集合(1040)。圖11繪示由主題分類及辨識(shí)模塊340實(shí)際操作的驗(yàn)證及校正程序1040的范例。 數(shù)據(jù)擷取及管理系統(tǒng)300會(huì)接收經(jīng)人工標(biāo)記的數(shù)據(jù)集合1110,其中于每一句子中標(biāo)記出一 個(gè)或多個(gè)主題。所標(biāo)記的數(shù)據(jù)集合1110包括一個(gè)或多個(gè)經(jīng)標(biāo)記的句子。主題分類及辨識(shí)模 塊340接著會(huì)識(shí)別五組句子,例如,句子組1111至1115。每一句子數(shù)據(jù)集合(1111至1115) 包括一個(gè)或多個(gè)句子。主題分類及辨識(shí)模塊340接著會(huì)使用四組經(jīng)標(biāo)記的數(shù)據(jù)集合1111至 1114作為訓(xùn)練數(shù)據(jù)集合1116,且使用第五數(shù)據(jù)集合1115作為測(cè)試數(shù)據(jù)集合1117。數(shù)據(jù)擷 取及管理系統(tǒng)300會(huì)通過(guò)通過(guò)支持向量機(jī)(Support VectorMachine, SVM)訓(xùn)練器1120來(lái)處理1116中的四個(gè)句子數(shù)據(jù)集合以處理訓(xùn)練數(shù)據(jù)集合1116。SVM訓(xùn)練器1120可使用SVM 模型1130。SVM模型1130可為作為空間中的點(diǎn)的數(shù)據(jù)樣本的呈現(xiàn),其系映射以使得單獨(dú)類 別的樣本可由清楚的間隙來(lái)區(qū)分。接下來(lái),主題分類及辨識(shí)模塊340會(huì)使用根據(jù)訓(xùn)練數(shù)據(jù) 集合1116所計(jì)算的SVM參數(shù)來(lái)配置SVM分類器1140。主題分類及辨識(shí)模塊340會(huì)使用經(jīng) 配置的SVM分類器1140來(lái)預(yù)測(cè)第五數(shù)據(jù)集合1115中的句子是否關(guān)于一個(gè)或多個(gè)預(yù)定的主 題。SVM分類器1140會(huì)產(chǎn)生預(yù)測(cè)的句子組1150,其包括數(shù)據(jù)集合1115中的句子以及針對(duì) 數(shù)據(jù)集合1115中的句子所預(yù)測(cè)的主題。SVM分類器1140會(huì)標(biāo)記針對(duì)所預(yù)測(cè)的組1150中的 句子而預(yù)測(cè)的主題。所預(yù)測(cè)的組1150包括針對(duì)數(shù)據(jù)集合1115中的句子所預(yù)測(cè)的一個(gè)或多 個(gè)主題的信賴度評(píng)分。如圖11所示,主題分類及辨識(shí)模塊340會(huì)使用驗(yàn)證器1160來(lái)將測(cè)試數(shù)據(jù)集合 1117(其與數(shù)據(jù)集合1115相同)與所預(yù)測(cè)的數(shù)據(jù)集合1150進(jìn)行比較,以判定經(jīng)人工標(biāo)記的 第五數(shù)據(jù)集合1115是否為與所預(yù)測(cè)的數(shù)據(jù)集合中的主題相同的主題。驗(yàn)證器1160將1117 中與1150預(yù)測(cè)答案不同的數(shù)據(jù),按照SVM預(yù)測(cè)的信心值排序,產(chǎn)生一排序集合1170。接下 來(lái),人工數(shù)據(jù)處理人員會(huì)檢視并校正經(jīng)排序的信心值評(píng)分的序列中的不一致集合(1180)。 亦即,人工數(shù)據(jù)處理人員會(huì)先檢視并校正具有最高信心值評(píng)分的錯(cuò)誤預(yù)測(cè)的數(shù)據(jù)點(diǎn)(例 如,所預(yù)測(cè)的主題)。人工數(shù)據(jù)處理人員接著會(huì)將所校正的數(shù)據(jù)傳回至經(jīng)標(biāo)記的數(shù)據(jù)樣本文 件。圖11中所描述的程序的范例可在經(jīng)標(biāo)記的數(shù)據(jù)集合1110的各種群組中重復(fù)。 舉例而言,主題分類及辨識(shí)模塊340可將經(jīng)標(biāo)記的數(shù)據(jù)集合1111分為五個(gè)群組(例如, 11111、11112、11113、11114及11115)。主題分類及辨識(shí)模塊340可使用上述的程序(1120、 1130、1149、1150、1160、1170 及 1180),通過(guò)使用數(shù)據(jù)集合 11111、11112、11113 及 11114 作 為訓(xùn)練數(shù)據(jù)集合1116,且使用數(shù)據(jù)集合11115作為測(cè)試數(shù)據(jù)集合1117來(lái)交叉證實(shí)經(jīng)標(biāo)記的 數(shù)據(jù)集合1111,以驗(yàn)證數(shù)據(jù)集合1111是否被正確地標(biāo)記。返回至圖10,在驗(yàn)證并校正所標(biāo)記的數(shù)據(jù)集合之后,主題分類及辨識(shí)模塊340會(huì) 通過(guò)檢查交叉驗(yàn)證結(jié)果(例如,主題預(yù)測(cè)的校正百分比)以評(píng)定SVM預(yù)測(cè)在與人工標(biāo)記的 樣本數(shù)據(jù)集合相比時(shí)的準(zhǔn)確性來(lái)評(píng)估數(shù)據(jù)集合的品質(zhì)(1050)。舉例而言,主題分類及辨識(shí) 模塊340可為交叉驗(yàn)證校正百分比設(shè)定臨限值。當(dāng)經(jīng)標(biāo)記的數(shù)據(jù)集合與所預(yù)測(cè)的集合的交 叉驗(yàn)證低于臨限值時(shí),則主題分類及辨識(shí)模塊340會(huì)對(duì)更多輸入數(shù)據(jù)進(jìn)行采樣(1020)以及 重新處理經(jīng)采樣的數(shù)據(jù)(1030及1040)。如果交叉驗(yàn)證校正百分比達(dá)到給定臨限值時(shí),則主 題分類及辨識(shí)模塊340會(huì)將所標(biāo)記的數(shù)據(jù)集合1060輸出至訓(xùn)練數(shù)據(jù)庫(kù)360。因此,通過(guò)上 述程序來(lái)測(cè)試并改善訓(xùn)練數(shù)據(jù)的品質(zhì)。圖1 繪示由意見(jiàn)探勘及情感分析模塊350實(shí)際操作的意見(jiàn)探勘程序1210的范 例。意見(jiàn)探勘及情感分析模塊350可從斷詞及整合模塊310(圖3)中接收經(jīng)斷詞的文件及 句子主題,以供進(jìn)一步處理。意見(jiàn)探勘及情感分析模塊350包括以CRF為基礎(chǔ)的意見(jiàn)詞及樣 式探測(cè)器模塊(CRF-based opinionwords and patterns explorer module) 1220。意見(jiàn)詞 及樣式探測(cè)器模塊1220會(huì)在以CRF為基礎(chǔ)的演算法中使用存儲(chǔ)于專用名詞詞典380b (圖 4)中的主題樣式及NE,以在所斷詞的文件中識(shí)別意見(jiàn)詞、意見(jiàn)樣式及否定詞/樣式。意見(jiàn) 詞及樣式探測(cè)器模塊1220會(huì)將意見(jiàn)詞、意見(jiàn)樣式及否定詞/樣式存儲(chǔ)于表格1222、12M及 1226 (其可為訓(xùn)練數(shù)據(jù)庫(kù)360的一部分)中。在每一表格中,意見(jiàn)詞及樣式探測(cè)器模塊1220更會(huì)將詞/樣式分類成=Vi (獨(dú)立動(dòng)詞)、Vd(后面需要跟有意見(jiàn)詞的動(dòng)詞)、Adj (后面需要跟 有意見(jiàn)詞的形容詞)以及Adv (強(qiáng)調(diào)或降低強(qiáng)調(diào)一意見(jiàn)的)副詞。表格1222、12M及12 也可存儲(chǔ)由人工數(shù)據(jù)處理人員所標(biāo)記的意見(jiàn)、意見(jiàn)樣式/片語(yǔ)的傾向。如圖1 所示,意見(jiàn)探勘及情感分析模塊350會(huì)根據(jù)存儲(chǔ)于專用名詞詞典380b中 的主題樣式、意見(jiàn)詞1222、意見(jiàn)樣式/片語(yǔ)12M以及存儲(chǔ)于數(shù)據(jù)庫(kù)360中的否定詞12 來(lái)識(shí)別以主題為基礎(chǔ)且以意見(jiàn)為依據(jù)的句子。根據(jù)所識(shí)別的意見(jiàn)詞、意見(jiàn)樣式及否定詞, 意見(jiàn)探勘及情感分析模塊350可使用意見(jiàn)探勘分類器(opinion mining classifier) 1280 來(lái)判定句子中的意見(jiàn)為正面抑或負(fù)面,并根據(jù)V” Vd、Adj及Adv的強(qiáng)度來(lái)計(jì)算意見(jiàn)決策評(píng) 分(1沈0),意見(jiàn)探勘分類器1280包括機(jī)器學(xué)習(xí)分類器1240 (例如,實(shí)際操作SVM或NaiVe Bayes演算法的分類器)以及以語(yǔ)法及規(guī)則為基礎(chǔ)的分類器1250。結(jié)合圖11的討論所描 述的SVM分類器1140為機(jī)器分類器1240的其中一個(gè)范例。以規(guī)則為基礎(chǔ)的分類器1250會(huì)使用含有語(yǔ)言樣式及語(yǔ)法規(guī)則(例如,存儲(chǔ)于有機(jī) 物件數(shù)據(jù)庫(kù)380a及專用名詞詞典380b (圖3)中的語(yǔ)言樣式)的一個(gè)或多個(gè)外掛模塊,以 幫助判定意見(jiàn)的傾向。意見(jiàn)探勘分類器1280也可計(jì)算意見(jiàn)詞或意見(jiàn)樣式的信心值。對(duì)于 具有較低信賴度評(píng)分的意見(jiàn)或意見(jiàn)樣式,可通過(guò)人工數(shù)據(jù)處理人員,來(lái)檢視且可能地校正 意見(jiàn)的傾向,且將所校正的意見(jiàn)詞或樣式加入至存儲(chǔ)于表格1222、12M及12 中的訓(xùn)練數(shù) 據(jù)集合中。接下來(lái),意見(jiàn)探勘及情感分析模塊350會(huì)根據(jù)段落中的每一句子的決策評(píng)分(例 如,一段落中的句子的平均評(píng)分)來(lái)計(jì)算所述段落的意見(jiàn)決策評(píng)分。圖12b繪示由意見(jiàn)探 勘及情感分析模塊350實(shí)際操作的意見(jiàn)探勘測(cè)試程序的范例。測(cè)試網(wǎng)頁(yè)370會(huì)通過(guò)斷詞及 整合模塊310發(fā)送至意見(jiàn)探勘分類器(1240及1250)。根據(jù)所識(shí)別的以主題為基礎(chǔ)且以意 見(jiàn)為依據(jù)的句子1230,意見(jiàn)探勘分類器1240及1250可判定句子中的意見(jiàn)為肯定抑或否定, 且根據(jù)VyVtnAdj及Adv的強(qiáng)度來(lái)計(jì)算意見(jiàn)決策評(píng)分(1310)。接下來(lái),意見(jiàn)探勘及情感分 析模塊350會(huì)根據(jù)段落的每一句子中所識(shí)別的意見(jiàn)的決策評(píng)分來(lái)計(jì)算所述段落的意見(jiàn)決 策評(píng)分(1320)。意見(jiàn)探勘及情感分析模塊350會(huì)將與句子、段落相關(guān)聯(lián)的意見(jiàn)以及與有機(jī) 物件相關(guān)聯(lián)的意見(jiàn)輸出至斷詞及整合模塊310,以供進(jìn)一步處理。請(qǐng)?jiān)賲⒄請(qǐng)D3,物件關(guān)系建構(gòu)模塊(object relationship constructionmodule)330會(huì)建構(gòu)兩種類型的關(guān)系母物件與子物件之間的關(guān)系,以及兩個(gè) 子物件之間的關(guān)系。在一范例中,物件關(guān)系建構(gòu)模塊330會(huì)使用網(wǎng)頁(yè)的布局及內(nèi)容來(lái)確定 母物件與子物件之間的關(guān)系。物件關(guān)系建構(gòu)模塊330也可使用自然語(yǔ)言剖析器(Parser) 來(lái)分析兩個(gè)子物件之間的關(guān)系。主題分類及辨識(shí)模塊340 (圖8)以及意見(jiàn)探勘及情感分析模塊350 (圖12a)可通 過(guò)使用類似的軟件架構(gòu)來(lái)實(shí)際操作。圖12c提供可用于實(shí)際操作主題分類及辨識(shí)模塊340 以及意見(jiàn)探勘及情感分析模塊350的軟件架構(gòu)的范例。如圖12c所示,主題分類及辨識(shí)模 塊340或意見(jiàn)探勘及情感分析模塊350會(huì)根據(jù)存儲(chǔ)于有機(jī)物件數(shù)據(jù)庫(kù)380a及專用名詞詞 典380b中的主題樣式及意見(jiàn)詞來(lái)提取主題或意見(jiàn)詞。根據(jù)所提取的意見(jiàn)詞及意見(jiàn)樣式,例如,意見(jiàn)探勘分類器1280可通過(guò)匹配存儲(chǔ)于 意見(jiàn)詞表格1222或意見(jiàn)樣式表格12M中的意見(jiàn)詞及意見(jiàn)樣式,并且根據(jù)存儲(chǔ)于表格12 中的數(shù)據(jù)檢查否定詞或特殊語(yǔ)法規(guī)則,來(lái)處理所斷詞的網(wǎng)頁(yè)(由斷詞及整合模塊310斷詞)。表格1222、12M及12 可為訓(xùn)練數(shù)據(jù)庫(kù)360的一部分。根據(jù)所識(shí)別的意見(jiàn)詞、意見(jiàn) 樣式及否定詞,意見(jiàn)探勘及情感分析模塊350可使用包含機(jī)器學(xué)習(xí)分類器1240 (例如,實(shí)施 SVM或NaiVeBayes演算法的分類器)以及以語(yǔ)法及規(guī)則為基礎(chǔ)的分類器1250的意見(jiàn)探勘 分類器1觀0,來(lái)判定句子中的意見(jiàn)為肯定抑或否定,并根據(jù)ViJtnAdj及Adv的強(qiáng)度來(lái)計(jì)算 意見(jiàn)決策評(píng)分(1沈0)。以規(guī)則為基礎(chǔ)的分類器1250可使用含有語(yǔ)言樣式及語(yǔ)法規(guī)則(例 如,存儲(chǔ)于有機(jī)物件數(shù)據(jù)庫(kù)380a及專用名詞詞典380b (圖3)中的數(shù)據(jù))的一個(gè)或多個(gè)外 掛模塊來(lái)幫助判定意見(jiàn)的傾向。意見(jiàn)探勘分類器1280也可計(jì)算意見(jiàn)詞或意見(jiàn)樣式的信心 值。對(duì)于具有較低信賴度評(píng)分的意見(jiàn)或意見(jiàn)樣式,可通過(guò)人工數(shù)據(jù)處理人員來(lái)檢視且可能 地校正意見(jiàn)的傾向,并且可將所校正的意見(jiàn)詞或樣式加入至存儲(chǔ)于表格1222、12M及12 中的訓(xùn)練數(shù)據(jù)集合。根據(jù)所提取的主題,主題分類器870可通過(guò)匹配存儲(chǔ)于主題樣式表格861中的主 題樣式,并檢查根據(jù)存儲(chǔ)于主題語(yǔ)意向量表格862及語(yǔ)意相似性表格863中的數(shù)據(jù)來(lái)檢查 語(yǔ)意相似性,以處理所斷詞的網(wǎng)頁(yè)(由斷詞及整合模塊310斷詞)。表格861、862及863可 為訓(xùn)練數(shù)據(jù)庫(kù)360的一部分。接著,主題分類器模塊870會(huì)對(duì)網(wǎng)頁(yè)的內(nèi)容中的主題進(jìn)行分 類,并檢測(cè)內(nèi)容中的新主題。最后,主題分類及辨識(shí)模塊340會(huì)標(biāo)記并組成與網(wǎng)頁(yè)上的每一 句子有關(guān)的主題,并根據(jù)段落中的句子的主題來(lái)判定每一段落的主題(880)。主題分類及辨 識(shí)模塊340會(huì)將句子主題及段落主題發(fā)送至斷詞及整合模塊310,以供進(jìn)一步處理。在圖3中,斷詞及整合模塊310會(huì)接收并處理來(lái)自所有其他模塊的輸入數(shù)據(jù),并將 所擷取的有機(jī)物件數(shù)據(jù)存儲(chǔ)于有機(jī)物件數(shù)據(jù)庫(kù)380a中。圖13繪示斷詞及整合模塊310的 范例。如圖13所示,斷詞及整合模塊310會(huì)使用專用名詞詞典380b (存儲(chǔ)NE、主題、意 見(jiàn)樣式等)作為以CRF為基礎(chǔ)的斷詞器訓(xùn)練模塊460及斷詞器470(見(jiàn)圖4)的外掛程序, 以改善斷詞的準(zhǔn)確性。專用名詞詞典380b的外掛程序會(huì)向斷詞器470提供NE、主題、意見(jiàn) 樣式,以幫助斷詞器470辨識(shí)樣式。如上所述,專用名詞詞典380b中的內(nèi)容可由物件辨識(shí) 模塊320、主題分類及辨識(shí)模塊340以及意見(jiàn)探勘模塊350(經(jīng)由模塊接口 1330)更新。如 圖13所示,此等模塊也可經(jīng)由模塊接口 1330將所斷詞的結(jié)果、所發(fā)現(xiàn)的物件、主題及意見(jiàn) 1310發(fā)送至斷詞及整合模塊310。整合模塊1340會(huì)監(jiān)視其他模塊的工作狀態(tài)(1342),并提 供對(duì)其他模塊的更新(1344)。整合模塊1340還將經(jīng)由模塊接口 1330自其他模塊接收的數(shù) 據(jù)(NE、主題、意見(jiàn)樣式等)整合至有機(jī)物件數(shù)據(jù)模型100中,并將物件數(shù)據(jù)存儲(chǔ)于專用名詞 詞典380b中。本領(lǐng)域技術(shù)人員將明了,可在用于自線上社群及群落擷取社群智能的系統(tǒng)及方法 中作出各種修改及變化。舉例而言,在考慮所公開(kāi)的實(shí)施例之后,本領(lǐng)域技術(shù)人員將了解, 可使用數(shù)據(jù)庫(kù)的不同配置來(lái)存儲(chǔ)用于有機(jī)物件數(shù)據(jù)模型的訓(xùn)練數(shù)據(jù)以及專用名詞詞典。另 外,在考慮所公開(kāi)的實(shí)施例之后,本領(lǐng)域技術(shù)人員將了解,可使用各種機(jī)器學(xué)習(xí)演算法來(lái)識(shí) 別在有機(jī)物件數(shù)據(jù)模型中定義的NE、主題及意見(jiàn)。另外,在考慮所公開(kāi)的實(shí)施例之后,本 領(lǐng)域技術(shù)人員亦將了解,所公開(kāi)的有機(jī)物件數(shù)據(jù)模型可應(yīng)用于除線上社群智能之外的信息 (例如,備用數(shù)據(jù)庫(kù)或紙質(zhì)出版物中的大量數(shù)據(jù))。而且,在考慮所公開(kāi)的實(shí)施例之后,本領(lǐng) 域技術(shù)人員將進(jìn)一步了解,可借助各種軟件/硬件配置,通過(guò)使用各種計(jì)算機(jī)服務(wù)器、計(jì)算 機(jī)存儲(chǔ)介質(zhì)以及軟件應(yīng)用程序來(lái)實(shí)施所公開(kāi)的實(shí)施例。因此,雖然本發(fā)明已以實(shí)施例公開(kāi)如上,然其并非用以限定本發(fā)明,本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可 作些許的更動(dòng)與潤(rùn)飾,故本發(fā)明的保護(hù)范圍當(dāng)視所附權(quán)利要求書所界定者為準(zhǔn)。
      權(quán)利要求
      1.一種用于使用有機(jī)物件數(shù)據(jù)模型來(lái)擷取及組織線上收集的社群智能數(shù)據(jù)的方法,所 述方法包括通過(guò)用以擷取及管理社群智能信息的一計(jì)算機(jī)來(lái)接收含有社群智能數(shù)據(jù)的一個(gè)或多 個(gè)網(wǎng)頁(yè);通過(guò)所述計(jì)算機(jī)來(lái)對(duì)含有社群智能數(shù)據(jù)的所述一個(gè)或多個(gè)網(wǎng)頁(yè)的內(nèi)容進(jìn)行斷詞;通過(guò)所述計(jì)算機(jī)來(lái)識(shí)別所述一個(gè)或多個(gè)網(wǎng)頁(yè)的所斷詞的所述內(nèi)容中的附名實(shí)體;通過(guò)所述計(jì)算機(jī)來(lái)識(shí)別所述一個(gè)或多個(gè)網(wǎng)頁(yè)的所斷詞的所述內(nèi)容中的主題;通過(guò)所述計(jì)算機(jī)來(lái)識(shí)別所述一個(gè)或多個(gè)網(wǎng)頁(yè)的所斷詞的所述內(nèi)容中的意見(jiàn);通過(guò)所述計(jì)算機(jī)來(lái)整合所識(shí)別的所述附名實(shí)體、所述主題及所述意見(jiàn),以建構(gòu)一有機(jī) 物件數(shù)據(jù)模型;以及通過(guò)所述計(jì)算機(jī)來(lái)將與所建構(gòu)的所述有機(jī)物件數(shù)據(jù)模型相關(guān)聯(lián)的有機(jī)物件數(shù)據(jù)存儲(chǔ) 于一有機(jī)物件數(shù)據(jù)庫(kù)中。
      2.如權(quán)利要求1所述的方法,其中所述識(shí)別所述附名實(shí)體的步驟還包括通過(guò)所述計(jì)算機(jī),使用一以條件隨機(jī)域?yàn)榛A(chǔ)的演算法來(lái)訓(xùn)練一物件辨識(shí)模塊。
      3.如權(quán)利要求2所述的方法,其中所述識(shí)別所述附名實(shí)體的步驟還包括通過(guò)所述計(jì)算機(jī),根據(jù)一預(yù)定標(biāo)準(zhǔn)來(lái)對(duì)所識(shí)別的所述附名實(shí)體進(jìn)行分類,并將所分類 的所述附名實(shí)體存儲(chǔ)于一專用名詞詞典中。
      4.如權(quán)利要求3所述的方法,其中所述識(shí)別所述主題的步驟還包括通過(guò)所述計(jì)算機(jī),根據(jù)主題之間的語(yǔ)意相似性與以機(jī)器為基礎(chǔ)的分類來(lái)訓(xùn)練一主題分 類及辨識(shí)模塊。
      5.如權(quán)利要求4所述的方法,其中所述識(shí)別所述主題的步驟還包括通過(guò)所述計(jì)算機(jī),根據(jù)存儲(chǔ)于所述專用名詞詞典中的主題樣式與語(yǔ)意相似性來(lái)對(duì)所識(shí) 別的所述主題進(jìn)行分類。
      6.如權(quán)利要求5所述的方法,其中所述識(shí)別所述意見(jiàn)的步驟還包括通過(guò)所述計(jì)算機(jī),根據(jù)一以機(jī)器學(xué)習(xí)為基礎(chǔ)的演算法來(lái)訓(xùn)練一意見(jiàn)探勘模塊,其中該 以機(jī)器學(xué)習(xí)為基礎(chǔ)的演算法包括一支持向量機(jī)。
      7.如權(quán)利要求6所述的方法,其中所述識(shí)別所述意見(jiàn)的步驟還包括通過(guò)所述計(jì)算機(jī),使用含有語(yǔ)言樣式或語(yǔ)法規(guī)則的一外掛模塊來(lái)對(duì)所識(shí)別的所述意見(jiàn) 進(jìn)行分類。
      8.如權(quán)利要求1所述的方法,其中所述識(shí)別所述附名實(shí)體的步驟包括通過(guò)所述計(jì)算機(jī),使用一以條件隨機(jī)域?yàn)榛A(chǔ)的演算法來(lái)訓(xùn)練一物件辨識(shí)模塊;以及通過(guò)所述計(jì)算機(jī),根據(jù)一預(yù)定標(biāo)準(zhǔn)來(lái)對(duì)所識(shí)別的所述附名實(shí)體進(jìn)行分類,并將所分類 的所述附名實(shí)體存儲(chǔ)于一專用名詞詞典中。
      9.如權(quán)利要求8所述的方法,其中所述識(shí)別所述附名實(shí)體的步驟還包括通過(guò)所述計(jì)算機(jī)來(lái)選擇在一特定時(shí)間周期內(nèi)出現(xiàn)頻率高于一臨限值的附名實(shí)體。
      10.如權(quán)利要求1所述的方法,其中所述識(shí)別所述主題的步驟包括通過(guò)所述計(jì)算機(jī),根據(jù)主題之間的語(yǔ)意相似性來(lái)訓(xùn)練一主題分類及辨識(shí)模塊。
      11.如權(quán)利要求10所述的方法,其中所述識(shí)別所述主題的步驟還包括通過(guò)所述計(jì)算機(jī),根據(jù)存儲(chǔ)于所述專用名詞詞典中的主題樣式及語(yǔ)意相似性來(lái)對(duì)所識(shí)別的所述主題進(jìn)行分類。
      12.如權(quán)利要求1所述的方法,其中所述識(shí)別所述意見(jiàn)的步驟包括通過(guò)所述計(jì)算機(jī),根據(jù)一以機(jī)器學(xué)習(xí)為基礎(chǔ)的演算法來(lái)訓(xùn)練一意見(jiàn)探勘模塊,其中所 述以機(jī)器學(xué)習(xí)為基礎(chǔ)的演算法包括一支持向量機(jī)。
      13.如權(quán)利要求12所述的方法,其中所述識(shí)別所述意見(jiàn)還包括通過(guò)所述計(jì)算機(jī),使用含有語(yǔ)言樣式或語(yǔ)法規(guī)則之外掛模塊來(lái)對(duì)所識(shí)別的所述意見(jiàn)進(jìn) 行分類。
      14.一種用于使用有機(jī)物件數(shù)據(jù)模型來(lái)擷取及組織線上收集的社群智能數(shù)據(jù)的系統(tǒng), 所述系統(tǒng)由一個(gè)或多個(gè)計(jì)算機(jī)處理器實(shí)施,所述一個(gè)或多個(gè)計(jì)算機(jī)處理器執(zhí)行存儲(chǔ)于計(jì)算 機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序,所述系統(tǒng)包括一斷詞及整合模塊,耦接至一訓(xùn)練數(shù)據(jù)庫(kù),所述斷詞及整合模塊用以接收含有社群智 能數(shù)據(jù)的網(wǎng)頁(yè);一物件辨識(shí)模塊,耦接至所述斷詞及整合模塊,所述物件辨識(shí)模塊用以識(shí)別包含于所 接收到的所述網(wǎng)頁(yè)中的經(jīng)分類的附名實(shí)體;一主題分類及辨識(shí)模塊,耦接至所述斷詞及整合模塊,所述主題分類及辨識(shí)模塊用以 識(shí)別所接收到的所述網(wǎng)頁(yè)的每一句子及段落的主題;一意見(jiàn)探勘及情感分析模塊,耦接至所述斷詞及整合模塊,所述意見(jiàn)探勘及情感分析 模塊用以判定所接收到的所述網(wǎng)頁(yè)的句子中的意見(jiàn)及與所識(shí)別的所述附名實(shí)體或所識(shí)別 的所述主題相關(guān)聯(lián)的意見(jiàn);以及一物件關(guān)系建構(gòu)模塊,耦接至所述斷詞及整合模塊,所述物件關(guān)系建構(gòu)模塊用以界定 附名實(shí)體之間的關(guān)系。
      15.如權(quán)利要求14所述的系統(tǒng),其中所識(shí)別的所述附名實(shí)體為有機(jī)物件,且所識(shí)別的 所述主題及意見(jiàn)為與其對(duì)應(yīng)的物件相關(guān)聯(lián)的社會(huì)屬性。
      16.如權(quán)利要求14所述的系統(tǒng),所述物件辨識(shí)模塊包括一附名實(shí)體辨識(shí)模塊,用以根據(jù)一以條件隨機(jī)域?yàn)榛A(chǔ)的機(jī)器學(xué)習(xí)程序來(lái)識(shí)別附名實(shí)體;一后處理分類器模塊,用以根據(jù)一預(yù)定標(biāo)準(zhǔn)對(duì)所識(shí)別的所述附名實(shí)體進(jìn)行分類;以及一智能附名實(shí)體過(guò)濾模塊,用以更新一專用名詞詞典及所述訓(xùn)練數(shù)據(jù)庫(kù)。
      17.如權(quán)利要求14所述的系統(tǒng),所述主題分類及辨識(shí)模塊包括一訓(xùn)練模塊,用以應(yīng)用以語(yǔ)意向量為基礎(chǔ)的機(jī)器學(xué)習(xí)方法來(lái)訓(xùn)練一主題分類器,以識(shí) 別主題樣式及新的主題。
      18.如權(quán)利要求14所述的系統(tǒng),所述意見(jiàn)探勘及情感分析模塊包括一意見(jiàn)探勘分類器,用以實(shí)施一機(jī)器學(xué)習(xí)演算法,且從含有語(yǔ)法規(guī)則或語(yǔ)言樣式的一 外掛模塊中擷取數(shù)據(jù),以判定所述意見(jiàn)。
      19.如權(quán)利要求14所述的系統(tǒng),所述斷詞及整合模塊包括一斷詞模塊,用以根據(jù)一以條件隨機(jī)域?yàn)榛A(chǔ)的演算法及從一專用名詞詞典中擷取的 數(shù)據(jù)來(lái)對(duì)所接收到的所述網(wǎng)頁(yè)的內(nèi)容進(jìn)行斷詞;以及一整合模塊,用以整合從所述物件辨識(shí)模塊中接收到的所識(shí)別的所述附名實(shí)體、從所 述主題分類及辨識(shí)模塊中接收到的所識(shí)別的所述主題以及從所述意見(jiàn)探勘及情感分析模塊接收到的所識(shí)別的所述意見(jiàn),以建立一有機(jī)物件數(shù)據(jù)模型。
      20.如權(quán)利要求19所述的系統(tǒng),其中所述有機(jī)物件模型包含一有機(jī)物件、與所述有機(jī) 物件相關(guān)聯(lián)的自產(chǎn)生屬性、與所述有機(jī)物件相關(guān)聯(lián)的領(lǐng)域?qū)S脤傩砸约芭c所述有機(jī)物件相 關(guān)聯(lián)的社會(huì)屬性。
      21.一種用于擷取及組織線上收集的社群智能數(shù)據(jù)的系統(tǒng),所述系統(tǒng)由一個(gè)或多個(gè)計(jì) 算機(jī)處理器實(shí)施,所述一個(gè)或多個(gè)計(jì)算機(jī)處理器執(zhí)行存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算 機(jī)程序,所述系統(tǒng)包括一斷詞及整合模塊,耦接至一訓(xùn)練數(shù)據(jù)庫(kù),所述斷詞及整合模塊用以接收含有社群智 能數(shù)據(jù)的網(wǎng)頁(yè),并支持一有機(jī)物件模型,其中該有機(jī)物件模型包含一有機(jī)物件、與所述有機(jī) 物件相關(guān)聯(lián)的自產(chǎn)生屬性、與所述有機(jī)物件相關(guān)聯(lián)的領(lǐng)域?qū)S脤傩砸约芭c所述有機(jī)物件相 關(guān)聯(lián)的社會(huì)屬性;一物件辨識(shí)模塊,耦接至所述斷詞及整合模塊,所述物件辨識(shí)模塊用以識(shí)別包含于所 接收到的所述網(wǎng)頁(yè)中的附名實(shí)體,其中所判定的所述附名實(shí)體為有機(jī)物件;一主題分類及辨識(shí)模塊,其耦接至所述斷詞及整合模塊,所述主題分類及辨識(shí)模塊用 以識(shí)別所接收到的所述網(wǎng)頁(yè)的每一句子及段落的主題,其中所識(shí)別的所述主題為與其對(duì)應(yīng) 的有機(jī)物件相關(guān)聯(lián)的社會(huì)屬性;一意見(jiàn)探勘及情感分析模塊,耦接至所述斷詞及整合模塊,所述意見(jiàn)探勘及情感分析 模塊用以判定所接收到的所述網(wǎng)頁(yè)的句子中的意見(jiàn)及與所識(shí)別的附名實(shí)體相關(guān)聯(lián)的意見(jiàn), 其中所識(shí)別的所述意見(jiàn)為與其對(duì)應(yīng)的有機(jī)物件相關(guān)聯(lián)的社會(huì)屬性;以及一物件關(guān)系建構(gòu)模塊,耦接至所述斷詞及整合模塊,所述物件關(guān)系建構(gòu)模塊用以界定 有機(jī)物件之間的關(guān)系。
      全文摘要
      一種使用有機(jī)物件數(shù)據(jù)模型來(lái)組織社群智能信息的系統(tǒng)及方法,該方法包含接收含有社群智能數(shù)據(jù)的一個(gè)或多個(gè)網(wǎng)頁(yè);對(duì)所述含有社群智能數(shù)據(jù)的一個(gè)或多個(gè)網(wǎng)頁(yè)的內(nèi)容進(jìn)行斷詞;識(shí)別所述一個(gè)或多個(gè)網(wǎng)頁(yè)的經(jīng)斷詞的內(nèi)容中的附名實(shí)體(Named Entity);識(shí)別一個(gè)或多個(gè)網(wǎng)頁(yè)的經(jīng)斷詞的內(nèi)容中的主題;識(shí)別一個(gè)或多個(gè)網(wǎng)頁(yè)的經(jīng)斷詞的內(nèi)容中的意見(jiàn);整合所識(shí)別的附名實(shí)體、主題及意見(jiàn),以建構(gòu)有機(jī)物件數(shù)據(jù)模型;以及將與所建構(gòu)的有機(jī)物件數(shù)據(jù)模型相關(guān)聯(lián)的有機(jī)物件數(shù)據(jù)存儲(chǔ)于有機(jī)物件數(shù)據(jù)庫(kù)中。
      文檔編號(hào)G06F17/30GK102054015SQ20101052696
      公開(kāi)日2011年5月11日 申請(qǐng)日期2010年10月25日 優(yōu)先權(quán)日2009年10月28日
      發(fā)明者傅道揚(yáng), 吳泰廷, 張去非, 林俊偉, 駱嘉濠 申請(qǐng)人:財(cái)團(tuán)法人工業(yè)技術(shù)研究院
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1