国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種文檔的語義相關(guān)度計(jì)算方法

      文檔序號:9524299閱讀:523來源:國知局
      一種文檔的語義相關(guān)度計(jì)算方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明設(shè)及信息檢索領(lǐng)域,特別設(shè)及一種文檔的語義相關(guān)度計(jì)算方法。
      【背景技術(shù)】
      [0002] 社交媒體和移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,讓包括文本信息在內(nèi)的信息資源大量產(chǎn)生并 不斷加速地累積。文本信息能通過自然語言來表示和傳遞,是人類知識的主要載體,也是人 類交流的主要媒介。然而,信息的快速產(chǎn)生和海量累積,使得花費(fèi)人力去讀取和處理變得越 來越困難。很多場景下運(yùn)種工作已變得不現(xiàn)實(shí),比如網(wǎng)頁檢索,文本的歸類等。利用機(jī)器幫 助人們更加快速且有效地處理運(yùn)些信息,成為學(xué)術(shù)界和工業(yè)界的一個(gè)挑戰(zhàn)。信息檢索、機(jī)器 翻譯、自動(dòng)問答系統(tǒng)W及實(shí)體連接等技術(shù),都是屬于運(yùn)方面的努力。
      [0003] 語義相關(guān)的度量即是對給定的一對詞語或文本,從內(nèi)容上判定它們之間在不同角 度上的總體相關(guān)程度。文本的語義相關(guān)度計(jì)算是廣泛應(yīng)用于人工智能、自然語言處理、計(jì)算 語言學(xué)領(lǐng)域的一類技術(shù)。它是指賦予給定的詞語對或文本對特定的數(shù)值,使之與人類判定 其相關(guān)性的程度相匹配。由于人類理解文本的語義時(shí),依賴于跟其知識背景和經(jīng)歷有關(guān)的 大量語境,因而長期W來,使用機(jī)器來處理自然語言的數(shù)據(jù),需要借助大量的常識和領(lǐng)域相 關(guān)的知識。人類去完成運(yùn)種任務(wù)時(shí),會(huì)去感知文本所描述或指定的事物,并評估事物之間的 關(guān)系的密切程度。而計(jì)算機(jī)本身并不具有知識推理和關(guān)聯(lián)事物的能力,因此語義相關(guān)度的 計(jì)算需要將文本與隱式或顯式的語義信息關(guān)聯(lián)起來。隱式語義信息即從大量文本中基于詞 的共現(xiàn)統(tǒng)計(jì)而計(jì)算出來詞語的主題表達(dá),而顯式語義信息是指由人類編輯維護(hù)的知識庫, 比如維基百科的內(nèi)容。
      [0004] 文本的語義相關(guān)度計(jì)算是屬于自然語言處理的子領(lǐng)域,在已有研究中采用的方法 可W分為W下幾種類型:
      [0005] 1)基于詞袋的方法:將文本視為一個(gè)無序的詞袋并構(gòu)建由詞語組成的向量,它對 短文本尤其是一義多詞的情況有明顯的缺陷。
      [0006] 2)基于詞典或本體的方法:將文本中的詞語映射到WordNet或其它領(lǐng)域本體上, W詞語之間的鄰近度和連接度來衡量語義相關(guān)性。
      [0007] 3)基于統(tǒng)計(jì)的方法:本質(zhì)上是利用未標(biāo)注的語料庫中的詞共現(xiàn)信息對詞語-文檔 矩陣進(jìn)行降維,抽取出話題結(jié)構(gòu),再用主題向量來計(jì)算語義相關(guān)度。
      [0008] 4)基于維基百科的方法:運(yùn)一類方法是將文本或詞語映射到維基百科的概念,映 射方法有直接匹配或利用檢索技術(shù)反向索引到概念。在此基礎(chǔ)上,還有許多研究工作利用 了概念間的連接關(guān)系和目錄結(jié)構(gòu)信息。
      [0009] 近年來語義相關(guān)度的度量也是國內(nèi)文本挖掘領(lǐng)域的熱點(diǎn)之一。西北工業(yè)大學(xué)提出 了一種基于查詢結(jié)果的語義相關(guān)度計(jì)算方法,首先使用檢索系統(tǒng)對詞進(jìn)行檢索,利用檢索 得到的網(wǎng)頁集合向量和內(nèi)容信息所構(gòu)成的向量分別來計(jì)算詞之間的捜索結(jié)果相關(guān)度和內(nèi) 容相關(guān)度,最后,將兩種相關(guān)度綜合得到詞之間最終的語義相關(guān)度。華中師范大學(xué)提出一種 基于相關(guān)詞語語義分析的全文檢索系統(tǒng),對傳統(tǒng)互聯(lián)網(wǎng)捜索引擎的改進(jìn),能夠?qū)ξ臋n進(jìn)行 基于相關(guān)詞語的概念語義分析和基于相關(guān)詞語的主題語義分析,從而使用戶可得到更準(zhǔn)確 全面的查詢結(jié)果。東北師范大學(xué)提了一種基于語義的文本相似度計(jì)算方法,解決常規(guī)的文 本向量空間模型及余弦相似度無法進(jìn)行語義相關(guān)判斷的問題。
      [0010] 現(xiàn)有的語義相關(guān)度計(jì)算技術(shù)中都存在W下問題:
      [0011] 第一、依賴于事先構(gòu)建的詞典和領(lǐng)域知識庫。詞典和領(lǐng)域知識庫的構(gòu)建需要耗費(fèi) 大量的時(shí)間和人力,更重要的是,詞典所涵蓋的信息的范圍并不大,只包括特定領(lǐng)域的詞 匯,知識庫就更不完善?;趻人饕孢M(jìn)行相關(guān)度計(jì)算方法依賴于外部捜索引擎的返回結(jié) 果,不能保證系統(tǒng)輸出的穩(wěn)定性,也不支持大量文本集的離線計(jì)算。
      [0012] 第二、傳統(tǒng)的基于詞袋模型的方法雖然原理和實(shí)現(xiàn)簡單,但對于短文本,W及文本 中存在顯著的一詞多義或一義多詞的情況下表現(xiàn)會(huì)變得低下。
      [001引第Ξ、使用LSA,化SI和LDA等話題模型用于文檔集中提取話題,組成詞匯的分布 向量來計(jì)算語義相關(guān)度。運(yùn)一類方法的局限在于對語料庫的依賴,即被考察語義相關(guān)度的 文本的相近領(lǐng)域的文檔集,用W學(xué)習(xí)詞匯的話題分布。而通常在現(xiàn)實(shí)的應(yīng)用場景中,運(yùn)種的 語料庫并不是現(xiàn)成的,或者是需要耗費(fèi)一定的人力去整理組織。
      [0014] 第四、由于維基百科概念文章數(shù)目的大量增長,越來越多針對具體的主題的不同 概念在顯式語義分析中會(huì)被映射,它們同時(shí)出現(xiàn)在文本的表征向量中,但由于顯式語義分 析對概念文章之間的相似關(guān)系不做考慮,在語義相關(guān)度計(jì)算中運(yùn)兩篇概念文章會(huì)作為單獨(dú) 的向量元素參與計(jì)算。從而丟失了運(yùn)部分語義信息,造成系統(tǒng)輸出精度的下降
      [0015] 因此,基于W上要點(diǎn),有必要提出一種方法將顯式語義分析的文本表征向量映射 到維基目錄上從而構(gòu)建相應(yīng)的基于目錄的表征向量。

      【發(fā)明內(nèi)容】

      [0016] 針對W上問題,本發(fā)明專利目的在于設(shè)計(jì)了一種文檔的語義相關(guān)度計(jì)算方法,基 于維基概念和目錄的文本語義相關(guān)度的計(jì)算框架,同時(shí)考慮在不同抽象程度上的語義相關(guān) 性,并有機(jī)結(jié)合起來,提升語義相關(guān)度計(jì)算的精度,同時(shí)提供良好的人機(jī)交互機(jī)制和調(diào)度策 略。
      [0017] 在眾多語義相關(guān)度計(jì)算方法中,綜合起來,基于維基百科的顯式語義分析是一種 比較有優(yōu)勢的方法。首先,它所基于的語料集的互聯(lián)網(wǎng)上最大的百科全書,覆蓋的主題范圍 大且針對新實(shí)體新概念不斷增加和更新內(nèi)容,從而增強(qiáng)了對進(jìn)行評估的文本所屬領(lǐng)域的適 應(yīng)性。同時(shí),維基百科有規(guī)范的編輯和審核的管理,保證了內(nèi)容的準(zhǔn)確性及對條目主題的一 致性。其次維基百科的數(shù)據(jù)對所有互聯(lián)網(wǎng)用戶開放,相對于其它的基于詞典和領(lǐng)域知識庫 的方法,它不需要額外的人工去構(gòu)建詞典或知識庫,對工程上的使用更加方便。另外,它采 用信息檢索的TF-IDF算法將文本內(nèi)容映射到維基百科概念文章組成的向量,提供了一種 具有顯式語義的文本表征方式,通過比較向量來完成文本語義相關(guān)度的計(jì)算,計(jì)算方法簡 單且計(jì)算成本更低。事實(shí)上,在多個(gè)語義相關(guān)度的研究中,顯式語義分析方法取得較好甚至 最好的表現(xiàn)。
      [0018] 本發(fā)明是通過W下技術(shù)方案實(shí)現(xiàn)的:
      [0019] 一種文檔的語義相關(guān)度計(jì)算方法,包括:
      [0020] 數(shù)據(jù)預(yù)處理,獲取維基全文備份數(shù)據(jù)信息并提取維基全文的內(nèi)容及關(guān)鍵字段儲存 于關(guān)系數(shù)據(jù)庫中;
      [0021] 建立所述關(guān)系數(shù)據(jù)庫中的詞語到維基概念向量的映射,并存放在數(shù)據(jù)表中;
      [0022] 輸入要進(jìn)行語義相關(guān)度計(jì)算的第一文本和第二文本,并對所述第一文本和第二文 本進(jìn)行分詞,通過訪問所述數(shù)據(jù)表獲取每個(gè)詞對應(yīng)的維基概念向量,分別取所述第一文本 和第二文本中所有詞對應(yīng)的維基概念向量的平均值作為其對應(yīng)的維基概念向量;
      [0023] 構(gòu)建層次化的維基目錄;
      [0024] 分別將所述第一文本和第二文本對應(yīng)的維基概念向量映射到所述維基目錄上,構(gòu) 建維基目錄向量;
      [00巧]通過所述維基目錄向量計(jì)算所述第一文本和第二文本的語義相關(guān)度。
      [0026] 進(jìn)一步,本發(fā)明所述數(shù)據(jù)預(yù)處理,獲取維基全文備份數(shù)據(jù)信息并提取文件中的內(nèi) 容及關(guān)鍵字段儲存于關(guān)系數(shù)據(jù)庫中,進(jìn)一步包括:
      [0027] 從維基全文備份數(shù)據(jù)信息中抽取出概念的全文信息和目錄信息;
      [0028] 對維基概念的正文進(jìn)行詞干化并進(jìn)行反向索引,存放于數(shù)據(jù)表中。
      [0029] 進(jìn)一步,本發(fā)明所述構(gòu)建層次化的維基目錄,進(jìn)一步包括:
      [0030] 去除大量的維基數(shù)據(jù)庫管理相關(guān)的維基目錄;
      [0031]W目錄頁面分類作為根結(jié)點(diǎn),同時(shí)也作為第一層次,W隊(duì)列數(shù)據(jù)結(jié)構(gòu)來先裝載進(jìn) 第一層次,依次裝載隊(duì)列中每個(gè)目錄的直接子結(jié)點(diǎn),形成下一層次,存放到相應(yīng)層次中,直 到遍歷完所有的目錄。
      [0032] 進(jìn)一步,本發(fā)明所述分別將所述第一文本和第二文本對應(yīng)的維基概念向量映射到 所述維基目錄上,進(jìn)一步包括:
      [0033] 映射的過程考慮因素包括初始向量中元素的權(quán)重、目錄的層次和目錄的大小。
      [0034] 進(jìn)一步,本發(fā)明所述通過所述維基目錄向量計(jì)算所述第一文本和第二文本的語義 相關(guān)度,進(jìn)一步包括:
      [0035] 計(jì)算所述維基目錄向量的余弦相似度作為衡量所述第一文本和第二文本之間的 語義相關(guān)度分值。
      [0036] 本發(fā)明還提供一種文檔的語義相關(guān)度計(jì)算系統(tǒng),包括:
      [0037] 數(shù)據(jù)預(yù)處理模塊,用于獲取維基全文備份數(shù)據(jù)信息并提取維基全文的內(nèi)容及關(guān)鍵 字段儲存于關(guān)系數(shù)據(jù)庫中;
      [0038] 維基概念映射模塊,用于建立所述關(guān)系數(shù)據(jù)庫中的詞語到維基概念
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1