行業(yè)詞典生成方法及裝置的制作方法

文檔序號(hào)：6357847閱讀：108來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：行業(yè)詞典生成方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)，尤其涉及一種行業(yè)詞典生成方法及裝置。
背景技術(shù)：
行業(yè)詞典是以最小語言單位表示的某一行業(yè)的術(shù)語和習(xí)用語的集合，例如機(jī)械行業(yè)詞典、旅游行業(yè)詞典等?，F(xiàn)有技術(shù)中，與行業(yè)詞典相近的技術(shù)包括文本分類特征選擇技術(shù)和領(lǐng)域本體(Domain Ontology)庫構(gòu)建技術(shù)。文本分類特征選擇技術(shù)是文本分類系統(tǒng)中實(shí)現(xiàn)特征空間降維的一種非常重要的方法，其先對(duì)訓(xùn)練集合中的文本進(jìn)行分詞，然后統(tǒng)計(jì)詞語在訓(xùn)練集合中的出現(xiàn)頻度，再通過特征選擇算法選擇出一些詞作為分類器訓(xùn)練時(shí)使用的特征。其中，常見的特征選擇算法有互信息、文檔頻率、卡方校驗(yàn)、信息增益等。其中，被選擇出的作為分類器訓(xùn)練時(shí)使用的特征類似于行業(yè)詞典中的詞匯。但是，由于文本分類特征選擇技術(shù)是為了實(shí)現(xiàn)分類，在實(shí)現(xiàn)過程中主要是以解決數(shù)據(jù)維度過高和提高分類模型的泛化能力為目標(biāo)，因此，經(jīng)由文本分類特征選擇技術(shù)選擇出來的詞的精度較低，無法滿足行業(yè)詞典對(duì)大容量、高精度等的需求，因此，無法直接采用文本分類特征選擇技術(shù)來生成行業(yè)詞典。本體是對(duì)領(lǐng)域知識(shí)的一種表示，用于對(duì)客觀世界的存在進(jìn)行系統(tǒng)化描述，方便知識(shí)的重用和交互。領(lǐng)域本體庫構(gòu)建技術(shù)重點(diǎn)在于發(fā)現(xiàn)領(lǐng)域相關(guān)的概念，以及本體之間的相互關(guān)系。通常，本體由領(lǐng)域?qū)＜覄?chuàng)建。目前領(lǐng)域本體庫自動(dòng)化構(gòu)建的過程一般包括數(shù)據(jù)處理對(duì)文本進(jìn)行自然語言處理，例如分詞，詞性標(biāo)注等；概念提取通過一些語言規(guī)則(例如詞性組合)或者統(tǒng)計(jì)算法提取出概念；語義關(guān)聯(lián)抽取通過一些文法規(guī)則等來確定概念與概念之間的關(guān)系。由上述分析可知領(lǐng)域本體庫構(gòu)建技術(shù)主要通過人工設(shè)定的規(guī)則或者采用大規(guī)模語料進(jìn)行訓(xùn)練來進(jìn)行發(fā)現(xiàn)；其中，人工設(shè)定的規(guī)則是固定的，其召回率比較低；而語料訓(xùn)練需要準(zhǔn)備大量的語料，既耗時(shí)又費(fèi)力。另外，領(lǐng)域本體庫構(gòu)建技術(shù)還需要建立各個(gè)本體之間的相互聯(lián)系，使得其在實(shí)現(xiàn)自動(dòng)化上存在較大的難度，基于此，現(xiàn)有領(lǐng)域本體庫創(chuàng)建技術(shù)也無法直接用來生成行業(yè)詞典。而現(xiàn)有技術(shù)主要是通過人工搜集的方式來形成行業(yè)詞典，該生成行業(yè)詞典的方式成本高，效率低，因此，急需提供一種自動(dòng)生成行業(yè)詞典的技術(shù)方案以克服現(xiàn)有技術(shù)的缺陷。

發(fā)明內(nèi)容
本發(fā)明提供一種行業(yè)詞典生成方法及裝置，用以生成行業(yè)詞典，提高生成行業(yè)詞典的效率，降低生成成本。本發(fā)明提供一種行業(yè)詞典生成方法，包括根據(jù)初始行業(yè)術(shù)語，獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合；根據(jù)所述文檔集合，獲取候選術(shù)語；對(duì)所述候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析，獲取相關(guān)候選術(shù)語；
對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘，生成行業(yè)詞匯；將所述行業(yè)詞匯加入行業(yè)詞典。本發(fā)明提供一種行業(yè)詞典生成裝置，包括第一獲取模塊，用于根據(jù)初始行業(yè)術(shù)語，獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合；第二獲取模塊，用于根據(jù)所述文檔集合，獲取候選術(shù)語；第三獲取模塊，用于對(duì)所述候選術(shù)語進(jìn)行行業(yè)關(guān)聯(lián)度分析，獲取相關(guān)候選術(shù)語；生成模塊，用于對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘，生成行業(yè)詞匯；添加模塊，用于將所述行業(yè)詞匯加入行業(yè)詞典。本發(fā)明提供的行業(yè)詞典生成方法及裝置，根據(jù)初始行業(yè)術(shù)語獲取對(duì)應(yīng)的文檔集合，并從文檔集合中獲取候選術(shù)語，對(duì)候選術(shù)語進(jìn)行行業(yè)關(guān)聯(lián)度分析、共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘等處理，生成行業(yè)詞匯，并加入行業(yè)詞典。采用本發(fā)明技術(shù)方案可以根據(jù)初始行業(yè)術(shù)語以及對(duì)應(yīng)的文檔集合生成行業(yè)詞典，與現(xiàn)有技術(shù)相比，該技術(shù)方案可自動(dòng)生成行業(yè)詞匯，無需人工搜索，提高了生成行業(yè)詞典的效率，節(jié)約了生成成本。

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹，顯而易見地，下面描述中的附圖是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例一提供的行業(yè)詞典生成方法的流程圖；圖2為本發(fā)明實(shí)施例二提供的行業(yè)詞典生成方法的流程圖；圖3為本發(fā)明實(shí)施例三提供的行業(yè)詞典生成裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。圖1為本發(fā)明實(shí)施例一提供的行業(yè)詞典生成方法的流程圖。如圖1所示，本實(shí)施例的方法包括步驟11、根據(jù)初始行業(yè)術(shù)語，獲取初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合；具體的，用戶提供初始行業(yè)術(shù)語給行業(yè)詞典生成裝置，由行業(yè)詞典生成裝置以初始行業(yè)術(shù)語作為查詢?cè)~，從搜索引擎中獲取初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合，搜索引擎中包括了海量與該行業(yè)相關(guān)的文檔。其中，初始行業(yè)術(shù)語可由單個(gè)詞或者詞組組成，詞或詞組按照不同的行業(yè)類別進(jìn)行組織。例如用戶提供的旅游行業(yè)的初始行業(yè)術(shù)語可以按照如下方式組織吃美食小吃特產(chǎn)飲食；
住住宿賓館酒店；行交通自駕旅游地圖。行業(yè)詞典生成裝置從搜索引擎中獲取文檔集合的一種實(shí)施方式包括行業(yè)詞典生成裝置將屬于同一行業(yè)類別的初始行業(yè)術(shù)語進(jìn)行不同組合，獲取初始行業(yè)術(shù)語組合；然后以獲取的每個(gè)初始行業(yè)術(shù)語組合作為查詢?cè)~，利用搜索引擎提供的查詢接口進(jìn)行查詢，獲取和查詢?cè)~最相關(guān)的若干個(gè)(例如10個(gè))文檔，直到所有的初始行業(yè)術(shù)語組合均作為查詢?cè)~進(jìn)行查詢后，獲取指定個(gè)數(shù)的文檔；所獲取的指定個(gè)數(shù)的文檔即形成文檔集合。在本實(shí)施例的文檔集合中，文檔也按照行業(yè)類別進(jìn)行組織。步驟12、根據(jù)文檔集合，獲取候選術(shù)語；具體的，步驟12的一種實(shí)施方式包括步驟121、對(duì)文檔集合進(jìn)行預(yù)處理，獲取詞序列集合；其中，預(yù)處理主要是指對(duì)文檔集合中的每個(gè)文檔進(jìn)行分詞處理，即對(duì)文檔進(jìn)行詞語切分，獲取一系列的詞。由于中文文本不像英文，英文各行的單詞之間有空格作為自然分界符，而中文的詞與詞之間沒有明顯的分界符，為了便于行業(yè)詞典生成裝置對(duì)中文文檔進(jìn)行自動(dòng)處理，需要對(duì)文檔進(jìn)行詞語切分，形成一系列的詞。其中，分詞處理可以采用基于詞典的分詞方法，也可以采用基于統(tǒng)計(jì)的分詞方法。由于分詞的準(zhǔn)確度對(duì)最終生成的行業(yè)詞典的質(zhì)量有一定的影響，因此，需要根據(jù)行業(yè)特性選擇合適的分詞方法。另外，該預(yù)處理除了包括分詞處理之外，還可以進(jìn)行詞性標(biāo)注、停詞或同義詞處理等操作。其中，詞性標(biāo)注是指為文檔中每個(gè)詞指定具體的詞性；常見的詞性一般有名詞、動(dòng)詞、形容詞、副詞、介詞、連詞等。由于行業(yè)詞典中包含的行業(yè)詞匯一般都具有比較明確的意義，某些詞性(例如介詞)的詞稱為行業(yè)詞匯的可能性比較小，因此，通過詞性標(biāo)注可以首先過濾掉一部分詞。經(jīng)上述操作后，文檔集合最終變成一個(gè)相對(duì)比較簡練、標(biāo)注好詞性的詞序列集合。步驟123、對(duì)詞序列集合進(jìn)行過濾處理，獲取候選術(shù)語。行業(yè)詞典生成裝置獲取候選術(shù)語的過程包括首先從詞序列集合中獲取詞組，優(yōu)選的，行業(yè)詞典以后綴樹數(shù)據(jù)結(jié)構(gòu)表示并結(jié)合相應(yīng)的重復(fù)字串提取算法提取重復(fù)子串作為詞組，即通過將詞序列集合表示成后綴數(shù)組，然后將求重復(fù)子串的問題轉(zhuǎn)化成求后綴的公共前綴的問題來獲取詞組；然后，行業(yè)詞典生成裝置選擇詞頻大于詞頻閾值的詞或詞組作為候選詞；其中，詞頻是指詞或詞組出現(xiàn)的頻度，詞頻閾值是預(yù)先設(shè)定的。最后，行業(yè)詞典生成裝置根據(jù)預(yù)先設(shè)定的過濾規(guī)則，對(duì)候選詞進(jìn)行過濾，從候選詞中獲取候選術(shù)語。由于行業(yè)詞匯具有鮮明的行業(yè)特點(diǎn)，因此，需要從詞序列集合中進(jìn)行層層篩選，以逐步縮小所需處理的詞或詞組的范圍。其中，為了便于對(duì)詞序列集合進(jìn)行過濾處理，本實(shí)施例步驟12的另一種實(shí)施方式為在步驟123之前還包括步驟122 對(duì)詞序列集合進(jìn)行主題詞提取處理，生成主題詞控制詞表。其中，主題詞提取主要是指從詞序列集合中提取出能代表文檔主題內(nèi)容的核心詞匯，所有文檔的核心詞匯即構(gòu)成主題詞控制詞表。其中，主題詞提取有多種方法，例如基于統(tǒng)計(jì)分類的算法、基于共現(xiàn)關(guān)系分析的算法等?；谏鲜鰧?shí)施方式，本實(shí)施例中的過濾規(guī)則可以包括(1)初始行業(yè)術(shù)語或屏蔽詞典中的詞或詞組不能作為候選術(shù)語；其中，屏蔽詞典是由非行業(yè)詞匯形成的詞典。(2)候選術(shù)語包含的詞必須是主題詞控制詞表中的詞。(3)長度限制，即長度大于1的詞或者包含詞的數(shù)量小于2或大于4的詞組均不能作為候選術(shù)語，即只有長度大于1的詞，或者包含2 至4個(gè)詞的詞組才可以作為候選術(shù)語。(4)作為其他詞組的前綴或后綴的詞組(即不完整的詞組)不能作為候選術(shù)語。其中，根據(jù)行業(yè)類別所需行業(yè)詞典的質(zhì)量，行業(yè)詞典生成裝置可以根據(jù)上述任一過濾規(guī)則或者上述過濾規(guī)則的任意組合進(jìn)行過濾操作，以形成不同質(zhì)量的行業(yè)詞典。其中，根據(jù)上述所有規(guī)則進(jìn)行過濾后所生成的行業(yè)詞典的質(zhì)量最高，因此，優(yōu)選所有規(guī)則的組合作為本實(shí)施例的過濾規(guī)則。步驟13、對(duì)候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析，獲取相關(guān)候選術(shù)語；其中，經(jīng)過上述步驟獲取的候選術(shù)語仍然比較多，即使一些高頻的候選術(shù)語也不見得和行業(yè)類別相關(guān)，因此，本實(shí)施例進(jìn)一步通過行業(yè)相關(guān)度分析把候選術(shù)語中不相關(guān)的候選術(shù)語去除。行業(yè)相關(guān)度分析主要是指計(jì)算候選術(shù)語與行業(yè)類別之間的相關(guān)度。行業(yè)詞典生成裝置通過計(jì)算候選術(shù)語與行業(yè)類別的相關(guān)度，可以選取相關(guān)度較大的若干候選術(shù)語作為相關(guān)候選術(shù)語，進(jìn)入下一步處理操作，以進(jìn)一步減小生成行業(yè)詞匯所需的詞或詞組范圍。其中，相關(guān)候選術(shù)語的數(shù)量可以預(yù)先指定。步驟14、對(duì)相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘，生成行業(yè)詞匯；該步驟主要是指利用整個(gè)文檔集合或者詞序列集合對(duì)相關(guān)候選術(shù)語做進(jìn)一步的挖掘，分析各相關(guān)候選術(shù)語與行業(yè)類別的共現(xiàn)關(guān)系，統(tǒng)計(jì)共現(xiàn)數(shù)據(jù)；然后通過關(guān)聯(lián)規(guī)則挖掘的方法對(duì)共現(xiàn)數(shù)據(jù)進(jìn)行處理，發(fā)現(xiàn)與行業(yè)類別相關(guān)程度超過設(shè)定相關(guān)度閾值的候選術(shù)語作為行業(yè)詞匯。步驟15、將行業(yè)詞匯加入行業(yè)詞典。具體的，行業(yè)詞典生成裝置將生成的行業(yè)詞匯，加入對(duì)應(yīng)行業(yè)類別的行業(yè)詞典中，即形成了該行業(yè)類別的行業(yè)詞典。本實(shí)施例的行業(yè)詞典生成方法，根據(jù)初始行業(yè)術(shù)語獲取對(duì)應(yīng)的文檔集合，通過對(duì)文檔集合進(jìn)行分詞、詞性標(biāo)注、過濾篩選等數(shù)據(jù)挖掘處理獲取候選術(shù)語，然后通過對(duì)候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析獲取相關(guān)候選術(shù)語，進(jìn)一步對(duì)相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘，發(fā)現(xiàn)與行業(yè)類別相關(guān)度大于相關(guān)度閾值的相關(guān)候選術(shù)語并將其作為行業(yè)詞匯，加入行業(yè)詞典，最終生成行業(yè)詞典。本實(shí)施例通過多種數(shù)據(jù)分析和挖掘等方式獲取行業(yè)詞匯并生成行業(yè)詞典，一方面解決了從海量信息中提取行業(yè)詞匯的問題，另一方面可以自動(dòng)提取行業(yè)詞匯，解決了人工搜索的問題，提高了生成行業(yè)詞典的效率，節(jié)約了生成成本。進(jìn)一步，本實(shí)施例提供一種步驟122的實(shí)施方式，在該實(shí)施方式中，行業(yè)詞典生成裝置基于統(tǒng)計(jì)分類算法生成主題詞控制詞表。該實(shí)施方式包括兩個(gè)階段訓(xùn)練階段和識(shí)別階段。在訓(xùn)練階段，需要預(yù)先準(zhǔn)備訓(xùn)練語料，該訓(xùn)練語料包括訓(xùn)練文檔和訓(xùn)練文檔對(duì)應(yīng)的主題詞(即訓(xùn)練主題詞)；行業(yè)詞典生成裝置對(duì)上述訓(xùn)練語料進(jìn)行分詞和詞性標(biāo)注等處理，生成訓(xùn)練語料中每個(gè)詞的特征集合和主題詞判斷結(jié)果，該主題詞判斷結(jié)果是指該詞是不是主題詞的一個(gè)判斷結(jié)果；然后，利用分類算法(例如支持向量機(jī)(SVM)、樸素貝葉斯(NaiVe bayes)等)對(duì)每個(gè)詞的特征集合和主題詞判斷結(jié)果進(jìn)行訓(xùn)練，生成分類器。在識(shí)別階段，行業(yè)詞典生成裝置，首選獲取詞序列集合中每個(gè)詞的特征集合，然后利用分類器和每個(gè)詞的特征集合對(duì)每個(gè)詞進(jìn)行是否為主題詞的判斷；根據(jù)判斷為是的判斷結(jié)果獲取主題詞，進(jìn)而生成主題詞控制詞表。特征集合主要包括詞頻-逆向文檔頻率(Term Frequency-Inverse Document Frequency ；簡稱為TF_IDF)、詞性、詞是否在標(biāo)題中、第一次出現(xiàn)的位置、詞的長度等特征。其中，TF-IDF是信息檢索和文本挖掘中常用的一種加權(quán)技術(shù)，TF指的是詞頻，是詞在一篇文檔中出現(xiàn)次數(shù)之和；IDF是逆向文檔頻率，其定義為公式(1)IDF=Iog JD|( 1 )
IRt1 ed}|其中，|d|為文檔集合中的總的文檔數(shù)，I {el:、e d} I表示包含詞語、的文檔個(gè)數(shù)。另外，采用TF-IDF算法也可以獲取主題詞，由于主題詞提取精度將影響后續(xù)生成的行業(yè)詞典的質(zhì)量，因此，本實(shí)施例采用同時(shí)基于TF-IDF以及其他多個(gè)特征共同來提取主題詞，以保證主題詞提取的精度，提高行業(yè)詞典的質(zhì)量。進(jìn)一步，步驟13獲取相關(guān)候選術(shù)語的一種具體實(shí)施方式
，包括步驟131、行業(yè)詞典生成裝置采用卡方校驗(yàn)或信息增益等統(tǒng)計(jì)算法，計(jì)算每個(gè)候選術(shù)語與所屬行業(yè)類別的相關(guān)度；其中優(yōu)選卡方校驗(yàn)算法?？ǚ叫ｒ?yàn)算法的原理為首先假設(shè)兩個(gè)變量是獨(dú)立的(原假設(shè))，然后觀察實(shí)際值和理論值的偏差來確定理論是否正確。如果偏差很小，則認(rèn)為是樣本誤差，接受原假設(shè)，即認(rèn)為兩個(gè)變量是獨(dú)立的；否則否定原假設(shè)，即認(rèn)為兩個(gè)變量是相關(guān)的。在計(jì)算候選術(shù)語和行業(yè)類別的相關(guān)度這個(gè)問題上，主要關(guān)心的是一個(gè)候選術(shù)語和一個(gè)行業(yè)類別之間是否相互獨(dú)立；如果獨(dú)立，則說明該候選術(shù)語和行業(yè)類別不相關(guān)，不屬于這個(gè)行業(yè)類別?；诖?，原假設(shè)為候選術(shù)語和行業(yè)類別相互獨(dú)立，可以使用的觀察值有四個(gè)，如表1 (以候選術(shù)語“成都小吃”和行業(yè)類別“吃”為例)。表 1
屬于“吃”不屬于“吃”總計(jì)包含“成都小吃”ABA+B不包含“成都小吃”CDC+D總計(jì)A+CB+DN其中，A為“成都小吃”在“吃”這個(gè)行業(yè)類別下的文檔中出現(xiàn)的次數(shù)；B為“成都小吃”在非“吃”的其他行業(yè)類別下的文檔中出現(xiàn)的次數(shù)；C為在“吃”這個(gè)行業(yè)類別下的文檔中不出現(xiàn)“成都小吃”的文檔數(shù)量，D為在非“吃”的其他行業(yè)類別下的文檔中不出現(xiàn)“成都小吃”的文檔數(shù)量。根據(jù)公式(2)計(jì)算卡方值X2 (t,C)= (AD'BC)2(2)
(A+B)(C+D)其中，卡方值越大，說明候選術(shù)語“成都小吃”和行業(yè)類別“吃”的相關(guān)度越大。步驟132、行業(yè)詞典生成裝置根據(jù)相關(guān)度的大小，從候選術(shù)語中獲取指定個(gè)數(shù)的相關(guān)候選術(shù)語。
具體的，對(duì)每一個(gè)行業(yè)類別，行業(yè)詞典生成裝置根據(jù)上述公式( 計(jì)算出該行業(yè)類別下的每個(gè)候選術(shù)語的卡方值之后，將卡方值從大到小排序，選取前k個(gè)候選術(shù)語作為相關(guān)候選術(shù)語，進(jìn)入下一步計(jì)算。其中，k是預(yù)先指定的相關(guān)候選術(shù)語的個(gè)數(shù)，k為大于或等于1的自然數(shù)?；谏鲜鰧?shí)施例，步驟14生成行業(yè)詞匯的一種實(shí)施方式包括步驟141、行業(yè)詞典生成裝置對(duì)相關(guān)候選術(shù)語和所屬行業(yè)類別在文檔數(shù)據(jù)庫中的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì)，獲取共現(xiàn)數(shù)據(jù)，所述共現(xiàn)數(shù)據(jù)包括文檔數(shù)量、每個(gè)相關(guān)候選術(shù)語與行業(yè)類別同時(shí)出現(xiàn)時(shí)的第一次數(shù)值和行業(yè)類別單獨(dú)出現(xiàn)時(shí)的第二次數(shù)值；在此說明，此處的文檔數(shù)據(jù)庫與前述根據(jù)初始行業(yè)術(shù)語從搜索引擎中獲取的文檔集合不同，前述的文檔集合是文檔數(shù)據(jù)庫的一個(gè)子集，即此處的文檔數(shù)據(jù)庫包含的與行業(yè)相關(guān)的文檔的數(shù)量更多，通常在千萬級(jí)以上。其中，共現(xiàn)分析是數(shù)據(jù)挖掘中一種常用的技術(shù)手段，主要思想是如果兩個(gè)詞頻繁在相同上下文中出現(xiàn)，認(rèn)為這兩個(gè)詞之間有著比較密切的聯(lián)系。本實(shí)施例正是基于該原理在搜索引擎過程中自動(dòng)發(fā)現(xiàn)更多行業(yè)術(shù)語的。其中，共現(xiàn)分析的上下文可以是整個(gè)文檔、段落或句子。本實(shí)施例以文檔為例。例如對(duì)于相關(guān)候選術(shù)語t和行業(yè)類別c中包含的行業(yè)術(shù)語d，若在同一篇文檔中出現(xiàn)，則記錄共現(xiàn)次數(shù)為1，表示為Coimt (t，c)-> 1 ；同時(shí)統(tǒng)計(jì)相關(guān)候選術(shù)語t和行業(yè)類別c單獨(dú)出現(xiàn)的頻率，一篇文檔算一次，分別表示為Coimt (t) - > 1和count (c) - > 1。根據(jù)上述處理，對(duì)相關(guān)候選數(shù)據(jù)t和行業(yè)類別c在整個(gè)文檔數(shù)據(jù)庫中的每個(gè)文檔均進(jìn)行統(tǒng)計(jì)，獲取共現(xiàn)數(shù)據(jù)。該共現(xiàn)數(shù)據(jù)包括文檔數(shù)量、在所有文檔中每個(gè)相關(guān)候選術(shù)語和行業(yè)類別同時(shí)出現(xiàn)的次數(shù)(即第一次數(shù)值)，在所有文檔中行業(yè)類別單獨(dú)出現(xiàn)的次數(shù)(即第二次數(shù)值)以及在所有文檔中每個(gè)相關(guān)候選術(shù)語單獨(dú)出現(xiàn)的次數(shù)。例如某個(gè)共現(xiàn)數(shù)據(jù)包括Coimt (t， c)-> 100 表示相關(guān)候選術(shù)語t和行業(yè)類別c在100篇文檔中共同出現(xiàn)了；coimta)- > 2000 表示相關(guān)候選術(shù)語t在2000篇文檔中出現(xiàn)了；count (C) - > 20000 表示行業(yè)類別c 在20000篇文檔中出現(xiàn)了；N-> 100000 表示文檔數(shù)量為10萬，即文檔數(shù)據(jù)庫中總共有10 萬篇文檔。步驟142、對(duì)共現(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘，獲取相關(guān)候選術(shù)語與行業(yè)類別的關(guān)聯(lián)強(qiáng)度；在得到共現(xiàn)數(shù)據(jù)之后，根據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)ι鲜霈F(xiàn)有數(shù)據(jù)進(jìn)行處理，計(jì)算支持度 (Support)和置信度(Confidence)；其中支持度和置信度的計(jì)算公式分別為公式(；3)和公式⑷。Support (A — B) = P (A U B) (3)Confidence (A — B) = P (A | B) (4)將上述共現(xiàn)數(shù)據(jù)應(yīng)用到上述公式可得到表示支持度的公式( 和表示置信度的公式(6)Support (c- > t) = count (t, c)/N(5)Confidence (c- > t) = count (t, c) /count (c) (6)公式( 用于計(jì)算每個(gè)相關(guān)候選術(shù)語和行業(yè)類別同時(shí)出現(xiàn)的次數(shù)與文檔數(shù)量的比值，該比值即為支持度；公式(6)用于計(jì)算每個(gè)相關(guān)候選術(shù)語和行業(yè)類別同時(shí)出現(xiàn)的次數(shù)與行業(yè)類別單獨(dú)出現(xiàn)的次數(shù)的比值，該比值表示置信度。由公式( 和公式(6)分別表示的支持度和置信度共同用于表示候選術(shù)語t與行業(yè)類別c的關(guān)聯(lián)強(qiáng)度。其中，在本實(shí)施例中，預(yù)先設(shè)置了支持度閾值和置信度閾值，用于作為判斷關(guān)聯(lián)強(qiáng)度大小的基準(zhǔn)。行業(yè)詞典生成裝置將計(jì)算獲取的支持度和置信度分別與支持度閾值和置信度閾值進(jìn)行比較；將支持度和置信度同時(shí)大于支持度閾值和置信度閾值的關(guān)聯(lián)強(qiáng)度稱為強(qiáng)關(guān)聯(lián)強(qiáng)度；反之，稱為弱關(guān)聯(lián)強(qiáng)度。另外，除了根據(jù)支持度和置信度來計(jì)算相關(guān)行業(yè)術(shù)語與行業(yè)類別之間的關(guān)聯(lián)強(qiáng)度之外，還可以有其他方式，例如可以利用更強(qiáng)調(diào)專有性的關(guān)聯(lián)度來代替上述的置信度。其中，可以根據(jù)公式(7)來計(jì)算關(guān)聯(lián)度
權(quán)利要求
1.一種行業(yè)詞典生成方法，其特征在于，包括根據(jù)初始行業(yè)術(shù)語，獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合；根據(jù)所述文檔集合，獲取候選術(shù)語；對(duì)所述候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析，獲取相關(guān)候選術(shù)語；對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘，生成行業(yè)詞匯；將所述行業(yè)詞匯加入行業(yè)詞典。
2.根據(jù)權(quán)利要求1所述的行業(yè)詞典生成方法，其特征在于，在將所述行業(yè)詞匯加入行業(yè)詞典之后還包括將所述行業(yè)詞典中的行業(yè)詞匯重新作為所述初始行業(yè)術(shù)語，并返回執(zhí)行根據(jù)初始行業(yè)術(shù)語，獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合的操作。
3.根據(jù)權(quán)利要求2所述的行業(yè)詞典生成方法，其特征在于，在將所述行業(yè)詞典中的行業(yè)詞匯重新作為所述初始行業(yè)術(shù)語，并返回執(zhí)行根據(jù)初始行業(yè)術(shù)語，獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合的操作之前還包括將所述行業(yè)詞匯之外的相關(guān)候選術(shù)語加入屏蔽詞典。
4.根據(jù)權(quán)利要求1所述的行業(yè)詞典生成方法，其特征在于，所述根據(jù)所述文檔集合，獲取候選術(shù)語包括所述文檔集合進(jìn)行預(yù)處理，獲取詞序列集合；對(duì)所述詞序列集合進(jìn)行過濾處理，獲取所述候選術(shù)語。
5.根據(jù)權(quán)利要求4所述的行業(yè)詞典生成方法，其特征在于，在對(duì)所述詞序列集合進(jìn)行過濾處理，獲取所述候選術(shù)語之前還包括對(duì)所述詞序列集合進(jìn)行主題詞提取處理，生成主題詞控制詞表。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的行業(yè)詞典生成方法，其特征在于，所述根據(jù)初始行業(yè)術(shù)語，獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合包括將所述初始行業(yè)術(shù)語進(jìn)行不同組合，獲取初始行業(yè)術(shù)語組合；將所述初始行業(yè)術(shù)語組合作為查詢?cè)~，利用搜索引擎獲取指定個(gè)數(shù)的文檔。
7.根據(jù)權(quán)利要求4或5所述的行業(yè)詞典生成方法，其特征在于，所述對(duì)所述文檔集合進(jìn)行預(yù)處理，獲取詞序列集合包括對(duì)所述文檔集合中的每個(gè)文檔分別進(jìn)行分詞處理，獲取所述詞序列集合。
8.根據(jù)權(quán)利要求7所述的行業(yè)詞典生成方法，其特征在于，所述對(duì)所述文檔集合進(jìn)行預(yù)處理還包括對(duì)所述文檔集合中的每個(gè)文檔進(jìn)行詞性標(biāo)注、停詞或同義詞處理。
9.根據(jù)權(quán)利要求5所述的行業(yè)詞典生成方法，其特征在于，所述對(duì)所述詞序列集合進(jìn)行主題詞提取處理，生成主題詞控制詞表包括對(duì)預(yù)設(shè)的訓(xùn)練語料進(jìn)行分詞和詞性標(biāo)注處理，生成所述訓(xùn)練語料中每個(gè)詞的特征集合和主題詞判斷結(jié)果，所述訓(xùn)練語料包括訓(xùn)練文檔和所述訓(xùn)練文檔對(duì)應(yīng)的訓(xùn)練主題詞；利用分類算法對(duì)所述訓(xùn)練語料中每個(gè)詞的特征集合和主題詞判斷結(jié)果進(jìn)行訓(xùn)練，生成分類器；獲取所述詞序列集合中每個(gè)詞的特征集合；根據(jù)所述分類器和所述每個(gè)詞的特征集合對(duì)所述每個(gè)詞進(jìn)行是否為主題詞的判斷；根據(jù)判斷結(jié)果，生成所述主題詞控制詞表。
10.根據(jù)權(quán)利要求5或9所述的行業(yè)詞典生成方法，其特征在于，對(duì)所述詞序列集合進(jìn)行過濾處理，獲取候選術(shù)語包括以后綴樹數(shù)據(jù)結(jié)構(gòu)在所述詞序列集合中提取重復(fù)的子串作為詞組；選擇詞頻大于詞頻閾值的詞或詞組作為候選詞；根據(jù)過濾規(guī)則，對(duì)所述候選詞進(jìn)行過濾，獲取所述候選術(shù)語。
11.根據(jù)權(quán)利要求10所述的行業(yè)詞典生成方法，其特征在于，所述過濾規(guī)則包括以下任意一種或其組合所述初始行業(yè)術(shù)語或屏蔽詞典中的詞或詞組不能作為候選術(shù)語；候選術(shù)語包含的詞必須是所述主題詞控制詞表中的詞；長度小于1的詞或包含詞的數(shù)量小于2或大于4的詞組不能作為候選術(shù)語；或作為其他詞組的前綴或后綴的詞組不能作為候選術(shù)語。
12.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的行業(yè)詞典生成方法，其特征在于，對(duì)所述候選術(shù)語進(jìn)行行業(yè)相關(guān)分析，獲取相關(guān)候選術(shù)語包括采用卡方校驗(yàn)或信息增益算法，計(jì)算每個(gè)所述候選術(shù)語與所屬行業(yè)類別的相關(guān)度；根據(jù)相關(guān)度的大小，從所述候選術(shù)語中獲取指定個(gè)數(shù)的所述相關(guān)候選術(shù)語。
13.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的行業(yè)詞典生成方法，其特征在于，所述對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘，生成行業(yè)詞匯包括對(duì)所述相關(guān)候選術(shù)語和所屬行業(yè)類別在文檔數(shù)據(jù)庫中的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì)，獲取共現(xiàn)數(shù)據(jù)，所述共現(xiàn)數(shù)據(jù)包括文檔數(shù)量、每個(gè)所述相關(guān)候選術(shù)語與所述行業(yè)類別同時(shí)出現(xiàn)時(shí)的第一次數(shù)值和所述行業(yè)類別單獨(dú)出現(xiàn)時(shí)的第二次數(shù)值；對(duì)所述共現(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘，獲取所述相關(guān)候選術(shù)語與所述行業(yè)類別的關(guān)聯(lián)強(qiáng)度；選擇所述關(guān)聯(lián)強(qiáng)度大于關(guān)聯(lián)度閾值的相關(guān)候選術(shù)語作為所述行業(yè)詞匯。
14.根據(jù)權(quán)利要求13所述的行業(yè)詞典生成方法，其特征在于，對(duì)所述共現(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘，獲取所述相關(guān)候選術(shù)語與所述行業(yè)類別的關(guān)聯(lián)強(qiáng)度包括計(jì)算每個(gè)所述第一次數(shù)值與所述文檔數(shù)量的比值，獲取每個(gè)所述相關(guān)候選術(shù)語對(duì)應(yīng)的支持度；計(jì)算所述第一次數(shù)值與所述第二次數(shù)值的比值，獲取置信度。
15.根據(jù)權(quán)利要求13所述的行業(yè)詞典生成方法，其特征在于，對(duì)所述共現(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘，獲取所述相關(guān)候選術(shù)語與所述行業(yè)類別的關(guān)聯(lián)強(qiáng)度包括計(jì)算每個(gè)所述第一次數(shù)值與所述文檔數(shù)量的比值，獲取每個(gè)所述相關(guān)候選術(shù)語對(duì)應(yīng)的支持度；P(C)-P(A)P(B)根據(jù)公式11= /DMvn^TvnmvnA，獲取每個(gè)所述相關(guān)候選術(shù)語與所述行業(yè)類別的關(guān)聯(lián) ^P(A)P(A)P(B)P(B)度；其中，R表示關(guān)聯(lián)度；P(A)表示所述相關(guān)候選術(shù)語在所述文檔數(shù)據(jù)庫中出現(xiàn)的概率； P(B)表示所述行業(yè)類別在所述文檔數(shù)據(jù)庫中出現(xiàn)的概率；P(C)表示所述相關(guān)候選術(shù)語和所述行業(yè)類別同時(shí)出現(xiàn)在所述文檔數(shù)據(jù)庫中的概率。
16.一種行業(yè)詞典生成裝置，其特征在于，包括第一獲取模塊，用于根據(jù)初始行業(yè)術(shù)語，獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合；第二獲取模塊，用于根據(jù)所述文檔集合，獲取候選術(shù)語；第三獲取模塊，用于對(duì)所述候選術(shù)語進(jìn)行行業(yè)關(guān)聯(lián)度分析，獲取相關(guān)候選術(shù)語；生成模塊，用于對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘，生成行業(yè)詞匯；添加模塊，用于將所述行業(yè)詞匯加入行業(yè)詞典。
17.根據(jù)權(quán)利要求16所述的行業(yè)詞典生成裝置，其特征在于，還包括觸發(fā)模塊，用于將所述行業(yè)詞典中的行業(yè)詞匯重新作為所述初始行業(yè)術(shù)語，并觸發(fā)所述第一獲取模塊執(zhí)行根據(jù)初始行業(yè)術(shù)語，獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合的操作。
全文摘要
本發(fā)明提供一種行業(yè)詞典生成方法及裝置。方法包括根據(jù)初始行業(yè)術(shù)語，獲取初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合；根據(jù)文檔集合，獲取候選術(shù)語；對(duì)候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析，獲取相關(guān)候選術(shù)語；對(duì)相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘，生成行業(yè)詞匯；將行業(yè)詞匯加入行業(yè)詞典。采用本發(fā)明技術(shù)方案可以生成行業(yè)詞典，解決了現(xiàn)有技術(shù)人工搜索行業(yè)詞匯時(shí)成本高、效率低等問題。
文檔編號(hào)G06F17/30GK102169495SQ201110089698
公開日2011年8月31日申請(qǐng)日期2011年4月11日優(yōu)先權(quán)日2011年4月11日
發(fā)明者何偉平, 吳永強(qiáng), 王名悠申請(qǐng)人:趣拿開曼群島有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何偉平;王名悠;吳永強(qiáng)
技術(shù)所有人：趣拿開曼群島有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

行業(yè)詞典生成方法及裝置的制作方法