專利名稱:行業(yè)詞典生成方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),尤其涉及一種行業(yè)詞典生成方法及裝置。
背景技術(shù):
行業(yè)詞典是以最小語言單位表示的某一行業(yè)的術(shù)語和習(xí)用語的集合,例如機(jī)械行業(yè)詞典、旅游行業(yè)詞典等?,F(xiàn)有技術(shù)中,與行業(yè)詞典相近的技術(shù)包括文本分類特征選擇技術(shù)和領(lǐng)域本體(Domain Ontology)庫構(gòu)建技術(shù)。文本分類特征選擇技術(shù)是文本分類系統(tǒng)中實(shí)現(xiàn)特征空間降維的一種非常重要的方法,其先對(duì)訓(xùn)練集合中的文本進(jìn)行分詞,然后統(tǒng)計(jì)詞語在訓(xùn)練集合中的出現(xiàn)頻度,再通過特征選擇算法選擇出一些詞作為分類器訓(xùn)練時(shí)使用的特征。其中,常見的特征選擇算法有 互信息、文檔頻率、卡方校驗(yàn)、信息增益等。其中,被選擇出的作為分類器訓(xùn)練時(shí)使用的特征類似于行業(yè)詞典中的詞匯。但是,由于文本分類特征選擇技術(shù)是為了實(shí)現(xiàn)分類,在實(shí)現(xiàn)過程中主要是以解決數(shù)據(jù)維度過高和提高分類模型的泛化能力為目標(biāo),因此,經(jīng)由文本分類特征選擇技術(shù)選擇出來的詞的精度較低,無法滿足行業(yè)詞典對(duì)大容量、高精度等的需求,因此,無法直接采用文本分類特征選擇技術(shù)來生成行業(yè)詞典。本體是對(duì)領(lǐng)域知識(shí)的一種表示,用于對(duì)客觀世界的存在進(jìn)行系統(tǒng)化描述,方便知識(shí)的重用和交互。領(lǐng)域本體庫構(gòu)建技術(shù)重點(diǎn)在于發(fā)現(xiàn)領(lǐng)域相關(guān)的概念,以及本體之間的相互關(guān)系。通常,本體由領(lǐng)域?qū)<覄?chuàng)建。目前領(lǐng)域本體庫自動(dòng)化構(gòu)建的過程一般包括數(shù)據(jù)處理對(duì)文本進(jìn)行自然語言處理,例如分詞,詞性標(biāo)注等;概念提取通過一些語言規(guī)則(例如詞性組合)或者統(tǒng)計(jì)算法提取出概念;語義關(guān)聯(lián)抽取通過一些文法規(guī)則等來確定概念與概念之間的關(guān)系。由上述分析可知領(lǐng)域本體庫構(gòu)建技術(shù)主要通過人工設(shè)定的規(guī)則或者采用大規(guī)模語料進(jìn)行訓(xùn)練來進(jìn)行發(fā)現(xiàn);其中,人工設(shè)定的規(guī)則是固定的,其召回率比較低;而語料訓(xùn)練需要準(zhǔn)備大量的語料,既耗時(shí)又費(fèi)力。另外,領(lǐng)域本體庫構(gòu)建技術(shù)還需要建立各個(gè)本體之間的相互聯(lián)系,使得其在實(shí)現(xiàn)自動(dòng)化上存在較大的難度,基于此,現(xiàn)有領(lǐng)域本體庫創(chuàng)建技術(shù)也無法直接用來生成行業(yè)詞典。而現(xiàn)有技術(shù)主要是通過人工搜集的方式來形成行業(yè)詞典,該生成行業(yè)詞典的方式成本高,效率低,因此,急需提供一種自動(dòng)生成行業(yè)詞典的技術(shù)方案以克服現(xiàn)有技術(shù)的缺陷。
發(fā)明內(nèi)容
本發(fā)明提供一種行業(yè)詞典生成方法及裝置,用以生成行業(yè)詞典,提高生成行業(yè)詞典的效率,降低生成成本。本發(fā)明提供一種行業(yè)詞典生成方法,包括根據(jù)初始行業(yè)術(shù)語,獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合;根據(jù)所述文檔集合,獲取候選術(shù)語;對(duì)所述候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析,獲取相關(guān)候選術(shù)語;
對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘,生成行業(yè)詞匯;將所述行業(yè)詞匯加入行業(yè)詞典。本發(fā)明提供一種行業(yè)詞典生成裝置,包括第一獲取模塊,用于根據(jù)初始行業(yè)術(shù)語,獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合;第二獲取模塊,用于根據(jù)所述文檔集合,獲取候選術(shù)語;第三獲取模塊,用于對(duì)所述候選術(shù)語進(jìn)行行業(yè)關(guān)聯(lián)度分析,獲取相關(guān)候選術(shù)語;生成模塊,用于對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘,生成行業(yè)詞匯;添加模塊,用于將所述行業(yè)詞匯加入行業(yè)詞典。本發(fā)明提供的行業(yè)詞典生成方法及裝置,根據(jù)初始行業(yè)術(shù)語獲取對(duì)應(yīng)的文檔集合,并從文檔集合中獲取候選術(shù)語,對(duì)候選術(shù)語進(jìn)行行業(yè)關(guān)聯(lián)度分析、共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘等處理,生成行業(yè)詞匯,并加入行業(yè)詞典。采用本發(fā)明技術(shù)方案可以根據(jù)初始行業(yè)術(shù)語以及對(duì)應(yīng)的文檔集合生成行業(yè)詞典,與現(xiàn)有技術(shù)相比,該技術(shù)方案可自動(dòng)生成行業(yè)詞匯,無需人工搜索,提高了生成行業(yè)詞典的效率,節(jié)約了生成成本。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例一提供的行業(yè)詞典生成方法的流程圖;圖2為本發(fā)明實(shí)施例二提供的行業(yè)詞典生成方法的流程圖;圖3為本發(fā)明實(shí)施例三提供的行業(yè)詞典生成裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。圖1為本發(fā)明實(shí)施例一提供的行業(yè)詞典生成方法的流程圖。如圖1所示,本實(shí)施例的方法包括步驟11、根據(jù)初始行業(yè)術(shù)語,獲取初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合;具體的,用戶提供初始行業(yè)術(shù)語給行業(yè)詞典生成裝置,由行業(yè)詞典生成裝置以初始行業(yè)術(shù)語作為查詢?cè)~,從搜索引擎中獲取初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合,搜索引擎中包括了海量與該行業(yè)相關(guān)的文檔。其中,初始行業(yè)術(shù)語可由單個(gè)詞或者詞組組成,詞或詞組按照不同的行業(yè)類別進(jìn)行組織。例如用戶提供的旅游行業(yè)的初始行業(yè)術(shù)語可以按照如下方式組織吃美食小吃特產(chǎn)飲食;
住住宿賓館酒店;行交通自駕旅游地圖。行業(yè)詞典生成裝置從搜索引擎中獲取文檔集合的一種實(shí)施方式包括行業(yè)詞典生成裝置將屬于同一行業(yè)類別的初始行業(yè)術(shù)語進(jìn)行不同組合,獲取初始行業(yè)術(shù)語組合;然后以獲取的每個(gè)初始行業(yè)術(shù)語組合作為查詢?cè)~,利用搜索引擎提供的查詢接口進(jìn)行查詢,獲取和查詢?cè)~最相關(guān)的若干個(gè)(例如10個(gè))文檔,直到所有的初始行業(yè)術(shù)語組合均作為查詢?cè)~進(jìn)行查詢后,獲取指定個(gè)數(shù)的文檔;所獲取的指定個(gè)數(shù)的文檔即形成文檔集合。在本實(shí)施例的文檔集合中,文檔也按照行業(yè)類別進(jìn)行組織。步驟12、根據(jù)文檔集合,獲取候選術(shù)語;具體的,步驟12的一種實(shí)施方式包括步驟121、對(duì)文檔集合進(jìn)行預(yù)處理,獲取詞序列集合;其中,預(yù)處理主要是指對(duì)文檔集合中的每個(gè)文檔進(jìn)行分詞處理,即對(duì)文檔進(jìn)行詞語切分,獲取一系列的詞。由于中文文本不像英文,英文各行的單詞之間有空格作為自然分界符,而中文的詞與詞之間沒有明顯的分界符,為了便于行業(yè)詞典生成裝置對(duì)中文文檔進(jìn)行自動(dòng)處理,需要對(duì)文檔進(jìn)行詞語切分,形成一系列的詞。其中,分詞處理可以采用基于詞典的分詞方法,也可以采用基于統(tǒng)計(jì)的分詞方法。由于分詞的準(zhǔn)確度對(duì)最終生成的行業(yè)詞典的質(zhì)量有一定的影響,因此,需要根據(jù)行業(yè)特性選擇合適的分詞方法。另外,該預(yù)處理除了包括分詞處理之外,還可以進(jìn)行詞性標(biāo)注、停詞或同義詞處理等操作。其中,詞性標(biāo)注是指為文檔中每個(gè)詞指定具體的詞性;常見的詞性一般有名詞、 動(dòng)詞、形容詞、副詞、介詞、連詞等。由于行業(yè)詞典中包含的行業(yè)詞匯一般都具有比較明確的意義,某些詞性(例如介詞)的詞稱為行業(yè)詞匯的可能性比較小,因此,通過詞性標(biāo)注可以首先過濾掉一部分詞。經(jīng)上述操作后,文檔集合最終變成一個(gè)相對(duì)比較簡練、標(biāo)注好詞性的詞序列集合。步驟123、對(duì)詞序列集合進(jìn)行過濾處理,獲取候選術(shù)語。行業(yè)詞典生成裝置獲取候選術(shù)語的過程包括首先從詞序列集合中獲取詞組,優(yōu)選的,行業(yè)詞典以后綴樹數(shù)據(jù)結(jié)構(gòu)表示并結(jié)合相應(yīng)的重復(fù)字串提取算法提取重復(fù)子串作為詞組,即通過將詞序列集合表示成后綴數(shù)組,然后將求重復(fù)子串的問題轉(zhuǎn)化成求后綴的公共前綴的問題來獲取詞組;然后,行業(yè)詞典生成裝置選擇詞頻大于詞頻閾值的詞或詞組作為候選詞;其中,詞頻是指詞或詞組出現(xiàn)的頻度,詞頻閾值是預(yù)先設(shè)定的。最后,行業(yè)詞典生成裝置根據(jù)預(yù)先設(shè)定的過濾規(guī)則,對(duì)候選詞進(jìn)行過濾,從候選詞中獲取候選術(shù)語。由于行業(yè)詞匯具有鮮明的行業(yè)特點(diǎn),因此,需要從詞序列集合中進(jìn)行層層篩選,以逐步縮小所需處理的詞或詞組的范圍。其中,為了便于對(duì)詞序列集合進(jìn)行過濾處理,本實(shí)施例步驟12的另一種實(shí)施方式為在步驟123之前還包括步驟122 對(duì)詞序列集合進(jìn)行主題詞提取處理,生成主題詞控制詞表。其中,主題詞提取主要是指從詞序列集合中提取出能代表文檔主題內(nèi)容的核心詞匯, 所有文檔的核心詞匯即構(gòu)成主題詞控制詞表。其中,主題詞提取有多種方法,例如基于統(tǒng)計(jì)分類的算法、基于共現(xiàn)關(guān)系分析的算法等?;谏鲜鰧?shí)施方式,本實(shí)施例中的過濾規(guī)則可以包括(1)初始行業(yè)術(shù)語或屏蔽詞典中的詞或詞組不能作為候選術(shù)語;其中,屏蔽詞典是由非行業(yè)詞匯形成的詞典。(2)候選術(shù)語包含的詞必須是主題詞控制詞表中的詞。(3)長度限制,即長度大于1的詞或者包含詞的數(shù)量小于2或大于4的詞組均不能作為候選術(shù)語,即只有長度大于1的詞,或者包含2 至4個(gè)詞的詞組才可以作為候選術(shù)語。(4)作為其他詞組的前綴或后綴的詞組(即不完整的詞組)不能作為候選術(shù)語。其中,根據(jù)行業(yè)類別所需行業(yè)詞典的質(zhì)量,行業(yè)詞典生成裝置可以根據(jù)上述任一過濾規(guī)則或者上述過濾規(guī)則的任意組合進(jìn)行過濾操作,以形成不同質(zhì)量的行業(yè)詞典。其中, 根據(jù)上述所有規(guī)則進(jìn)行過濾后所生成的行業(yè)詞典的質(zhì)量最高,因此,優(yōu)選所有規(guī)則的組合作為本實(shí)施例的過濾規(guī)則。步驟13、對(duì)候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析,獲取相關(guān)候選術(shù)語;其中,經(jīng)過上述步驟獲取的候選術(shù)語仍然比較多,即使一些高頻的候選術(shù)語也不見得和行業(yè)類別相關(guān),因此,本實(shí)施例進(jìn)一步通過行業(yè)相關(guān)度分析把候選術(shù)語中不相關(guān)的候選術(shù)語去除。行業(yè)相關(guān)度分析主要是指計(jì)算候選術(shù)語與行業(yè)類別之間的相關(guān)度。行業(yè)詞典生成裝置通過計(jì)算候選術(shù)語與行業(yè)類別的相關(guān)度,可以選取相關(guān)度較大的若干候選術(shù)語作為相關(guān)候選術(shù)語,進(jìn)入下一步處理操作,以進(jìn)一步減小生成行業(yè)詞匯所需的詞或詞組范圍。其中,相關(guān)候選術(shù)語的數(shù)量可以預(yù)先指定。步驟14、對(duì)相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘,生成行業(yè)詞匯;該步驟主要是指利用整個(gè)文檔集合或者詞序列集合對(duì)相關(guān)候選術(shù)語做進(jìn)一步的挖掘,分析各相關(guān)候選術(shù)語與行業(yè)類別的共現(xiàn)關(guān)系,統(tǒng)計(jì)共現(xiàn)數(shù)據(jù);然后通過關(guān)聯(lián)規(guī)則挖掘的方法對(duì)共現(xiàn)數(shù)據(jù)進(jìn)行處理,發(fā)現(xiàn)與行業(yè)類別相關(guān)程度超過設(shè)定相關(guān)度閾值的候選術(shù)語作為行業(yè)詞匯。步驟15、將行業(yè)詞匯加入行業(yè)詞典。具體的,行業(yè)詞典生成裝置將生成的行業(yè)詞匯,加入對(duì)應(yīng)行業(yè)類別的行業(yè)詞典中, 即形成了該行業(yè)類別的行業(yè)詞典。本實(shí)施例的行業(yè)詞典生成方法,根據(jù)初始行業(yè)術(shù)語獲取對(duì)應(yīng)的文檔集合,通過對(duì)文檔集合進(jìn)行分詞、詞性標(biāo)注、過濾篩選等數(shù)據(jù)挖掘處理獲取候選術(shù)語,然后通過對(duì)候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析獲取相關(guān)候選術(shù)語,進(jìn)一步對(duì)相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘,發(fā)現(xiàn)與行業(yè)類別相關(guān)度大于相關(guān)度閾值的相關(guān)候選術(shù)語并將其作為行業(yè)詞匯,加入行業(yè)詞典,最終生成行業(yè)詞典。本實(shí)施例通過多種數(shù)據(jù)分析和挖掘等方式獲取行業(yè)詞匯并生成行業(yè)詞典,一方面解決了從海量信息中提取行業(yè)詞匯的問題,另一方面可以自動(dòng)提取行業(yè)詞匯,解決了人工搜索的問題,提高了生成行業(yè)詞典的效率,節(jié)約了生成成本。進(jìn)一步,本實(shí)施例提供一種步驟122的實(shí)施方式,在該實(shí)施方式中,行業(yè)詞典生成裝置基于統(tǒng)計(jì)分類算法生成主題詞控制詞表。該實(shí)施方式包括兩個(gè)階段訓(xùn)練階段和識(shí)別階段。在訓(xùn)練階段,需要預(yù)先準(zhǔn)備訓(xùn)練語料,該訓(xùn)練語料包括訓(xùn)練文檔和訓(xùn)練文檔對(duì)應(yīng)的主題詞(即訓(xùn)練主題詞);行業(yè)詞典生成裝置對(duì)上述訓(xùn)練語料進(jìn)行分詞和詞性標(biāo)注等處理,生成訓(xùn)練語料中每個(gè)詞的特征集合和主題詞判斷結(jié)果,該主題詞判斷結(jié)果是指該詞是不是主題詞的一個(gè)判斷結(jié)果;然后,利用分類算法(例如支持向量機(jī)(SVM)、樸素貝葉斯(NaiVe bayes)等)對(duì)每個(gè)詞的特征集合和主題詞判斷結(jié)果進(jìn)行訓(xùn)練,生成分類器。在識(shí)別階段,行業(yè)詞典生成裝置,首選獲取詞序列集合中每個(gè)詞的特征集合,然后利用分類器和每個(gè)詞的特征集合對(duì)每個(gè)詞進(jìn)行是否為主題詞的判斷;根據(jù)判斷為是的判斷結(jié)果獲取主題詞,進(jìn)而生成主題詞控制詞表。特征集合主要包括詞頻-逆向文檔頻率(Term Frequency-Inverse Document Frequency ;簡稱為TF_IDF)、詞性、詞是否在標(biāo)題中、第一次出現(xiàn)的位置、詞的長度等特征。其中,TF-IDF是信息檢索和文本挖掘中常用的一種加權(quán)技術(shù),TF指的是詞頻,是詞在一篇文檔中出現(xiàn)次數(shù)之和;IDF是逆向文檔頻率,其定義為公式(1)IDF=Iog JD|( 1 )
IRt1 ed}|其中,|d|為文檔集合中的總的文檔數(shù),I {el:、e d} I表示包含詞語、的文檔個(gè)數(shù)。另外,采用TF-IDF算法也可以獲取主題詞,由于主題詞提取精度將影響后續(xù)生成的行業(yè)詞典的質(zhì)量,因此,本實(shí)施例采用同時(shí)基于TF-IDF以及其他多個(gè)特征共同來提取主題詞,以保證主題詞提取的精度,提高行業(yè)詞典的質(zhì)量。進(jìn)一步,步驟13獲取相關(guān)候選術(shù)語的一種具體實(shí)施方式
,包括步驟131、行業(yè)詞典生成裝置采用卡方校驗(yàn)或信息增益等統(tǒng)計(jì)算法,計(jì)算每個(gè)候選術(shù)語與所屬行業(yè)類別的相關(guān)度;其中優(yōu)選卡方校驗(yàn)算法??ǚ叫r?yàn)算法的原理為首先假設(shè)兩個(gè)變量是獨(dú)立的(原假設(shè)),然后觀察實(shí)際值和理論值的偏差來確定理論是否正確。如果偏差很小,則認(rèn)為是樣本誤差,接受原假設(shè),即認(rèn)為兩個(gè)變量是獨(dú)立的;否則否定原假設(shè),即認(rèn)為兩個(gè)變量是相關(guān)的。在計(jì)算候選術(shù)語和行業(yè)類別的相關(guān)度這個(gè)問題上,主要關(guān)心的是一個(gè)候選術(shù)語和一個(gè)行業(yè)類別之間是否相互獨(dú)立;如果獨(dú)立,則說明該候選術(shù)語和行業(yè)類別不相關(guān),不屬于這個(gè)行業(yè)類別?;诖?,原假設(shè)為候選術(shù)語和行業(yè)類別相互獨(dú)立,可以使用的觀察值有四個(gè),如表1 (以候選術(shù)語“成都小吃”和行業(yè)類別“吃”為例)。表 1
屬于“吃”不屬于“吃”總計(jì)包含“成都小吃”ABA+B不包含“成都小吃”CDC+D總計(jì)A+CB+DN其中,A為“成都小吃”在“吃”這個(gè)行業(yè)類別下的文檔中出現(xiàn)的次數(shù);B為“成都小吃”在非“吃”的其他行業(yè)類別下的文檔中出現(xiàn)的次數(shù);C為在“吃”這個(gè)行業(yè)類別下的文檔中不出現(xiàn)“成都小吃”的文檔數(shù)量,D為在非“吃”的其他行業(yè)類別下的文檔中不出現(xiàn)“成都小吃”的文檔數(shù)量。根據(jù)公式(2)計(jì)算卡方值X2 (t,C)= (AD'BC)2(2)
(A+B)(C+D)其中,卡方值越大,說明候選術(shù)語“成都小吃”和行業(yè)類別“吃”的相關(guān)度越大。步驟132、行業(yè)詞典生成裝置根據(jù)相關(guān)度的大小,從候選術(shù)語中獲取指定個(gè)數(shù)的相關(guān)候選術(shù)語。
具體的,對(duì)每一個(gè)行業(yè)類別,行業(yè)詞典生成裝置根據(jù)上述公式( 計(jì)算出該行業(yè)類別下的每個(gè)候選術(shù)語的卡方值之后,將卡方值從大到小排序,選取前k個(gè)候選術(shù)語作為相關(guān)候選術(shù)語,進(jìn)入下一步計(jì)算。其中,k是預(yù)先指定的相關(guān)候選術(shù)語的個(gè)數(shù),k為大于或等于1的自然數(shù)?;谏鲜鰧?shí)施例,步驟14生成行業(yè)詞匯的一種實(shí)施方式包括步驟141、行業(yè)詞典生成裝置對(duì)相關(guān)候選術(shù)語和所屬行業(yè)類別在文檔數(shù)據(jù)庫中的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),獲取共現(xiàn)數(shù)據(jù),所述共現(xiàn)數(shù)據(jù)包括文檔數(shù)量、每個(gè)相關(guān)候選術(shù)語與行業(yè)類別同時(shí)出現(xiàn)時(shí)的第一次數(shù)值和行業(yè)類別單獨(dú)出現(xiàn)時(shí)的第二次數(shù)值;在此說明,此處的文檔數(shù)據(jù)庫與前述根據(jù)初始行業(yè)術(shù)語從搜索引擎中獲取的文檔集合不同,前述的文檔集合是文檔數(shù)據(jù)庫的一個(gè)子集,即此處的文檔數(shù)據(jù)庫包含的與行業(yè)相關(guān)的文檔的數(shù)量更多,通常在千萬級(jí)以上。其中,共現(xiàn)分析是數(shù)據(jù)挖掘中一種常用的技術(shù)手段,主要思想是如果兩個(gè)詞頻繁在相同上下文中出現(xiàn),認(rèn)為這兩個(gè)詞之間有著比較密切的聯(lián)系。本實(shí)施例正是基于該原理在搜索引擎過程中自動(dòng)發(fā)現(xiàn)更多行業(yè)術(shù)語的。其中,共現(xiàn)分析的上下文可以是整個(gè)文檔、段落或句子。本實(shí)施例以文檔為例。例如對(duì)于相關(guān)候選術(shù)語t和行業(yè)類別c中包含的行業(yè)術(shù)語d,若在同一篇文檔中出現(xiàn),則記錄共現(xiàn)次數(shù)為1,表示為Coimt (t,c)-> 1 ;同時(shí)統(tǒng)計(jì)相關(guān)候選術(shù)語t和行業(yè)類別c單獨(dú)出現(xiàn)的頻率,一篇文檔算一次,分別表示為Coimt (t) - > 1和count (c) - > 1。根據(jù)上述處理,對(duì)相關(guān)候選數(shù)據(jù)t和行業(yè)類別c在整個(gè)文檔數(shù)據(jù)庫中的每個(gè)文檔均進(jìn)行統(tǒng)計(jì),獲取共現(xiàn)數(shù)據(jù)。該共現(xiàn)數(shù)據(jù)包括文檔數(shù)量、在所有文檔中每個(gè)相關(guān)候選術(shù)語和行業(yè)類別同時(shí)出現(xiàn)的次數(shù)(即第一次數(shù)值),在所有文檔中行業(yè)類別單獨(dú)出現(xiàn)的次數(shù)(即第二次數(shù)值)以及在所有文檔中每個(gè)相關(guān)候選術(shù)語單獨(dú)出現(xiàn)的次數(shù)。例如某個(gè)共現(xiàn)數(shù)據(jù)包括Coimt (t, c)-> 100 表示相關(guān)候選術(shù)語t和行業(yè)類別c在100篇文檔中共同出現(xiàn)了 ;coimta)- > 2000 表示相關(guān)候選術(shù)語t在2000篇文檔中出現(xiàn)了 ;count (C) - > 20000 表示行業(yè)類別c 在20000篇文檔中出現(xiàn)了 ;N-> 100000 表示文檔數(shù)量為10萬,即文檔數(shù)據(jù)庫中總共有10 萬篇文檔。步驟142、對(duì)共現(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,獲取相關(guān)候選術(shù)語與行業(yè)類別的關(guān)聯(lián)強(qiáng)度;在得到共現(xiàn)數(shù)據(jù)之后,根據(jù)關(guān)聯(lián)規(guī)則挖掘?qū)ι鲜霈F(xiàn)有數(shù)據(jù)進(jìn)行處理,計(jì)算支持度 (Support)和置信度(Confidence);其中支持度和置信度的計(jì)算公式分別為公式(;3)和公式⑷。Support (A — B) = P (A U B) (3)Confidence (A — B) = P (A | B) (4)將上述共現(xiàn)數(shù)據(jù)應(yīng)用到上述公式可得到表示支持度的公式( 和表示置信度的公式(6)Support (c- > t) = count (t, c)/N(5)Confidence (c- > t) = count (t, c) /count (c) (6)公式( 用于計(jì)算每個(gè)相關(guān)候選術(shù)語和行業(yè)類別同時(shí)出現(xiàn)的次數(shù)與文檔數(shù)量的比值,該比值即為支持度;公式(6)用于計(jì)算每個(gè)相關(guān)候選術(shù)語和行業(yè)類別同時(shí)出現(xiàn)的次數(shù)與行業(yè)類別單獨(dú)出現(xiàn)的次數(shù)的比值,該比值表示置信度。由公式( 和公式(6)分別表示的支持度和置信度共同用于表示候選術(shù)語t與行業(yè)類別c的關(guān)聯(lián)強(qiáng)度。其中,在本實(shí)施例中,預(yù)先設(shè)置了支持度閾值和置信度閾值,用于作為判斷關(guān)聯(lián)強(qiáng)度大小的基準(zhǔn)。行業(yè)詞典生成裝置將計(jì)算獲取的支持度和置信度分別與支持度閾值和置信度閾值進(jìn)行比較;將支持度和置信度同時(shí)大于支持度閾值和置信度閾值的關(guān)聯(lián)強(qiáng)度稱為強(qiáng)關(guān)聯(lián)強(qiáng)度;反之,稱為弱關(guān)聯(lián)強(qiáng)度。另外,除了根據(jù)支持度和置信度來計(jì)算相關(guān)行業(yè)術(shù)語與行業(yè)類別之間的關(guān)聯(lián)強(qiáng)度之外,還可以有其他方式,例如可以利用更強(qiáng)調(diào)專有性的關(guān)聯(lián)度來代替上述的置信度。其中,可以根據(jù)公式(7)來計(jì)算關(guān)聯(lián)度
權(quán)利要求
1.一種行業(yè)詞典生成方法,其特征在于,包括根據(jù)初始行業(yè)術(shù)語,獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合; 根據(jù)所述文檔集合,獲取候選術(shù)語; 對(duì)所述候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析,獲取相關(guān)候選術(shù)語; 對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘,生成行業(yè)詞匯; 將所述行業(yè)詞匯加入行業(yè)詞典。
2.根據(jù)權(quán)利要求1所述的行業(yè)詞典生成方法,其特征在于,在將所述行業(yè)詞匯加入行業(yè)詞典之后還包括將所述行業(yè)詞典中的行業(yè)詞匯重新作為所述初始行業(yè)術(shù)語,并返回執(zhí)行根據(jù)初始行業(yè)術(shù)語,獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合的操作。
3.根據(jù)權(quán)利要求2所述的行業(yè)詞典生成方法,其特征在于,在將所述行業(yè)詞典中的行業(yè)詞匯重新作為所述初始行業(yè)術(shù)語,并返回執(zhí)行根據(jù)初始行業(yè)術(shù)語,獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合的操作之前還包括將所述行業(yè)詞匯之外的相關(guān)候選術(shù)語加入屏蔽詞典。
4.根據(jù)權(quán)利要求1所述的行業(yè)詞典生成方法,其特征在于,所述根據(jù)所述文檔集合,獲取候選術(shù)語包括所述文檔集合進(jìn)行預(yù)處理,獲取詞序列集合; 對(duì)所述詞序列集合進(jìn)行過濾處理,獲取所述候選術(shù)語。
5.根據(jù)權(quán)利要求4所述的行業(yè)詞典生成方法,其特征在于,在對(duì)所述詞序列集合進(jìn)行過濾處理,獲取所述候選術(shù)語之前還包括對(duì)所述詞序列集合進(jìn)行主題詞提取處理,生成主題詞控制詞表。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的行業(yè)詞典生成方法,其特征在于,所述根據(jù)初始行業(yè)術(shù)語,獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合包括將所述初始行業(yè)術(shù)語進(jìn)行不同組合,獲取初始行業(yè)術(shù)語組合;將所述初始行業(yè)術(shù)語組合作為查詢?cè)~,利用搜索引擎獲取指定個(gè)數(shù)的文檔。
7.根據(jù)權(quán)利要求4或5所述的行業(yè)詞典生成方法,其特征在于,所述對(duì)所述文檔集合進(jìn)行預(yù)處理,獲取詞序列集合包括對(duì)所述文檔集合中的每個(gè)文檔分別進(jìn)行分詞處理,獲取所述詞序列集合。
8.根據(jù)權(quán)利要求7所述的行業(yè)詞典生成方法,其特征在于,所述對(duì)所述文檔集合進(jìn)行預(yù)處理還包括對(duì)所述文檔集合中的每個(gè)文檔進(jìn)行詞性標(biāo)注、停詞或同義詞處理。
9.根據(jù)權(quán)利要求5所述的行業(yè)詞典生成方法,其特征在于,所述對(duì)所述詞序列集合進(jìn)行主題詞提取處理,生成主題詞控制詞表包括對(duì)預(yù)設(shè)的訓(xùn)練語料進(jìn)行分詞和詞性標(biāo)注處理,生成所述訓(xùn)練語料中每個(gè)詞的特征集合和主題詞判斷結(jié)果,所述訓(xùn)練語料包括訓(xùn)練文檔和所述訓(xùn)練文檔對(duì)應(yīng)的訓(xùn)練主題詞;利用分類算法對(duì)所述訓(xùn)練語料中每個(gè)詞的特征集合和主題詞判斷結(jié)果進(jìn)行訓(xùn)練,生成分類器;獲取所述詞序列集合中每個(gè)詞的特征集合;根據(jù)所述分類器和所述每個(gè)詞的特征集合對(duì)所述每個(gè)詞進(jìn)行是否為主題詞的判斷;根據(jù)判斷結(jié)果,生成所述主題詞控制詞表。
10.根據(jù)權(quán)利要求5或9所述的行業(yè)詞典生成方法,其特征在于,對(duì)所述詞序列集合進(jìn)行過濾處理,獲取候選術(shù)語包括以后綴樹數(shù)據(jù)結(jié)構(gòu)在所述詞序列集合中提取重復(fù)的子串作為詞組;選擇詞頻大于詞頻閾值的詞或詞組作為候選詞;根據(jù)過濾規(guī)則,對(duì)所述候選詞進(jìn)行過濾,獲取所述候選術(shù)語。
11.根據(jù)權(quán)利要求10所述的行業(yè)詞典生成方法,其特征在于,所述過濾規(guī)則包括以下任意一種或其組合所述初始行業(yè)術(shù)語或屏蔽詞典中的詞或詞組不能作為候選術(shù)語; 候選術(shù)語包含的詞必須是所述主題詞控制詞表中的詞; 長度小于1的詞或包含詞的數(shù)量小于2或大于4的詞組不能作為候選術(shù)語;或作為其他詞組的前綴或后綴的詞組不能作為候選術(shù)語。
12.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的行業(yè)詞典生成方法,其特征在于,對(duì)所述候選術(shù)語進(jìn)行行業(yè)相關(guān)分析,獲取相關(guān)候選術(shù)語包括采用卡方校驗(yàn)或信息增益算法,計(jì)算每個(gè)所述候選術(shù)語與所屬行業(yè)類別的相關(guān)度; 根據(jù)相關(guān)度的大小,從所述候選術(shù)語中獲取指定個(gè)數(shù)的所述相關(guān)候選術(shù)語。
13.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的行業(yè)詞典生成方法,其特征在于,所述對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘,生成行業(yè)詞匯包括對(duì)所述相關(guān)候選術(shù)語和所屬行業(yè)類別在文檔數(shù)據(jù)庫中的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),獲取共現(xiàn)數(shù)據(jù),所述共現(xiàn)數(shù)據(jù)包括文檔數(shù)量、每個(gè)所述相關(guān)候選術(shù)語與所述行業(yè)類別同時(shí)出現(xiàn)時(shí)的第一次數(shù)值和所述行業(yè)類別單獨(dú)出現(xiàn)時(shí)的第二次數(shù)值;對(duì)所述共現(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,獲取所述相關(guān)候選術(shù)語與所述行業(yè)類別的關(guān)聯(lián)強(qiáng)度;選擇所述關(guān)聯(lián)強(qiáng)度大于關(guān)聯(lián)度閾值的相關(guān)候選術(shù)語作為所述行業(yè)詞匯。
14.根據(jù)權(quán)利要求13所述的行業(yè)詞典生成方法,其特征在于,對(duì)所述共現(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,獲取所述相關(guān)候選術(shù)語與所述行業(yè)類別的關(guān)聯(lián)強(qiáng)度包括計(jì)算每個(gè)所述第一次數(shù)值與所述文檔數(shù)量的比值,獲取每個(gè)所述相關(guān)候選術(shù)語對(duì)應(yīng)的支持度;計(jì)算所述第一次數(shù)值與所述第二次數(shù)值的比值,獲取置信度。
15.根據(jù)權(quán)利要求13所述的行業(yè)詞典生成方法,其特征在于,對(duì)所述共現(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,獲取所述相關(guān)候選術(shù)語與所述行業(yè)類別的關(guān)聯(lián)強(qiáng)度包括計(jì)算每個(gè)所述第一次數(shù)值與所述文檔數(shù)量的比值,獲取每個(gè)所述相關(guān)候選術(shù)語對(duì)應(yīng)的支持度;P(C)-P(A)P(B)根據(jù)公式11= /DMvn^TvnmvnA,獲取每個(gè)所述相關(guān)候選術(shù)語與所述行業(yè)類別的關(guān)聯(lián) ^P(A)P(A)P(B)P(B)度;其中,R表示關(guān)聯(lián)度;P(A)表示所述相關(guān)候選術(shù)語在所述文檔數(shù)據(jù)庫中出現(xiàn)的概率; P(B)表示所述行業(yè)類別在所述文檔數(shù)據(jù)庫中出現(xiàn)的概率;P(C)表示所述相關(guān)候選術(shù)語和所述行業(yè)類別同時(shí)出現(xiàn)在所述文檔數(shù)據(jù)庫中的概率。
16.一種行業(yè)詞典生成裝置,其特征在于,包括第一獲取模塊,用于根據(jù)初始行業(yè)術(shù)語,獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合; 第二獲取模塊,用于根據(jù)所述文檔集合,獲取候選術(shù)語; 第三獲取模塊,用于對(duì)所述候選術(shù)語進(jìn)行行業(yè)關(guān)聯(lián)度分析,獲取相關(guān)候選術(shù)語; 生成模塊,用于對(duì)所述相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘,生成行業(yè)詞匯; 添加模塊,用于將所述行業(yè)詞匯加入行業(yè)詞典。
17.根據(jù)權(quán)利要求16所述的行業(yè)詞典生成裝置,其特征在于,還包括觸發(fā)模塊,用于將所述行業(yè)詞典中的行業(yè)詞匯重新作為所述初始行業(yè)術(shù)語,并觸發(fā)所述第一獲取模塊執(zhí)行根據(jù)初始行業(yè)術(shù)語,獲取所述初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合的操作。
全文摘要
本發(fā)明提供一種行業(yè)詞典生成方法及裝置。方法包括根據(jù)初始行業(yè)術(shù)語,獲取初始行業(yè)術(shù)語對(duì)應(yīng)的文檔集合;根據(jù)文檔集合,獲取候選術(shù)語;對(duì)候選術(shù)語進(jìn)行行業(yè)相關(guān)度分析,獲取相關(guān)候選術(shù)語;對(duì)相關(guān)候選術(shù)語進(jìn)行共現(xiàn)分析和關(guān)聯(lián)關(guān)系挖掘,生成行業(yè)詞匯;將行業(yè)詞匯加入行業(yè)詞典。采用本發(fā)明技術(shù)方案可以生成行業(yè)詞典,解決了現(xiàn)有技術(shù)人工搜索行業(yè)詞匯時(shí)成本高、效率低等問題。
文檔編號(hào)G06F17/30GK102169495SQ201110089698
公開日2011年8月31日 申請(qǐng)日期2011年4月11日 優(yōu)先權(quán)日2011年4月11日
發(fā)明者何偉平, 吳永強(qiáng), 王名悠 申請(qǐng)人:趣拿開曼群島有限公司