一種文獻(xiàn)檢索方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及海量數(shù)據(jù)處理方法,具體地說是一種文獻(xiàn)檢索方法和系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,電子文獻(xiàn)數(shù)量越來越龐大,如何幫助用戶尤其是科研 工作者從海量的電子文獻(xiàn)中快速有效地找到其所需的相關(guān)文獻(xiàn)已成為急需解決的問題。個(gè) 性化推薦技術(shù)能夠有效解決信息過載問題,是一個(gè)信息檢索、人機(jī)交互、數(shù)據(jù)挖掘和用戶建 模等多學(xué)科交叉發(fā)展的領(lǐng)域,多年來已經(jīng)在研究領(lǐng)域取得了豐富的研究成果,特別是在電 子商務(wù)領(lǐng)域已取得了很好的應(yīng)用效果,如針對(duì)個(gè)人的喜好、產(chǎn)品的評(píng)價(jià)等進(jìn)行推薦,目前已 形成了較為豐富的方法與技術(shù)體系。
[0003] 文獻(xiàn)檢索技術(shù)相比于電子商務(wù)領(lǐng)域的個(gè)性化推薦技術(shù)面臨著兩個(gè)核心問題:第 一,用戶數(shù)目相對(duì)于文獻(xiàn)數(shù)目的比率比電子商務(wù)領(lǐng)域用戶數(shù)目相對(duì)于產(chǎn)品數(shù)目的比率要小 1到2個(gè)數(shù)量級(jí)。在文獻(xiàn)檢索推薦領(lǐng)域,通常是數(shù)萬用戶相對(duì)于數(shù)千萬篇文獻(xiàn);第二,用戶 平均評(píng)價(jià)的文獻(xiàn)數(shù)量非常少,稀疏性問題比在電子商務(wù)領(lǐng)域更加嚴(yán)重。所以,文獻(xiàn)領(lǐng)域的個(gè) 性化檢索推薦技術(shù)與一般電子商務(wù)領(lǐng)域的個(gè)性化推薦技術(shù)既有共同點(diǎn)又有區(qū)別。而當(dāng)前文 獻(xiàn)領(lǐng)域個(gè)性化檢索推薦技術(shù)仍局限于基于內(nèi)容的文獻(xiàn)推薦技術(shù)、基于協(xié)同過濾的文獻(xiàn)推薦 技術(shù)、混合型文獻(xiàn)推薦技術(shù)三種核心技術(shù)。這三種技術(shù)的主要思想均是要依賴用戶偏好或 者用戶使用信息向用戶推薦文獻(xiàn)信息,因此,均面臨著冷啟動(dòng)問題:新的用戶需要文獻(xiàn)推薦 服務(wù)時(shí),用戶偏好、評(píng)價(jià)、使用信息很少,推薦技術(shù)難以依據(jù)現(xiàn)有的用戶數(shù)據(jù)做出可靠的推 斷和預(yù)測(cè),因此達(dá)不到好的文獻(xiàn)推薦效果。
[0004] 如在中國(guó)專利文獻(xiàn)CN103605671A中公開了一種科研信息演化的分析方法和裝 置,方法包括通過采集單元采集預(yù)設(shè)領(lǐng)域的二篇以上科研文獻(xiàn),通過預(yù)處理單元對(duì)科研文 獻(xiàn)進(jìn)行預(yù)處理,并構(gòu)建二篇以上科研文獻(xiàn)的作者主題演化模型,通過獲取單元設(shè)定科研信 息估算參數(shù),利用演化運(yùn)算公式運(yùn)算科研估算參數(shù),以獲取科研信息演化結(jié)果。該方案從宏 觀角度揭示主題隨時(shí)間的變化,其目的是獲得信息的演化結(jié)果,信息演化可以展示其發(fā)展 過程。進(jìn)行科技決策、設(shè)定領(lǐng)域發(fā)展目標(biāo)或者科研人員在設(shè)置科研主題時(shí),都需要對(duì)領(lǐng)域內(nèi) 的信息進(jìn)行全面的檢索和分析,現(xiàn)有技術(shù)中的檢索方式只能通過檢索詞及的擴(kuò)展來命中檢 索結(jié)果,命中文獻(xiàn)一般是通過檢索詞匹配程度來確定先后順序,但是,檢索詞匹配程度高的 文獻(xiàn)不一定在該主題研究中具有重要的作用和價(jià)值,這樣就使得檢索結(jié)果中數(shù)據(jù)量太大, 不利于使用者高效地獲得所需的文獻(xiàn),檢索效率低,針對(duì)性差。
【發(fā)明內(nèi)容】
[0005] 為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中的檢索方式效率低、針對(duì)性差, 從而提出一種高效的文獻(xiàn)檢索方法和系統(tǒng)。
[0006] 為解決上述技術(shù)問題,本發(fā)明提供一種文獻(xiàn)檢索方法,包括如下步驟:
[0007] 選擇多篇文獻(xiàn),并確定每篇文獻(xiàn)的核心數(shù)據(jù);
[0008] 對(duì)每篇文獻(xiàn)的核心數(shù)據(jù)進(jìn)行詞組抽取和詞頻統(tǒng)計(jì),并將含義相近的詞組映射成同 一概念,得到概念集合,所述概念集合包括概念、出處和概念出現(xiàn)的頻次;
[0009] 獲取用戶輸入的檢索信息,所述檢索信息包括檢索詞、檢索時(shí)間段以及時(shí)間片長(zhǎng) 度;
[0010] 根據(jù)所述檢索詞在所述文獻(xiàn)的核心數(shù)據(jù)中進(jìn)行檢索詞匹配的預(yù)檢索,獲得與檢索 詞匹配的文獻(xiàn)及該文獻(xiàn)的出版時(shí)間和概念集合;
[0011] 根據(jù)所述時(shí)間片長(zhǎng)度將所述檢索時(shí)間段分為多個(gè)時(shí)間窗,根據(jù)出版時(shí)間先后順序 將預(yù)檢索結(jié)果中的文獻(xiàn)對(duì)應(yīng)的概念集合按照時(shí)間窗依次建立概念關(guān)聯(lián)矩陣;
[0012] 基于所述概念關(guān)聯(lián)矩陣進(jìn)行概念聚類得到主題類;
[0013] 識(shí)別主題類中的核心節(jié)點(diǎn);
[0014] 根據(jù)所述核心節(jié)點(diǎn)獲取主題發(fā)展模式;
[0015] 獲取屬于各主題發(fā)展模式中的核心節(jié)點(diǎn);
[0016] 將所述屬于主題發(fā)展模式中的核心節(jié)點(diǎn)對(duì)應(yīng)的文獻(xiàn)作為檢索結(jié)果。
[0017] 優(yōu)選地,識(shí)別主題類中的核心節(jié)點(diǎn)的步驟,包括:
[0018] 根據(jù)如下公式計(jì)算節(jié)點(diǎn)的中心度,中心度越高,說明該節(jié)點(diǎn)與其他節(jié)點(diǎn)的關(guān)系越 緊密;
[0020] 其中Cen(Ni)表示節(jié)點(diǎn)i的中心度,W(Ni)表示節(jié)點(diǎn)i的權(quán)重,此處以概念i的詞 頻計(jì)算,W(Nj)表示節(jié)點(diǎn)j的權(quán)重,此處以概念j的詞頻計(jì)算,k表示節(jié)點(diǎn)i所在主題類中i 節(jié)點(diǎn)以外的概念節(jié)點(diǎn)數(shù);
[0021] 中心度值為非負(fù)值的節(jié)點(diǎn)成為核心節(jié)點(diǎn)。
[0022] 優(yōu)選地,所述基于所述概念關(guān)聯(lián)矩陣進(jìn)行概念聚類得到主題類的步驟,包括:
[0023] 采用GN聚類算法的改進(jìn)算法,設(shè)置參數(shù),選取最優(yōu)聚類結(jié)果。
[0024] 優(yōu)選地,將預(yù)檢索結(jié)果中的文獻(xiàn)對(duì)應(yīng)的概念集合按照時(shí)間窗依次建立概念關(guān)聯(lián)矩 陣的步驟,包括
[0025] 利用共詞分析法依次構(gòu)建各時(shí)間窗的概念關(guān)聯(lián)矩陣。
[0026] 優(yōu)選地,所述核心數(shù)據(jù)包括文獻(xiàn)的標(biāo)題、檢索詞和摘要中的一項(xiàng)或幾項(xiàng)。
[0027] 優(yōu)選地,所述主題發(fā)展模式包括
[0028] 主題融合模式、主題擴(kuò)散模式、主題轉(zhuǎn)移模式、主題新增模式、主題消失模式、知識(shí) 再生模式中的一種或幾種。
[0029] 優(yōu)選地,所述將所述主題發(fā)展模式中的核心節(jié)點(diǎn)對(duì)應(yīng)的文獻(xiàn)作為檢索結(jié)果的步 驟,包括:
[0030] 按照時(shí)間窗次序依次生成在文獻(xiàn)題目、檢索詞、摘要中出現(xiàn)所述核心節(jié)點(diǎn)中概念 的文獻(xiàn)按照時(shí)間進(jìn)行排列并作為檢索結(jié)果。
[0031] 此外,本發(fā)明提供一種文獻(xiàn)檢索系統(tǒng),包括:
[0032] 核心數(shù)據(jù)提取單元,選擇多篇文獻(xiàn),并確定每篇文獻(xiàn)的核心數(shù)據(jù);
[0033] 概念集合生成單元,對(duì)每篇文獻(xiàn)的核心數(shù)據(jù)進(jìn)行詞組抽取和統(tǒng)計(jì),并將含義相近 的詞組映射成同一概念,得到概念集合,所述概念集合包括概念、出處和概念頻次;
[0034] 檢索信息獲取單元,獲取用戶輸入的檢索信息,所述檢索信息包括檢索詞、檢索時(shí) 間段以及時(shí)間片長(zhǎng)度;
[0035] 檢索單元,根據(jù)所述檢索詞在所述文獻(xiàn)的核心數(shù)據(jù)中進(jìn)行檢索詞匹配的預(yù)檢索, 獲得與檢索詞匹配的文獻(xiàn)及該文獻(xiàn)的出版時(shí)間和概念集合;
[0036] 概念關(guān)聯(lián)矩陣建立單元,根據(jù)所述時(shí)間片長(zhǎng)度將所述檢索時(shí)間段分為多個(gè)時(shí)間 窗,根據(jù)出版時(shí)間先后順序?qū)z索結(jié)果中的文獻(xiàn)對(duì)應(yīng)的概念集合按照時(shí)間窗依次建立概念 關(guān)聯(lián)矩陣;
[0037] 聚類單元,基于所述概念關(guān)聯(lián)矩陣進(jìn)行概念聚類得到主題類;
[0038] 第一核心節(jié)點(diǎn)識(shí)別單元,識(shí)別主題類中的核心節(jié)點(diǎn);
[0039] 主題發(fā)展模式獲取單元,根據(jù)所述核心節(jié)點(diǎn)獲取主題發(fā)展模式;
[0040] 第二核心節(jié)點(diǎn)識(shí)別單元,獲取主題發(fā)展模式中的核心節(jié)點(diǎn);
[0041] 結(jié)果輸出單元,將所述主題發(fā)展模式中的核心節(jié)點(diǎn)對(duì)應(yīng)的文獻(xiàn)作為檢索結(jié)果。
[0042] 優(yōu)選地,所述聚類單元包括聚類子單元:
[0043] 采用GN聚類算法的改進(jìn)算法,設(shè)置參數(shù),選取最優(yōu)聚類結(jié)果。
[0044] 優(yōu)選地,所述概念關(guān)聯(lián)矩陣建立單,包括建立子單元,利用共詞分析法依次構(gòu)建各 時(shí)間窗的概念關(guān)聯(lián)矩陣。
[0045] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn),
[0046] (1)本發(fā)明所述的文獻(xiàn)檢索方法,根據(jù)用戶輸入的檢索詞在選定文獻(xiàn)的核心數(shù)據(jù) 中進(jìn)行檢索,根據(jù)所述時(shí)間片長(zhǎng)度將所述檢索時(shí)間段分為多個(gè)時(shí)間窗,將檢索到的文獻(xiàn)對(duì) 應(yīng)的概念集合按照時(shí)間窗依次建立概念關(guān)聯(lián)矩陣;基于所述概念關(guān)聯(lián)矩陣進(jìn)行概念聚類 得到主題類,識(shí)別主題類中的核心節(jié)點(diǎn),再根據(jù)核心節(jié)點(diǎn)去獲取主題的發(fā)展模式,滯后獲取 各主題發(fā)展模式中的核心節(jié)點(diǎn),最后將這些核心節(jié)點(diǎn)對(duì)應(yīng)的文獻(xiàn)作為檢索結(jié)果。該方法將 根據(jù)檢索詞獲得的預(yù)檢索結(jié)果進(jìn)一步縮小,先獲得主題類,然后獲得主題類中的核心節(jié)點(diǎn), 由于所有的主題類信息巨大,無法反應(yīng)出主題的發(fā)展情況,因此先獲得主題類中的核心節(jié) 點(diǎn),再使用核心節(jié)點(diǎn)獲取主題發(fā)展模式,當(dāng)?shù)弥嗽撆c檢索結(jié)果中的主題發(fā)展模式后,屬于 這些主題發(fā)展模式的核心節(jié)點(diǎn)將是該次檢索中具有重要價(jià)值的文獻(xiàn),因此將其所為檢索結(jié) 果,此方法使得檢索到的文獻(xiàn)具有更高的價(jià)值,提高了檢索文獻(xiàn)的命中率和使用價(jià)值。向用 戶推薦這樣的文獻(xiàn)列表不但能夠使用戶快速鎖定領(lǐng)域核心經(jīng)典文獻(xiàn),還有助于用戶了解領(lǐng) 域主題的演化發(fā)展的來龍去脈,掌握領(lǐng)域的前沿?zé)狳c(diǎn)主題。
【附圖說明】
[0047] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合 附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明,其中
[0048] 圖1是本發(fā)明一個(gè)實(shí)施例1的一種文獻(xiàn)檢索方法的流程圖;
[0049] 圖2是本發(fā)明一個(gè)實(shí)施例2的主題發(fā)展模式統(tǒng)計(jì)分析圖;
[0050] 圖3是本發(fā)明一個(gè)實(shí)施例3的一種文獻(xiàn)檢索系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0051] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明的內(nèi)容,下面結(jié)合附圖和實(shí)施例對(duì)本 發(fā)明所提供的技術(shù)方案作進(jìn)一步的詳細(xì)描述。
[0052] 實(shí)施例1 :
[0053] 本發(fā)明提供一種文獻(xiàn)檢索方法,可用