一種中醫(yī)針灸領(lǐng)域知識自動抽取的實現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種知識抽取技術(shù),尤其涉及一種中醫(yī)針灸領(lǐng)域知識自動抽取的實現(xiàn) 方法。
【背景技術(shù)】
[0002] 術(shù)語解釋:
[0003] (1)中醫(yī)針灸領(lǐng)域的術(shù)語:主要涉及經(jīng)絡(luò)、腧穴、針灸療法、中醫(yī)學病癥名及其他 含義抽象的針灸學術(shù)語。本技術(shù)方案將中醫(yī)針灸領(lǐng)域術(shù)語分為如下五類:
[0004] ①經(jīng)絡(luò)術(shù)語:指運行氣血、聯(lián)系臟腑和體表及全身各部的通道,包括:十二經(jīng)脈、 奇經(jīng)八脈、十五絡(luò)脈等。
[0005] ②腧穴術(shù)語:指人體經(jīng)絡(luò)線上特殊的點區(qū)部位,多為神經(jīng)末梢和血管較少的地方, 中醫(yī)可以通過針灸或者推拿、點按、艾炙刺激相應(yīng)的經(jīng)絡(luò)點來治療疾病。
[0006] ③針灸療法術(shù)語:包括刺法、灸法、拔罐、推拿等治療方法以及治療用具術(shù)語。
[0007] ④中醫(yī)病癥名術(shù)語:指具體的疾病名稱。
[0008] ⑤抽象術(shù)語:指不能歸入上述四類且含義抽象的針灸術(shù)語。
[0009] (2)中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件:是指那些更大概率地出現(xiàn)在中醫(yī)針灸領(lǐng)域術(shù)語中的 字、單詞或復合詞,術(shù)語構(gòu)件可以是詞根、前綴、后綴或某些包含于中醫(yī)針灸領(lǐng)域術(shù)語中的 字符串。
[0010] 文本信息抽取研宄始于上世紀60年代,隨后召開的MUC (Message Understanding Conference)和ACE (Automatic Content Extraction)評測會議推動了信息抽取技術(shù)的發(fā) 展。在生物醫(yī)學領(lǐng)域,文本信息抽取主要解決的是從生物醫(yī)學文本中識別出生物醫(yī)學實體, 進而探宄它們之間可能存在的關(guān)系,包括:基因與基因的關(guān)系、蛋白質(zhì)與蛋白質(zhì)相互作用關(guān) 系、基因與疾病的關(guān)系、蛋白質(zhì)與疾病的關(guān)系、基因與藥物的關(guān)系、疾病與治療的關(guān)系等,并 最終以人們可以理解的方式表達出來的問題。國內(nèi)外對信息抽取的方法主要有三大類:基 于語言規(guī)則的方法、基于統(tǒng)計信息的方法、規(guī)則與統(tǒng)計相結(jié)合的方法。人們針對生物醫(yī)學命 名實體識別任務(wù)展開了研宄;采用了包括詞、關(guān)鍵詞、蛋白質(zhì)實體名距離、關(guān)聯(lián)路徑等特征 組合成特征模板,使用支持向量機統(tǒng)計模型來抽取蛋白質(zhì)關(guān)系。人們將兩個實體所在的句 子信息以及兩個實體周圍的局部上下文信息組合在一起應(yīng)用于藥物關(guān)系抽取,取得了較好 的結(jié)果。"基于半監(jiān)督方法的生物醫(yī)學事件抽取的研宄"采用基于半監(jiān)督的方法,在生物醫(yī) 學事件觸發(fā)詞識別上,先分析了各種特征對識別的影響,然后結(jié)合未標注語料信息,利用蛋 白質(zhì)-觸發(fā)詞對關(guān)系,來進行觸發(fā)詞識別模型的構(gòu)建;在生物醫(yī)學事件元素的識別上,充分 利用特征在標注語料和未標注語料中的共現(xiàn)信息,將有強分類能力的稀疏特征進行融合, 從而將識別問題映射到一個新的維度空間去解決。這兩種結(jié)合未標注語料的方法,都有效 的減輕了數(shù)據(jù)稀疏所帶來的影響,提高了生物醫(yī)學事件抽取的精度。
[0011] 當前,生物醫(yī)學領(lǐng)域信息抽取任務(wù)主要集中在對英文醫(yī)學文獻的研宄上,例如研 宄英文生物醫(yī)學文獻中命名實體的抽??;研宄英文醫(yī)學文獻中藥物相互作用關(guān)系的抽取; 研宄英文醫(yī)學文獻中事件的抽取。對于在中醫(yī)針灸領(lǐng)域文獻中抽取知識的關(guān)鍵技術(shù)研宄還 是空白,缺乏對中醫(yī)針灸領(lǐng)域文獻信息抽取技術(shù)的研宄以及系統(tǒng)的開發(fā)。中醫(yī)針灸是基于 漢民族文化,具有中國特色的醫(yī)療保健技術(shù),其內(nèi)容包括針灸理論、腧穴、針灸技術(shù)以及相 關(guān)器具。中醫(yī)針灸文獻作為針灸醫(yī)學領(lǐng)域成果展示和學術(shù)交流的主要載體,但是其內(nèi)容組 織和知識表達與英文文獻以及中文通用領(lǐng)域文獻都具有很大的差異性。
【發(fā)明內(nèi)容】
[0012] 為解決上述問題本發(fā)明提供了一種中醫(yī)針灸領(lǐng)域知識自動抽取的實現(xiàn)方法。本 發(fā)明的目的是針對中醫(yī)針灸領(lǐng)域文獻的特點,研宄并開發(fā)中醫(yī)針灸領(lǐng)域術(shù)語抽取系統(tǒng),從 海量的中醫(yī)針灸領(lǐng)域文獻中快速有效地提取領(lǐng)域術(shù)語,形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個數(shù)據(jù) 庫,供用戶查詢和使用。
[0013] 為達到上述技術(shù)效果,本發(fā)明的技術(shù)方案是:
[0014] 一種中醫(yī)針灸領(lǐng)域知識自動抽取的實現(xiàn)方法,包括如下步驟:
[0015] 步驟一)種子集構(gòu)建:從爬取的醫(yī)學論文中抽取關(guān)鍵字信息構(gòu)建中醫(yī)針灸領(lǐng)域術(shù) 語種子集;
[0016] 步驟二)語料庫構(gòu)建:從爬取的醫(yī)學論文中抽取中文摘要信息構(gòu)建中醫(yī)針灸領(lǐng)域 語料庫;
[0017] 步驟三)術(shù)語構(gòu)建集的生成:調(diào)用術(shù)語構(gòu)件生成器,用構(gòu)件集中的構(gòu)件切分中醫(yī) 針灸領(lǐng)域術(shù)語種子集中的每個術(shù)語;將最佳切分中產(chǎn)生的新構(gòu)件添加到構(gòu)件集中,迭代學 習新構(gòu)件直至算法收斂,生成中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件集;對種子集S中的一個術(shù)語s,用構(gòu) 件集Tc中的構(gòu)件進行切分,得到多個不同的切分結(jié)果,如公式(1):
[0020] i表示術(shù)語s被構(gòu)件集Tc中的構(gòu)件切分后的某種切分結(jié)果,& (s)表示第i種切 分結(jié)果;t表示構(gòu)件集中的構(gòu)件;r表示術(shù)語被構(gòu)件集中的構(gòu)件切分后產(chǎn)生的字串;j表示 術(shù)語s被切分后,切分術(shù)語的構(gòu)件t和切分后產(chǎn)生的字串r按順序從左到右的編號;
[0021] 切分R"s)的權(quán)重計算方法如公式⑵所示:
[0023]其中,
,a和0為調(diào)節(jié)參數(shù),其值通過實驗效 果調(diào)節(jié);
[0024] length(s)表示術(shù)語s的長度,即術(shù)語s所含漢字個數(shù);m表示術(shù)語s的一種切分 結(jié)果Ri(s)中所含的構(gòu)件數(shù);tip表示術(shù)語s的第i個切分結(jié)果Ms)中從左到右數(shù)的第p 個構(gòu)件;length(tip)表示構(gòu)件tip所含漢字個數(shù);p表示術(shù)語s切分結(jié)果Ms)中從第1個 構(gòu)件到最后1個構(gòu)件的變量;m'表示術(shù)語s的第i個切分結(jié)果Ri(s)中長度不為0的字串 &的個數(shù);
[0025]選擇權(quán)重最大的切分為最佳切分,將其產(chǎn)生的新構(gòu)件44,...,^i+1添加 到構(gòu)件集Tc中;其中構(gòu)件過濾規(guī)則如下:
[0026] 1. 3. 1)丟棄最佳切分Rjs)首部、中部產(chǎn)生的單字長構(gòu)件,將尾部產(chǎn)生的頻率>1 的單字長構(gòu)件添加到Tc中;
[0027] 1. 3. 2)將最佳切分氏(s)中長度>1且頻率>1的新構(gòu)件添加到Tc中;
[0028] 步驟四)候選術(shù)語集的生成:以中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件集為領(lǐng)域詞典,調(diào)用候選 術(shù)語抽取器抽取中醫(yī)針灸領(lǐng)域語料庫中的術(shù)語,生成中醫(yī)針灸領(lǐng)域候選術(shù)語集;
[0029] 步驟五)術(shù)語集的生成:調(diào)用術(shù)語過濾器,利用規(guī)則集對候選術(shù)語集中的候選術(shù) 語進行過濾,生成中醫(yī)針灸領(lǐng)域術(shù)語集。
[0030] 進一步的改進,所述步驟四)中抽取中醫(yī)針灸領(lǐng)域語料庫中的術(shù)語的方法為:從 未標注無結(jié)構(gòu)的中醫(yī)針灸領(lǐng)域語料庫中逐句讀取字串,采用最大向前匹配算法,以術(shù)語構(gòu) 件集Tc作為領(lǐng)域詞典切分字串,切分結(jié)果如公式(3)所示:
[0032] 其中,12 0, |x,,+11S: 0, |xp | > 0(2Sn)(TcttjeTc
[0033] e表示從中醫(yī)針灸語料庫中讀取的句子,tn,t12,…,tnin為術(shù)語構(gòu)件,
[0034] Xl,x2,…,xn+1是句子中分隔候選術(shù)語的普通字串;
[0035] 抽取xk和x,+1之間的串(1 <女< /?)作為中醫(yī)針灸領(lǐng)域候選術(shù)語,用術(shù) 語過濾規(guī)則模板過濾候選術(shù)語,生成中醫(yī)針灸領(lǐng)域術(shù)語,直至中醫(yī)針灸領(lǐng)域語料庫中的語 料處理完畢。
[0036] 進一步的改進,術(shù)語過濾的方法如下:首先通過中醫(yī)針灸領(lǐng)域術(shù)語種子集獲得術(shù) 語首詞列表和術(shù)語尾詞列表;然后術(shù)語過濾規(guī)則如下:
[0037] 3. 1)限定首詞:將候選術(shù)語依次在術(shù)語首詞列表中檢測,若候選術(shù)語左邊第一個 構(gòu)件不在首詞列表中,則去除該構(gòu)件,將剩余部分作為候選術(shù)語繼續(xù)該操作,直至候選術(shù)語 左邊第一個構(gòu)件出現(xiàn)在術(shù)語首詞列表中或候選術(shù)語字符串為空時結(jié)束;
[0038] 3. 2)限定尾詞:將候選術(shù)語依次在術(shù)語尾詞列表中檢測,若候選術(shù)語右邊第一個 構(gòu)件不在尾詞列表中,則去除該構(gòu)件,將剩余部分作為候選術(shù)語繼續(xù)該操作,直至候選術(shù)語 右邊第一個構(gòu)件出現(xiàn)在術(shù)語尾詞列表中或字符串為空時結(jié)束;
[0039] 3. 3)若候選術(shù)語右邊第一和第二個構(gòu)件都出現(xiàn)在尾詞列表中,則去除右邊第一個 構(gòu)件,將剩余部分視為候選術(shù)語;
[0040] 3. 4)若組成候選術(shù)語的所有構(gòu)件都不在中醫(yī)針灸領(lǐng)域術(shù)語種子集中,則舍棄該候 選術(shù)語;
[0041] 3. 5)若候選術(shù)語為單字組成的字串,