專利名稱:中文文件自動摘要方法
技術(shù)領(lǐng)域:
本發(fā)明是有關(guān)于一種摘要方法,且特別是有關(guān)于一種中文文件自動摘要方法。
背景技術(shù):
隨著時代的進(jìn)步,知識經(jīng)濟(jì)的時代也已經(jīng)來臨,在這知識爆炸的時代中,如何從茫茫的知識中迅速搜尋取得對自己有用的信息則是刻不容緩的課題。
于是我們將文章的內(nèi)容寫成摘要,提供使用者快速的了解文章的大意。讓使用者透過閱讀摘要的方式,來決定是否閱讀整篇文章,進(jìn)而達(dá)到節(jié)省時間以及迅速掌握文章內(nèi)容的目的。
習(xí)知技術(shù)中,利用人工的方式來閱讀每一篇文章來做成摘要,但是此方法不但費(fèi)時且費(fèi)力。另外一種方法則是使用微軟的word軟件,此軟件會選取文章中的第一句來當(dāng)作摘要,但此方法并不是很準(zhǔn)確。
發(fā)明內(nèi)容
因此本發(fā)明的目的就是在提供一種中文文件自動摘要方法,其可將任意一篇文章,取出若干句子作為此篇文章的摘要。
本發(fā)明提出一種中文文件自動摘要方法,此中文文件自動摘要方法的步驟依序?yàn)槭紫仍O(shè)定摘要搜尋范圍,并將此摘要搜尋范圍分成多個句子;接著在此摘要搜尋范圍找出多個關(guān)鍵詞,并根據(jù)這些關(guān)鍵詞的詞性分別給予任意一個關(guān)鍵詞相對應(yīng)的關(guān)鍵詞分?jǐn)?shù);然后根據(jù)這些句子中所包含的關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻,決定每一句子所分別對應(yīng)的一個句子分?jǐn)?shù);最后依句子分?jǐn)?shù)排列這些句子作為摘要的優(yōu)先級。
在本發(fā)明的一個較佳實(shí)施例中,依句子分?jǐn)?shù)排列這些句子作為摘要的優(yōu)先級的步驟依序?yàn)槭紫扔筛咧恋团帕芯渥臃謹(jǐn)?shù);最后依這些句子分?jǐn)?shù)的排列順序,依序取得相對應(yīng)的句子,直到符合預(yù)設(shè)停止條件為止。
在本發(fā)明的一個較佳實(shí)施例中,根據(jù)這些關(guān)鍵詞的詞性分別給予這些關(guān)鍵詞相對應(yīng)的關(guān)鍵詞分?jǐn)?shù)的步驟依序?yàn)槭紫忍峁┰~庫,而此詞庫則是用以規(guī)定詞匯、與此詞匯相對應(yīng)的詞性及詞頻;接著提供詞性得分表以規(guī)定每一個詞性所相對應(yīng)的分?jǐn)?shù);最后根據(jù)此詞庫與此詞性得分表以計(jì)算這些關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)。
在本發(fā)明的一個較佳實(shí)施例中,根據(jù)這些句子中所包含的關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻,決定這些句子所分別對應(yīng)的句子分?jǐn)?shù)的步驟依序?yàn)槭紫纫源司渥又兴拿恳粋€關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)與詞頻的倒數(shù)相乘而分別得到一個相乘值;接著將此句子中包含的所有關(guān)鍵詞的相乘值相加,得到一個相加總和;然后以此句子的句長對此相加總和做正規(guī)化操作;最后以正規(guī)化所得的結(jié)果為此句子分?jǐn)?shù)。上述關(guān)鍵詞所對應(yīng)的詞頻為介于0與1之間的實(shí)數(shù),且詞頻越高的代表出現(xiàn)頻率也越高。
本發(fā)明借由設(shè)定關(guān)鍵詞的得分,然后依據(jù)關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長、及詞頻決定句子的分?jǐn)?shù),最后根據(jù)句子分?jǐn)?shù)的高低順序來達(dá)到?jīng)Q定摘要的內(nèi)容。
為讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉一個較佳實(shí)施例,并配合所附圖式,作詳細(xì)說明如下。
圖1繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的流程圖。
圖2繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的決定關(guān)鍵詞分?jǐn)?shù)的流程圖。
圖3A繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的詞庫。
圖3B繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的詞性得分表。
圖4繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的決定句子分?jǐn)?shù)的流程圖。
符號說明S102設(shè)定摘要搜尋范圍,并將此摘要搜尋范圍分成多個句子;S104在摘要搜尋范圍找出多個關(guān)鍵詞;S106根據(jù)關(guān)鍵詞的詞性分別給予任意一個關(guān)鍵詞相對應(yīng)的關(guān)鍵詞分?jǐn)?shù);S108決定每一個句子所分別對應(yīng)的句子分?jǐn)?shù);S110根據(jù)分?jǐn)?shù)排列句子并作為摘要的優(yōu)先級;S202提供詞庫以規(guī)定詞匯、與此詞匯相對應(yīng)的詞性及與此詞匯相對應(yīng)的詞頻;S204提供詞性得分表以規(guī)定每一個詞性所相對應(yīng)的分?jǐn)?shù);S206根據(jù)詞庫與詞性得分表計(jì)算關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù);S402以句子中所包含的每一個關(guān)鍵詞分?jǐn)?shù)語詞頻的倒數(shù)相乘而分別得到相乘值;S404將句子中包含所有的關(guān)鍵詞的相乘值相加,得到相加總和;S406以此句的句長對此相加總和做正規(guī)化操作;S408所得結(jié)果為此句子分?jǐn)?shù)具體實(shí)施方式
圖1繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的流程圖。請參照圖1,首先,設(shè)定摘要搜尋范圍,并將此摘要搜尋范圍分成多個句子(如步驟S102)。必須注意的是,在一篇文章、電子郵件、或在行動電話系統(tǒng)所使用的短詞(包括多媒體短訊、MMS)中,通常會同時包括有文字部分與其它的多媒體部分,在這種情況下,就需先取出在此文件中的純文字部分,并將所取出的純文字部分的全部或其中某些部分作為摘要搜尋范圍。再者,熟習(xí)此技藝者可利用分隔符,如“,”、“?!?、“”與“;”等符號而將搜尋部份分成多個句子。然此并非本發(fā)明的必要實(shí)施方式,熟習(xí)此技藝者可視當(dāng)下情況所需而選用適當(dāng)?shù)臄嗑浞绞健=又?,在此摘要搜尋范圍找出多個關(guān)鍵詞(如步驟S104),隨后,根據(jù)這些關(guān)鍵詞的詞性分別給予任意一個關(guān)鍵詞相對應(yīng)的關(guān)鍵詞分?jǐn)?shù)(如步驟S106)。然后,根據(jù)這些句子中所包含的關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻,決定每一個句子所分別對應(yīng)的句子分?jǐn)?shù)(如步驟S108)。最后,依照這些句子分?jǐn)?shù)排列這些句子作為摘要的優(yōu)先級(如步驟S110)。
在目前,已經(jīng)有多種可以執(zhí)行如步驟S104所述『找出關(guān)鍵詞』的操作的技術(shù)文獻(xiàn)存在,因此在此處并不多做敘述。然而,必須注意的是,由于本發(fā)明的技術(shù)是根據(jù)各關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻等特征而對句子進(jìn)行評分,因此前述的這些特征對于句子分?jǐn)?shù)而言顯然將會造成極大的影響。但是,正如熟習(xí)此技藝者所知,事先定義好的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻等僅能針對已知或已條列出的詞匯做最佳化的排序,卻不能針對新發(fā)生或未條列出的詞匯而給予相應(yīng)的關(guān)鍵詞分?jǐn)?shù)及詞頻。因此,為了使本發(fā)明所帶來的效果能更加突出,如何解決新詞所帶來的問題顯然是一個可以著重研究的問題點(diǎn)。
為了解決新詞所帶來的問題,一個方式是不斷的更新用以定義或條列關(guān)鍵詞的詞庫。然而,此種方式必須耗費(fèi)較多的人力及資源,而且并沒有辦法完全解決新詞出現(xiàn)的問題。在本發(fā)明的一個實(shí)施例中,用來解決新詞問題的方式是給予每一個新詞一個相對應(yīng)的預(yù)設(shè)關(guān)鍵詞分?jǐn)?shù)及詞頻等特征參數(shù)。舉例來說,基于新詞一般可能是該篇文件的撰寫者為了表達(dá)其意念而新定義出,且對此篇文件而言應(yīng)為最重要的詞匯之一的假設(shè),在此實(shí)施例中是將新詞的關(guān)鍵詞分?jǐn)?shù)設(shè)定為一般關(guān)鍵詞所能取得的最高分?jǐn)?shù)的兩倍,并將其詞頻設(shè)定為某一個固定的默認(rèn)值。借由此種方式,將可以使得本發(fā)明得以在不更新詞庫的情況下仍然具有相當(dāng)?shù)奶幚韽椥浴?br>
如熟習(xí)此技藝者可知,判斷是否為新詞的方式可以如上述般直接對詞庫做比較,舉凡是不在詞庫中的詞匯就可判定為新詞。在另一方面,借由目前已經(jīng)存在的新詞學(xué)習(xí)方法,也可以達(dá)到相同的目的。再者,以各種方式所取得的新詞可以進(jìn)一步依照各人喜好而加入詞庫之中,并給予對應(yīng)的分?jǐn)?shù)與詞頻等特征參數(shù)。
圖2繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的決定關(guān)鍵詞分?jǐn)?shù)的流程圖。請參照圖2,在上述實(shí)施例中的步驟S106,根據(jù)這些關(guān)鍵詞的詞性分別給予任一這些關(guān)鍵詞相對應(yīng)的關(guān)鍵詞分?jǐn)?shù),其中更詳細(xì)的步驟如下。首先,提供詞庫,而此詞庫則是用以規(guī)定詞匯、與此詞匯相對應(yīng)的詞性及與此詞匯相對應(yīng)的詞頻(如步驟S202)。接著,提供詞性得分表以規(guī)定每一個詞性所相對應(yīng)的分?jǐn)?shù)(如步驟S204)。最后,則是根據(jù)此詞庫與此詞性得分表來計(jì)算這些關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)(如步驟S206)。
圖3A繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的詞庫。圖3B繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的詞性得分表。請同時參照圖3A以及圖3B,在上述實(shí)施例中,例如在一個目標(biāo)文章中,找出關(guān)鍵詞“我”總共出現(xiàn)5次,所以可以從詞庫中找出此詞匯“我”的詞性為代名詞,詞頻為0.9。接著參照詞性得分表,則可以對照出代名詞所應(yīng)得到的分?jǐn)?shù),在此實(shí)施例中,代名詞可得到的分?jǐn)?shù)為36分,因此就以36分為關(guān)鍵詞“我”所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)。上述關(guān)鍵詞所對應(yīng)的詞頻為介于0與1之間的實(shí)數(shù),且詞頻越高的代表出現(xiàn)頻率也越高。
然而,如熟習(xí)此技藝者所知,關(guān)鍵詞分?jǐn)?shù)不一定必須與此關(guān)鍵詞所對應(yīng)的詞性同分,而且詞頻也不一定僅能介于0與1之間。
圖4繪示根據(jù)本發(fā)明一個較佳實(shí)施例的中文文件自動摘要方法的決定句子分?jǐn)?shù)的流程圖。請參考圖4,在上述實(shí)施例中,步驟S108中根據(jù)這些句子中所包含的關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻,決定每一這些句子所分別對應(yīng)的句子分?jǐn)?shù),其中更詳細(xì)的步驟如下。首先,以此句子中所包含的每一個關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)與詞頻的倒數(shù)相乘而分別得到一個相乘值(如步驟S402)。接著,將此句子中包含的所有關(guān)鍵詞的相乘值相加,得到一個相加總和(如步驟S404)。然后,以此句子的句長對此相加總和做正規(guī)化操作(如步驟S406)。最后,則是以正規(guī)化所得的結(jié)果為此句子分?jǐn)?shù)(如步驟S408)。
在上述實(shí)施例中,例如詞匯“我”的關(guān)鍵詞分?jǐn)?shù)為36分,接著將此關(guān)鍵詞“我”所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)36分與其詞頻的倒數(shù)相乘,而根據(jù)詞庫可得知“我”的詞頻為0.9,所以將36分乘以0.9的倒數(shù),進(jìn)而得到40這個相乘值。接著將此句子中所有關(guān)鍵詞的相乘值相加,可以得到一個相加總和。隨后,根據(jù)句子的句長對此相加總和作正規(guī)化操作,也即將此句子的句長的1n值開根號。最后正規(guī)化的結(jié)果便是此句子的分?jǐn)?shù)。
如上所述,接著依照文章中句子分?jǐn)?shù)的高低,由高至低排列,并依照這些句子分?jǐn)?shù)的排列順序,依序取得相對應(yīng)的任一這些句子,直到符合一個預(yù)設(shè)停止條件為止,最后將依序所取得的句子,依照在文章中所出現(xiàn)的前后出現(xiàn)順序作為摘要的輸出順序。例如依照句子分?jǐn)?shù)對應(yīng)取得分?jǐn)?shù)高的前5句,但這前5句實(shí)際在摘要中出現(xiàn)的順序,則是以在文章中的前后出現(xiàn)順序作為摘要的出現(xiàn)順序。上述的預(yù)設(shè)停止條件可以為特定字?jǐn)?shù)或者是特定句數(shù)。
雖然本發(fā)明已經(jīng)以一個較佳實(shí)施例披露如上,然其并非用以限定本發(fā)明,任何熟習(xí)此技藝者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作些少許的更動與潤飾,因此本發(fā)明的保護(hù)范圍當(dāng)視上述的權(quán)利要求所界定的范圍為準(zhǔn)。
權(quán)利要求
1.一種中文文件自動摘要方法,適用于建立一個目標(biāo)文件的摘要,包括設(shè)定一個摘要搜尋范圍,并將該摘要搜尋范圍分成多個句子;在該摘要搜尋范圍找出多個關(guān)鍵詞;根據(jù)這些關(guān)鍵詞的詞性分別給予任意一個這些關(guān)鍵詞相對應(yīng)的關(guān)鍵詞分?jǐn)?shù);根據(jù)這些句子中所包含的關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻,決定每一這些句子所分別對應(yīng)的一個句子分?jǐn)?shù);以及依這些句子分?jǐn)?shù)排列這些句子作為摘要的優(yōu)先級。
2.如權(quán)利要求1所述的中文文件自動摘要方法,其中設(shè)定該摘要搜尋范圍的步驟更包括取出該目標(biāo)文件中的純文字部分;以及以所取出的純文字部分為該摘要搜尋范圍。
3.如權(quán)利要求1所述的中文文件自動摘要方法,其中根據(jù)該些句子中所包含的關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻,決定每一這些句子所分別對應(yīng)的該句子分?jǐn)?shù)的步驟包括以該句子中所包含的每一個關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)與詞頻的倒數(shù)相乘而分別得到一個相乘值;將該句子中包含的所有關(guān)鍵詞的相乘值相加,得到一個相加總和;以該句子的句長對該相加總和做正規(guī)化操作;以及以正規(guī)化所得的結(jié)果為該句子分?jǐn)?shù);其中,該詞頻為介于0與1之間的實(shí)數(shù),且詞頻越高的代表出現(xiàn)頻率也越高。
4.如權(quán)利要求1所述的中文文件自動摘要方法,其中根據(jù)這些關(guān)鍵詞的詞性分別給予任一這些關(guān)鍵詞相對應(yīng)的關(guān)鍵詞分?jǐn)?shù)的步驟,包括提供一個詞庫以規(guī)定一個詞匯、與該詞匯相對應(yīng)的詞性及與該詞匯相對應(yīng)的詞頻;提供一個詞性得分表以規(guī)定每一個詞性所相對應(yīng)的分?jǐn)?shù);以及根據(jù)該詞庫與該詞性得分表以計(jì)算這些關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)。
5.如權(quán)利要求1所述的中文文件自動摘要方法,其中將該摘要搜尋范圍分成多個句子的步驟是根據(jù)分隔符來進(jìn)行。
6.如權(quán)利要求1所述的中文文件自動摘要方法,其中依這些句子分?jǐn)?shù)排列這些句子作為摘要的優(yōu)先級的步驟,包括由高至低排列這些句子分?jǐn)?shù);以及依這些句子分?jǐn)?shù)的排列順序,依序取得相對應(yīng)的任一這些句子,直到符合一個預(yù)設(shè)停止條件為止。
7.如權(quán)利要求6所述的中文文件自動摘要方法,其中該預(yù)設(shè)停止條件為特定字?jǐn)?shù)。
8.如權(quán)利要求6所述的中文文件自動摘要方法,其中該預(yù)設(shè)停止條件為特定句數(shù)。
9.如權(quán)利要求6所述的中文文件自動摘要方法,更包括以這些句子在該摘要搜尋范圍的前后出現(xiàn)順序作為摘要的輸出順序。
全文摘要
一種中文文件自動摘要方法,適用于建立一個目標(biāo)文件的摘要。首先設(shè)定摘要搜尋范圍,并將此摘要搜尋范圍分成多個句子;接著在此摘要搜尋范圍找出多個關(guān)鍵詞;然后根據(jù)這些關(guān)鍵詞的詞性分別給予任意一個關(guān)鍵詞相對應(yīng)的關(guān)鍵詞分?jǐn)?shù);然后根據(jù)這些句子中所包含的關(guān)鍵詞所對應(yīng)的關(guān)鍵詞分?jǐn)?shù)、句長及詞頻,決定每一個句子所分別對應(yīng)的一個句子分?jǐn)?shù);最后依照這些句子分?jǐn)?shù)排列這些句子作為摘要的優(yōu)先級。
文檔編號G06F17/30GK1614587SQ20031010348
公開日2005年5月11日 申請日期2003年11月7日 優(yōu)先權(quán)日2003年11月7日
發(fā)明者楊立偉 申請人:楊立偉