專利名稱:文件關聯(lián)性判定系統(tǒng)與方法
技術領域:
本發(fā)明是關于一種文件關聯(lián)性判定系統(tǒng)與方法,尤指關于一種先擷取文件中的關鍵詞,再依兩文件的關鍵詞來判定其是否具有關聯(lián)性的文件關聯(lián)性判定系統(tǒng)與方法。
隨著科技的發(fā)展,各種如網(wǎng)頁、電子書或新聞稿等文件的產(chǎn)生與傳播越來越快速,連帶地,各種文件的數(shù)量也日益龐大,使得搜尋某種特定內(nèi)容的文件變得越來越困難。以網(wǎng)際網(wǎng)路為例,若使用者欲在一儲存有上萬筆文件的網(wǎng)站中,找尋所需要的某些特定內(nèi)容的資料,其勢必需要花費許多的時間與心力在搜集與整理上。
為解決上述問題,在現(xiàn)有技術中,多半是將各種文件以特定的資料結(jié)構(gòu)儲存于一資料庫中,再配合搜尋引擎來協(xié)助使用者搜尋其所需的資料。例如,使用者先輸入關鍵字后,搜尋引擎即針對使用者所輸入的關鍵字,于資料庫中搜尋內(nèi)容中具有此關鍵字的文件。使用者可以運用布林運算的觀念,對關鍵字進行各種的組合,以縮小搜尋的范圍。使用者亦可針對某個搜尋的結(jié)果作更進一步的搜尋,例如,再輸入另一關鍵字,以針對第一次搜尋所找到的數(shù)百篇文件再次進行篩選。
上述現(xiàn)有技術的缺點,為就算使用者找到了一篇符合其需要的特定文件,此篇特定文件對后續(xù)搜尋工作的進行并沒有幫助。換言之,當以關鍵字搜尋的方式找到了數(shù)篇后,使用者必須一篇篇檢視其內(nèi)容,以尋找其需要的文件,而在這個過程中,找到一篇文件并不會加速后續(xù)的檢視速度。使用者仍需對后續(xù)文件進行撿視,以得知其它文件是否為其所需的文件。
此外,以關鍵字來查詢并不一定就可以查詢到所有的相關聯(lián)文件。例如,有可能兩篇文件的主題相近,內(nèi)客相關聯(lián),然而使用者在搜尋時是以關鍵字來進行搜尋,且兩篇文件中有一篇文件的內(nèi)容中剛好沒有此關鍵字,這種情況下使用者就只能搜尋到一篇文件,而無法兩篇都搜尋到。若避免此狀況的發(fā)生,使用者必須同時輸入多個關鍵字,并以聯(lián)集的方式進行搜尋。然而此種作法勢必會搜尋到大量文件,需要花費更多的時間與精力來逐篇篩選。
再者,在某些情況下,使用者是先看到一篇特定文件后,想搜尋與此特定文件具有關聯(lián)性的文件。這種情況以新聞網(wǎng)站最為常見。此時,若僅以關鍵字來進行搜索,則使用者必須先桃出此篇特定文件的關鍵字后,再以搜尋引擎來依關鍵字進行搜尋。如此不但非常不便,同時也無法避免前述的兩個搜尋文件時所可能遭遇到的問題。
針對上述問題,本發(fā)明的目的為提供一種文件關聯(lián)性判定系統(tǒng)與方法,其可判定文件之間的關聯(lián)性,進而提升使用者搜尋相關聯(lián)文件的速度與效率。
本發(fā)明的目的可以通過以下措施來達到一種文件關聯(lián)性判定系統(tǒng),其判定一特定文件與一待判定文件之間是否具有關聯(lián)性,包含一關鍵詞擷取裝置,其擷取該特定文件的至少一特定文件關鍵詞,以構(gòu)成一特定文件關鍵詞組,該關鍵詞擷取裝置亦擷取該待判定文件的至少一待判定文件關鍵詞,以構(gòu)成一待判定文件關鍵詞組;以及一關聯(lián)性判定裝置,其是對比該特定文件關鍵詞組與該待判定文件關鍵詞組,并當該特定文件關鍵詞組與該待判定文件關鍵詞組的相似程度到達一預定程度時,判定該待判定文件與該特定文件具有關聯(lián)性。
一種文件關聯(lián)性判定方法,其判定一特定文件與一待判定文件之間是否具有關聯(lián)性,包含一特定文件關鍵詞擷取程序,其擷取該特定文件的至少一特定文件關鍵詞,以構(gòu)成一特定文件關鍵詞組;一待判定文件關鍵詞擷取程序,其擷取該待判定文件的至少一待判定文件關鍵詞,以構(gòu)成一待判定文件關鍵詞組;以及一對比程序,其對比該特定文件關鍵詞組與該待判定文件關鍵詞組,并當該特定文件關鍵詞組與待判定文件關鍵詞組相似程度到達一預定程度時,判定該待判定文件與該特定文件具有關聯(lián)性。
為達上述目的,依本發(fā)明的文件關聯(lián)性判定系統(tǒng)與方法包括一關鍵詞擷取裝置以及一關聯(lián)性判定裝置。關鍵詞擷取裝置擷取一特定文件的至少一特定文件關鍵詞,以構(gòu)成一特定文件關鍵詞組。關鍵詞擷取裝置亦擷取一待判定文件的至少一待判定文件關鍵詞,以構(gòu)成一待判定文件關鍵詞組。關聯(lián)性判定裝置則對比特定文件關鍵詞組與待判定文件關鍵詞組,并當特定文件關鍵詞組與待判定文件關鍵詞組的相似程度到達一預定程度時,判定待判定文件與特定文件具有關聯(lián)性。
本發(fā)明亦揭露一種文件關聯(lián)性判定方法,包括一特定文件關鍵詞擷取程序、一待判定文件關鍵詞擷取程序以及一對比程序。特定文件關鍵詞擷取程序擷取一特定文件的至少一特定文件關鍵詞,以構(gòu)成一特定文件關鍵詞組。待判定文件關鍵詞擷取程序擷取一待判定文件的至少一待判定文件關鍵詞,以構(gòu)成一待判定文件關鍵詞組。對比程序則對比特定文件關鍵詞組與待判定文件關鍵詞組,并當特定文件關鍵詞組與待判定文件關鍵詞組的相似程度到達一預定程度時,判定待判定文件與特定文件具有關聯(lián)性。
本發(fā)明相比現(xiàn)有技術具有如下優(yōu)點經(jīng)由上述的系統(tǒng)架構(gòu)與流程,使用者將可利用文件之間的關聯(lián)性來搜尋文件資料庫中的文件,藉以更增進文件搜尋的效率,減少使用者搜尋資料所需的時間與心力。
以下將參照相關附圖,說明依本發(fā)明較佳實施例的文件關聯(lián)性判定系統(tǒng)與方法,其中相同的元件將以相同的參照符號加以說明。
圖1為一示意圖,顯示依本發(fā)明較佳實施例的文件關聯(lián)性判定系統(tǒng)的架構(gòu)。
圖2為一示意圖,顯示于依本發(fā)明較佳實施例的文件關聯(lián)性判定系統(tǒng)中,關鍵詞擷取裝置11的架構(gòu)的實施形態(tài)。
圖3為一示意圖,顯示于依本發(fā)明較佳實施例的文件關聯(lián)性判定系統(tǒng)中,另一種關鍵詞擷取裝置11的架構(gòu)的實拖形態(tài)。
圖4為一流程圖,顯示依本發(fā)明較佳實施例的文件關聯(lián)性判定方法的流程。
圖5為一示意圖,顯示運用依本發(fā)明較佳實施例的文件關聯(lián)性判定系統(tǒng)來搜尋在文件資料庫中與特定文件具有關聯(lián)性的文件的實施形態(tài)。
圖6為一流程圖,顯示運用圖5所示的實拖形態(tài)來搜尋與特定文件具有關聯(lián)性的文件的流程。
圖號說明1文件關聯(lián)性判定系統(tǒng) 43對比程序11關鍵詞擷取裝置51文件資料庫111長詞優(yōu)先斷詞摸組 52文件瀏覽裝置112統(tǒng)計模組 53待判定文件讀取裝置113多連文刪除/合并摸組 54關鍵詞儲存裝置12關聯(lián)性判定裝置55文件關聯(lián)性記錄裝置20特定文件 61判斷程序21特定文件關鍵詞組 62待判定文件讀取程序30判定文件 63判斷程序31待判定文件關鍵詞組64特定文件關鍵詞擷取程序4文件關聯(lián)性判定方法 65判斷程序41特定文件關鍵詞擷取程序66待判定文件關鍵詞擷取程序42待判定文件關鍵詞擷取程序 67對比程序68判斷程序 80使用者69文件關聯(lián)性提供程序請參照圖1,依本發(fā)明較佳實施例的文件關聯(lián)性判定系統(tǒng)1主要包括一關鍵詞擷取裝置11以及一關聯(lián)性判定裝置12。關鍵詞擷取裝置11是擷取特定文件20的至少一特定文件關鍵詞,以構(gòu)成一特定文件關鍵詞組21。關鍵詞擷取裝置11亦擷取待判定文件30的至少一待判定文件關鍵詞,以構(gòu)成一待判定文件關鍵詞組31。關聯(lián)性判定裝置12則對比特定文件關鍵詞組21與待判定文件關鍵詞組31,并當兩者的相似程度到達一預定程度時,判定待判定文件30與特定文件20具有關聯(lián)性。
請參照圖2,關鍵詞擷取裝置11可以采用一長詞優(yōu)先斷詞模組111先對特定文件20與待判定文件30以長詞優(yōu)先斷詞法進行斷詞處理后,再以一統(tǒng)計摸組以統(tǒng)計方式擷取特定文件20的特定文件關鍵詞,以及待判定文件30的待判定文件關鍵詞。所謂「長詞優(yōu)先斷詞法」,是指利用一儲存有眾多中文常用詞的詞典,將特定文件20與待判定文件30中的所有文字,以「長詞優(yōu)先」的原則進行斷詞。例如,在對特定文件20進行斷詞時,若在特定文件20中出現(xiàn)了「臺北市」這個詞,而在詞典中,儲存了「臺北」與「臺北市」兩個中文常用詞,此時,由于斷詞是以「長詞優(yōu)先」為原則,故不會將「臺北市」這個詞切斷為「臺北」與「市」兩個詞,而會將「臺北市」視為一個詞。依此原則不斷循環(huán),即可將特定文件20內(nèi)容轉(zhuǎn)換為許多中文常用詞的組合。
接著,統(tǒng)計模組112則對斷詞的結(jié)果進行統(tǒng)計,將出現(xiàn)次數(shù)到達一閥值,或出現(xiàn)的比率高于一定比率的詞視為關鍵詞。例如,若設定出現(xiàn)15次以上的詞為關鍵詞,而在特定文件20中,「總統(tǒng)大選」這個詞出現(xiàn)了16次,則統(tǒng)計模組112即將「總統(tǒng)大選」這個詞視為特定文件20關鍵詞。經(jīng)由此種方法,統(tǒng)計模組112可自特定文件20中擷取出至少一個特定文件關鍵詞,并記錄于特定文件關腱詞組21中。同理,亦可得到自待判定文件30所擷取出來的待判定文件關鍵詞組31。
請參照圖3,關鍵詞擷取裝置11亦可采用一多連文刪除/合并模組113,以多連文刪除/合并法來擷取特定文件20的特定文件關鍵詞,以及待判定文件30的待判定文件關鍵詞。所謂「多連文刪除/合并法」,是指先將特定文件20或待判定文件30中的所有中文字先依順序轉(zhuǎn)變?yōu)閺蛿?shù)個「雙連文」的組合(以「臺北市政府」此一短句為例,其所可能產(chǎn)生的「雙連文」有四個,分別為「臺北」、「北市」、「市政」與「政府」),且當相鄰兩個「雙連文」的出現(xiàn)次數(shù)均高于一閥值時,將兩者合并為一「三連文」(例如,將「臺北」與「北市」合并為「臺北市」,并將出現(xiàn)次數(shù)未達到閥值的雙連文刪除。如此,利用不斷地將直到出現(xiàn)次數(shù)低于閥值的多連文刪除,保留出現(xiàn)次數(shù)高于閥值的多連文,以及合并兩個彼此相鄰且出現(xiàn)次數(shù)均高于閥值的多連文,最后剩下的即為在特定文件20或待判定文件30中出現(xiàn)次數(shù)高于一定閥值,且經(jīng)過充份合并過后的多連文。由于最后剩下的多連文的出現(xiàn)次數(shù)均高于閥值,故可將其視為特定文件20或待判定文件30的關鍵詞,并儲存于特定文件關鍵詞組21或待判定文件關鍵詞組31。
在取得特定文件關鍵詞組21與待判定文件關鍵詞組31后,關聯(lián)性判定裝置12即進行對比,以判定待判定文件30與特定文件20是否具有關聯(lián)性。當特定文件關鍵詞組21與待判定文件關鍵詞組31的相似程度到達一預定程度時,關聯(lián)性判定裝置12即判定該待判定文件與該特定文件具有關聯(lián)性。此處所謂的「預定程度」可視實際狀況而有所不同。例如,可設定為特定文件關鍵詞組21與待判定文件關鍵詞組31必須完全吻合,待判定文件30與特定文件20才具有關聯(lián)性,或者特定文件關鍵詞組21與待判定文件關鍵詞組31的相似程度達到百分的八十時,判定文件30與特定文件20即具有關聯(lián)性。明顯地,關聯(lián)性判定裝置12在判定待判定文件30與特定文件20是否具有關聯(lián)性時,作為判定依據(jù)「預定程度」會和幾個條件有關,包括特定文件關鍵詞與待判定文件關鍵詞的個數(shù)、特定文件20與待判定文件30的字數(shù)、以及長詞優(yōu)先斷詞法或多連文刪除/合并法中所設定的閥值的大小等。所以,「預定程度」應依照實際情況而有所調(diào)整。例如,若待判定文件30與特定文件20平均約有1000字,且關鍵詞擷取裝置11最多只取出現(xiàn)次數(shù)最多的三個關鍵詞,則可將關聯(lián)性判定裝置12作為判定依據(jù)的「預定程度」,設定為特定文件關鍵詞組21與待判定文件關鍵詞組31必須完全吻合,待判定文件30與特定文件20才具有關聯(lián)性。熟悉此項技術者可以依實際的需要,對「預定程度」作適當?shù)男薷呐c調(diào)整,或者由文件關聯(lián)性判定系統(tǒng)1依據(jù)文件的字數(shù)與類型等自動進行調(diào)整。
圖4所示者為以上述的文件關聯(lián)性判定系統(tǒng)1所實現(xiàn)的文件關聯(lián)性判定方法4的流程。其中,特定文件關鍵詞擷取程序41擷取特定文件20的特定文件關鍵詞,以構(gòu)成特定文件關鍵詞組21。待判定文件關鍵詞擷取程序42擷取待判定文件30的待判定文件關鍵詞,以構(gòu)成待判定文件關鍵詞組31。對比程序43則對比特定文件關鍵詞組21與待判定文件關鍵詞組31,并當特定文件關鍵詞組21與待判定文件關鍵詞組31的相似程度到達一預定程度時,判定待判定文件30與特定文件20具有關聯(lián)性。各程序的詳細內(nèi)容均如前所述,故在此不在贅述。惟需注意,特定文件關鍵詞擷取程序41與待判定文件關鍵詞擷取程序42的順序可以對調(diào),而不影響文件對比的結(jié)果。
依本發(fā)明的文件關聯(lián)性判定系統(tǒng)與方法可以判定文件之間的關聯(lián)性,故可與各種文件資料庫或搜尋系統(tǒng)配合以進行多種運用,使文件的搜尋更為便利。請參照圖5,例如,文件關聯(lián)性判定系統(tǒng)1可與一文件資料庫51配合,當使用者80透過文件瀏覽裝置52瀏覽到一篇特定文件20時,可利用文件關聯(lián)性判定系統(tǒng)1來搜尋與特定文件20具有關聯(lián)性的其它文件。此時,待判定文件讀取裝置53即依序讀取所有文件資料庫中的待判定文件30,以進行與特定文件20之間的關聯(lián)性判定。在待判定文件30經(jīng)過文件關聯(lián)性判定系統(tǒng)1的處理之后,待判定文件關鍵詞即儲存于關鍵詞儲存裝置54,其與特定文件20的關聯(lián)性則記錄于文件關聯(lián)性記錄裝置55。如此,即可找到在文件資料庫51中,所有與特定文件20具有關聯(lián)性的待判定文件30。
請參照圖6,當使用者運用圖5所示的架構(gòu)來搜尋與特定文件20具關聯(lián)性的文件時,首先在程序61中,判斷此特定文件20是否已經(jīng)在文件關聯(lián)性記錄裝置55中,已記錄了與其它待判定文件30的關聯(lián)性記錄。若有,則直接依先前的記錄將待判定文件提供給使用者即可,若沒有,則進入待判定文件讀取程序62,由待判定文件讀取裝置53從文件資料庫51中依續(xù)讀取待判定文件30。
接著,在程序63中,若特定文件20于關鍵詞儲存裝置54中沒有關鍵詞記錄,則進入特定文件關鍵詞擷取程序64,由關鍵詞擷取裝置11來擷取特定文件20的關鍵詞,并將其記錄至關鍵詞儲存裝置54。若在程序63中,特定文件20于關鍵詞儲存裝置54中已有關鍵詞記錄,則直接跳至程序65,判斷待判定文件30于關鍵詞儲存裝置54中是否有關鍵詞記錄。若無,則進入待判定文件關鍵詞擷取程序66,由關鍵詞擷取裝置11來擷取待判定文件30的關鍵詞。若有,則直接跳至對比程序67,由關聯(lián)性判定裝置12來進行關聯(lián)性的判定。
當針對此篇待判定文件30與特定文件20的關聯(lián)性判斷完畢后,即于程序68中,判斷是否仍有其它的待判定文件30。若有則回到待判定文件讀取程序62。若無則進入文件關聯(lián)性提供程序69,將所找到的與特定文件20具有關聯(lián)性的待判定文件提供給使用者80。
以上所述僅為舉例性,而非為限制性。任何未脫離木發(fā)明的精神與范疇,而對其進行的等效修改或變更,均應包含于后附的申請專利范圍中。
權利要求
1.一種文件關聯(lián)性判定系統(tǒng),其判定一特定文件與一待判定文件之間是否具有關聯(lián)性,其特征是包含一關鍵詞擷取裝置,其擷取該特定文件的至少一特定文件關鍵詞,以構(gòu)成一特定文件關鍵詞組,該關鍵詞擷取裝置亦擷取該待判定文件的至少一待判定文件關鍵詞,以構(gòu)成一待判定文件關鍵詞組;以及一關聯(lián)性判定裝置,其是對比該特定文件關鍵詞組與該待判定文件關鍵詞組,并當該特定文件關鍵詞組與該待判定文件關鍵詞組的相似程度到達一預定程度時,判定該待判定文件與該特定文件具有關聯(lián)性。
2.如權利要求1所述的文件關聯(lián)性判定系統(tǒng),其特征是其中該關鍵詞擷取裝置是先以一斷詞模組對該特定文件與該待判定文件進行斷詞處理后,再以一統(tǒng)計模組以統(tǒng)計方式擷取該特定文件的該特定文件關鍵詞,以及該待判定文件的該待判定文件關鍵詞。
3.如權利要求2所述的文件關聯(lián)性判定系統(tǒng),其特征是其中該斷詞模組是為一長詞優(yōu)先斷詞模組。
4.如權利要求1所述的文件關聯(lián)性判定系統(tǒng),其特征是其中該關鍵詞擷取裝置是以一多連文刪除/合并模組自該特定文件與該待判定文件擷取該特定文件關鍵詞以及該待判定文件關鍵詞。
5.如權利要求1所述的文件關聯(lián)性判定系統(tǒng),其特征是更包含一關鍵詞儲存裝置,其儲存該待判定文件的該待判定文件關鍵詞。
6.如權利要求5所述的文件關聯(lián)性判定系統(tǒng),其特征是其中該關聯(lián)性判定裝置是自該關鍵詞儲存裝置讀取該待判定文件關鍵詞組,以對比該特定文件關鍵詞組與該待判定文件關鍵詞組。
7.如權利要求1所述的文件關聯(lián)性判定系統(tǒng),其特征是其中該待判定文件是自一儲存多數(shù)個待判定文件的文件資料庫取出。
8.如權利要求7所述的文件關聯(lián)性判定系統(tǒng),其特征是更包含一待判定文件讀取裝置,其是自該待判定文件資料庫中,依序讀取這些待判定文件。
9.如權利要求7所述的文件關聯(lián)性判定系統(tǒng),其特征是更包含一文件關聯(lián)性記錄裝置,其記錄該特定文件與該待判定文件資料庫中的這些待判定文件之間是否具有關聯(lián)性。
10.如權利要求1所述的文件關聯(lián)性判定系統(tǒng),其特征是其中該預定程度是指該特定文件關鍵詞組與該待判定文件關鍵詞組的相似程度為完全相同。
11.一種文件關聯(lián)性判定方法,其判定一特定文件與一待判定文件之間是否具有關聯(lián)性,其特征是包含一特定文件關鍵詞擷取程序,其擷取該特定文件的至少一特定文件關鍵詞,以構(gòu)成一特定文件關鍵詞組;一待判定文件關鍵詞擷取程序,其擷取該待判定文件的至少一待判定文件關鍵詞,以構(gòu)成一待判定文件關鍵詞組;以及一對比程序,其對比該特定文件關鍵詞組與該待判定文件關鍵詞組,并當該特定文件關鍵詞組與待判定文件關鍵詞組相似程度到達一預定程度時,判定該待判定文件與該特定文件具有關聯(lián)性。
12.如權利要求11所述的文件關聯(lián)性判定方法,其特征是其中該特定文件關鍵詞擷取程序是先依一中文長詞優(yōu)先斷詞法對該特定文件進行斷詞處理后,再以統(tǒng)計方式擷取該特定文件的該特定文件關鍵詞;且該待判定文件關鍵詞擷取程序是先以中文長詞優(yōu)先斷詞法對該待判定文件進行斷詞處理后,再以統(tǒng)計方式擷取該待判定文件的該待判定文件關鍵詞。
13.如權利要求11所述的文件關聯(lián)性判定方法,其特征是其中該特定文件關鍵詞擷取程序是先以多連文刪除/合并法對該特定文件進行斷詞處理后,再以統(tǒng)計方式擷取該特定文件的該特定文件關鍵詞;且該待判定文件關鍵詞擷取程序是先以多連文刪除/合并法對該待判定文件進行斷詞處理后,再以統(tǒng)計方式擷取該待判定文件的該待判定文件關鍵詞。
14.如權利要求11所述的文件關聯(lián)性判定方法,其特征是更包含一關鍵詞儲存程序,其儲存該待判定文件的該待判定文件關鍵詞于一關鍵詞儲存裝置中。
15.如權利要求14所述的文件關聯(lián)性判定方法,其特征是其中該對比是自該關鍵詞儲存裝置讀取該待判定文件關鍵詞組,以對比該特定文件關鍵詞組與該待判定文件關鍵詞組。
16.如權利要求11所述的文件關聯(lián)性判定方法,其特征是其中該待判定文件是自一儲存多數(shù)個待判定文件的待判定文件資料庫取出。
17.如權利要求16所述的文件關聯(lián)性判定方法,其特征是更包含一待判定文件讀取程序,其是自該待判定文件資料庫中,依序讀取這些待判定文件。
18如權利要求16所述的文件關聯(lián)性判定方法,其特征是更包含一文件關聯(lián)性記錄程序,其記錄該特定文件與該待判定文件資料庫中的這些待判定文件之間是否具有關聯(lián)性。
19.如權利要求11所述的文件關聯(lián)性判定方法,其特征是其中該預定程度是指該特定文件關鍵詞組與該待判定文件關鍵詞組的相似程度為完全相同。
全文摘要
一種文件關聯(lián)性判定系統(tǒng),包括一關鍵詞擷取裝置及一關聯(lián)性判定裝置。關鍵詞擷取裝置擷取一特定文件至少一特定文件關鍵詞,構(gòu)成特定文件關鍵詞組。同時擷取待判定文件至少一待判定文件關鍵詞,構(gòu)成一待判定文件關鍵詞組。關聯(lián)性判定裝置則對比特定文件關鍵詞組與待判定文件關鍵詞組,當兩關鍵詞組的相似程度到達一預定程度時,判定待判定文件與特定文件具有關聯(lián)性。本發(fā)明亦揭露一種以文件關聯(lián)性判定系統(tǒng)實現(xiàn)的文件關聯(lián)性判定方法。
文檔編號G06F17/30GK1369839SQ0110410
公開日2002年9月18日 申請日期2001年2月16日 優(yōu)先權日2001年2月16日
發(fā)明者楊立偉 申請人:意藍科技股份有限公司