專利名稱:來自一組搜索引擎的搜索結(jié)果的聚合的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及智能的基于事件的數(shù)據(jù)挖掘,更具體地,涉及從非結(jié)構(gòu)化源收集信息以創(chuàng)建并維持知識(shí)庫,該知識(shí)庫可幫助用戶快速確定并解決問題。
背景技術(shù):
問題確定涉及利用對(duì)發(fā)生在環(huán)境中的事件的分析來診斷問題并向用戶提供合適的解決方案或提供自動(dòng)解決方案。對(duì)這些任務(wù)中的任一個(gè)來說(即,提供解決方案或自動(dòng)恢復(fù)),很好地了解系統(tǒng)及其運(yùn)作是必需的前提。這通常通過使用用于問題原因及其解決方案的癥狀數(shù)據(jù)庫或其他存儲(chǔ)源來完成,且每當(dāng)問題發(fā)生時(shí),針對(duì)該源執(zhí)行分析以確定解決方案。但是,考慮到實(shí)際場(chǎng)景,實(shí)時(shí)環(huán)境將包括一起工作的、來自很多不同廠商的很多不同運(yùn)用程序。例如,顧客可能有部署在IBM的Websphere應(yīng)用服務(wù)器上的商業(yè)合作伙伴的web應(yīng)用,而使用Oracle作為數(shù)據(jù)庫(IBM和Websphere是國(guó)際商業(yè)機(jī)器公司的注冊(cè)商標(biāo))。這種場(chǎng)景具有來個(gè)三個(gè)不同廠商的三個(gè)不同的組件(應(yīng)用)=Websphere應(yīng)用服務(wù)器 (IBM)、web應(yīng)用(IBM的商業(yè)合作伙伴)和數(shù)據(jù)庫(Oracle)。考慮到這種場(chǎng)景,將理解,對(duì)于這樣的系統(tǒng)的完美的問題確定分析來說,需要對(duì)所有三個(gè)組件有深入了解。實(shí)際上,對(duì)于任何一個(gè)廠商來說,不可能提供并維持關(guān)于一些其他廠商(例如Oracle)的應(yīng)用的解決方案和智能(intelligence),盡管這些應(yīng)用會(huì)與其產(chǎn)品一起使用。這導(dǎo)致了信息“黑盒”,其中技術(shù)支持工程師沒有在環(huán)境中運(yùn)行的一些應(yīng)用的足夠信息和知識(shí)。從以上例子,如果IBM想要提供Oracle數(shù)據(jù)庫具有的問題的解決方案,考慮到商業(yè)伙伴將提供用于其應(yīng)用的信息和癥狀/解決方案的細(xì)節(jié),很容易想象這所需的努力。這將涉及讓一組專家創(chuàng)建并維護(hù)用于Oracle的解決方案數(shù)據(jù)庫。如果不這么做,在對(duì)該環(huán)境執(zhí)行問題確定分析時(shí)將導(dǎo)致黑盒,即,在系統(tǒng)中發(fā)生的任何問題,當(dāng)且僅當(dāng)它和數(shù)據(jù)庫無關(guān)時(shí),才能被診斷,并且任何與數(shù)據(jù)庫相關(guān)的問題將不得不在SME/專門管理員的幫助下解決。
發(fā)明內(nèi)容
在一個(gè)實(shí)施例中,本公開提供了一種用于智能的基于事件的數(shù)據(jù)挖掘的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。該方法包括從應(yīng)用接收事件,所述事件具有一組屬性,為所述屬性中的每個(gè)分配各自的屬性權(quán)重,基于屬性權(quán)重從所述屬性建立查詢,并且為一組搜索引擎中的每個(gè)分配各自的搜索引擎權(quán)重。該方法還包括基于搜索引擎權(quán)重來選擇至少一些搜索引擎,將查詢發(fā)送到選中的搜索引擎,從選中的搜索引擎接收查詢結(jié)果,在知識(shí)庫中存儲(chǔ)查詢結(jié)果,并基于查詢結(jié)果來調(diào)整屬性權(quán)重和搜索引擎權(quán)重。本發(fā)明的實(shí)施例可以被用來消除問題確定分析時(shí)的上述黑盒,并為分析提供關(guān)于問題的信息,并管理解決方案信息數(shù)據(jù)庫,該解決方案信息數(shù)據(jù)庫可被用于問題確定。這是低成本的解決方案,其在運(yùn)行時(shí)地從線上(online)源收集相關(guān)信息,該相關(guān)信息是在任意時(shí)間點(diǎn)的最為當(dāng)前和有效的信息?;ヂ?lián)網(wǎng)是最大和最全面的信息源之一。本發(fā)明利用互聯(lián)網(wǎng)上可用的信息來向用戶提供問題確定解決方案。通過從非結(jié)構(gòu)化源例如博客、論壇等收集信息,本發(fā)明可以創(chuàng)建并維護(hù)幫助用戶快速確定和解決問題的知識(shí)庫。在理想的問題確定/解決場(chǎng)景下,每個(gè)技術(shù)支持工程師根據(jù)經(jīng)驗(yàn)知道如何解決各種應(yīng)用中的問題。但是,很多時(shí)候解決方案不是馬上可獲得的;它可能涉及咨詢專家或向上反映(escalate)問題或甚至在已知位置例如問題跟蹤網(wǎng)站或論壇上進(jìn)行手動(dòng)搜索。本發(fā)明中使用的策略是在非結(jié)構(gòu)化信息上執(zhí)行分析以找到解決方案,而用戶很少或不用干涉。當(dāng)事件形式的問題產(chǎn)生時(shí),使用該事件的各個(gè)域(消息id、消息文本、組件名稱等)來執(zhí)行搜索。該搜索可以在任何信息源例如通用互聯(lián)網(wǎng)搜索、博客、維基百科頁面或論壇上進(jìn)行。搜索結(jié)果被處理以確定相關(guān)性、被格式化并被展示給用戶。使用相關(guān)性值和被使用的查詢,系統(tǒng)可以知道哪些查詢以及哪些搜索源返回最好和最相關(guān)的信息源。在后續(xù)運(yùn)行中,系統(tǒng)知道哪些屬性和搜索源提供不同產(chǎn)品的最佳信息。解決上述問題的另一種方法是雇傭主題專家或?qū)iT的管理員來處理廠商應(yīng)用。該方法的一個(gè)問題是雇傭?qū)<宜婕暗某杀?。作為一個(gè)專家,他/她自然將能夠提供對(duì)環(huán)境中的特定組件的支持,(在該例子中是Oracle數(shù)據(jù)庫)。然后專家將會(huì)空閑,直到相關(guān)的問題出現(xiàn),即,只有他/她專門處理的問題出現(xiàn)。該情形的關(guān)鍵問題是當(dāng)專家離開組織時(shí),知識(shí)也丟失了。專家根據(jù)經(jīng)驗(yàn)具有并使用的所有解決方案和知識(shí)都丟失了。相反,使用本發(fā)明的自動(dòng)解決方案,每當(dāng)一個(gè)新的問題解決方案被找到時(shí),該解決方案被存儲(chǔ)在知識(shí)庫中。 這意味著知識(shí)被保留在組織內(nèi),允許新的技術(shù)支持工程師能夠提供解決方案并可能消除對(duì)雇傭?qū)<业男枨?。技術(shù)支持工程師現(xiàn)在能夠處理更廣范圍內(nèi)的問題。
本發(fā)明的更多益處和優(yōu)勢(shì)將考慮參考附圖的下列詳細(xì)說明而變得更明顯,所述附圖指定并示出了本發(fā)明的優(yōu)選實(shí)施例。圖1示出了根據(jù)本發(fā)明的用于智能的基于事件的數(shù)據(jù)挖掘系統(tǒng)的示例架構(gòu)。圖2示出了圖1中的系統(tǒng)的總體操作。圖3示出了用于對(duì)圖1中的系統(tǒng)所獲得的搜索結(jié)果進(jìn)行分級(jí)的示例過程。圖4示出了用于更新數(shù)據(jù)挖掘系統(tǒng)的知識(shí)庫的示例過程。圖5示出了用于更新圖1的系統(tǒng)中使用的屬性和搜索引擎權(quán)重的示例過程。圖6示出了可以被用來實(shí)現(xiàn)本發(fā)明的示例性計(jì)算系統(tǒng)。
具體實(shí)施例方式本領(lǐng)域的技術(shù)人員將理解,本發(fā)明的方面可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的各方面可以采取完全硬件實(shí)施例、完全軟件實(shí)施例(包括固件、駐留軟件、微代碼等)或組合了軟件和硬件方面的實(shí)施例的形式,所有這些軟件和硬件方面在此通常被稱為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明可采取體現(xiàn)在任意有形表現(xiàn)介質(zhì)中實(shí)現(xiàn)的計(jì)算機(jī)程序產(chǎn)品,在該介質(zhì)中實(shí)現(xiàn)了計(jì)算機(jī)可用的程序代碼。
可以使用一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任意組合。所述計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可以是,例如,包括但不限于,電、磁、光、電磁、紅外線或半導(dǎo)體系統(tǒng)、裝置、設(shè)備或傳播媒介。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮舉列表)將包括下列具有一條或多條線的電連接、便攜式計(jì)算機(jī)軟盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦除可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式光盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)設(shè)備、傳輸媒介例如支持互聯(lián)網(wǎng)或內(nèi)部網(wǎng)的傳輸媒介、或磁存儲(chǔ)設(shè)備。在本文檔的上下文中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何能夠包含或存儲(chǔ)由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或與所述指令執(zhí)行系統(tǒng)、裝置或設(shè)備結(jié)合的程序的有形介質(zhì)。注意,計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)甚至可以是紙張或另一合適的、其上打印有程序的介質(zhì),因?yàn)槌绦蚩杀浑娮拥夭东@,例如通過對(duì)紙張或其它介質(zhì)進(jìn)行光掃描,然后在必要時(shí)被編譯、解釋、或者以其它合適的方式被處理,然后被存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。在本文檔的上下文中,計(jì)算機(jī)可用或可讀存儲(chǔ)介質(zhì)可以是任何能夠包含、存儲(chǔ)、通信、傳播或發(fā)送程序的介質(zhì),該程序被指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或與之結(jié)合使用。計(jì)算機(jī)可用介質(zhì)可以包括其中包含計(jì)算機(jī)可讀程序代碼(例如,在基帶中或作為載波的一部分)的傳播數(shù)據(jù)信號(hào)。可以使用任何適當(dāng)?shù)慕橘|(zhì),包括但不限于無線、線纜、光纜、RF等,來傳輸計(jì)算機(jī)可用程序代碼。用于執(zhí)行本發(fā)明的方面的操作的計(jì)算機(jī)程序代碼可以使用一種或多種編程語言的任意組合來編寫,所述編程語言包括諸如Java、Smalltalk, C++或類似語言之類的面向?qū)ο蟮木幊陶Z言或者諸如“C”編程語言或類似的編程語言之類的常規(guī)過程編程語言。所述程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行,部分地在用戶計(jì)算機(jī)上執(zhí)行,作為獨(dú)立的軟件包執(zhí)行,部分地在用戶計(jì)算機(jī)上并部分地在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行,或者完全地在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后者的情況中,所述遠(yuǎn)程計(jì)算機(jī)可以通過包括局域網(wǎng)(LAN)或廣域網(wǎng) (WAN)的任何類型網(wǎng)絡(luò)與用戶的計(jì)算機(jī)相連,也可以與外部計(jì)算機(jī)進(jìn)行連接(例如,使用因特網(wǎng)服務(wù)提供商通過因特網(wǎng)連接)。下面參考根據(jù)本發(fā)明的實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方塊圖對(duì)本發(fā)明的方面進(jìn)行描述。將理解,所述流程圖和/或方塊圖的每個(gè)方塊以及所述流程圖和/或方塊圖中的方塊的組合可以由計(jì)算機(jī)程序指令來實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以被提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器以產(chǎn)生機(jī)器,以便通過所述計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器執(zhí)行的所述指令產(chǎn)生用于實(shí)現(xiàn)在一個(gè)或多個(gè)流程圖和/或方塊圖方塊中指定的功能/操作的裝置。這些計(jì)算機(jī)程序指令也可以被存儲(chǔ)在引導(dǎo)計(jì)算機(jī)、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備以特定方式執(zhí)行功能的計(jì)算機(jī)可讀介質(zhì)中,以便存儲(chǔ)在所述計(jì)算機(jī)可讀介質(zhì)中的所述指令產(chǎn)生一件包括實(shí)現(xiàn)在所述一個(gè)或多個(gè)流程圖和/或方塊圖方塊中指定的功能/操作的指令的制品。所述計(jì)算機(jī)程序指令還可被加載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置,以導(dǎo)致在所述計(jì)算機(jī)或其他可編程裝置上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而在所述計(jì)算機(jī)或其他可編程裝置上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖和/或方塊圖方塊中指定的功能/操作的過程。參考圖1和圖2,在步驟202中,搜索管理器102從應(yīng)用接收CBE事件并開始對(duì)其進(jìn)行處理。使用CBE的不同屬性,創(chuàng)建用于搜索的查詢。這些查詢是根據(jù)被分配給特定產(chǎn)品的屬性的重要性或權(quán)重來創(chuàng)建的。例如,用于DB2問題以消息id來搜索將比用消息內(nèi)容來搜索產(chǎn)生更好的結(jié)果,而對(duì)于Oracle來說可能是相反的。為適應(yīng)該情況,屬性權(quán)重需要按每個(gè)產(chǎn)品來存儲(chǔ)。初始地,在第一次運(yùn)行前,默認(rèn)的權(quán)重被分配給屬性。對(duì)問題確定具有一些經(jīng)驗(yàn)的用戶或技術(shù)支持工程師分配這些權(quán)重。即,足夠的經(jīng)驗(yàn)來將高權(quán)重分配給有價(jià)值的屬性(例如消息id)并將低或零權(quán)重分配給不重要的屬性(例如創(chuàng)建時(shí)間)。示例產(chǎn)品屬性權(quán)重DB2_messageId = 90DB2_messageText = 50DB2_severity = 10DB2_creationTime = 0這些權(quán)重提供了對(duì)重要性的分級(jí),意味著用具有較高值的屬性來搜索返回更好的結(jié)果。在該例子中,在搜索該問題的解決方案時(shí),用消息Id來搜索時(shí)給出最佳結(jié)果,而(CBE 事件的)創(chuàng)建時(shí)間永遠(yuǎn)不應(yīng)該被使用。首先,創(chuàng)建集合P來表示要被用來為搜索引擎建立查詢的屬性。選擇在為搜索創(chuàng)建查詢時(shí)考慮哪些屬性,是通過根據(jù)權(quán)重分級(jí)并計(jì)算屬性的百分比來實(shí)現(xiàn)的。在步驟202 中,給定百分比(例如百分之50)或以上的屬性被用于查詢。在上述DB2的例子中,使用百分之50將給出“消息Id”和“消息文本”屬性。以這樣的方式選擇最相關(guān)的屬性,并創(chuàng)建查詢。每個(gè)查詢包含屬性值和組件的名稱(例如,用于DB2通用數(shù)據(jù)庫的“DB2UDB”)。在步驟206中,搜索查詢被發(fā)送到以類似方式選擇的搜索引擎104??捎玫乃阉饕?04按每個(gè)產(chǎn)品給出分級(jí),這事實(shí)上是說在搜索關(guān)于特定產(chǎn)品的信息時(shí),哪些搜索引擎(按順序)返回最佳結(jié)果。初始地,所有搜索引擎被分配100的“產(chǎn)品到搜索引擎”的權(quán)重,因此,所有搜索引擎將被用來執(zhí)行搜索。在后續(xù)運(yùn)行中,該值將被更新,來反應(yīng)搜索引擎對(duì)于返回特定產(chǎn)品的相關(guān)結(jié)果的可能性。類似于產(chǎn)品屬性權(quán)重,在步驟 204,通過采用那些給定百分比或以上的搜索引擎,選擇要使用的搜索引擎的集合S。示例產(chǎn)品-搜索引擎權(quán)重DB2_ibmDB2InformationCenter = 90DB2_google = 50DB2_yahoo = 10DB2_ask. com = 0使用搜索引擎權(quán)重的上述例子,如果百分比截止點(diǎn)(cutoff)是5,則查詢將被發(fā)送到前三個(gè)搜索引擎(IBM DB2信息中心、谷歌和雅虎)。一旦查詢被準(zhǔn)備好,它們可以以產(chǎn)品-搜索引擎權(quán)重降序的順序被發(fā)送到搜索引擎。該搜索可以在106中示出的任意信息源上進(jìn)行,所述信息源例如,通用互聯(lián)網(wǎng)搜索、博客、維基百科頁面或論壇。搜索結(jié)果被相關(guān)性引擎112來處理以確定相關(guān)性、被格式化并被顯示給用戶,如114所示。此外,在步驟 210中,從每個(gè)搜索引擎接收到的結(jié)果根據(jù)與P中的事件屬性的相關(guān)性被分級(jí),并被分配一個(gè)評(píng)分。計(jì)算搜索結(jié)果與查詢的相關(guān)性圖3示出了對(duì)搜索結(jié)果分級(jí)的過程。為了計(jì)算搜索結(jié)果與被用來產(chǎn)生該結(jié)果的查詢的相關(guān)性,在步驟310中,獲取搜索結(jié)果的文本內(nèi)容,并且找到它和查詢文本之間最長(zhǎng)共同子字符串。該過程被重復(fù)運(yùn)行,從查詢中移除已匹配的子字符串,直到不能找到更多的匹配。例如,如果搜索結(jié)果的文本內(nèi)容為Exception occurred while the JNDI NamingManager was processing a javax. naming. Reference objectRoot exception is java. lang. reflect. Invocation TargetExceptionat sun. reflect. NativeMethodAccessorImpl. invokeO(Native Method)at sun. reflect. NativeMethodAccessorImpl. invoke (NativeMethod Accessorlmpl. java- :85)at sun. reflect. NativeMethodAccessorImpl. invoke (NativeMethod Accessorlm-pl. java :58)at sun.reflect.DelegatingMethodAccessorImpl. invoke (Delegating MethodAccessorl-mpl. java(Compiled Code))at java. lang. reflect. Method, invoke (Method, java (Compiled Code))且(從消息文本屬性創(chuàng)建的)查詢?nèi)缦翬xception occurred in the JNDI NamingManager while processing a javax. naming. Reference object則重復(fù)運(yùn)行最長(zhǎng)公共子字符串會(huì)給出processing a javax. naming. Reference objectthe JNDI NamingManagerException occurredwhile使用這些子字符串,在步驟320中,可以計(jì)算結(jié)果與屬性的相關(guān)性。首先,從匹配的字符串和查詢中去除與產(chǎn)品或問題無關(guān)的普通英文單詞。在上述例子中,最后一個(gè)匹配 (while)與當(dāng)前上下文完全無關(guān),因此應(yīng)當(dāng)被移除。從所有匹配的字符串和查詢中移除這些單詞(例如 the、at、in、is、for)。例如,如果我們從查詢和匹配的字符串中移除單詞{ "in","the","while","a"}, 這留下查詢Exception occurred JNDI NamingManager processing javax. naming. Reference object匹配的字符串processing javax. naming. Reference objectJNDI NamingManagerException occurred現(xiàn)在,使用裁剪過的查詢和匹配字符串,計(jì)算相關(guān)性。取M= { “processing javax. naming. Reference object,,,"Exception occurred,,,"JNDI NamingManager,,}作為
匹配子字符串的集合,使用下列公式,計(jì)算結(jié)果相關(guān)性。
權(quán)利要求
1.一種用于智能的基于事件的數(shù)據(jù)挖掘的方法,包括從應(yīng)用接收事件,所述事件具有一組屬性;為所述屬性中的每個(gè)分配各自的屬性權(quán)重;基于屬性權(quán)重從所述屬性建立查詢;為一組搜索引擎中的每個(gè)分配各自的搜索引擎權(quán)重;基于搜索引擎權(quán)重來選擇至少一些搜索引擎;將查詢發(fā)送到選中的搜索引擎;從選中的搜索引擎接收查詢結(jié)果;在知識(shí)庫中存儲(chǔ)查詢結(jié)果;以及基于查詢結(jié)果來調(diào)整屬性權(quán)重和搜索引擎權(quán)重。
2.如權(quán)利要求1所述的方法,其中,基于屬性權(quán)重從所述屬性建立查詢包括 選擇具有高于規(guī)定值的屬性權(quán)重的每個(gè)屬性;以及從選中的屬性建立查詢。
3.如權(quán)利要求1或權(quán)利要求2所述的方法,其中,基于搜索引擎權(quán)重來選擇至少一些搜索引擎包括選擇具有高于規(guī)定值的搜索引擎權(quán)重的每個(gè)搜索引擎的步驟。
4.如前面任意權(quán)利要求所述的方法,其中,調(diào)整屬性權(quán)重和搜索引擎權(quán)重包括 為每個(gè)查詢結(jié)果計(jì)算搜索結(jié)果相關(guān)性;以及使用所述搜索結(jié)果相關(guān)性來調(diào)整屬性權(quán)重和搜索引擎權(quán)重。
5.如權(quán)利要求4所述的方法,其中為每個(gè)查詢結(jié)果計(jì)算搜索結(jié)果相關(guān)性包括,對(duì)每個(gè)查詢結(jié)果識(shí)別在查詢和所述每個(gè)查詢結(jié)果中都存在的公共文本子字符串的數(shù)量; 使用所述公共文本子字符串的數(shù)量來為每個(gè)查詢結(jié)果計(jì)算搜索結(jié)果相關(guān)性。
6.如權(quán)利要求5所述的方法,其中,識(shí)別在查詢和所述每個(gè)查詢結(jié)果中都存在的公共文本子字符串的數(shù)量包括識(shí)別在查詢和所述每個(gè)查詢結(jié)果中都有的最長(zhǎng)公共子字符串; 從查詢中移除所述最長(zhǎng)公共子字符串來得到修改的查詢;以及識(shí)別在被修改的查詢和所述查詢結(jié)果中都有的最長(zhǎng)公共子字符串。
7.如權(quán)利要求6所述的方法,其中,識(shí)別在查詢和所述每個(gè)查詢結(jié)果中都出現(xiàn)的公共文本子字符串的數(shù)量包括形成所述公共文本子字符串的集合;以及從所述集合中移除給定文本子字符串集合中的任一文本子字符串的每次出現(xiàn),以形成公共子字符串的被裁剪的集合。
8.如權(quán)利要求7所述的方法,其中使用所述公共文本子字符串的數(shù)量為所述每個(gè)查詢結(jié)果計(jì)算搜索結(jié)果相關(guān)性包括使用下列等式來計(jì)算結(jié)果相關(guān)性\ 2 、nJ X100 =結(jié)果相關(guān)性 (Nxn)其中mn是第η個(gè)匹配中的單詞的數(shù)量N是查詢中的單詞的數(shù)量 η是匹配的子序列的數(shù)量。
9.如權(quán)利要求5所述的方法,其中,調(diào)整屬性權(quán)重和搜索引擎權(quán)重包括累加每個(gè)查詢的搜索結(jié)果相關(guān)性來獲得總體相關(guān)性得分。
10.如權(quán)利要求5所述的方法,其中,調(diào)整屬性權(quán)重和搜索引擎權(quán)重包括計(jì)算每個(gè)被選中的屬性對(duì)每個(gè)查詢結(jié)果的貢獻(xiàn)。
11.一種智能的基于事件的數(shù)據(jù)挖掘的裝置,包括 用于從應(yīng)用接收事件的裝置,所述事件具有一組屬性; 用于為所述屬性中的每個(gè)分配各自的屬性權(quán)重的裝置; 用于基于屬性權(quán)重從所述屬性建立查詢的裝置;用于為一組搜索引擎中的每個(gè)分配各自的搜索引擎權(quán)重的裝置; 用于基于搜索引擎權(quán)重來選擇至少一些搜索引擎的裝置; 用于將查詢發(fā)送到選中的搜索引擎的裝置; 用于從選中的搜索引擎接收查詢結(jié)果的裝置; 用于在知識(shí)庫中存儲(chǔ)查詢結(jié)果的裝置;以及用于基于查詢結(jié)果來調(diào)整屬性權(quán)重和搜索引擎權(quán)重的裝置。
12.如權(quán)利要求11所述的設(shè)備,其中,用于建立查詢的裝置包括 用于選擇具有高于規(guī)定值的屬性權(quán)重的每個(gè)屬性的裝置;以及用于從選中的屬性建立查詢的裝置。
13.如權(quán)利要求11或權(quán)利要求12所述的設(shè)備,其中,用于選擇至少一些搜索引擎的裝置包括用于選擇具有高于規(guī)定值的搜索引擎權(quán)重的每個(gè)搜索引擎的裝置。
14.如權(quán)利要求11到13中任一個(gè)所述的設(shè)備,其中,用于調(diào)整屬性權(quán)重和搜索引擎權(quán)重的裝置包括用于為每個(gè)查詢結(jié)果計(jì)算搜索結(jié)果相關(guān)性的裝置;以及用于使用所述搜索結(jié)果相關(guān)性來調(diào)整屬性權(quán)重和搜索引擎權(quán)重的裝置。
15.如權(quán)利要求14所述的設(shè)備,其中用于為每個(gè)查詢結(jié)果計(jì)算搜索結(jié)果相關(guān)性的裝置包括,對(duì)每個(gè)查詢結(jié)果用于識(shí)別在查詢和所述每個(gè)查詢結(jié)果中都存在的公共文本子字符串的數(shù)量的裝置; 用于使用所述公共文本子字符串的數(shù)量來為所述每個(gè)查詢結(jié)果計(jì)算搜索結(jié)果相關(guān)性的裝置。
16.如權(quán)利要求15所述的設(shè)備,其中,用于識(shí)別在查詢和所述每個(gè)查詢結(jié)果中都存在的公共文本子字符串的數(shù)量的裝置包括用于識(shí)別在查詢和所述每個(gè)查詢結(jié)果中都有的最長(zhǎng)公共子字符串的裝置; 用于從查詢中移除所述最長(zhǎng)公共子字符串來得到修改的查詢的裝置;以及用于識(shí)別在被修改的查詢和所述查詢結(jié)果中都有的最長(zhǎng)公共子字符串的裝置。
17.如權(quán)利要求16所述的設(shè)備,其中,用于識(shí)別在查詢和所述每個(gè)查詢結(jié)果中都出現(xiàn)的公共文本子字符串的數(shù)量的裝置包括用于形成所述公共文本子字符串的集合的裝置;以及用于從所述集合中移除給定文本子字符串集合中的任一文本子字符串的每次出現(xiàn)、以形成公共子字符串的被裁剪的集合的裝置。
18.如權(quán)利要求17所述的設(shè)備,其中用于使用所述公共文本子字符串的數(shù)量來為所述每個(gè)查詢結(jié)果計(jì)算搜索結(jié)果相關(guān)性的裝置包括用于使用下列等式來計(jì)算結(jié)果相關(guān)性的裝置
19.如權(quán)利要求15所述的設(shè)備,其中,用于調(diào)整屬性權(quán)重和搜索引擎權(quán)重的裝置包括 用于累加每個(gè)查詢的搜索結(jié)果相關(guān)性來獲得總體相關(guān)性得分的裝置。
20.如權(quán)利要求15所述的設(shè)備,其中,用于調(diào)整屬性權(quán)重和搜索引擎權(quán)重的裝置包括 用于計(jì)算每個(gè)被選中的屬性對(duì)每個(gè)查詢結(jié)果的貢獻(xiàn)的裝置。
21.一種計(jì)算機(jī)程序,包括在計(jì)算機(jī)可讀介質(zhì)上存儲(chǔ)的計(jì)算機(jī)程序代碼,所述計(jì)算機(jī)程序代碼在被載入到計(jì)算機(jī)系統(tǒng)并在其上執(zhí)行時(shí),使得所述計(jì)算機(jī)系統(tǒng)執(zhí)行根據(jù)權(quán)利要求1 到10中的任一個(gè)的方法中的所有步驟。
全文摘要
公開了一種用于智能數(shù)據(jù)挖掘的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。該方法包括從應(yīng)用接收事件、將屬性權(quán)重分配給事件的屬性、以及基于屬性權(quán)重從這些屬性建立查詢。該方法還包括將搜索引擎權(quán)重分配給一組搜索引擎,基于搜索引擎權(quán)重來選擇至少一些搜索引擎,以及將建立的查詢發(fā)送到選中的搜索引擎。來自被選中的搜索引擎的結(jié)果被存儲(chǔ)在知識(shí)庫中,并被用來調(diào)整屬性權(quán)重和搜索引擎權(quán)重。本發(fā)明可以被用來提供關(guān)于問題的信息的分析,并用來管理可以用于問題確定的解決方案數(shù)據(jù)庫。本發(fā)明提供了用于從線上源收集相關(guān)信息的低成本的解決方案。
文檔編號(hào)G06F17/30GK102576364SQ201080043768
公開日2012年7月11日 申請(qǐng)日期2010年8月31日 優(yōu)先權(quán)日2009年10月1日
發(fā)明者A·拉馬克里施南, H·L·納拉亞南, K·沙斯特里, R·舍提 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司