国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      改進(jìn)文檔檢索的內(nèi)容傳播的制作方法

      文檔序號(hào):6551612閱讀:103來(lái)源:國(guó)知局
      專利名稱:改進(jìn)文檔檢索的內(nèi)容傳播的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明的實(shí)施屬于數(shù)據(jù)挖掘。
      背景技術(shù)
      如今的高科技公司通常都會(huì)提供某些方面的產(chǎn)品支持,以確保使消費(fèi)者和合伙人能獲得技術(shù)投資的最大值。例如,可提供各種消費(fèi)和商業(yè)支持提供(offering)以及戰(zhàn)略IT咨詢服務(wù),以滿足消費(fèi)者和合伙人的需求。支持提供可包括電話、站點(diǎn)、基于Web的支持等等。但不幸的是,產(chǎn)品支持服務(wù)不僅在財(cái)務(wù)成本方面特別昂貴,而且在尋求解決方案所花費(fèi)的時(shí)間方面也是特別昂貴的。例如,網(wǎng)絡(luò)咨詢服務(wù)通常會(huì)很昂貴,以至于非公司消費(fèi)者沒(méi)有能力進(jìn)行單個(gè)產(chǎn)品咨詢或故障診斷。
      另外,當(dāng)自動(dòng)服務(wù)時(shí),例如在線搜索包括產(chǎn)品“如何”(幫助)和故障診斷條文的知識(shí)庫(kù)時(shí),消費(fèi)者識(shí)別相關(guān)條文所需的時(shí)間就是不能令人接收的。一個(gè)原因就是知識(shí)庫(kù)產(chǎn)品故障診斷條文通常是由專業(yè)作者、供貨商等等提供的,而不是由尋求支持的產(chǎn)品用戶提供的。在這種情況下,如果用戶不利用知識(shí)庫(kù)(KB)創(chuàng)建者所采用的項(xiàng)目形成搜索查詢,用戶在定位相關(guān)知識(shí)庫(kù)故障診斷信息上時(shí)非常困難的并要花費(fèi)大量時(shí)間。
      發(fā)明概述這里描述了提供計(jì)算機(jī)執(zhí)行的改進(jìn)文檔檢索的內(nèi)容傳播的系統(tǒng)和方法。在一方面,識(shí)別出針對(duì)一個(gè)或多個(gè)文檔的參考信息。該參考信息是從一個(gè)或多個(gè)數(shù)據(jù)源中標(biāo)識(shí)出的,該一個(gè)或多個(gè)數(shù)據(jù)源與包括一個(gè)或多個(gè)文檔的數(shù)據(jù)源無(wú)關(guān)。元數(shù)據(jù)被接近地定位到參考信息,該元數(shù)據(jù)是從一個(gè)或多個(gè)數(shù)據(jù)源中提取的。計(jì)算所述元數(shù)據(jù)的相應(yīng)特征之間的相關(guān)性,所述元數(shù)據(jù)組成任何一個(gè)所述一個(gè)或多個(gè)文檔。對(duì)于所述一個(gè)或多個(gè)文檔中的每個(gè)文檔,利用特征的相關(guān)性該元數(shù)據(jù)的相關(guān)部分從各自部分被索引到文檔的原始內(nèi)容。該索引生成了一個(gè)或多個(gè)改進(jìn)的文檔。
      附圖的簡(jiǎn)要說(shuō)明在附圖中,部件附圖標(biāo)記最左邊的數(shù)字表示該部件首次出現(xiàn)特定附圖。


      圖1示出了為改進(jìn)的文檔檢索提供內(nèi)容傳播的示例性系統(tǒng)。
      圖2示出了為改進(jìn)的文檔檢索提供內(nèi)容傳播的典型過(guò)程。
      圖3表示了一個(gè)適合的計(jì)算環(huán)境,在該環(huán)境中可以完全或者部分執(zhí)行隨后將描述的為改進(jìn)的文檔檢索提供內(nèi)容傳播的系統(tǒng)、裝置和方法。
      圖4是可用于分類的計(jì)算機(jī)環(huán)境的一個(gè)實(shí)施例的方框圖。
      圖5是用于將不同類對(duì)象分類的體系的一個(gè)實(shí)施例的方框圖。
      圖6是混合網(wǎng)絡(luò)模型的一個(gè)實(shí)施例的方框圖。
      圖7是直接與Internet相連的計(jì)算機(jī)環(huán)境的另一個(gè)實(shí)施例的方框圖。
      圖8是分類算法的一個(gè)實(shí)施例的流程圖。
      圖9是分類算法的另一個(gè)實(shí)施例的流程圖。
      圖10是用于將包含隱蔽層的不同類對(duì)象分類的體系的另一個(gè)實(shí)施例的方框圖。
      圖11是分類算法的另一個(gè)實(shí)施例的流程圖。
      詳細(xì)說(shuō)明概述為了解決產(chǎn)品問(wèn)題(故障)和/或另外的搜索一產(chǎn)品,要?jiǎng)?chuàng)建KB條文來(lái)輔助消費(fèi)者定位“如何”(幫助)條文。研究表明終端用戶越容易搜索到并獲得直接定位消費(fèi)者查詢的在線KB條文,消費(fèi)者對(duì)該產(chǎn)品及其相關(guān)支持設(shè)施就越滿意。因此,下面描述的系統(tǒng)和方法就通過(guò)分析存儲(chǔ)在多種數(shù)據(jù)源中的信息來(lái)定位相關(guān)信息的KB條文(KBARI),而提供內(nèi)容傳播和改進(jìn)的文檔檢索。這樣的數(shù)據(jù)源例如包括請(qǐng)求存儲(chǔ)庫(kù)、在線產(chǎn)品和開(kāi)發(fā)者支持組新聞組投遞(posting)、搜索查詢點(diǎn)擊通過(guò)日志,和/或等等。
      KBARI包括,例如,實(shí)際上唯一的PS文檔(例如,KB條文)ID,到特定PS條文的超文本鏈接、特定PS條文的通用資源標(biāo)識(shí)符(URI)、文檔標(biāo)題等等。當(dāng)在產(chǎn)品服務(wù)請(qǐng)求中發(fā)現(xiàn)KBARI,和/或來(lái)自產(chǎn)品開(kāi)發(fā)者到的投遞支持新聞組時(shí),臨近KBARI的文本包括在語(yǔ)義和/或上下文上對(duì)由KBARIPS參考的故障診斷條文有意義的信息,這是可能的。另外,這樣的文本很可能是在實(shí)時(shí)問(wèn)題解決情況下由終端用戶和/或產(chǎn)品支持服務(wù)發(fā)(PSS)引擎所產(chǎn)生的——而不僅僅是由專業(yè)作者或者具有證明產(chǎn)品任務(wù)的賣主產(chǎn)生。
      例如,服務(wù)請(qǐng)求的PSS日志中的服務(wù)請(qǐng)求(SR)是一個(gè)存檔文檔(例如一個(gè)或多個(gè)相關(guān)聯(lián)的電子郵件),這些存檔文檔包括最初由終端用戶提交給PSS引擎的信息。也就是說(shuō),SR將涉及例如故障診斷情況的問(wèn)題的產(chǎn)品引導(dǎo)到PSS引擎。PSS引擎長(zhǎng)生一個(gè)SR匯總,以便清楚標(biāo)識(shí)下列信息的一些合并產(chǎn)品、定位的問(wèn)題、故障現(xiàn)象(例如,行為和結(jié)果)、原因和/或解決方案。結(jié)果,SR包括很可能包含對(duì)KB條文106有實(shí)際意義的參考的數(shù)據(jù),和/或與在實(shí)時(shí)問(wèn)題解決情況下由終端用戶和PSS引擎產(chǎn)生的信息相關(guān)的產(chǎn)品。
      對(duì)于新聞組投遞(posting),機(jī)構(gòu)和公司通常具有與新聞組有關(guān)的產(chǎn)品和/或開(kāi)發(fā)者,以便向終端用戶提供在線討論產(chǎn)品開(kāi)發(fā)和故障診斷提交的機(jī)會(huì)。例如,如果一個(gè)終端用戶遇到一個(gè)特殊產(chǎn)品的一個(gè)問(wèn)題,用戶就可以向服務(wù)器投遞一個(gè)相應(yīng)的條文,該條文標(biāo)識(shí)了問(wèn)題和請(qǐng)求援助。在這種情況下,新聞組閱讀者,其一般可包括從業(yè)者或者與該產(chǎn)品有關(guān)的服務(wù)專業(yè)人員,就可以向請(qǐng)求者投遞一個(gè)答復(fù)。在具有請(qǐng)求時(shí),新聞組投遞可以包括與一個(gè)或多個(gè)KB條文直接或者由前后關(guān)系的內(nèi)容(例如,一個(gè)連接,參考等等)。當(dāng)投遞參考一個(gè)KB條文時(shí),該投遞就提供了實(shí)質(zhì)上對(duì)KB條文有用的元數(shù)據(jù)。
      對(duì)于請(qǐng)求日志,終端用戶經(jīng)常提交對(duì)一搜索引擎的搜索查詢,例如,通過(guò)一Web站點(diǎn),查找與特殊產(chǎn)品有關(guān)的KB條文,對(duì)產(chǎn)品行為進(jìn)行故障診斷,等等。一臺(tái)服務(wù)器,例如一臺(tái)宿主了搜索引擎和/或KB數(shù)據(jù)庫(kù)的服務(wù)器,記錄了終端用戶請(qǐng)求以及任何隨后的終端用戶點(diǎn)擊通過(guò)(click-thru)行為。如果一查詢經(jīng)常涉及一個(gè)KB條文,那么次查詢就特別可能是該KB條文的適宜元數(shù)據(jù)。
      為了調(diào)節(jié)這些來(lái)自多個(gè)數(shù)據(jù)源的與語(yǔ)義和/或上下文有關(guān)的信息,該系統(tǒng)和方法提取到定位的KBARI(例如,接近)的近似文本。分析提取的文本,以便產(chǎn)生關(guān)于相關(guān)PS條文的特征(關(guān)鍵詞)重要性加權(quán)值。(提取的文本與PS條文有關(guān),而該P(yáng)S條文由與KBARI相似的文本所指示)。提取的文本(下面一般稱為“原數(shù)據(jù)”)和相應(yīng)的特征重要性加權(quán)值由相關(guān)PS條文的原始內(nèi)容索引,以便產(chǎn)生新的或改進(jìn)的PS條文。在這種實(shí)施中,原始和改進(jìn)的PS條文之間是一對(duì)一對(duì)應(yīng)。例如,對(duì)于每個(gè)改進(jìn)的PS條文,都有一個(gè)相應(yīng)的未改進(jìn)的或者原始PS條文。在另一個(gè)實(shí)施中,不具有這樣的一對(duì)一對(duì)應(yīng),并且原始PS條文可以用改進(jìn)的PS條文替換。
      響應(yīng)于從一個(gè)終端用戶接收到搜索查詢,為改進(jìn)的文檔檢索提供內(nèi)容傳播的系統(tǒng)和方法檢索任何的PS條文(原始和/改進(jìn)的),該P(yáng)S條文包括搜索查詢項(xiàng)。結(jié)合查詢項(xiàng)相似性(proximity)和通用標(biāo)準(zhǔn),確定檢索到的原始和/或改進(jìn)的PS條文的相關(guān)性。隨后根據(jù)相關(guān)性分?jǐn)?shù),將搜索結(jié)果排序。從所搜結(jié)果中產(chǎn)生摘錄說(shuō)明,以便清楚的向終端用戶指示返回文檔的相關(guān)性。排序結(jié)果與摘錄說(shuō)明一起傳輸給終端用戶。
      在一個(gè)實(shí)施中,為改進(jìn)的文檔檢索提供內(nèi)容傳播的系統(tǒng)和方法也有助于為自動(dòng)PS條文的產(chǎn)生標(biāo)識(shí)新的PS內(nèi)容?,F(xiàn)在將更詳細(xì)描述為改進(jìn)的文檔檢索提供內(nèi)容傳播的系統(tǒng)和方法的這些和其它方面。
      一個(gè)典型系統(tǒng)在附圖中,相似的附圖標(biāo)記涉及相似的元件,該系統(tǒng)和方法將被描述,并且實(shí)施在所示的適當(dāng)?shù)挠?jì)算環(huán)境中。盡管不需要,但是總的來(lái)說(shuō),該系統(tǒng)和方法也將在由個(gè)人計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的環(huán)境中描述,例如,程序模塊。程序模塊通常包括例程,程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特殊的任務(wù)或者特殊的抽象數(shù)據(jù)類型。雖然在前述的環(huán)境中描述該系統(tǒng)和方法,但是此后描述的動(dòng)作和操作也可以在硬件中實(shí)施。
      圖1示出了為改進(jìn)的文檔檢索提供內(nèi)容傳播的典型系統(tǒng)100。在此實(shí)施中,系統(tǒng)100包括KB主服務(wù)器103和客戶計(jì)算設(shè)備116,該主服務(wù)器103通過(guò)網(wǎng)絡(luò)104與KB條文106(一個(gè)數(shù)據(jù)庫(kù))數(shù)據(jù)源108-114相連。網(wǎng)絡(luò)104可包括局域網(wǎng)(LAN)和通用廣域網(wǎng)(WAN)通信環(huán)境的任意組合,例如,辦公室、企業(yè)內(nèi)計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和Internet內(nèi)的常用通信環(huán)境。KB主服務(wù)器102挖掘存儲(chǔ)在數(shù)據(jù)源108-114中的信息,并將這些信息添加到KB條文118中,以便產(chǎn)生新的或改進(jìn)的KB條文120。在此實(shí)施中,數(shù)據(jù)源108-114包括,例如,服務(wù)請(qǐng)求108、新聞組投遞110、查詢?nèi)罩?12和/或其它數(shù)據(jù)源114。響應(yīng)于從一個(gè)客戶計(jì)算設(shè)備116的終端用戶那里接收到一個(gè)關(guān)于KB的搜索查詢122,KB主服務(wù)器102檢索原始KB條文118和/或包括搜索查詢122的項(xiàng)目的改進(jìn)的KB條文120??蛻粲?jì)算設(shè)備116是任何類型的計(jì)算設(shè)備,例如,個(gè)人計(jì)算機(jī)、便攜式電腦、服務(wù)器、移動(dòng)計(jì)算設(shè)備(例如,移動(dòng)電話、個(gè)人數(shù)字助理或掌上電腦)等等。
      從多個(gè)數(shù)據(jù)源挖掘PS文檔連接、ID等等更具體地,KB主服務(wù)器112的元數(shù)據(jù)提取124挖掘存儲(chǔ)在數(shù)據(jù)源108-114中的信息,以便識(shí)別出與各自的KB條文有關(guān)的信息。為了討論和說(shuō)明,這些識(shí)別的信息信息被稱為KB條文相關(guān)信息(KBARI)126。KBARI126包括,例如,實(shí)際上唯一的KB條文ID(例如,GUID)、到特殊KB條文的超文本鏈接、特殊KB條文的通用資源標(biāo)識(shí)符(URI),等等。當(dāng)元數(shù)據(jù)提取124在來(lái)自一PSS的服務(wù)請(qǐng)求108中和/或來(lái)自以產(chǎn)品開(kāi)發(fā)者支持新聞組的新聞組投遞110中定位到IBARI126時(shí),與KBARI126相似的文本很可能包括在語(yǔ)義上和/或在上下文上對(duì)由KBARI126參考的原始KB條文118有意義的信息。例如,這樣的信息可包括條文標(biāo)題、條文關(guān)鍵字、產(chǎn)品問(wèn)題描述以及解決數(shù)據(jù),等等。另外,這樣的文本很可能是在實(shí)時(shí)問(wèn)題解決的情況下,由終端用戶和/或PSS引擎所產(chǎn)生的——而不僅僅是由專業(yè)作者或者具有證明產(chǎn)品任務(wù)的賣主產(chǎn)生。
      特征提取和重要性加權(quán)為了調(diào)劑來(lái)自數(shù)據(jù)源108-114的與語(yǔ)義和/或上下文有關(guān)的KB條文信息,元數(shù)據(jù)提取124提取到定位到的KBARI126(例如,接近)的近似文本。為了描述方便,此提取的文本被表示為元數(shù)據(jù)128。為了向終端用戶提供實(shí)際上與搜索查詢122的項(xiàng)目最相關(guān)的KB條文106,元數(shù)據(jù)提取124分析元數(shù)據(jù)128,以便產(chǎn)生與一個(gè)相關(guān)KB條文106的特征重要性(相關(guān)性)加權(quán)值。(由相應(yīng)KBARI126指示提取的元數(shù)據(jù)128與KB條文106相關(guān))。
      更特別地,元數(shù)據(jù)提取124使用全文搜索技術(shù)來(lái)給元數(shù)據(jù)特征分配不同的相關(guān)性加權(quán)。在此實(shí)施中,并且對(duì)于服務(wù)請(qǐng)求108,與分配給其它服務(wù)請(qǐng)求信息相比,例如,問(wèn)題解決方案,標(biāo)題和故障現(xiàn)象將賦予更大的加權(quán)值。這是由于用戶更傾向于用故障現(xiàn)象表述一個(gè)搜索查詢,而不是用問(wèn)題解決方案信息表述。特征加權(quán)也可以反應(yīng)特殊KB條文參考在其上下文中被識(shí)別出的次數(shù),其是參考?jí)勖?age)的一個(gè)功能。這樣的特征加權(quán)也可用于新聞組投遞110。
      對(duì)于從查詢?nèi)罩局?12提取的元數(shù)據(jù)128,元數(shù)據(jù)提取124進(jìn)行特征分析以及通過(guò)識(shí)別出下列信息的某些合并而初次加權(quán)(a)終端用戶搜索KB條文106而多次產(chǎn)生的搜索查詢,(b)隨后選擇的KB條文106,和/或(c)與所選的KB相關(guān)的任何其它KB條文106。然后,通過(guò)產(chǎn)生相似查詢的分類(查詢分類)和相關(guān)KB條文106的分類(即,條文分類),元數(shù)據(jù)提取124定位與(a)、(b)和/或(c)相聯(lián)系的少量點(diǎn)擊通過(guò)數(shù)據(jù)。如果用戶選擇搜索引擎返回的少數(shù)幾個(gè)(例如,一個(gè)或多個(gè))文檔,通常會(huì)產(chǎn)生少量點(diǎn)擊通過(guò)數(shù)據(jù)。為了進(jìn)行說(shuō)明,查詢分類和條文分類也被各自表示為“其它數(shù)據(jù)”130的一部分。在下面的附錄A中詳細(xì)描述了一個(gè)用于表述相似查詢和相關(guān)KB條文分類的典型分類技術(shù),其名稱為“不同類對(duì)象的典型分類”。
      為了繼續(xù)并管理元數(shù)據(jù)128的加權(quán)特征,元數(shù)據(jù)提取和分析模塊124用相關(guān)原始KB條文118的原始內(nèi)容索引元數(shù)據(jù)128和相應(yīng)的特征重要性加權(quán)值,以便產(chǎn)生新的或改進(jìn)的KB條文120。(元數(shù)據(jù)128包括從一個(gè)或多個(gè)數(shù)據(jù)源108-114中挖掘的數(shù)據(jù),而該數(shù)據(jù)源108-114被確定補(bǔ)充了一個(gè)或多個(gè)各個(gè)KB條文106)。在此實(shí)施中,標(biāo)記元數(shù)據(jù)128的加權(quán)特征,這樣,例如XML的置標(biāo)語(yǔ)言就可以用于參考和檢索索引的內(nèi)容。在一個(gè)實(shí)施中,元數(shù)據(jù)128在改進(jìn)的KB條文120中被索引為一個(gè)逆索引。在此實(shí)施中,改進(jìn)的KB條文120和原始KB條文118之間一對(duì)一對(duì)應(yīng)。例如,對(duì)于每個(gè)改進(jìn)的KB條文,都有一個(gè)相應(yīng)的未改進(jìn)或者原始KB條文118。此一對(duì)一對(duì)應(yīng)意味著原始KB條文118的至少一個(gè)子集將具有一個(gè)相應(yīng)的改進(jìn)KB條文120。在另一個(gè)實(shí)施中,不具有這樣的一對(duì)一對(duì)應(yīng)關(guān)系。例如,原始KB條文可以被改進(jìn)的KB條文120替換。
      改進(jìn)的KB條文檢索搜索提供器132從客戶計(jì)算設(shè)備116的終端用戶那里接收到一個(gè)關(guān)于KB的搜索查詢122。搜索查詢122的項(xiàng)目涉及產(chǎn)品調(diào)查和故障診斷詢問(wèn)。在一個(gè)實(shí)施中,搜索查詢122包括用擴(kuò)展標(biāo)記語(yǔ)言(XML)指定的信息。終端用戶使用任何不同的可用應(yīng)用程序134通過(guò)網(wǎng)絡(luò)104向KB主服務(wù)器102發(fā)送搜索查詢122。應(yīng)用程序130包括,例如,Web瀏覽器、字處理器、電子郵件和/或其它類型的計(jì)算機(jī)編程應(yīng)用程序。
      在此實(shí)施中,搜索提供器132提供了一個(gè)到KB主服務(wù)器102的遠(yuǎn)程應(yīng)用入口點(diǎn)和搜索引擎功能。該入口點(diǎn)允許在KB服務(wù)器102和應(yīng)用程序134的任何不同可用的結(jié)構(gòu)實(shí)施之間通信。例如,在一個(gè)實(shí)施中,入口點(diǎn)支持來(lái)自一個(gè)實(shí)施為Web瀏覽器的應(yīng)用程序134的超文本傳輸協(xié)議(HTTP)命令。在另一個(gè)實(shí)施中,入口點(diǎn)支持基于例如簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議(Simple Object Access ProtocolSOAP)的消息協(xié)議的XML。另一個(gè)入口點(diǎn)實(shí)施也可能是應(yīng)用程序134和搜索提供器132之間所需的通信支持的特殊類型的功能。
      響應(yīng)于接收到搜索查詢122,搜索提供器132根據(jù)一模式分析并執(zhí)行搜索查詢122的數(shù)據(jù)格式,該模式被各自表示為“其它數(shù)據(jù)”130的一部分。在一個(gè)實(shí)施中,該模式也可以例如被客戶計(jì)算設(shè)備116上載到KB主服務(wù)器102中。接著搜索提供器132進(jìn)行在KB條文106中進(jìn)行全文搜索,以便識(shí)別和檢索到相關(guān)/有關(guān)的原始KB條文118和/或改進(jìn)的KB條文120。為了描述和討論,如此檢索到的文檔被各自表示為“其它數(shù)據(jù)”130的一部分。
      檢索到的文檔相關(guān)性和排列操作然后根據(jù)查詢項(xiàng)相似性和通用標(biāo)準(zhǔn),確定檢索到的文檔的相關(guān)性。對(duì)于項(xiàng)目相似性,搜索KB條文106的搜索查詢122的長(zhǎng)度可以比其它類型的查詢(例如,一般Web搜索的查詢模型)要長(zhǎng)。這是由于描述產(chǎn)品故障診斷和/或研究問(wèn)題一般要使用更多的詞/項(xiàng)。據(jù)此,為了在可包括多個(gè)項(xiàng)的查詢中定位到一個(gè)覆蓋盡可能多查詢項(xiàng)片段的KB條文106,搜索提供器132使用項(xiàng)目相似性加權(quán)搜索查詢122中的項(xiàng)。相似性值通過(guò)一條如下的曲線被轉(zhuǎn)換成用于全文檢索模塊輸出的相似值的加權(quán)因數(shù)Sim=Simorig*proximity,proximity=log(1+&alpha;(&beta;*Hit+(1-&beta;)*(1-EditDistance)))log(1-&alpha;)]]>其中α,β用于控制搜索查詢122的各個(gè)部分的相關(guān)加權(quán)的參數(shù)。參數(shù)Hit表示在一個(gè)文檔中出現(xiàn)搜索查詢122的項(xiàng)占搜索查詢122的所有項(xiàng)的百分比,參數(shù)EditDistance是查詢和文檔之間“混亂”(misorder)的度,對(duì)于“混亂”術(shù)語(yǔ),認(rèn)為是例如,一個(gè)查詢包括下列關(guān)鍵詞“信息檢索和數(shù)據(jù)挖掘”,而文檔是“檢索信息并從數(shù)據(jù)中挖掘”。這個(gè)例子中的關(guān)鍵詞“信息”、“檢索”、“數(shù)據(jù)”和“挖掘”就是混亂的。為了解決這個(gè)問(wèn)題,當(dāng)計(jì)算查詢和相應(yīng)的文檔的相似性時(shí),我們對(duì)混亂的關(guān)鍵詞提出了一種處理。為了討論方便,項(xiàng)目相似和近似值被表示為“其它數(shù)據(jù)”130中“相關(guān)分?jǐn)?shù)”。
      搜索提供器132根據(jù)基于相關(guān)分?jǐn)?shù)的查詢項(xiàng)相似性排列檢索到的文檔。在一個(gè)實(shí)施中,通過(guò)確定標(biāo)識(shí)的KB條文106的壽命(age),以及由于較新的條文106比較舊的KB條文“更流行”,給較新的條文106賦予較大的加權(quán),實(shí)現(xiàn)排列。在另一種實(shí)施中,其中,KB條文106的普及性實(shí)際上很難確定標(biāo)識(shí)的KB條文106的普及性,其被確定為該條文出現(xiàn)的次數(shù)的函數(shù),該條文由服務(wù)請(qǐng)求108和/或新聞組投遞110參考。一個(gè)條文被參考的次數(shù)越大,與沒(méi)有被參考那么多次的條文相比,該條文就越普及并且其排序就越高。對(duì)于新聞組投遞110,KB條文106的普及性是條文參考頻率的函數(shù),和/或由新聞組中新聞投遞者普遍性確定的——特定用戶投遞的越多,用戶普遍性就越大。
      小參考頻率的相對(duì)新的KB條文表示相對(duì)小的普及性。但是,新條文對(duì)終端用戶來(lái)說(shuō)非常重要。因此,在一個(gè)實(shí)施中,搜索提供器132合并參考頻率和次數(shù)的因數(shù),并根據(jù)如下公式將具有不同次數(shù)的KB條文的普及性popularity=log(1+&alpha;(&beta;*Iref+(1-&beta;)*(1-Iage)))log(1+&alpha;)]]>Iref表示根據(jù)參考頻率的重要性(參考頻率越高,其重要性值就越大)。Iage表示根據(jù)釋放時(shí)間(條文壽命)的重要性。參數(shù)α和β表示根據(jù)參考頻率的重要性和根據(jù)釋放時(shí)間的重要性之間的相對(duì)加權(quán),其可以由先前的知識(shí)指定和/或在處理輸出中學(xué)習(xí)。越新的KB條文126,其計(jì)算的條文重要性就越高。
      Iref=0.5+0.5freq(ref)/maxfreq(ref)Iage=11+eage]]>用搜索查詢122的項(xiàng)搜索KB條文106的搜索結(jié)果被排列,或者被相關(guān)認(rèn)為是計(jì)算的重要性值的一個(gè)函數(shù),每個(gè)結(jié)果都被各自表示為“其它數(shù)據(jù)”130的一部分。
      搜索結(jié)果片段產(chǎn)生/高亮顯示在一個(gè)實(shí)施中,并且為了實(shí)際上最小化顯示給終端用戶的與查詢有關(guān)的信息,搜索提供器132產(chǎn)生最高排行的一個(gè)和多個(gè)檢索到的文檔的片斷描述,以便清楚地向用戶指示檢索到的與搜索查詢122的項(xiàng)有關(guān)的文檔相關(guān)性(例如,向終端用戶清楚指示標(biāo)識(shí)的材料(條文)如何)。為了描述,片斷描述被各自表示為“其它數(shù)據(jù)”130的一部分。為了產(chǎn)生片段描述,搜索提供器132為片段描述,從被確定為與搜索查詢122相關(guān)的檢索到KB條文106中定位一個(gè)或多個(gè)塊,然后高亮顯示一個(gè)或多個(gè)塊中的搜索查詢122的任何項(xiàng)目。搜索提供器132用具有可調(diào)尺寸的滑動(dòng)窗口標(biāo)識(shí)一個(gè)或多個(gè)塊,該滑動(dòng)窗口用于檢索到的文檔的各部分。在一個(gè)實(shí)施中,滑動(dòng)窗口的尺寸是UI空間的函數(shù),該UI空間對(duì)于在客戶計(jì)算設(shè)備116上顯示片段描述是可靠的。
      對(duì)于檢索到的文檔的一部分的滑動(dòng)窗口的每種應(yīng)用程序,搜索提供器132測(cè)量由滑動(dòng)窗口文本描述記載的涉及查詢的信息的數(shù)量。此測(cè)量被各自表示為“其它數(shù)據(jù)”130的一部分。該測(cè)量包括基于定量標(biāo)準(zhǔn)的值,例如字頻率、相對(duì)改進(jìn)的查詢項(xiàng)的字相似性、字位置等等。搜索提供器132使用學(xué)習(xí)分類模塊(參見(jiàn)“其它數(shù)據(jù)”130)合并這些不同標(biāo)準(zhǔn),以便得到片段描述的最豐富信息塊。在這種方式中,片段描述清楚地向終端用戶表示了標(biāo)識(shí)的KB條文106的相關(guān)性。
      該學(xué)習(xí)分類模型通過(guò)線性回歸學(xué)習(xí),該線性回歸是統(tǒng)計(jì)學(xué)中的一種經(jīng)典學(xué)習(xí)方法。線性回歸旨在用適合該數(shù)據(jù)的直線解釋矢量x和值y之間的關(guān)系。線性回歸公設(shè)了y=b0+&Sigma;j=1pbjxj+e]]>其中,“殘差”e是平均值為零的隨即變量。系數(shù)bj由盡可能小的殘差的平方的總和的情況確定。變量xi直接來(lái)自輸入或輸入的某種轉(zhuǎn)換,例如日志或多項(xiàng)式。
      搜索提供器132將最高排行的檢索文檔的至少一個(gè)子集與其相應(yīng)的片段描述一起打包成查詢響應(yīng)136。為了顯示和終端用戶解決產(chǎn)品研究和/或故障診斷調(diào)查所使用,,搜索提供器132將查詢響應(yīng)136傳輸?shù)娇蛻粲?jì)算設(shè)備116。
      一個(gè)典型過(guò)程圖2示出了用于改進(jìn)的文檔檢索的內(nèi)容傳播的典型過(guò)程200。為了進(jìn)行討論,針對(duì)圖1的部件討論該過(guò)程的操作。(所以的附圖標(biāo)記數(shù)字以首次介紹部件的圖號(hào)打頭)。在方框202,元數(shù)據(jù)提取124(圖1)從多個(gè)各自數(shù)據(jù)源108-114中標(biāo)識(shí)出與特殊KB條文106相關(guān)的信息—基于知識(shí)的條文相關(guān)信息(KBARI126)。在方框204,元數(shù)據(jù)提取124提取與方框202中標(biāo)識(shí)出的信息相似(proximity)的特征。在方框206,元數(shù)據(jù)提取124分析提取的特征(元數(shù)據(jù)128),以便產(chǎn)生相關(guān)基于知識(shí)的條文106的相應(yīng)條文的相關(guān)重要性測(cè)量。在方框208,元數(shù)據(jù)提取124將提取的特征與相應(yīng)的相關(guān)性分?jǐn)?shù)一起索引到相關(guān)的單個(gè)基于知識(shí)的條文106。這就產(chǎn)生了新的或改進(jìn)的基于知識(shí)的條文120。
      在方框210,搜索提供器132,響應(yīng)于接收到搜索查詢122,檢索包括搜索查詢122的項(xiàng)目的原始KB條文118和/或改進(jìn)的KB條文120。在方框212,搜索提供器132根據(jù)搜索查詢122的項(xiàng)到各自的文檔/條文的相關(guān)性分?jǐn)?shù),排列檢索到的文檔/條文。在方框214,搜索提供器132為檢索到的基于知識(shí)的條文106產(chǎn)生片段說(shuō)明。在方框216,搜索提供器132將排序的結(jié)果和片段描述傳輸給終端用戶。
      典型操作環(huán)境圖3表示了適合的計(jì)算環(huán)境300的一個(gè)例子,在該環(huán)境中可以完全或者部分執(zhí)行為改進(jìn)的文檔檢索提供內(nèi)容傳播的圖1的系統(tǒng)100和圖2的方法。圖3表示了適合的計(jì)算環(huán)境300的一個(gè)例子,在該環(huán)境中可以執(zhí)行(完全或者部分)為改進(jìn)的文檔檢索提供內(nèi)容傳播的系統(tǒng)、裝置和方法。典型計(jì)算環(huán)境300僅僅是可用的計(jì)算環(huán)境的一個(gè)例子,其并不意于限制這里所描述的系統(tǒng)和方法的使用范圍或功能。該計(jì)算環(huán)境300也不應(yīng)當(dāng)被解釋為依靠或需要計(jì)算環(huán)境300中所示的任何一個(gè)部件或其組合。
      這里描述的方法和系統(tǒng)可使用更多的其它目和特定用途的計(jì)算系統(tǒng)環(huán)境或配置運(yùn)行??捎玫墓?jì)算系統(tǒng)、環(huán)境和/或配置的例子包括,但不局限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、多處理器計(jì)算機(jī)、基于微處理器的系統(tǒng)、網(wǎng)絡(luò)PC、微型計(jì)算機(jī)、大型計(jì)算機(jī)、可包括任意上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境,等等。在限制資源的客戶機(jī)中也可實(shí)施壓縮或子集版的構(gòu)架,例如,掌上電腦或其它計(jì)算設(shè)備。本發(fā)明一般實(shí)施在分布式計(jì)算環(huán)境中,該分布式計(jì)算環(huán)境中,任務(wù)由通過(guò)通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可位于本地和遠(yuǎn)程存儲(chǔ)設(shè)備中。
      參照?qǐng)D3,為改進(jìn)文檔檢索提供內(nèi)容傳播的典型系統(tǒng)包括計(jì)算機(jī)310形式的通用計(jì)算設(shè)備。計(jì)算機(jī)310的下述方面是客戶計(jì)算設(shè)備116(圖1)和KB主服務(wù)器102(圖1)的的典型實(shí)施。計(jì)算機(jī)310的部件可包括,但不局限于,處理器單元320。系統(tǒng)存儲(chǔ)器330和系統(tǒng)總線321,該系統(tǒng)總線321將包括將系統(tǒng)存儲(chǔ)器的各種系統(tǒng)部件連接到處理器單元320。系統(tǒng)總線321可以是任何類型的總線結(jié)構(gòu),其包括使用任何總線結(jié)構(gòu)的存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線和局域總線。舉例來(lái)說(shuō),但不限制,這樣的結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、擴(kuò)展ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局域總線以及也被稱為Mezzanine總線的外設(shè)部件互連(PCI)總線。
      計(jì)算機(jī)310一般包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是任何可由計(jì)算機(jī)310訪問(wèn)的介質(zhì),并包括易失和非易失介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。舉例來(lái)說(shuō),但不限制,計(jì)算機(jī)可讀介質(zhì)可包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和傳播介質(zhì)。。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括易失和非易失介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì),為了存儲(chǔ)例如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的信息,其可以在任何方法或技術(shù)中運(yùn)行。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不局限于,RAM、ROM、EEPROM、閃存或其它存儲(chǔ)技術(shù)、CD-ROM、數(shù)字通用盤(digital versatile disk DVD)或其它光盤存儲(chǔ),盒式磁帶、磁帶、磁盤存儲(chǔ)器或其它類型的磁存儲(chǔ)設(shè)備、或其它任何可用于存儲(chǔ)需要信息并可由計(jì)算機(jī)310訪問(wèn)的介質(zhì)。
      傳播介質(zhì)一般是計(jì)算機(jī)可讀介質(zhì)、數(shù)據(jù)結(jié)構(gòu)、程序模塊或調(diào)制的數(shù)據(jù)信號(hào)中的其它數(shù)據(jù),例如,載波或其它傳送機(jī)制,并包括認(rèn)可傳遞介質(zhì)的任何信息。詞語(yǔ)“調(diào)制的數(shù)據(jù)信號(hào)”是指具有一個(gè)或多個(gè)特征集的信號(hào)或者在信號(hào)中將信息編碼而改變的信息。舉例來(lái)說(shuō),但不限制,傳播介質(zhì)包括有線介質(zhì),例如,有線網(wǎng)絡(luò)或直接有線連接,并且包括無(wú)線介質(zhì),例如音頻、射頻、紅外和其它無(wú)線介質(zhì)。任何上述介質(zhì)的結(jié)合可應(yīng)當(dāng)包含在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
      系統(tǒng)存儲(chǔ)器330包括易失和/或非易失存儲(chǔ)器的計(jì)算機(jī)存儲(chǔ)器介質(zhì),例如只讀存儲(chǔ)器(ROM)331和隨機(jī)存取存儲(chǔ)器(RAM)333?;据斎?輸出系統(tǒng)333(BIOS)包含有助于在例如啟動(dòng)時(shí)在計(jì)算機(jī)310內(nèi)的元件件傳輸信息的基本程序,基本輸入/輸出系統(tǒng)333一般存儲(chǔ)在ROM331中。RAM332一般包含處理器單元320立即訪問(wèn)和/或當(dāng)前操作的數(shù)據(jù)和/或程序。舉例來(lái)說(shuō),但不限制,圖3示出了操作系統(tǒng)334、應(yīng)用程序335、其它程序模塊36和程序數(shù)據(jù)。在一個(gè)實(shí)施中,結(jié)合參考圖1,計(jì)算機(jī)310示一個(gè)KB主服務(wù)器102。在這種情況下,應(yīng)用程序335包括圖1的程序模塊138,并且程序數(shù)據(jù)337包括圖1的KB條文相關(guān)信息(KBARI)126、元數(shù)據(jù)128和/或“其它數(shù)據(jù)”130。
      計(jì)算機(jī)310也可包括其它可移動(dòng)/不可移動(dòng)、易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)。僅僅舉例來(lái)說(shuō),圖3示出了一個(gè)硬盤驅(qū)動(dòng)器341、磁盤驅(qū)動(dòng)器351和光盤驅(qū)動(dòng)器355,該硬盤驅(qū)動(dòng)器341讀取或?qū)懭氩豢梢苿?dòng)、非易失磁介質(zhì),磁盤驅(qū)動(dòng)器351讀取或?qū)懭肟梢苿?dòng)、非易失磁盤352,光盤驅(qū)動(dòng)器355讀取或?qū)懭肟梢苿?dòng)、非易失光盤356,例如CD-ROM或其它光學(xué)介質(zhì)。其它可用在典型操作環(huán)境中的可移動(dòng)/不可移動(dòng)、易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不局限于,盒式磁帶、閃存卡、數(shù)字通用盤、數(shù)字視頻磁帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器341一般通過(guò)例如接口340的不可移動(dòng)存儲(chǔ)器接口與系統(tǒng)總線321連接,磁盤驅(qū)動(dòng)器351和光盤驅(qū)動(dòng)器355一般通過(guò)例如接口350的可移動(dòng)存儲(chǔ)器接口與系統(tǒng)總線321相連。
      上述以及圖3所示的驅(qū)動(dòng)器及其相關(guān)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)310存儲(chǔ)了計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)。在圖3中,例如,硬盤驅(qū)動(dòng)器341被表示為存儲(chǔ)了操作系統(tǒng)344、應(yīng)用程序345、其它程序模塊346以及程序數(shù)據(jù)347。注意,這些部件可以與操作系統(tǒng)334、應(yīng)用程序335、其它程序模塊336和程序數(shù)據(jù)337相同,也可以與它們不同。這里給了操作系統(tǒng)344、應(yīng)用程序345、其它程序模塊346和程序數(shù)據(jù)347不同的數(shù)字,是為了表示它們至少是不同的復(fù)本。
      用戶可通過(guò)輸入設(shè)備將命令和信息輸入到計(jì)算機(jī)310中,例如,鍵盤362和指示設(shè)備361,其一般指鼠標(biāo)、跟蹤球或觸摸板。其它輸入設(shè)備(未示出)也可包括麥克風(fēng)、操縱桿、游戲墊、圓盤式衛(wèi)星電視天線、掃描儀等等。這些和其它輸入設(shè)備一般通過(guò)與系統(tǒng)總線321連接的用戶輸入接口360連接到處理單元320,但是也可以通過(guò)其它接口和總線結(jié)構(gòu)連接,例如,并行端口、游戲端口或通用串行總線(USB)。
      監(jiān)視器391或其它類型的顯示設(shè)備也可以通過(guò)例如視頻接口390的接口和系統(tǒng)總線321連接。除監(jiān)視器外,計(jì)算機(jī)還可以包括其它外圍輸出設(shè)備,例如,揚(yáng)聲器397和打印機(jī),其可以通過(guò)外設(shè)輸出接口395連接。
      計(jì)算機(jī)310利用與一個(gè)或多個(gè)例如遠(yuǎn)程計(jì)算機(jī)380的遠(yuǎn)程計(jì)算機(jī)的邏輯連接,在網(wǎng)絡(luò)環(huán)境中運(yùn)行。遠(yuǎn)程計(jì)算機(jī)380可以是一臺(tái)個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、同級(jí)設(shè)備(peer device)或其它公共網(wǎng)絡(luò)節(jié)點(diǎn),并且盡管在圖3中僅僅示出了存儲(chǔ)器設(shè)備381,但是其通常包括上述計(jì)算機(jī)310的所有元件。圖3描述的邏輯連接包括局域網(wǎng)(LAN)371和廣域網(wǎng)(WAN)373,但是也可以包括其它網(wǎng)絡(luò)。此網(wǎng)絡(luò)環(huán)境一般用在辦公室、企業(yè)內(nèi)計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和Internet中。
      當(dāng)用在LAN網(wǎng)絡(luò)環(huán)境中時(shí),計(jì)算機(jī)310通過(guò)網(wǎng)絡(luò)接口和適配器370連接到LAN371。當(dāng)用在WAN中時(shí),計(jì)算機(jī)310一般包括一個(gè)調(diào)制解調(diào)器372或用于在例如Internet的WAN373上建立通信的其它裝置。調(diào)制解調(diào)器372可以是內(nèi)置的或外置的,其可以通過(guò)用戶輸入接口360或其它適當(dāng)?shù)臋C(jī)制連接到系統(tǒng)總線321。在網(wǎng)絡(luò)環(huán)境中,相對(duì)310描述的程序模塊或其它部分可存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器設(shè)備中。舉例來(lái)說(shuō),但并不限制,圖3示出了駐留在存儲(chǔ)器381上的遠(yuǎn)程應(yīng)用程序讀385。所示的網(wǎng)絡(luò)連接是典型的,可以使用在計(jì)算機(jī)間建立通信連接的其它手段。
      結(jié)論盡管用限定了結(jié)構(gòu)特性和/或方法或動(dòng)作的語(yǔ)言描述了為改進(jìn)文檔檢索的提供內(nèi)容傳播的系統(tǒng)和方法,但是應(yīng)當(dāng)理解,在所附權(quán)利要求中限定的實(shí)施不需要限制到描述的特殊特征和動(dòng)作。例如,盡管在改建KB條文106檢索的數(shù)據(jù)源內(nèi)容傳播方面描述了圖1的系統(tǒng)100,但是所描述的系統(tǒng)和方法也可用于將從一個(gè)或多個(gè)獨(dú)立數(shù)據(jù)源挖掘的數(shù)據(jù),傳播到任何類型的參考文檔,并不局限于KB或產(chǎn)品支持條文。例如,對(duì)于其它類型的文檔,系統(tǒng)100可用于為改進(jìn)的文檔檢索在數(shù)據(jù)源中提供內(nèi)容傳播,該數(shù)據(jù)源包括連接、參考、標(biāo)題、文檔ID等等。因此,文字說(shuō)明的特殊特征和動(dòng)作的公開(kāi)只是所要求保護(hù)的主題的典型實(shí)施方式。
      附錄A不同類對(duì)象的分類典型分類系統(tǒng)和方法的背景分類包括將多個(gè)對(duì)象分組,并以用于如搜索引擎和數(shù)據(jù)挖掘的應(yīng)用程序中。分類算法根據(jù)對(duì)象相似性將對(duì)象分組。例如,Web頁(yè)面對(duì)象的分類是根據(jù)其內(nèi)容、連接結(jié)構(gòu)或者其用戶的訪問(wèn)日志的。用戶的分類是根據(jù)用戶所選擇的項(xiàng)目的。用戶對(duì)象的分類是根據(jù)用戶訪問(wèn)的歷史的。與用戶有關(guān)的項(xiàng)目的分類通常是根據(jù)選擇那些項(xiàng)目的用戶的。多種分類算法都是公知的。已有的分類算法包括基于劃分的分類、分層分類以及基于密度的分類。
      用戶訪問(wèn)的Web頁(yè)面的內(nèi)容或者訪問(wèn)模式經(jīng)常用于構(gòu)建用戶簡(jiǎn)介,以便分類Web用戶。然后使用傳統(tǒng)的分類技術(shù)。在合作過(guò)濾中,為了更好地建議/預(yù)測(cè),分類也用于將用戶或項(xiàng)目分組。
      一般,這些在先分類算法的使用具有某些局限性。傳統(tǒng)的分類技術(shù)可具有數(shù)據(jù)稀缺的問(wèn)題,其中對(duì)象的數(shù)量或不同類對(duì)象之間連接的數(shù)量也很少,這樣就不能有效地分類對(duì)象。對(duì)于同類分類,分析的數(shù)據(jù)組包含相同類型的對(duì)象。例如,如果基于Web頁(yè)面和用戶進(jìn)行同類分類,那么Web頁(yè)面對(duì)象和用戶對(duì)象每個(gè)都將分別分類。如果基于項(xiàng)目和用戶進(jìn)行同類分類,那么項(xiàng)目對(duì)象和用戶對(duì)象每個(gè)都將分別分類。在此同類分類的實(shí)施例中,相同類型的對(duì)象被一起分類,而不考慮其他類型對(duì)象。
      現(xiàn)有技術(shù)的不同類對(duì)象分類分別分類對(duì)象組。不同類對(duì)象分類僅僅將(flat)使用為表示每個(gè)對(duì)象節(jié)點(diǎn)的平特征。在現(xiàn)有的不同類分類中,所有的內(nèi)部和層之間的連接結(jié)構(gòu)都不考慮,或者將愛(ài)你跟其簡(jiǎn)單地作為獨(dú)立的特征。
      典型的分類系統(tǒng)和方法圖4示出了可有利于使用分類的計(jì)算機(jī)環(huán)境400的一個(gè)實(shí)施例(即通用計(jì)算機(jī))。計(jì)算機(jī)環(huán)境400包括一個(gè)存儲(chǔ)器402、一個(gè)處理器404、一個(gè)分類部分408以及支持電路406。支持電路包括例如顯示器和輸入/輸出電路部的設(shè)備,該輸入/輸出部允許計(jì)算機(jī)環(huán)境400的確定部件傳輸信息(即,數(shù)據(jù)對(duì)象)。
      在分類部分408中執(zhí)行分類。分類部分408可集成在計(jì)算機(jī)環(huán)境的存儲(chǔ)器402和處理器404部分中。例如,處理器404處理分類不同對(duì)象的分類算法(器從存儲(chǔ)器中獲得)。存儲(chǔ)器402(例如數(shù)據(jù)庫(kù))負(fù)責(zé)存儲(chǔ)分類的對(duì)象和相關(guān)程序以及分類算法,這樣如果需要就可以獲得分類的對(duì)象。計(jì)算機(jī)緩建400可被配置為單機(jī)計(jì)算機(jī)、網(wǎng)絡(luò)計(jì)算機(jī)系統(tǒng)、大型計(jì)算機(jī)或任何已知的各種計(jì)算機(jī)系統(tǒng)。在此公開(kāi)的某些實(shí)施例描述了計(jì)算機(jī)環(huán)境應(yīng)用(計(jì)算機(jī)從Internet下載Web頁(yè)面)??梢韵胂?,這里描述的概念用于任何已知類型的計(jì)算機(jī)環(huán)境400。
      此文字說(shuō)明提供了一種分類機(jī)制,在這種機(jī)制下,提高了被認(rèn)為是可靠的返回結(jié)果的百分比(即,有利于用戶的查詢)。分類可用于例如搜索工具、信息挖掘、數(shù)據(jù)挖掘、合作過(guò)濾等技術(shù)領(lǐng)域。搜索工具由于其服務(wù)不同信息需求的能力而具有接收注意信號(hào),并且改進(jìn)了檢索性能。搜索工具與例如Web頁(yè)面、用戶、查詢等計(jì)算機(jī)方面有關(guān)。
      本文字說(shuō)明表了各種用于分類數(shù)據(jù)對(duì)象的分類算法實(shí)施例。數(shù)據(jù)對(duì)象的分類是一種技術(shù),通過(guò)該技術(shù),數(shù)據(jù)對(duì)象的大組被分組為大量的數(shù)據(jù)對(duì)象組或類(數(shù)據(jù)對(duì)象每個(gè)類都具有較少的數(shù)據(jù)對(duì)象)。數(shù)據(jù)對(duì)象的分類組中的每個(gè)數(shù)據(jù)對(duì)象都具有某些相似性。因此分類的一個(gè)方面可以被認(rèn)為是將多個(gè)數(shù)據(jù)對(duì)象分組。
      此文字說(shuō)明中描述的一個(gè)分類機(jī)制涉及一個(gè)體系圖550,圖5中示出了體系圖的一個(gè)實(shí)施例。提供了一體分類機(jī)制的某些實(shí)施例,其中,在不同等級(jí)或圖5的體系圖550中所示的節(jié)點(diǎn)組P和U之間分類不同類型對(duì)象。可以想象,此文字說(shuō)明中描述概念可用于三或更多層,而不是在文字說(shuō)明中描述的兩層。每個(gè)P和U節(jié)點(diǎn)組都可以被認(rèn)為是一層。在此文字說(shuō)明中,術(shù)語(yǔ)“一體”分類用于一種分類不同類數(shù)據(jù)的技術(shù)。節(jié)點(diǎn)組P包括多個(gè)數(shù)字對(duì)象P1、P2、P3…,Pi,每個(gè)都具有近似的數(shù)字類型。節(jié)點(diǎn)組U包括多個(gè)數(shù)字對(duì)象U1、U2、U3…,Uj,每個(gè)都具有近似的數(shù)字類型。每個(gè)節(jié)點(diǎn)組(P或U)分類對(duì)象的數(shù)據(jù)類型是同樣的,因此每個(gè)節(jié)點(diǎn)組(P或U)中數(shù)據(jù)對(duì)象都是同類的。節(jié)點(diǎn)組P中的數(shù)字對(duì)象P1、P2、P3…,Pi的類型與節(jié)點(diǎn)組U中的數(shù)字對(duì)象U1、U2、U3…,Uj的類型不同。這樣,不同節(jié)點(diǎn)組P和U中的數(shù)據(jù)對(duì)象的類型是不同的,或者是不同類的。此文字說(shuō)明的某些方面提供了利用對(duì)象的同類和不同類數(shù)據(jù)類型的輸入(基于連接)而分類。
      通過(guò)在數(shù)據(jù)對(duì)象對(duì)之間的連接延伸在此文字說(shuō)明中說(shuō)明了連接。連接表示分類中數(shù)據(jù)對(duì)象對(duì)之間的關(guān)系。在一個(gè)例子中,連接可以從一個(gè)Web頁(yè)面對(duì)象延伸到一個(gè)用戶對(duì)象,并表示了選擇某一Web頁(yè)面的用戶。在另一個(gè)例子中,連接可以從一個(gè)Web頁(yè)面對(duì)象延伸到另一個(gè)Web頁(yè)面對(duì)象,并表示了不同Web頁(yè)面見(jiàn)到關(guān)系。在分類的某一特定實(shí)施例中,“連接”是指“邊緣”。廣義的術(shù)語(yǔ)“連接”在本文字說(shuō)明中用于描述連接、邊緣和描述對(duì)象間關(guān)系的一個(gè)對(duì)象到另一個(gè)對(duì)象的任何聯(lián)系。
      連接具有各種不同的類型(如在本文字說(shuō)明中所描述的),其中該連接涉及分類在體系圖550中提出的不同對(duì)象的不同類型。連接可以被分類為層間連接或?qū)觾?nèi)連接。層內(nèi)連接503或505是體系圖505中的連接的一個(gè)實(shí)施,其描述了相同類型的不同對(duì)象之間的關(guān)系。層級(jí)關(guān)系504是體系圖505中的連接的一個(gè)實(shí)施,其描述了不同類型的對(duì)象之間的關(guān)系。如圖5所示,在某些特定數(shù)據(jù)對(duì)象U1、U2、U3…,Uj之間延伸有多個(gè)層內(nèi)連接503。在圖5所示的實(shí)施例中,在特定數(shù)據(jù)對(duì)象P1、P2、P3…,Pi之間也延伸有多個(gè)層內(nèi)連接505。在圖5所示的實(shí)施例中,節(jié)點(diǎn)組U的某些特定數(shù)據(jù)對(duì)象U1、U2、U3…,Uj和節(jié)點(diǎn)組P的某些特定數(shù)據(jù)對(duì)象P1、P2、P3…,Pi之間也延伸有多個(gè)層間連接504。層間連接意的利用識(shí)到了一個(gè)對(duì)象類型的分類要由另一個(gè)對(duì)象類型而進(jìn)行。例如,Web頁(yè)面對(duì)象的分類要由用戶對(duì)象的配置、狀態(tài)和特征而進(jìn)行。
      由于數(shù)據(jù)對(duì)象之間的關(guān)系可以指向任一方向,所以連接方向(圖5中的連接503、504或505的箭頭,以及圖6的箭頭)是雙向的。該箭頭是用于說(shuō)明的,并不限制本發(fā)明的范圍。體系圖550的圖中某些連接指向一個(gè)方向是更恰當(dāng)?shù)?,箭頭的方向一般不影響體系的運(yùn)行。體系圖550由節(jié)點(diǎn)組P、節(jié)點(diǎn)組U和連接組L組成。在體系圖550中,pi和uj表示兩種類型的數(shù)據(jù)對(duì)象,其中pi∈P(i=1,…,I)并且uj∈U(j=1,…,J)。I和J分別是節(jié)點(diǎn)組P和U的基數(shù)。
      連接(pi,uj)∈L是層間連接(其是2元組),該層間連接由不同類型的對(duì)象之間的附圖標(biāo)記504表示。分別由505HE 503指示的連接(pi,pj)∈L及(ui,uj)∈L是在同類對(duì)象間延伸的層內(nèi)連接。簡(jiǎn)而言之,層間連接組(504)和層內(nèi)連接組(503,505)使用不同的參考特征。
      利用一體分類,對(duì)象間更完全的使用連接改進(jìn)了分類。提高效率的分類改進(jìn)了不同層中的不同類型的對(duì)象的分類。如果正確分類對(duì)象,那么分類結(jié)果就更合理。分類可以提供分析數(shù)據(jù)使用的結(jié)構(gòu)化數(shù)據(jù)。
      體系圖550表示了多種類型的對(duì)象的分類,在這些對(duì)象中每種類型的對(duì)象都是相同的(即,一種類型從屬于Web頁(yè)面組,用戶組和文檔組,等等)。每組對(duì)象的類型通常與體系圖550中的其他對(duì)象組的類型不同。
      公開(kāi)的分類技術(shù)在分類時(shí)考慮并接收不同對(duì)象類型的輸入。此文字說(shuō)明的一方面是根據(jù)一種內(nèi)在共有關(guān)系,在這種關(guān)系中提供的分類對(duì)象具有與其他對(duì)象的連接。某些與每個(gè)對(duì)象聯(lián)系的連接可以用不同的重要性加權(quán),以便反映與該對(duì)象的關(guān)聯(lián)性。例如,可以向與正在分類的對(duì)象同類的對(duì)象提供比不同類型的對(duì)象更大的重要性。此文字說(shuō)明提供了一種機(jī)制,通過(guò)該機(jī)制可以向不同對(duì)象和不同對(duì)象類型賦予不同的重要性等級(jí)。對(duì)不同對(duì)象(或不同對(duì)象類型)賦予不同重要性等級(jí)在這里是指利用重要性分類。不同對(duì)象的各種重要性等級(jí)通常會(huì)改進(jìn)分類結(jié)果和效率。
      在圖5所示的用于不同類對(duì)象分類的體系圖550的實(shí)施中,不同節(jié)點(diǎn)組P或U表示了每個(gè)都包括不同對(duì)象類型的不同層。體系圖550的多個(gè)節(jié)點(diǎn)組(表示為P和U)提供了分類的基礎(chǔ)。兩層指向圖550包括一組要被分類的數(shù)據(jù)對(duì)象。每種對(duì)象類型的對(duì)象(其將根據(jù)分類算法分類)可以被認(rèn)為是一個(gè)例子“潛在”類。延伸在某些對(duì)象節(jié)點(diǎn)之間連接503、504、505反映了分類提供的對(duì)象節(jié)點(diǎn)間的固有關(guān)系。用于分類的迭代投射(projecting)方案,在本文字說(shuō)明中描述了其幾個(gè)實(shí)施例,該技術(shù)能夠獨(dú)立分類具有獨(dú)立數(shù)據(jù)類型的對(duì)象,以便進(jìn)行分類處理。
      通過(guò)使用這里所描述的迭代分類技術(shù),加強(qiáng)了對(duì)象的不同類型(以及他們的關(guān)系連接)。迭代分類投射技術(shù)依靠從獨(dú)立層中排列的獨(dú)立數(shù)據(jù)類型中獲得的分類信息,其中每個(gè)獨(dú)立層都包含同類的對(duì)象。與連接信息結(jié)合的節(jié)點(diǎn)信息用于迭代投射,并傳播分類結(jié)果(在層間執(zhí)行分類算法),直到分類收斂。一種對(duì)象類型的迭代分類結(jié)果到另一種對(duì)象類型的迭代分類結(jié)果可以減少與數(shù)據(jù)稀少有關(guān)的分類難題。在這種迭代投射下,根據(jù)分類,而不是另一類型的分類單個(gè)組,計(jì)算一層分類中的相似性測(cè)量。
      檢驗(yàn)不同類節(jié)點(diǎn)和連接的每種類型,以便獲得用于分類的結(jié)構(gòu)信息。舉例來(lái)說(shuō),考慮到與不同數(shù)據(jù)對(duì)象相連的連接的類型(即,連接是層間連接或?qū)觾?nèi)連接),可獲得結(jié)構(gòu)信息。如圖5所指示的,每個(gè)對(duì)象的類型都由其節(jié)點(diǎn)組P或U指示。
      產(chǎn)生的圖5的體系圖550可用于特殊的分類應(yīng)用。也就是,體系圖550可表示與一組用戶有關(guān)的Internet上的一組Web頁(yè)面。Web頁(yè)面層被分組為P節(jié)點(diǎn)組。用戶層對(duì)象被分組為節(jié)點(diǎn)U。體系圖550將用兩層體系圖550表示的多個(gè)Web頁(yè)面對(duì)象與多個(gè)用戶對(duì)象結(jié)合成一體。體系圖550使用連接(例如邊緣)關(guān)系503、504、505方便了不同類型的對(duì)象的分類(如圖5所描述的體系圖)。在分類過(guò)程中,檢驗(yàn)整個(gè)數(shù)據(jù)組的連接結(jié)構(gòu),以便知道節(jié)點(diǎn)的不同重要性等級(jí)。在文類過(guò)程中,根據(jù)其重要性給節(jié)點(diǎn)加權(quán),以便保證更合理地分類重要節(jié)點(diǎn)。
      在文字說(shuō)明的某些實(shí)施例中,連接類中的連接503、504、505被保留。保留的連接是在對(duì)象類間的連接,而不是對(duì)象本身間的連接。例如,一個(gè)保留的連接位于Web頁(yè)面類和用戶類之間(而不是如其原始連接那樣位于Web頁(yè)面對(duì)象和用戶對(duì)象之間)。在某些實(shí)施例中,保留的連連接是為各種將進(jìn)行應(yīng)用而保留的,例如體系圖550中的建議。即,具有保留連接的Web頁(yè)面/用戶分類的分類結(jié)果可被表示為用戶定位(hit)行為的總圖,其提供了用戶定位的預(yù)測(cè)。
      各個(gè)節(jié)點(diǎn)pi和uj的內(nèi)容用各自矢量fi和gi表示(圖5中未示出)。根據(jù)此應(yīng)用,每個(gè)單獨(dú)節(jié)點(diǎn)pi和uj可具有(不具有任何)內(nèi)容特征。已有的分類技術(shù)獨(dú)立將節(jié)點(diǎn)pi從節(jié)點(diǎn)uj中分離出。相反,在此文字描述中說(shuō)明的分類體系550中,根據(jù)其相關(guān)重要性相互依賴地分類節(jié)點(diǎn)pi和節(jié)點(diǎn)uj。在此所述的分類算法使用相似性函數(shù)為每個(gè)分類類型測(cè)量對(duì)象間的距離,以便產(chǎn)生分類。公式(1)所示的cosine-相似性的函數(shù)可用于分類sc(x,y)=cos(fx,fy)=&Sigma;i=1kxfx(i)&CenterDot;&Sigma;j=1kyfy(j)&Sigma;i=1kxfx2(i)&CenterDot;&Sigma;j=1kyfy2(j)----(1)]]>sc(x,y)=cos(fx,fy)=fx&CenterDot;fy||fx||||fy||=&Sigma;kifx=fy(k)fx(k)fy(k)&Sigma;i=1kxfx2(i)&CenterDot;&Sigma;j=1kyfy2(j)---(2)]]>afx·fy是兩個(gè)特征矢量的點(diǎn)積。它等于fx和fy中的相同分量的加權(quán)積的總和。sc表示相似性基于內(nèi)容特征;fx(i)和fy(y)是特征矢量fx和fy的第i個(gè)和第j個(gè)分量。kx是各個(gè)特征fx中項(xiàng)的數(shù)量;ky是特征fy中項(xiàng)的數(shù)量。
      在此文字說(shuō)明中,節(jié)點(diǎn)組P用作描述節(jié)點(diǎn)的層內(nèi)連接504和層間連接503和505的一個(gè)例子。假設(shè)所有的數(shù)據(jù)都包括一列節(jié)點(diǎn)對(duì),例如由連接503或505所連接的用于層內(nèi)節(jié)點(diǎn)對(duì)(p(1),p(1)),(p(2),p(2)),…[其中p(1)和p(2)與pi相同, 而對(duì)(p(1),p(1)),(p(2),p(2))都表示同類層中的一個(gè)節(jié)點(diǎn)];和連接504所攔截的層間對(duì)(p(1),u(1)),(p(2),u(2)),…。節(jié)點(diǎn)對(duì)(pi,pj)或(pi,uj)間連接表示在數(shù)據(jù)序列中出現(xiàn)一個(gè)或多個(gè)等同對(duì)。連接加權(quán)涉及其出現(xiàn)頻率。
      在此文字說(shuō)明中,兩個(gè)獨(dú)立矢量表示每個(gè)特定節(jié)點(diǎn)的層間連接504和層內(nèi)連接503、505的特征。例如,利用其分量相應(yīng)于相同層中的其他節(jié)點(diǎn)的矢量表示層內(nèi)連接503、505特征。作為比較,用其分量相應(yīng)于另一層中的節(jié)點(diǎn)的矢量表示層間連接504特征。每個(gè)分量是一個(gè)表示從(或到)該相應(yīng)節(jié)點(diǎn)的連接的加權(quán)。例如,節(jié)點(diǎn)p1和p2的層間連接504(如圖5所示)可分別表示為[1,0,0…,0]T和[1,1,1…,0]T。
      這樣,相應(yīng)的近似函數(shù)就可以被定義為上述的cosine-相似性函數(shù)。用于層內(nèi)連接503、505特征的相似性函數(shù)slx(x,y)確定了節(jié)點(diǎn)p1和p2間的相似性,其由如下的公式(3)所示sc(x,y)=cos(fx,fy)=&Sigma;i=1kxfx(i)&CenterDot;&Sigma;i=1kyfy(j)&Sigma;i=1kxfx2(i)&CenterDot;&Sigma;j=1kyfy2(j)----(1)]]>作為比較,層間連接5034特征的相似性函數(shù)slx(x,y)確定了節(jié)點(diǎn)p1和u2間的相似性,其由如下的公式(4)所示sl2(x,y)=cos(hx,hy)(4)其中,sl1和sl2分別表示相似性是基于各自的層內(nèi)和層間特征的;lx和ly是節(jié)點(diǎn)x和節(jié)點(diǎn)y的層內(nèi)連接特征矢量;而hx和hy是節(jié)點(diǎn)x和節(jié)點(diǎn)y的層間連接特征矢量。
      也可以使用其他連接特征的表示和其他相似性測(cè)量,例如將每個(gè)節(jié)點(diǎn)的連接表示為一組,并使用Jaccard系數(shù)。這里描述的實(shí)施例具有多個(gè)優(yōu)點(diǎn)。一個(gè)優(yōu)點(diǎn)就是,分類算法的某些實(shí)施例建議了加權(quán)連接。此外,諸如k-means分類算法的分類算法方便了計(jì)算分類的矩心。在進(jìn)一步計(jì)算以指示分類對(duì)象的一般值和特征中,此矩心是有用的。
      節(jié)點(diǎn)x和節(jié)點(diǎn)y的所有相似性函數(shù)都可以如公式(5)那樣被定義為包括三個(gè)加權(quán)值α、β和γ的三個(gè)相似性的加權(quán)總和。有兩個(gè)公知技術(shù)可以指定三個(gè)加權(quán)值啟發(fā)法和學(xué)習(xí)法。例如,如果沒(méi)有調(diào)整數(shù)據(jù),就手工地將加權(quán)賦值為需要的值(即,alpha=0.5,beta=0.25而gamma=0.25)。如果通過(guò)比較有一些額外的調(diào)整數(shù)據(jù),那么可利用貪婪算法、登山算法或局域或全球改進(jìn)或優(yōu)化程序的某些其他類型計(jì)算加權(quán)。貪婪算法是指異類優(yōu)化算法,其在每一步中查找以便改進(jìn)每個(gè)矢量,這樣可以最終改進(jìn)(和某些實(shí)施例中優(yōu)化)解決方案。
      s(x,y)=αsc(x,y)+βsl1(x,y)+γsl2(x,y) (5)其中α+β+γ=1。
      利用這些計(jì)算,確定了節(jié)點(diǎn)的內(nèi)容和節(jié)點(diǎn)相似性。根據(jù)此應(yīng)用,可以修改這三個(gè)變量,從而為分類算法提供了三個(gè)不同的信息值。因此節(jié)點(diǎn)的這些內(nèi)容和相似性可以用作檢索的基礎(chǔ)。
      許多不同類分類問(wèn)題經(jīng)常共享節(jié)點(diǎn)不同樣重要的資源。不同類分類的例子包括Web頁(yè)面/用戶分類、用于合作過(guò)濾的項(xiàng)目/用戶分類,等等。對(duì)于這些應(yīng)用,在獲得更合理的分類結(jié)果中,重要的對(duì)象同樣具有重要的作用。在此文字描述中,整個(gè)數(shù)據(jù)組的連接結(jié)構(gòu)都用于獲知節(jié)點(diǎn)的重要性。對(duì)于節(jié)點(diǎn)組P和U中的每個(gè)節(jié)點(diǎn),例如,pi和uj,重要性加權(quán)ipi和iuj利用連接結(jié)構(gòu)計(jì)算,并被用于分類過(guò)程。
      一個(gè)分類方面涉及連接分類算法,在本文字說(shuō)明中提供了其多個(gè)實(shí)施例。在連接分析算法的一個(gè)實(shí)施例中,構(gòu)造了如圖6所示的混合網(wǎng)絡(luò)模型600。利用混合網(wǎng)絡(luò)模型600,用戶和Web頁(yè)面可被用作兩個(gè)節(jié)點(diǎn)類型。圖6中包括Web頁(yè)面和用戶對(duì)象類型的混合網(wǎng)絡(luò)模型的實(shí)施例特別用于包括Internet、內(nèi)聯(lián)網(wǎng)或其他網(wǎng)絡(luò)的類型分類。連接包括連接605所示的Web頁(yè)面超文本鏈接/交互作用、連接604所示的用戶-Web頁(yè)面超文本鏈接/交互作用,以及連接603所示的用戶-用戶超文本連接/交互作用。圖6的混合網(wǎng)絡(luò)模型600通過(guò)指示用連接603、604和605表示用戶和Web頁(yè)面之間的關(guān)系而說(shuō)明了這些超文本鏈接/關(guān)系。
      假設(shè)用戶組610中包括一個(gè)特定用戶組608,用戶組610訪問(wèn)的任何節(jié)點(diǎn)的所有Web頁(yè)面形成了Web頁(yè)面組612。通過(guò)向搜索引擎發(fā)送根Web頁(yè)面,Web頁(yè)面組612被確定了,并獲得了一個(gè)基本W(wǎng)eb頁(yè)面組。由圖6的箭頭表示的三個(gè)連接具有不同的含義。箭頭605表示的包含在Web頁(yè)面組612中的連接指示W(wǎng)eb頁(yè)面見(jiàn)到超文本鏈接。箭頭603表示的包含在用戶組610中的連接指示用戶的社交關(guān)系。在用戶組610和Web頁(yè)面組612之間的由箭頭604表示的連接指示了用戶對(duì)Web頁(yè)面的訪問(wèn)行為。箭頭604表示的連接指示了每個(gè)特定Web頁(yè)面的用戶評(píng)價(jià),這樣Web頁(yè)面的權(quán)限/集中分?jǐn)?shù)就更可信。由于不同類型的連接603、604和605表示不同的關(guān)系,每個(gè)連接都可以根據(jù)例如該連接的訪問(wèn)頻率或者該連接所連接的每個(gè)節(jié)點(diǎn)對(duì)如何被聯(lián)系,用不同的重要性加權(quán)。
      圖7示出了被配置為利用Internet進(jìn)行分類的計(jì)算機(jī)環(huán)境400的一個(gè)實(shí)施例。此分類的一個(gè)方面包括根據(jù)用戶分類Web頁(yè)面(包括相關(guān)層間連接的層內(nèi)連接)。該計(jì)算機(jī)環(huán)境包括多個(gè)Web站點(diǎn)750、搜索引擎752、服務(wù)器/代理部754、建模模塊756、計(jì)算模塊758以及建議/參考部760。計(jì)算環(huán)境400例如通過(guò)圖形用戶接口(GUI)于用戶762接口。計(jì)算模塊758包括迭代計(jì)算部件780,該部件780執(zhí)行該分類算法(依靠迭代計(jì)算的特定實(shí)施例)。建模模塊756收集數(shù)據(jù)并跟蹤數(shù)據(jù)(例如與對(duì)象有關(guān)的數(shù)據(jù))。搜索引擎根據(jù)用戶查詢返回搜索結(jié)果。Web站點(diǎn)750原樣向用戶顯示數(shù)據(jù)。服務(wù)器/代理將查詢等傳輸給執(zhí)行大量分類的服務(wù)器。建議/參考部760允許用戶修改和選擇分類算法。
      建模模塊756包括在先的格式化部件770、web頁(yè)面提取部772和用戶提取部774。部件770、772和774被配置為提供和/或跟蹤由770在先格式化的數(shù)據(jù),從Web頁(yè)面中提取的數(shù)據(jù)或從用戶762中提取的數(shù)據(jù)。如圖7所示的計(jì)算環(huán)境的一個(gè)實(shí)施例被配置為提供一個(gè)連接分析算方,在本文字描述中描述了該算法的一個(gè)實(shí)施。
      分類算法的一個(gè)實(shí)施例可以通過(guò)查找兩種類型的頁(yè)面集中(hubs)、權(quán)限(authorities)和用戶,而分析一個(gè)Web圖形。集中是頁(yè)面,該頁(yè)面與大量的其他頁(yè)面相連,這些其他頁(yè)面提供對(duì)特定主題有用的相關(guān)信息。權(quán)限頁(yè)面被認(rèn)為是與許多集中相關(guān)的頁(yè)面。用戶訪問(wèn)每個(gè)權(quán)限和集中。因此,集中、權(quán)限和用戶中的每一對(duì)都顯示了相互加強(qiáng)的關(guān)系。分類算法依賴于在本連接分析算法的每些實(shí)施中使用的三個(gè)矢量web頁(yè)面權(quán)限加權(quán)矢量a,集中加權(quán)矢量h以及用戶矢量u。在本文字說(shuō)明中描述了這些使兩大某些方面。
      下列加權(quán)計(jì)算中所涉及的幾個(gè)下列項(xiàng)沒(méi)有在圖7的圖形中示出,并且其涉及到該計(jì)算。在一個(gè)實(shí)施中,對(duì)于一給定用戶i,用戶加權(quán)ui說(shuō)明了他/她的知識(shí)水平。對(duì)于一Web頁(yè)面j,項(xiàng)aj和hj表示權(quán)限加權(quán)和集中加權(quán)。在一個(gè)實(shí)施中,三個(gè)矢量(表示用戶矢量u、web頁(yè)面權(quán)限加權(quán)矢量a和集中加權(quán)矢量h)的每一個(gè)都分別初始為某值(例如1)。然后根據(jù)下列公式(6)、(7)和(8)的計(jì)算,基于Internet的使用,迭代更新全部的三個(gè)矢量h、a和u
      a(p)=&Sigma;q&RightArrow;ph(q)+&Sigma;r&RightArrow;pu(r)---(6)h(p)=&Sigma;p&RightArrow;qa(q)+&Sigma;r&RightArrow;pu(r)---(7)u(r)=&Sigma;r&RightArrow;pa(p)+&Sigma;r&RightArrow;qh(q)---(8)]]>其中,p和q表示特定的web頁(yè)面,r表示特定用戶。在公開(kāi)的網(wǎng)絡(luò)的某些實(shí)施中,具有兩類連接不同頁(yè)面間的連接(超文本鏈接)以及用戶和頁(yè)面之間的連接(瀏覽模式)。使A=[aij]表示三個(gè)矢量h、a和u的基本集的相鄰矩陣。注意,如果頁(yè)面i連接到頁(yè)面j,那么aij=1,否則相應(yīng)的aij=0。V=[vij]是用戶組到Web頁(yè)面組的訪問(wèn)矩陣。假設(shè)如果用戶i訪問(wèn)了頁(yè)面j,那么vij=1,否則vij=0。同樣,如公式(9)、(10)以及(11)為a=ATh+VTu---(9)h=Aa+VTu---(10)u=V(a+h)---(11)]]>在一個(gè)實(shí)施中,公式(9)、(10)和(11)中的矢量a、h、u的計(jì)算進(jìn)行幾個(gè)迭代,以提供有意義的結(jié)果。某些實(shí)施中,在迭代前,給每個(gè)矢量a、h和u設(shè)者為隨機(jī)值。接著在每個(gè)迭代中,a、h、u的值都會(huì)改變并且為給下一迭代提供基礎(chǔ),而被規(guī)格化。接著在每個(gè)迭代中,a、h和u的每個(gè)迭代值都試圖收斂到各自的某值??梢詧?bào)告具有高用戶加權(quán)ui的用戶以及具有高權(quán)限加權(quán)aj和/或集中加權(quán)hj的Web頁(yè)面。在一優(yōu)選的實(shí)施中,特定的各個(gè)用戶或web頁(yè)面對(duì)象可被賦予一個(gè)比其他的各個(gè)用戶或web頁(yè)面對(duì)象都高的值。值越高,該對(duì)象就越重要。
      因此,在可分類的本文字說(shuō)明中描述的連接分析算法的實(shí)施依賴于來(lái)自web頁(yè)面和用戶的迭代輸入。這樣,用戶的加權(quán)輸入就應(yīng)用于web頁(yè)面的分類算法。分類中加權(quán)的用戶輸入的使用增加了搜索結(jié)果的精度和分類算法的執(zhí)行速度。
      雖然這里描述的連接分析算法基于用戶用于分類web頁(yè)面的分類算法,但是可以預(yù)見(jiàn),連接分析算法可以用于任何不同類分類算法。正如這里所描述的,加權(quán)部分地提供了具有重要性的分類。
      已經(jīng)描述了可用于分類對(duì)象類型的分類算法的各種實(shí)施例。分類算法意于根據(jù)要分類的數(shù)據(jù)對(duì)象間的某些相似性,查找數(shù)據(jù)類型的自然組。這樣,分類算法對(duì)數(shù)據(jù)對(duì)象執(zhí)行分類操作。分類算法的某些實(shí)施也查找一組數(shù)據(jù)集的矩心,其表示了一個(gè)點(diǎn),該點(diǎn)的參數(shù)值是分類中所有點(diǎn)的參數(shù)值的平均值。為了確定分類關(guān)系,大多數(shù)的分類算法都評(píng)估點(diǎn)和分類矩心間的距離。分類算法的輸出基本上是每個(gè)分類具有幾個(gè)分量的分類矩心的統(tǒng)計(jì)學(xué)描述。
      在此文字說(shuō)明中描述了分類算法的多個(gè)實(shí)施。雙向k-means分類算法是基于分類過(guò)程的共有加強(qiáng)的。雙向k-means分類算法是一個(gè)迭代分類算法。在雙向k-means分類算法中,首先通過(guò)公式(6)-(8)或(9)-(11)計(jì)算對(duì)象重要性,接著該結(jié)果就用于隨后的迭代分類過(guò)程。分類算法根據(jù)限定的相似性函數(shù)將每層中的對(duì)象分類。盡管要使用大量的分類算法,例如,k-means、k-medoids和會(huì)聚分層方法,但是本文字說(shuō)明表述了k-means分類算法的應(yīng)用。
      計(jì)算的節(jié)點(diǎn)重要性分?jǐn)?shù)有幾種技術(shù)。一種技術(shù)包括將基本的k-means分類算法修改為“加權(quán)的”k-means分類算法。在修改的k-means算法中,利用具有加權(quán)設(shè)置的特性的加權(quán)總和,計(jì)算給定分類的矩心,其中,該加權(quán)設(shè)置用于確定重要性分?jǐn)?shù)。因此在為內(nèi)容和連接特征形成分類矩心時(shí),更關(guān)注具有較高重要性或加權(quán)的節(jié)點(diǎn)。另一種實(shí)施包括用其重要性分?jǐn)?shù)修改節(jié)點(diǎn)的連接加權(quán),然后利用在相似性公式中利用該加權(quán)的連接特性。這種方法中,在分類過(guò)程中,僅僅在連接特征中反應(yīng)了節(jié)點(diǎn)重要性。
      圖8和圖9中示出了分類算法的輸入/輸出的一個(gè)實(shí)施。分類算法的輸入包括兩層體系圖550(其包括節(jié)點(diǎn)的內(nèi)容特征fi和gi)。分類算法的輸出包括反映分類的新的體系圖550。在新體系圖的某些實(shí)施中,可表示出已經(jīng)改變到其新節(jié)點(diǎn)位置的各個(gè)老節(jié)點(diǎn)的變化。
      圖8和圖9中示出了說(shuō)明分類算法850一個(gè)實(shí)施例的流程圖。分類算法850包括851,其中輸入原始體系圖(在每個(gè)分類迭代之前)。在852中,利用公式(6)-(8)或(9)-(11)確定或計(jì)算考慮的每個(gè)節(jié)點(diǎn)的重要性。在854中,為了進(jìn)行分類,選擇任意層。注意,在855中,以適合的方式(例如,根據(jù)內(nèi)容特征)分類選擇的層。在某些實(shí)施中,可利用需要的過(guò)濾算法過(guò)濾節(jié)點(diǎn)。在856中,將每類中的節(jié)點(diǎn)合并成一個(gè)節(jié)點(diǎn)。例如,如果在過(guò)濾后存在兩個(gè)候選節(jié)點(diǎn),例如通過(guò)平均這兩個(gè)候選節(jié)點(diǎn)的向量值,將最接近的兩個(gè)候選節(jié)點(diǎn)合并。此合并允許組合單個(gè)節(jié)點(diǎn),以便減少要考慮的節(jié)點(diǎn)的數(shù)量。因此,合并操作可用于減少重復(fù)和類似重復(fù)(near-duplicates)的出現(xiàn)。
      根據(jù)857中的合并結(jié)果,更新相應(yīng)的連接。在858中,分類算法改變(從任選的層)到分類的第二層。在960中,根據(jù)其內(nèi)容特征,分類第二層的節(jié)點(diǎn),并更新其特征。在961中,每類節(jié)點(diǎn)都被合并成一個(gè)節(jié)點(diǎn)。
      在節(jié)點(diǎn)962,重新存儲(chǔ)其他層的原始連接結(jié)構(gòu)和原始節(jié)點(diǎn)。在964中,第二層的每類節(jié)點(diǎn)都被合并,并更新相應(yīng)的連接。在966中,在計(jì)算環(huán)境中繼續(xù)進(jìn)行此迭代分類過(guò)程。在968,輸出修訂后的體系圖550。
      在最初的分類中,僅僅使用了內(nèi)容特征。由于在大多數(shù)的情況下,開(kāi)始時(shí)連接特征太少而不能用于分類。在隨后的分類過(guò)程中,要合并內(nèi)容特征和連接特征,以便改進(jìn)分類效率。通過(guò)合并內(nèi)容特征和連接特征,加權(quán)被確定為用不同的值,并可比較結(jié)果,提供了具歐改進(jìn)精度的分類。
      參照?qǐng)D8和9描述的分類算法可以用于許多分類實(shí)施。更具體地,根據(jù)用戶如何訪問(wèn)Web頁(yè)面的Web頁(yè)面分類的一個(gè)實(shí)施是新描述的。那些在用戶層的一個(gè)節(jié)點(diǎn)到Web頁(yè)面層節(jié)點(diǎn)間的那類連接中,如果具有從uj到pi的一個(gè)連接,用戶uj之前就已經(jīng)訪問(wèn)過(guò)了Web頁(yè)面pi。連接加權(quán)意味著在特定時(shí)候,用戶uj訪問(wèn)Web頁(yè)面pi的可能性,并被表示為Pr(pi|uj)。如公式(12)所示,通過(guò)計(jì)算已觀察到數(shù)據(jù)數(shù)量,其可以簡(jiǎn)單計(jì)算。
      Pr(pi|uj)=C(pi,uj)&Sigma;i&Element;p(uj)Cz(pi,uj)---(12)]]>其中,p(uj)是用戶uj之前訪問(wèn)的頁(yè)面組。C(pi,uj)表示之前用戶uj之前訪問(wèn)頁(yè)面pi的計(jì)數(shù)。
      如圖10的體系圖550的實(shí)施所示,分類算法的一個(gè)實(shí)施包括一個(gè)概念層或隱蔽層。在圖10中,對(duì)于相似性,圖5的體系層中的層內(nèi)連接503和505是隱含的。但是,可以想象,圖10所示的體系圖550的實(shí)施可以依賴層內(nèi)連接和層間連接任何組合,并且仍然保留在本文字說(shuō)明概念內(nèi)。
      隱含層1070(如圖10中所示的體系圖550的實(shí)施中)位于web頁(yè)面和用戶層間。隱含層550提供了提取的附加層(連接從該層延伸到每個(gè)節(jié)點(diǎn)組P和U),該提取附加層允許用改進(jìn)的實(shí)體(realism)建模,該改進(jìn)是與原始節(jié)點(diǎn)組P和U之間的延伸連接相比的。例如圖5的體系圖550實(shí)施中(其不具有隱含層)的一個(gè)層間連接504可以被建模為體系圖550實(shí)施的一對(duì)隱含層內(nèi)連接,例如圖10所示的。一個(gè)隱含層間連接延伸在包含節(jié)點(diǎn)組P的web頁(yè)面層和隱含層1070之間,而一個(gè)隱含層間連接延伸在用戶層和隱含層1070之間。圖10所示的每個(gè)隱含層間連接的箭頭方向是任意的,就按照各自節(jié)點(diǎn)組P和U中的特定web頁(yè)面和用戶的原樣,其由到隱含層的隱含層間連接所連接。
      包含節(jié)點(diǎn)組P的web頁(yè)面層和隱含層1070間的連接(即,隱含層間連接)指示了web頁(yè)面p1、p2等如何可能屬于隱含層1070中特定概念節(jié)點(diǎn)P(c1)、P(c2)。用戶層和隱含層1070將的連接(即,隱含層內(nèi)連接)指示了用戶節(jié)點(diǎn)u1、u2等如何可能對(duì)隱含層1070中的特定概念節(jié)點(diǎn)P(c1)、P(c2)等有興趣。
      因此,web頁(yè)面層和概念層間的每個(gè)連接都表示web頁(yè)面pi被分類為概念種類ck的可能性,其被表示為Pr(pi|ck)。由體系圖實(shí)施的此模型共享了NarveBayesian分類所用的設(shè)想,其中一般認(rèn)為不同的詞是獨(dú)立的。這樣,概念ck可被表示為正態(tài)分布,例如期望矢量 和協(xié)方差向量 。值Pr(pi|ck)可按公式(13)導(dǎo)出。
      E(Pr(pi|ck))=Pr(pi|ck)&Sigma;tPr(pt|ck)=&Pi;lPr(wl,i|ck)&Sigma;t&Pi;lPr(wl,t|ck)=e-&Sigma;t12&sigma;l,k(wl,i-&mu;l,k)2&Sigma;te-&Sigma;t12&sigma;l,k(wi,k-&mu;i,k)2---(13)]]>其中,wl,i是第1個(gè)字上的web頁(yè)面pi的加權(quán)。
      那些位于用戶層一個(gè)節(jié)點(diǎn)和隱含層一個(gè)節(jié)點(diǎn)之間那些連接反應(yīng)了用戶在由該概念反應(yīng)的種類上的興趣。這樣,一個(gè)矢量(Ij1,Ij2,…Ijn),Ijk=Pr(ck|uj)就響應(yīng)于每個(gè)用戶,其中n是隱含概念的數(shù)量。圖10所示的連接可被看作是用戶的矢量模型。該矢量由用戶的使用數(shù)據(jù)所約束,如公式(14)所示Pr(pi|uj)=&Sigma;lPr(pi|cl,uj)Pr(cl|uj)&ap;&Sigma;lPr(pi|cl)Pr(cl|uj)---(14)]]>這樣,值Pr(ck|uj)可從(13)中通過(guò)查找解法而獲得。
      為了簡(jiǎn)化,Pr(pi|uj)=Ri,j,Pr(pi|ck)=Si,k而Pr(ck|uj)=Tk,j。如公式15所示,用戶j可被認(rèn)為是獨(dú)立的。
      R1,jR2,j&CenterDot;&CenterDot;&CenterDot;R|Page|,j=S1,1S1,2&CenterDot;&CenterDot;&CenterDot;S1,|Concept|S2,1S2,2&CenterDot;&CenterDot;&CenterDot;S|Page|,1&CenterDot;&CenterDot;&CenterDot;S|Page|,|Concept|&times;T1,jT2,j&CenterDot;&CenterDot;&CenterDot;T|Concept|,j---(15)]]>其中“|Page|”是Web頁(yè)面的總數(shù),而“|Concept|”是隱含概念的總數(shù)。由于|Page|>>|Concept|,所以Tk,j的最少平方解可利用公式(15)或可選擇的公式(16)解答。
      Ri,1Ri,2...Ri,|User|=Si,1Si,2...Si,|Concept|&times;T1,1T1,2...T1,|User|T2,1T2,2......T|Concept|,1T|Concept|,|User|]]>其中“|User|”是用戶的總數(shù)。
      由于|User|>>|Concept|,所以我們可以給出Si,k的最少平方解,如公式(17)所示。
      &mu;j&RightArrow;=&Sigma;tPt&RightArrow;Pr(pt|ck)=&Sigma;kSt,kPt&RightArrow;----(17)]]>在獲得了期望 的矢量后,就可以計(jì)算協(xié)方差 的新矢量。雖然圖10所述的體系圖550的實(shí)施位于節(jié)點(diǎn)組P和節(jié)點(diǎn)組U之間,但是可以想象,節(jié)點(diǎn)組的特殊內(nèi)容自然說(shuō)明的,并且可以用于任何節(jié)點(diǎn)組。
      在分類算法的一個(gè)實(shí)施中,web頁(yè)面對(duì)象可以根據(jù)用戶對(duì)象分類,該分類算法的實(shí)施可以相對(duì)于圖1中的1100所示的web頁(yè)面分類算法而描述如下1.如1102所示,收集用戶日志組。
      2.計(jì)算在公式(12)示出的特定時(shí)間Pr(pi|uj)用戶uj訪問(wèn)web頁(yè)面pi的可能性,如圖11的1104。
      3.在圖11的1106中,限定隱含概念層(圖10所示的670)的節(jié)點(diǎn)數(shù)量|Concept|,并且在圖11的1108中為隨機(jī)給期望矢量 和協(xié)方差矢量 的初始參數(shù)賦值。
      4.計(jì)算Pr(pi|ck)的值,其表示W(wǎng)eb頁(yè)面被歸為概念種類的可能性,如公式(13)所示以及圖11的1110所示。
      5.計(jì)算Pr(ck|uj),其表示用戶對(duì)一用戶節(jié)點(diǎn)和一隱含層節(jié)點(diǎn)間的連接感興趣,其可由公式(15)導(dǎo)出,并如圖11的1112所示。
      6.更新Web頁(yè)面被歸為概念種類的Pr(pi|ck)可能性,其在概述步驟14中用公式(13)確定,如圖11的1114所示。
      7.利用公式(13)所示的Pr(pi|ck)重新設(shè)置每個(gè)隱含概念節(jié)點(diǎn)的參數(shù)。
      8.幾次迭代執(zhí)行(13)和(15),以便提供節(jié)點(diǎn)組值的基礎(chǔ)(或者至少直到模型結(jié)果顯示穩(wěn)定的節(jié)點(diǎn)組矢量)。
      權(quán)利要求
      1.一種為改進(jìn)的文檔檢索提供計(jì)算機(jī)可執(zhí)行的內(nèi)容傳播的方法,所述方法包括識(shí)別針對(duì)一個(gè)或多個(gè)文檔的參考信息,所述參考信息是從一個(gè)或多個(gè)數(shù)據(jù)源中識(shí)別出來(lái)的,所述一個(gè)或多個(gè)數(shù)據(jù)源與包括所述一個(gè)或多個(gè)文檔的數(shù)據(jù)源無(wú)關(guān);提取被接近地定位到所述參考信息的元數(shù)據(jù);對(duì)于所述一個(gè)或多個(gè)文檔中相關(guān)文檔的內(nèi)容,計(jì)算所述元數(shù)據(jù)的各個(gè)特征之間的相關(guān)性;對(duì)于所述一個(gè)或多個(gè)文檔的每個(gè)文檔,將所述元數(shù)據(jù)的相關(guān)部分用各自部分的所述特征相關(guān)性索引到所述文檔的原始內(nèi)容;以及其中,所述索引步驟產(chǎn)生了一個(gè)或多個(gè)改進(jìn)的文檔。
      2.如權(quán)利要求1所述的方法,其中,所述參考信息包括一個(gè)連接和/或?qū)嶋H上唯一的文檔ID,所述文檔ID與所述一個(gè)或多個(gè)文檔中的一個(gè)文檔相關(guān)。
      3.如權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)文檔是知識(shí)庫(kù)條文、產(chǎn)品幫助、任務(wù)和/或開(kāi)發(fā)者數(shù)據(jù)。
      4.如權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)數(shù)據(jù)源包括服務(wù)請(qǐng)求、新聞組投遞和/或搜索查詢?nèi)罩尽?br> 5.如權(quán)利要求1所述的方法,其中,所述元數(shù)據(jù)在語(yǔ)義上或上下文上涉及所述一個(gè)或多個(gè)文檔中相關(guān)的文檔。
      6.如權(quán)利要求1所述的方法,其中,所述元數(shù)據(jù)包括文檔標(biāo)題、產(chǎn)品問(wèn)題上下文和/或產(chǎn)品問(wèn)題解決信息。
      7.如權(quán)利要求1所述的方法,其中,對(duì)于所述一個(gè)或多個(gè)改進(jìn)文檔的每個(gè)改進(jìn)文檔,都具有產(chǎn)生所述改進(jìn)文檔的相應(yīng)原始文檔。
      8.如權(quán)利要求1所述的方法,其中,計(jì)算所述相關(guān)性基于所述一個(gè)或多個(gè)文檔的一個(gè)特定文檔在所述元數(shù)據(jù)的其上下文中被識(shí)別出的次數(shù)。
      9.如權(quán)利要求1所述的方法,其中,所述元數(shù)據(jù)包括條文標(biāo)題、產(chǎn)品問(wèn)題上下文和/或產(chǎn)品問(wèn)題解決信息,并且計(jì)算相關(guān)性進(jìn)一步包括加權(quán)所述條文標(biāo)題和/或產(chǎn)品問(wèn)題上下文,以便指示比任何產(chǎn)品問(wèn)題解決信息大的相關(guān)性。
      10.如權(quán)利要求1所述的方法,其中,計(jì)算相關(guān)性進(jìn)一步包括給在所述數(shù)據(jù)源中出現(xiàn)頻率較大的元數(shù)據(jù)的特征賦予較大的相關(guān)性,所述頻率較大是相對(duì)于所述內(nèi)容中的其他元數(shù)據(jù)特征的出現(xiàn)頻率的。
      11.如權(quán)利要求1所述的方法,其中,計(jì)算相關(guān)性進(jìn)一步包括作為所述文檔的壽命的函數(shù),給在一個(gè)或多個(gè)文檔中的一個(gè)文檔中找到的所述元數(shù)據(jù)的特征賦予較大的相關(guān)性。
      12.如權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)數(shù)據(jù)源包括一搜索查詢?nèi)罩?,并且,?jì)算相關(guān)性進(jìn)一步包括從所述搜索查詢?nèi)罩局凶R(shí)別出搜索查詢,其中,為了搜索所述數(shù)據(jù)源,所述搜索查詢具有相對(duì)高的出現(xiàn)頻率(FOO);確定一終端用戶從搜索查詢結(jié)果中選擇的條文,所述條文來(lái)自所述數(shù)據(jù)源;以及確定遺漏的終端用戶選擇,其中一個(gè)遺漏的終端用戶選擇就是所述搜索查詢結(jié)果中一個(gè)沒(méi)有選擇的條文。
      13.如權(quán)利要求12所述的方法,其中,確定遺漏的終端用戶選擇進(jìn)一步包括利用層內(nèi)連接分類不同類的對(duì)象,以便為所述不同類對(duì)象確定重要性測(cè)量,所述不同類對(duì)象包括第一類相似查詢以及第二類相關(guān)文檔,所述相似查詢已經(jīng)在所述搜索查詢?nèi)罩局斜蛔R(shí)別出,所述相似查詢與包括所述一個(gè)或多個(gè)文檔的搜索結(jié)果相關(guān),不管終端用戶是否在所述搜索結(jié)果中選擇了所述相關(guān)文檔的各個(gè)文檔,所述相關(guān)文檔都從所述搜索結(jié)果中識(shí)別出。
      14.如權(quán)利要求13所述的方法,其中,所述特征用所述第一和第二類中的各個(gè)節(jié)點(diǎn)表示,并且每個(gè)所述節(jié)點(diǎn)的所述重要性測(cè)量都基于一個(gè)相似性函數(shù),該相似性函數(shù)測(cè)量了在第一和第二類的對(duì)象之間的距離。
      15.一種包含了計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)指令為改進(jìn)的文檔檢索提供內(nèi)容傳播,所述計(jì)算機(jī)可執(zhí)行指令包括用于下列步驟的指令識(shí)別針對(duì)一個(gè)或多個(gè)文檔的參考信息,所述參考信息是從一個(gè)或多個(gè)數(shù)據(jù)源中識(shí)別出來(lái)的,所述一個(gè)或多個(gè)數(shù)據(jù)源與包括所述一個(gè)或多個(gè)文檔的數(shù)據(jù)源無(wú)關(guān);提取被接近地定位到所述參考信息的元數(shù)據(jù);對(duì)于所述一個(gè)或多個(gè)文檔中相關(guān)文檔的內(nèi)容,計(jì)算所述元數(shù)據(jù)的各個(gè)特征之間的相關(guān)性;對(duì)于所述一個(gè)或多個(gè)文檔的每個(gè)文檔,將所述元數(shù)據(jù)的相關(guān)部分用各自部分的所述特征相關(guān)性索引到所述文檔的原始內(nèi)容;以及其中,所述索引步驟產(chǎn)生了一個(gè)或多個(gè)改進(jìn)文檔。
      16.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述參考信息包括一個(gè)連接和/或?qū)嶋H上唯一的文檔ID,所述文檔ID與所述一個(gè)或多個(gè)文檔中的一個(gè)文檔相關(guān)。
      17.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述一個(gè)或多個(gè)文檔是知識(shí)庫(kù)條文、產(chǎn)品幫助、任務(wù)和/或開(kāi)發(fā)者數(shù)據(jù)。
      18.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述一個(gè)或多個(gè)數(shù)據(jù)源包括服務(wù)請(qǐng)求、新聞組投遞和/或搜索查詢?nèi)罩尽?br> 19.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述元數(shù)據(jù)在語(yǔ)義上或上下文上涉及所述一個(gè)或多個(gè)文檔中相關(guān)的文檔。
      20.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述元數(shù)據(jù)包括文檔標(biāo)題、產(chǎn)品問(wèn)題上下文和/或產(chǎn)品問(wèn)題解決信息。
      21.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,對(duì)于所述一個(gè)或多個(gè)改進(jìn)文檔的每個(gè)改進(jìn)文檔,都具有產(chǎn)生所述改進(jìn)文檔的相應(yīng)原始文檔。
      22.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,計(jì)算所述相關(guān)性基于所述一個(gè)或多個(gè)文檔的一個(gè)特定文檔在所述元數(shù)據(jù)的其上下文中被識(shí)別出的次數(shù)。
      23.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述元數(shù)據(jù)包括條文標(biāo)題、產(chǎn)品問(wèn)題上下文和/或產(chǎn)品問(wèn)題解決信息,并且計(jì)算相關(guān)性的指令進(jìn)一步包括加權(quán)所述條文標(biāo)題和/或產(chǎn)品問(wèn)題上下文的指令,以便指示比任何產(chǎn)品問(wèn)題解決信息大的相關(guān)性。
      24.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,計(jì)算相關(guān)性的指令進(jìn)一步包括給在所述數(shù)據(jù)源中出現(xiàn)頻率較大的元數(shù)據(jù)的特征賦予較大的相關(guān)性的指令,所述頻率較大是相對(duì)于所述內(nèi)容中的其他元數(shù)據(jù)特征的出現(xiàn)頻率的。
      25.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,計(jì)算相關(guān)性的指令進(jìn)一步包括作為所述文檔的壽命的函數(shù),給在一個(gè)或多個(gè)文檔中的一個(gè)文檔中找到的所述元數(shù)據(jù)的特征賦予較大的相關(guān)性的指令。
      26.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述一個(gè)或多個(gè)數(shù)據(jù)源包括一搜索查詢?nèi)罩荆⑶?,?jì)算相關(guān)性的指令進(jìn)一步包括指令從所述搜索查詢?nèi)罩局凶R(shí)別出搜索查詢,其中,為了搜索所述數(shù)據(jù)源,所述搜索查詢具有相對(duì)高的出現(xiàn)頻率(FOO);確定一終端用戶從搜索查詢結(jié)果中選擇的條文,所述條文來(lái)自所述數(shù)據(jù)源;以及確定遺漏的終端用戶選擇,其中一個(gè)遺漏的終端用戶選擇就是所述搜索查詢結(jié)果中一個(gè)沒(méi)有選擇的條文。
      27.如權(quán)利要求26所述的計(jì)算機(jī)可讀介質(zhì),其中,確定遺漏的終端用戶選擇的指令進(jìn)一步包括指令利用層內(nèi)連接分類不同類的對(duì)象,以便為所述不同類對(duì)象確定重要性測(cè)量,所述不同類對(duì)象包括第一類相似查詢以及第二類相關(guān)文檔,所述相似查詢已經(jīng)在所述搜索查詢?nèi)罩局斜蛔R(shí)別出,所述相似查詢與包括所述一個(gè)或多個(gè)文檔的搜索結(jié)果相關(guān),不管終端用戶是否在所述搜索結(jié)果中選擇了所述相關(guān)文檔的各個(gè)文檔,所述相關(guān)文檔都從所述搜索結(jié)果中被識(shí)別出。
      28.如權(quán)利要求27所述的計(jì)算機(jī)可讀介質(zhì),其中,所述特征用所述第一和第二類中的各個(gè)節(jié)點(diǎn)表示,并且每個(gè)所述節(jié)點(diǎn)的所述重要性測(cè)量都基于一個(gè)相似性函數(shù),該相似性函數(shù)測(cè)量了在第一和第二類的對(duì)象之間的距離。
      29.一種為改進(jìn)的文檔檢索提供內(nèi)容傳播的計(jì)算設(shè)備,所述計(jì)算設(shè)備包括一個(gè)處理器;以及一個(gè)與所述處理器連接的存儲(chǔ)器,所述存儲(chǔ)器包括可由所述處理器執(zhí)行的計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令用于識(shí)別針對(duì)一個(gè)或多個(gè)文檔的參考信息,所述參考信息是從一個(gè)或多個(gè)數(shù)據(jù)源中識(shí)別出來(lái)的,所述一個(gè)或多個(gè)數(shù)據(jù)源與包括所述一個(gè)或多個(gè)文檔的數(shù)據(jù)源無(wú)關(guān);提取被接近地定位到所述參考信息的元數(shù)據(jù);對(duì)于所述一個(gè)或多個(gè)文檔中相關(guān)文檔的內(nèi)容,計(jì)算所述元數(shù)據(jù)的各個(gè)特征之間的相關(guān)性;對(duì)于所述一個(gè)或多個(gè)文檔的每個(gè)文檔,將所述元數(shù)據(jù)的相關(guān)部分用各自部分的所述特征相關(guān)性索引到所述文檔的原始內(nèi)容;以及其中,所述索引步驟產(chǎn)生了一個(gè)或多個(gè)改進(jìn)文檔。
      30.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,所述參考信息包括一個(gè)連接和/或?qū)嶋H上唯一的文檔ID,所述文檔ID與所述一個(gè)或多個(gè)文檔中的一個(gè)文檔相關(guān)。
      31.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,所述一個(gè)或多個(gè)文檔是知識(shí)庫(kù)條文、產(chǎn)品幫助、任務(wù)和/或開(kāi)發(fā)者數(shù)據(jù)。
      32.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,所述一個(gè)或多個(gè)數(shù)據(jù)源包括服務(wù)請(qǐng)求、新聞組投遞和/或搜索查詢?nèi)罩尽?br> 33.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,所述元數(shù)據(jù)在語(yǔ)義或上下文上涉及所述一個(gè)或多個(gè)文檔中相關(guān)的文檔。
      34.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,所述元數(shù)據(jù)包括文檔標(biāo)題、產(chǎn)品問(wèn)題上下文和/或產(chǎn)品問(wèn)題解決信息。
      35.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,對(duì)于所述一個(gè)或多個(gè)改進(jìn)文檔的每個(gè)改進(jìn)文檔,都具有產(chǎn)生所述改進(jìn)文檔的相應(yīng)原始文檔。
      36.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,計(jì)算所述相關(guān)性基于所述一個(gè)或多個(gè)文檔的一個(gè)特定文檔在所述元數(shù)據(jù)的其上下文中被識(shí)別出的次數(shù)。
      37.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,所述元數(shù)據(jù)包括條文標(biāo)題、產(chǎn)品問(wèn)題上下文和/或產(chǎn)品問(wèn)題解決信息,并且計(jì)算相關(guān)性的指令進(jìn)一步包括加權(quán)所述條文標(biāo)題和/或產(chǎn)品問(wèn)題上下文的指令,以便指示比任何產(chǎn)品問(wèn)題解決信息大的相關(guān)性。
      38.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,計(jì)算相關(guān)性的指令進(jìn)一步包括給在所述數(shù)據(jù)源中出現(xiàn)頻率較大的元數(shù)據(jù)的特征賦予較大的相關(guān)性的指令,所述頻率較大是相對(duì)于所述內(nèi)容中的其他元數(shù)據(jù)特征的出現(xiàn)頻率的。
      39.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,計(jì)算相關(guān)性的指令進(jìn)一步包括作為所述文檔的壽命的函數(shù),給在一個(gè)或多個(gè)文檔中的一個(gè)文檔中找到的所述元數(shù)據(jù)的特征賦予較大的相關(guān)性的指令。
      40.如權(quán)利要求29所述的計(jì)算設(shè)備,其中,所述一個(gè)或多個(gè)數(shù)據(jù)源包括一搜索查詢?nèi)罩?,并且,?jì)算相關(guān)性的指令進(jìn)一步包括指令從所述搜索查詢?nèi)罩局凶R(shí)別出搜索查詢,其中,為了搜索所述數(shù)據(jù)源,所述搜索查詢具有相對(duì)高的出現(xiàn)頻率(FOO);確定一終端用戶從搜索查詢結(jié)果中選擇的條文,所述條文來(lái)自所述數(shù)據(jù)源;以及確定遺漏的終端用戶選擇,其中一個(gè)遺漏的終端用戶選擇就是所述搜索查詢結(jié)果中一個(gè)沒(méi)有選擇的條文。
      41.如權(quán)利要求40所述的計(jì)算設(shè)備,其中,確定遺漏的終端用戶選擇的指令進(jìn)一步包括利指令用層內(nèi)連接分類不同類的對(duì)象,以便為所述不同類對(duì)象確定重要性測(cè)量,所述不同類對(duì)象包括第一類相似查詢以及第二類相關(guān)文檔,所述相似查詢已經(jīng)在所述搜索查詢?nèi)罩局斜蛔R(shí)別出,所述相似查詢與包括所述一個(gè)或多個(gè)文檔的搜索結(jié)果相關(guān),不管終端用戶是否在所述搜索結(jié)果中選擇了所述相關(guān)文檔的幾個(gè)文檔,所述相關(guān)文檔都從所述搜索結(jié)果中被識(shí)別出。
      42.如權(quán)利要求41所述的計(jì)算設(shè)備,其中,所述特征用所述第一和第二類中的各個(gè)節(jié)點(diǎn)表示,并且每個(gè)所述節(jié)點(diǎn)的所述重要性測(cè)量都基于一個(gè)相似性函數(shù),該相似性函數(shù)測(cè)量了在第一和第二類的對(duì)象之間的距離。
      43.一種為改進(jìn)的文檔檢索提供內(nèi)容傳播的計(jì)算設(shè)備,所述計(jì)算設(shè)備包括識(shí)別部件,其識(shí)別針對(duì)一個(gè)或多個(gè)文檔的參考信息,所述參考信息是從一個(gè)或多個(gè)數(shù)據(jù)源中識(shí)別出來(lái)的,所述一個(gè)或多個(gè)數(shù)據(jù)源與包括所述一個(gè)或多個(gè)文檔的數(shù)據(jù)源無(wú)關(guān);提取部件,其提取被接近地定位到所述參考信息的元數(shù)據(jù);計(jì)算部件,其對(duì)于所述一個(gè)或多個(gè)文檔中相關(guān)文檔的內(nèi)容,計(jì)算所述元數(shù)據(jù)的各個(gè)特征之間的相關(guān)性;索引部件,其對(duì)于所述一個(gè)或多個(gè)文檔的每個(gè)文檔,將所述元數(shù)據(jù)的相關(guān)部分用各自部分的所述特征相關(guān)性索引到所述文檔的原始內(nèi)容;以及其中,所述索引產(chǎn)生了一個(gè)或多個(gè)改進(jìn)文檔。
      44.如權(quán)利要求43所示的計(jì)算設(shè)備,其中,所述參考信息包括一個(gè)連接和/或?qū)嶋H上唯一的文檔ID,所述文檔ID與所述一個(gè)或多個(gè)文檔中的一個(gè)文檔相關(guān)。
      45.如權(quán)利要求43所示的計(jì)算設(shè)備,其中,所述一個(gè)或多個(gè)文檔是知識(shí)庫(kù)條文、產(chǎn)品幫助、任務(wù)和/或開(kāi)發(fā)者數(shù)據(jù)。
      46.如權(quán)利要求43所示的計(jì)算設(shè)備,其中,所述一個(gè)或多個(gè)數(shù)據(jù)源包括服務(wù)請(qǐng)求、新聞組投遞和/或搜索查詢?nèi)罩尽?br> 47.如權(quán)利要求43所示的計(jì)算設(shè)備,其中,所述元數(shù)據(jù)在語(yǔ)義上或上下文上涉及所述一個(gè)或多個(gè)文檔中相關(guān)的文檔。
      48.如權(quán)利要求43所示的計(jì)算設(shè)備,其中,所述元數(shù)據(jù)包括條文標(biāo)題、產(chǎn)品問(wèn)題上下文和/或產(chǎn)品問(wèn)題解決信息,并且用于計(jì)算相關(guān)性的所述計(jì)算部件進(jìn)一步包括加權(quán)部件,其加權(quán)所述條文標(biāo)題和/或產(chǎn)品問(wèn)題上下文,以便指示比任何產(chǎn)品問(wèn)題解決信息大的相關(guān)性。
      49.如權(quán)利要求43所示的計(jì)算設(shè)備,其中,用于計(jì)算相關(guān)性的所述計(jì)算部件進(jìn)一步包括賦值部件,其給在所述數(shù)據(jù)源中出現(xiàn)頻率較大的元數(shù)據(jù)的特征賦予較大的相關(guān)性,所述頻率較大是相對(duì)于所述內(nèi)容中的其他元數(shù)據(jù)特征的出現(xiàn)頻率的。
      50.如權(quán)利要求43所示的計(jì)算設(shè)備,其中,用于計(jì)算相關(guān)性的所述計(jì)算部件進(jìn)一步包括賦值部件,其作為所述文檔的壽命的函數(shù),給在一個(gè)或多個(gè)文檔中的一個(gè)文檔中找到的所述元數(shù)據(jù)的特征賦予較大的相關(guān)性。
      51.如權(quán)利要求43所示的計(jì)算設(shè)備,其中,所述一個(gè)或多個(gè)數(shù)據(jù)源包括一搜索查詢?nèi)罩?,并且用于?jì)算相關(guān)性的所述計(jì)算部件進(jìn)一步包括標(biāo)識(shí)部件,其從所述搜索查詢?nèi)罩局凶R(shí)別出搜索查詢,其中,為了搜索所述數(shù)據(jù)源,所述搜索查詢具有相對(duì)高的出現(xiàn)頻率(FOO);確定部件,其確定一終端用戶從搜索查詢結(jié)果中選擇的條文,所述條文來(lái)自所述數(shù)據(jù)源;以及計(jì)算部件,其計(jì)算遺漏的終端用戶選擇,其中一個(gè)遺漏的終端用戶選擇就是所述搜索查詢結(jié)果中一個(gè)沒(méi)有選擇的條文。
      52.如權(quán)利要求52所示的計(jì)算設(shè)備,其中,所述計(jì)算部件進(jìn)一步包括分類部件,其利用層內(nèi)連接分類不同類的對(duì)象,以便為所述不同類對(duì)象確定重要性測(cè)量,所述不同類對(duì)象包括第一類相似查詢以及第二類相關(guān)文檔,所述相似查詢已經(jīng)在所述搜索查詢?nèi)罩局斜蛔R(shí)別出,所述相似查詢與包括所述一個(gè)或多個(gè)文檔的搜索結(jié)果相關(guān),不管終端用戶是否在所述搜索結(jié)果中選擇了所述相關(guān)文檔的各個(gè)文檔,所述相關(guān)文檔都從所述搜索結(jié)果中被識(shí)別出。
      全文摘要
      描述了為改進(jìn)的文檔檢索提供內(nèi)容傳播的系統(tǒng)和方法。在一個(gè)方面中,識(shí)別針對(duì)一個(gè)或多個(gè)文檔的參考信息。所述參考信息是從一個(gè)或多個(gè)數(shù)據(jù)源中識(shí)別出來(lái)的,所述一個(gè)或多個(gè)數(shù)據(jù)源與包括所述一個(gè)或多個(gè)文檔的數(shù)據(jù)源無(wú)關(guān)。從一個(gè)或多個(gè)數(shù)據(jù)源中提取被接近地定位到所述參考信息的元數(shù)據(jù)。對(duì)于所述一個(gè)或多個(gè)文檔中相關(guān)文檔的內(nèi)容,計(jì)算所述元數(shù)據(jù)的各個(gè)特征之間的相關(guān)性。對(duì)于所述一個(gè)或多個(gè)文檔的每個(gè)文檔,將所述元數(shù)據(jù)的相關(guān)部分用各自部分的所述特征相關(guān)性索引到所述文檔的原始內(nèi)容。所述索引產(chǎn)生了一個(gè)或多個(gè)改進(jìn)文檔。
      文檔編號(hào)G06F17/30GK1694100SQ200510071690
      公開(kāi)日2005年11月9日 申請(qǐng)日期2005年4月13日 優(yōu)先權(quán)日2004年4月15日
      發(fā)明者B·張, D·B·庫(kù)克, G·希施勒, 洪小文, H-J·曾, K·弗里斯, K·塞繆爾森, 馬維英, 陳正 申請(qǐng)人:微軟公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1