国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      查詢(xún)到任務(wù)的映射的制作方法

      文檔序號(hào):6620576閱讀:155來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):查詢(xún)到任務(wù)的映射的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明一般涉及字符串聯(lián)合領(lǐng)域。更具體地說(shuō),本發(fā)明涉及發(fā)現(xiàn)短文本串之間的聯(lián)合。
      背景技術(shù)
      有許多應(yīng)用程序——其中,短文本串需要在概念上被鏈接到(或被映射到)其他短文本串。例如,在分類(lèi)器訓(xùn)練中,需要使來(lái)自查詢(xún)記錄的查詢(xún)與任務(wù)或意圖說(shuō)明發(fā)生聯(lián)系。在搜索情況中,可能需要將額外的元數(shù)據(jù)與搜索項(xiàng)聯(lián)系起來(lái)。如果將要匹配的這些字符串足夠長(zhǎng),那么,可以使用這些字符串之間的詞重疊來(lái)確定它們是否相關(guān)。但是,如果這些字符串很短,那么,會(huì)很難認(rèn)出可能的關(guān)系或需要聯(lián)合創(chuàng)建這些字符串之間的映射通過(guò)之間的聯(lián)合可以識(shí)別,這是“這些字符串本身所包含的信息不足”的結(jié)果,由此,可以認(rèn)出聯(lián)合,并可以創(chuàng)建映射。
      以前,精通該有關(guān)技術(shù)領(lǐng)域的人類(lèi)注解者已被用來(lái)創(chuàng)建這些字符串之間的映射。這會(huì)是一個(gè)緩慢的勞動(dòng)密集型過(guò)程。在分類(lèi)器訓(xùn)練中,例如,關(guān)于每項(xiàng)給定任務(wù),人類(lèi)注解者手動(dòng)地選擇他們發(fā)現(xiàn)與該任務(wù)相關(guān)的查詢(xún)。假定可能存在成百上千項(xiàng)任務(wù)和成千上萬(wàn)個(gè)查詢(xún),那么,對(duì)于注解者而言,難以記住所有這些任務(wù)和查詢(xún)并且把注解工作做得前后一致。此外,由于人類(lèi)的認(rèn)識(shí)力有限,因此,該過(guò)程會(huì)容易出錯(cuò),并且前后矛盾。為了減少錯(cuò)誤,多個(gè)注解者可以從事于相同的查詢(xún)到任務(wù)的映射。但是,假定該領(lǐng)域的復(fù)雜性和這些注解者所要求的知識(shí)水平,則運(yùn)用多個(gè)人類(lèi)注解者的花費(fèi)會(huì)十分昂貴。
      鑒于前述內(nèi)容,需要能克服原先技術(shù)的各種限制和缺點(diǎn)的系統(tǒng)和方法。

      發(fā)明內(nèi)容
      半自動(dòng)系統(tǒng)被用來(lái)生成兩個(gè)短字符串集之間的候選映射,然后,由注解者來(lái)對(duì)它們進(jìn)行檢查。選擇足夠大的文件集,這些文件集較佳地與這兩個(gè)字符串集相關(guān)。在這些大文件集中搜索來(lái)自這兩個(gè)字符串集的每個(gè)字符串。與字符串匹配的每個(gè)文件被認(rèn)為與那個(gè)字符串相關(guān),并且可以提供有關(guān)該字符串的額外信息和上下文,它被用來(lái)生成這兩個(gè)字符串集之間的這些候選映射。明確地說(shuō),與某個(gè)數(shù)量的文件匹配的任何兩個(gè)字符串被認(rèn)為是相關(guān)的,并且被共同映射。然后,這些候選映射可以由注解者來(lái)檢驗(yàn)。
      這些注解者可以與本發(fā)明的這些候選映射協(xié)力來(lái)?yè)?dān)當(dāng)檢閱者,而不是如原先技術(shù)中所示的那樣來(lái)讓這些注解者生成這些候選映射。他們不必記住來(lái)自每個(gè)集合的所有這些字符串,他們可以只驗(yàn)證這些候選映射看起來(lái)是否有意義(即適當(dāng))。這是一個(gè)不太容易出錯(cuò)并且快得多的過(guò)程。由于自動(dòng)生成這些候選映射,因此,它們更加一致。這樣,通過(guò)根據(jù)本發(fā)明來(lái)注解數(shù)據(jù),花費(fèi)將會(huì)便宜得多,總體映射質(zhì)量也會(huì)更高。此外,這個(gè)方法將可用于使用任何語(yǔ)言的字符串。
      通過(guò)以下參照附圖來(lái)繼續(xù)詳細(xì)地描述說(shuō)明性實(shí)施例,本發(fā)明的額外的特點(diǎn)和優(yōu)點(diǎn)將變得一目了然。


      圖1展示了根據(jù)本發(fā)明的、查詢(xún)到文件集的示范映射;圖2展示了根據(jù)本發(fā)明的、任務(wù)到文件集的示范映射;圖3展示了根據(jù)本發(fā)明的、查詢(xún)到文件集的映射與任務(wù)到文件集的映射之間的示范重疊;圖4是流程圖,展示了根據(jù)本發(fā)明的、查詢(xún)到任務(wù)的映射的示范方法;圖5是舉例說(shuō)明,可用于描述根據(jù)本發(fā)明的、用于為所生成的映射分配加權(quán)的示范方法;圖6是框圖,展示了根據(jù)本發(fā)明的示范系統(tǒng)的各個(gè)組件;以及,圖7是框圖,表現(xiàn)了可以在其中執(zhí)行本發(fā)明的各個(gè)方面的示范計(jì)算環(huán)境。
      具體實(shí)施例方式
      圖1展示了查詢(xún)到文件集的示范映射;圖2展示了任務(wù)到文件集的示范映射;并且,圖3展示了查詢(xún)到文件集的映射與任務(wù)到文件集的映射之間的示范重疊。這些圖被用來(lái)展示一種示范方法,用于確定短字符串查詢(xún)(在圖1中被示作查詢(xún)101)與短字符串任務(wù)(在圖2中被示作任務(wù)202)之間是否存在關(guān)系。
      任務(wù)202和查詢(xún)101被映射到文本文件集——在圖1-3中被示作搜索空間110。在圖2和圖3中,在230處示出文件匹配任務(wù)202。在圖1和圖3中,在120處示出文件匹配查詢(xún)101。在圖3中,在350處示出文件匹配查詢(xún)101與任務(wù)202之間的該重疊。該重疊越大,該任務(wù)與查詢(xún)就越“相關(guān)”。參照任務(wù)和查詢(xún)字符串來(lái)描述該實(shí)施例,但本發(fā)明可適用于生成任何短字符串集之間的映射。
      更具體地說(shuō),圖1展示了該短字符串查詢(xún)101到搜索空間110中的更豐富的文本文件集的示范映射。由于查詢(xún)101是短字符串(例如,單一詞),因此,有很少的內(nèi)容可用于建立圖2中所示的、該查詢(xún)101與任務(wù)202之間的可能的關(guān)系。為了發(fā)現(xiàn)查詢(xún)101與任務(wù)202之間的可能的關(guān)系,需要首先將該查詢(xún)101和任務(wù)202映射到更豐富的尺度(例如,搜索空間110)。映射到更豐富的尺度可提供更多信息,通過(guò)該信息,可以比較任務(wù)202和查詢(xún)101,并確定它們之間是否存在關(guān)系。
      如120處所示,查詢(xún)101被映射到搜索空間110中的幾個(gè)文件(被表示為空間120)。為了確定該映射,搜索空間110中的每個(gè)文件需要加以文本搜索,以尋找查詢(xún)101。為了對(duì)文件進(jìn)行文本搜索,可按需要掃描或搜索該文件,以尋找查詢(xún)101所表示的那個(gè)詞或項(xiàng)的出現(xiàn)??梢允褂糜糜谠谖募兴阉魑谋敬脑摷夹g(shù)領(lǐng)域內(nèi)已知的任何系統(tǒng)、方法或技術(shù),來(lái)實(shí)行該文本搜索。導(dǎo)致匹配的任何文件推測(cè)起來(lái)與查詢(xún)101相關(guān),并且可以提供與查詢(xún)101的該含義有關(guān)的進(jìn)一步的信息。匹配可以是確切匹配;例如,那個(gè)詞或項(xiàng)確切地出現(xiàn)在該文件的該文本中。該匹配也可以是部分匹配——其中,在該文件中只發(fā)現(xiàn)那個(gè)詞或項(xiàng)的一部分。此外,可以使用更精密復(fù)雜的搜索方法來(lái)發(fā)現(xiàn)匹配——例如,為這些搜索項(xiàng)考慮普通的拼寫(xiě)錯(cuò)誤或形態(tài)異體(例如,作為“runs”的替換物的“run”、“ran”、“running”)??梢允褂糜糜谄ヅ湮谋敬脑摷夹g(shù)領(lǐng)域內(nèi)已知的任何系統(tǒng)、技術(shù)或方法。
      然后,可以使用該信息來(lái)生成候選映射。在圖1中,在120處示出這個(gè)匹配文件集。例如,假設(shè)搜索空間110包含兩個(gè)文件——文件1包含詞“foo”、“bar”和“banana”;以及,文件2包含詞“apple”、“pear”和“banana”。也假設(shè)該搜索項(xiàng)是“foo”。在這個(gè)例子中,在對(duì)文件1和文件2進(jìn)行文本搜索來(lái)尋找“foo”之后,“foo”與文件1匹配,而不是與文件2匹配。這樣,該項(xiàng)“foo”映射到文件1,而不是映射到文件2。同樣,如果該搜索項(xiàng)是“banana”,那么,“banana”將會(huì)與文件1和文件2匹配。這樣,該項(xiàng)“banana”將會(huì)映射到文件1和文件2。
      特定的匹配文件是否與查詢(xún)101相關(guān)取決于該搜索空間110的大小以及該搜索空間110與該查詢(xún)的相關(guān)性。例如,如果選擇大的搜索空間(例如,因特網(wǎng)),那么,可以想得到不會(huì)在任何兩個(gè)文本串之間發(fā)現(xiàn)匹配。如果選擇太小的搜索空間,那么,可能會(huì)發(fā)現(xiàn)太多的匹配。所以,謹(jǐn)慎地選擇該搜索空間110是至關(guān)重要的。
      用于確?!敖o定匹配有意義”并減少符合匹配的一種方法是只考慮實(shí)現(xiàn)在某個(gè)用戶(hù)確定的等級(jí)評(píng)定之上的等級(jí)評(píng)定的匹配??梢允褂糜糜跒樘囟ㄋ阉黜?xiàng)的返回匹配分等級(jí)的該技術(shù)領(lǐng)域內(nèi)已知的任何系統(tǒng)、方法或技術(shù),來(lái)生成該等級(jí)評(píng)定。例如,在該項(xiàng)將被認(rèn)為與那個(gè)文件匹配之前,該用戶(hù)確定的等級(jí)評(píng)定按需要依靠某個(gè)數(shù)字、與那個(gè)搜索項(xiàng)必須出現(xiàn)在文件中的次數(shù)相關(guān)或表示該次數(shù)。這個(gè)數(shù)字可以通過(guò)實(shí)驗(yàn)來(lái)加以確定,并且可以根據(jù)該搜索空間110中的文件數(shù)量、以及為任何給定搜索項(xiàng)而匹配的文件數(shù)量來(lái)加以調(diào)整。
      例如,查詢(xún)101只可以在特定文件中出現(xiàn)一次,而它可以在另一個(gè)文件中出現(xiàn)100次。直觀地說(shuō),與它在其中只出現(xiàn)一次的那個(gè)文件相比,查詢(xún)101更有可能與它在其中出現(xiàn)100次的該文件相關(guān)。通過(guò)只考慮包含大于某個(gè)用戶(hù)確定的頻率或次數(shù)的該查詢(xún)101的文件,實(shí)施例可以對(duì)這一點(diǎn)加以開(kāi)發(fā)利用。這個(gè)例子根據(jù)出現(xiàn)在特定文件中的該搜索項(xiàng)的頻率來(lái)討論“為搜索結(jié)果分等級(jí)”,但可以使用任何其他用于為搜索結(jié)果分等級(jí)的方法。此外,如根據(jù)圖5的進(jìn)一步的討論,這個(gè)等級(jí)評(píng)定可以被進(jìn)一步用來(lái)為所提議的查詢(xún)到任務(wù)的映射分等級(jí)。
      如圖2中所展示的,如230處所表示的,任務(wù)202按需要被映射到搜索空間110中的幾個(gè)文件上。為了確定該映射,搜索空間110中的每個(gè)文件需要加以文本搜索,以尋找任務(wù)202。導(dǎo)致匹配的任何文件推測(cè)起來(lái)與任務(wù)202相關(guān),并且可以提供與任務(wù)202的該含義有關(guān)的進(jìn)一步的信息。然后,可以使用該信息來(lái)生成候選映射。可以用如根據(jù)圖1中的該查詢(xún)到文件的映射而描述的類(lèi)似的方法來(lái)為這些候選映射分等級(jí)。
      圖3展示了與查詢(xún)101匹配的搜索空間110中的這些文件和與任務(wù)202匹配的搜索空間110中的這些文件之間的該重疊。在圖3中,在350處示出120與230之間的這些重疊文件。這個(gè)重疊集由來(lái)自搜索空間110的文件來(lái)填充,這些文件包含這些文件的該文本中的某處的查詢(xún)101和任務(wù)202。這個(gè)重疊區(qū)域越大,包含查詢(xún)101和任務(wù)202的文件就越多,并且,查詢(xún)與任務(wù)202之間更可能有關(guān)系或連接。此外,其他因素可以指出查詢(xún)101與任務(wù)102之間的關(guān)系或連接的高概率——例如,與該基礎(chǔ)查詢(xún)到文件的映射以及任務(wù)到文件的映射相關(guān)聯(lián)的高加權(quán)或等級(jí)評(píng)定可以指出關(guān)系的高概率,即使在實(shí)際上映射的文件很少的情況下,也是如此。
      重疊的大小350和查詢(xún)101與任務(wù)202之間存在關(guān)系的概率之間的該關(guān)系可以被用來(lái)分等級(jí)或?qū)⒓訖?quán)分配給所提議的映射。如根據(jù)圖4和圖5的進(jìn)一步的描述,按需要用類(lèi)似于上述方式的方式來(lái)比較多個(gè)查詢(xún)101項(xiàng)和任務(wù)202項(xiàng)。這些查詢(xún)101和任務(wù)202項(xiàng)將與比其他查詢(xún)101和任務(wù)202項(xiàng)更多數(shù)量的文件相匹配。直觀地說(shuō),這指出這些項(xiàng)更有可能相關(guān)。同樣,與特定文件匹配的一些查詢(xún)101和任務(wù)202項(xiàng)將接收關(guān)于該匹配文件的更高的加權(quán)或等級(jí)評(píng)定。與相同的文件匹配的查詢(xún)101項(xiàng)和任務(wù)202項(xiàng)(每個(gè)項(xiàng)具有高等級(jí)評(píng)定)也指出這些項(xiàng)有可能相關(guān)。
      如上所述,可以使用人類(lèi)審閱器來(lái)驗(yàn)證匹配。這些人類(lèi)審閱器花費(fèi)昂貴,又耗時(shí)。這樣,需要將人在檢查被提議的匹配的過(guò)程中所花費(fèi)的時(shí)間減到最少。為此目的,可以為被提議的匹配分等級(jí),并且,可以移除降到某個(gè)所需的用戶(hù)確定的門(mén)限以下的那些匹配。這樣,這個(gè)(這些)匹配將不會(huì)被發(fā)送給人類(lèi)注解者,以驗(yàn)證該匹配。該用戶(hù)確定的門(mén)限可以由管理員根據(jù)各種因素(例如,被提議的匹配的數(shù)量、以及該搜索空間110中的文件數(shù)量)來(lái)確定。根據(jù)圖5來(lái)更加詳細(xì)地描述示范方法。
      圖4是根據(jù)本發(fā)明的、用于生成查詢(xún)到任務(wù)的映射的示范方法的流程圖。通過(guò)將查詢(xún)和任務(wù)映射到文件或文本文檔的選擇并且結(jié)合這些結(jié)果,來(lái)生成這些查詢(xún)與這些任務(wù)之間的映射。選擇樣品文件集,并且,在這些文件上生成索引。在該生成的索引上搜索查詢(xún)集,并且,用來(lái)自該文件樣品集的這些文件來(lái)生成加權(quán)列表,這些文件與包括該查詢(xún)集中的每個(gè)查詢(xún)相匹配。在該生成的索引上搜索任務(wù)集,并且,用來(lái)自該文件樣品集的這些文件來(lái)生成加權(quán)列表,這些文件與包括該任務(wù)集中的每項(xiàng)任務(wù)相匹配。
      倒置來(lái)自與每項(xiàng)任務(wù)相匹配的該文件樣品集的該文件等級(jí)列表,以提供每個(gè)文件的列表、以及與那個(gè)文件匹配的任務(wù)的各個(gè)加權(quán)列表。查詢(xún)和這些匹配文件的這個(gè)列表可以與文件和匹配任務(wù)的該列表結(jié)合,以生成查詢(xún)和匹配任務(wù)的加權(quán)列表。參照任務(wù)和查詢(xún)來(lái)討論該示范實(shí)施例,但該方法可適用于創(chuàng)建任何短字符串集之間的映射。
      更具體地說(shuō),在401處,創(chuàng)建該文件集。如先前根據(jù)圖1的討論,該文件集按需要與是該映射的主題的這些任務(wù)和查詢(xún)的一般域相關(guān)。此外,應(yīng)該選擇足夠大的文件集。如果選擇太多文件,那么,在這些任務(wù)與文件以及這些查詢(xún)與文件之間可能沒(méi)有足夠的匹配,以創(chuàng)建這些查詢(xún)與任務(wù)之間的有意義的映射。但是,如果為該文件集選擇太少的文件,則有“生成太多的符合匹配”的危險(xiǎn)(這會(huì)(例如)為這些注解者造成額外的工作)。一般而言,假定任何符合匹配將會(huì)按需要具有與它們關(guān)聯(lián)的很小的加權(quán),則這個(gè)危險(xiǎn)很小,并且因此可以被排除(例如,在任何隨后的注解過(guò)程之前)。
      在405處,按需要使用這些被選擇的文件來(lái)創(chuàng)建索引。給文件集編索允許迅速搜索那些文件。關(guān)于文件的索引項(xiàng)可以包括那個(gè)文件中所包含的每個(gè)詞的列表。更加精密復(fù)雜的索引可以包括每個(gè)詞在文件中的出現(xiàn)次數(shù),從而允許為匹配給出“該匹配有意義”的等級(jí)或可能性。匹配的詞在文件中出現(xiàn)的次數(shù)越多,“該文件與該匹配的詞相關(guān)”的可能性就越大。同樣,可以通過(guò)使用文本規(guī)格化(包括使用拼寫(xiě)法、形態(tài)分析、標(biāo)點(diǎn)符號(hào)、短語(yǔ)等)來(lái)改善給定的文件索引。例如,該索引可以包括在這些文件中發(fā)現(xiàn)的詞的普通拼寫(xiě)錯(cuò)誤。在一個(gè)實(shí)施例中,可以使用標(biāo)準(zhǔn)操作系統(tǒng)索引服務(wù)來(lái)創(chuàng)建該文件索引,但也可以使用用于在一組文件上創(chuàng)建索引的該技術(shù)領(lǐng)域內(nèi)已知的任何系統(tǒng)、方法或技術(shù)。
      在408處,在這些文件的該索引上搜索每項(xiàng)任務(wù)。按需要生成包含與每項(xiàng)任務(wù)相匹配的這些文件的列表。假定所使用的索引類(lèi)型,則可以為與每項(xiàng)任務(wù)匹配的該文件列表分等級(jí),或者提供指出該匹配的質(zhì)量或“它精確”的可能性的置信度。然后,通過(guò)移除(例如,用戶(hù)確定的)等級(jí)或置信度以下的那些匹配,可以縮減該文件列表。預(yù)期可以使用用于文件搜索的該技術(shù)領(lǐng)域內(nèi)已知的任何系統(tǒng)、方法或技術(shù)。
      在411處,按需要用包括關(guān)于每項(xiàng)任務(wù)的條目和包含那項(xiàng)任務(wù)的這些文件的該列表來(lái)生成新的列表,這個(gè)新的列表包括關(guān)于該文件集中的每個(gè)文件的條目和與該文件條目匹配的這些關(guān)聯(lián)的任務(wù)。通過(guò)倒置或顛倒包括關(guān)于每項(xiàng)任務(wù)的條目和包含那項(xiàng)任務(wù)的這些文件的該列表,來(lái)按需要生成該列表。這個(gè)新的列表包括關(guān)于該文件集中的每個(gè)文件的條目、以及與該文件條目匹配的這些關(guān)聯(lián)的任務(wù)。與每個(gè)匹配關(guān)聯(lián)的任何等級(jí)評(píng)定或置信度按需要被保存在這個(gè)新的列表中。
      在415處,在與這些任務(wù)相同的這些文件的索引上搜索每個(gè)查詢(xún)。按需要生成包含與每個(gè)查詢(xún)相匹配的這些文件的列表。按需要為每個(gè)匹配規(guī)定等級(jí)或置信度。類(lèi)似于以上陳述的該任務(wù)縮減,假定所使用的索引類(lèi)型,則可以通過(guò)移除用戶(hù)確定的等級(jí)或置信度以下的那些匹配,來(lái)縮減與每個(gè)查詢(xún)匹配的文件的該列表??梢允褂糜糜谖募阉鞯脑摷夹g(shù)領(lǐng)域內(nèi)已知的任何系統(tǒng)、方法或技術(shù)。
      在417處,包含該查詢(xún)到文件的映射的這個(gè)生成的列表按需要與包含這些文件到任務(wù)的映射的該列表結(jié)合,從而創(chuàng)建該查詢(xún)到任務(wù)的映射。此外,如以下根據(jù)圖5的進(jìn)一步的描述,可以根據(jù)該查詢(xún)和任務(wù)對(duì)在文件中的匹配次數(shù),或根據(jù)被所使用的該搜索系統(tǒng)返回的該任務(wù)到文件以及查詢(xún)到文件的映射加權(quán)的函數(shù),來(lái)為每個(gè)被提議的查詢(xún)到任務(wù)的映射分等級(jí)或加權(quán)。在生成這些候選映射之后,可以將它們提交給人類(lèi)審閱器(或其它自動(dòng)化系統(tǒng))——在那里,隨后可以移除巧合或假映射。
      圖5是舉例說(shuō)明,可用于描述根據(jù)本發(fā)明的、用于為生成的映射分配加權(quán)的示范方法。在示范實(shí)施例中,通過(guò)搜索文本文件集中的這些查詢(xún)項(xiàng),來(lái)創(chuàng)建查詢(xún)項(xiàng)到文本文件的映射。按類(lèi)似的方式來(lái)生成任務(wù)項(xiàng)到文本文件的映射。倒置或顛倒查詢(xún)到文件的該映射,從而創(chuàng)建文件到查詢(xún)項(xiàng)的映射。任務(wù)到文件的該映射與文件到查詢(xún)的該映射結(jié)合,從而創(chuàng)建任務(wù)到查詢(xún)的映射??梢允褂锰囟ㄈ蝿?wù)被映射到特定查詢(xún)的次數(shù),來(lái)為這些結(jié)果分等級(jí)。同樣,可以使用該基礎(chǔ)查詢(xún)到文件以及任務(wù)到文件的映射的這些等級(jí)評(píng)定或置信度,來(lái)生成關(guān)于該查詢(xún)到任務(wù)的映射的總體等級(jí)評(píng)定或置信度。然后,可以確定門(mén)限,以移除某個(gè)等級(jí)以下的匹配,這樣可確保這些生成的匹配是精確的。在查詢(xún)和任務(wù)方面討論該示范實(shí)施例,但它同樣可適用于在一個(gè)或多個(gè)短字符串集與另一個(gè)或多個(gè)短字符串集之間生成映射。
      在501處,生成從這些查詢(xún)到這些文件的該映射。出于這個(gè)例子的目的,假設(shè)有三個(gè)查詢(xún)項(xiàng)1-3和十五個(gè)文本文件1-15。如所示,查詢(xún)1映射到文件3、5、10和15;查詢(xún)2映射到文件5和15;并且,查詢(xún)3映射到文件3。在這個(gè)例子中,當(dāng)該查詢(xún)項(xiàng)在該文件中至少出現(xiàn)一次時(shí),特定查詢(xún)被發(fā)現(xiàn)映射到文件。
      如根據(jù)圖4的討論,可以為特定映射分配置信度或加權(quán)。在用于為搜索結(jié)果分配加權(quán)或置信度的技術(shù)領(lǐng)域內(nèi)有已知的許多技術(shù)——包括倒置文檔頻率、該搜索項(xiàng)有多罕見(jiàn)或普通、以及如這個(gè)例子中所使用的術(shù)語(yǔ)頻率。通過(guò)使用術(shù)語(yǔ)頻率,可根據(jù)在該文件中發(fā)現(xiàn)該查詢(xún)的次數(shù)來(lái)為特定匹配分等級(jí)。如果匹配在某個(gè)等級(jí)以下,那么,可以移除或忽視它們。例如,如果特定的文件集和搜索項(xiàng)產(chǎn)生大量匹配,那么,該系統(tǒng)或用戶(hù)可以移除低于某個(gè)等級(jí)的任何匹配,以增加“這些匹配文件與該搜索項(xiàng)相關(guān)”的可能性??梢赃B同用于為任務(wù)與查詢(xún)之間的被提議的關(guān)系分等級(jí)的方法,來(lái)使用為這些匹配分配置信度的這個(gè)方法。
      在505處,按需要倒置或顛倒從這些查詢(xún)到這些文件的該映射,從而提供從這些文件到這些查詢(xún)的映射。如所示,文件3映射到查詢(xún)1和3;文件5映射到查詢(xún)2和1;文件10映射到查詢(xún)1;并且,文件15映射到查詢(xún)2和1。省略文件1、2、4、6、7、8、9、11、12、13和14,因?yàn)樗鼈儾慌c任何查詢(xún)相匹配。
      在508處,生成從這些任務(wù)到這些文件的該映射。出于這個(gè)例子的目的,假設(shè)有三個(gè)任務(wù)項(xiàng)1-3以及十五個(gè)文本文件1-15。如所示,任務(wù)1映射到文件5和10;任務(wù)2映射到文件3、10和15;并且,任務(wù)3映射到文件15。
      在511處,從這些任務(wù)到這些文件的該映射與從這些文件到這些查詢(xún)的該映射結(jié)合,從而創(chuàng)建從這些任務(wù)到查詢(xún)的映射。每個(gè)文件可以映射到幾個(gè)不同的查詢(xún)、以及幾項(xiàng)不同的任務(wù)。結(jié)果,當(dāng)這兩個(gè)映射結(jié)合時(shí),一些任務(wù)被示出多次映射到相同的查詢(xún)。任務(wù)與特定查詢(xún)匹配的次數(shù)可以提供關(guān)于“它是多好的匹配”的洞察力,而不是多余的。如所示,任務(wù)1映射到查詢(xún)2一次,映射到查詢(xún)1兩次;任務(wù)2映射到查詢(xún)1三次,映射到查詢(xún)2一次,映射到查詢(xún)3一次;并且,任務(wù)3映射到查詢(xún)2一次,映射到查詢(xún)1一次。
      在515處,生成關(guān)于每個(gè)映射的等級(jí)評(píng)定或置信度。如所示,利用所發(fā)現(xiàn)的重復(fù)匹配的數(shù)量,來(lái)為每個(gè)任務(wù)到查詢(xún)的映射分等級(jí)。每個(gè)重復(fù)的映射表示包含該查詢(xún)項(xiàng)和該任務(wù)項(xiàng)的文件。該等級(jí)越高,“這些任務(wù)與查詢(xún)之間的該映射有意義”的機(jī)會(huì)就越大。
      除了利用重復(fù)匹配的數(shù)量來(lái)進(jìn)行等級(jí)評(píng)定以外,還可以使用用于為搜索項(xiàng)分配加權(quán)或置信度的該技術(shù)領(lǐng)域內(nèi)已知的任何系統(tǒng)、方法或技術(shù),來(lái)生成關(guān)于每個(gè)映射的該等級(jí)評(píng)定或置信度。例如,如果使用被該搜索系統(tǒng)返回的這些加權(quán)(匹配程度),那么,在一些情況下,可能碰巧會(huì)有單一的大加權(quán)重疊,它比正發(fā)現(xiàn)的重復(fù)更重要。
      為了節(jié)省人類(lèi)檢查這些生成的映射所花費(fèi)的時(shí)間和金錢(qián),用戶(hù)可以根據(jù)某個(gè)門(mén)限來(lái)過(guò)濾這些生成的映射。這些檢閱者檢查每個(gè)生成的映射,以確定該查詢(xún)與任務(wù)之間的真實(shí)關(guān)系是否存在,或該匹配只是巧合、還是該文件集中的差的文本文件的結(jié)果。由于該檢查是精通該技術(shù)領(lǐng)域的人所執(zhí)行的花費(fèi)昂貴的過(guò)程,因此,需要將被檢查的映射的數(shù)量減到最少。為此目的,在這些審閱器將考慮該映射之前,該用戶(hù)按需要確定可以在任務(wù)與查詢(xún)之間發(fā)現(xiàn)的最低等級(jí)評(píng)定。在根據(jù)圖5而描述的這個(gè)例子中,確定重復(fù)匹配的數(shù)量應(yīng)該至少是2。如以上515中的該虛線(xiàn)所示,只有任務(wù)2與查詢(xún)1、以及任務(wù)1與查詢(xún)1之間的這些映射符合這個(gè)標(biāo)準(zhǔn)。在實(shí)踐中,匹配所需的最適宜的等級(jí)評(píng)定將在很大程度上取決于這些查詢(xún)和任務(wù)被映射到那里的該搜索空間的大小、以及這些文件的相關(guān)性。
      圖6是框圖,展示了根據(jù)本發(fā)明的示范系統(tǒng)的各個(gè)組件。該系統(tǒng)包括選擇器組件602、搜索器組件605、第一生成器組件606、第二生成器組件607、第三生成器組件611和審閱器組件615。
      該選擇器組件602按需要被用來(lái)選擇文件集,該文件集可以被用來(lái)創(chuàng)建短查詢(xún)字符串集與短任務(wù)字符串集之間的映射。由于這些查詢(xún)和任務(wù)是短字符串,因此,有很少可以通過(guò)其來(lái)生成映射的信息。如根據(jù)圖1的描述,按需要選擇與這些查詢(xún)和任務(wù)字符串的域相關(guān)的文件集。然后,這些查詢(xún)和任務(wù)按需要被映射到該文件集。映射到相同文件的查詢(xún)和任務(wù)被認(rèn)為相關(guān),所以共同映射。利用這個(gè)方式,生成這些查詢(xún)與任務(wù)之間的映射。為此目的,由選擇器組件602選擇的該文件集需要與這些查詢(xún)和任務(wù)的一般域相關(guān),并且需要具有足夠的大小,以便有足夠的文件來(lái)創(chuàng)建該映射;并不是每個(gè)查詢(xún)都映射到每項(xiàng)任務(wù)??梢允褂糜布?、軟件或兩者的組合,來(lái)執(zhí)行選擇器組件602。在查詢(xún)和任務(wù)集方面討論該實(shí)施例,但它可適用于創(chuàng)建任何短字符串集之間的映射。
      該搜索器組件605按需要被用來(lái)在這些被選擇的文本文件中搜索來(lái)自該查詢(xún)集和該任務(wù)集的這些字符串的出現(xiàn)。按需要在該文件集中對(duì)每個(gè)查詢(xún)和任務(wù)進(jìn)行文本搜索。如根據(jù)圖1-3的進(jìn)一步的討論,對(duì)這些被選擇的文件進(jìn)行文本搜索,以尋找每個(gè)查詢(xún)和任務(wù)的出現(xiàn)。此外,搜索器組件605按需要為被發(fā)現(xiàn)的任何匹配分配加權(quán)或置信度,從而指出那個(gè)特定文件與該搜索項(xiàng)有多相關(guān)。可以使用用于在文本文件集中搜索字符串并為這些結(jié)果分配加權(quán)或置信度的該技術(shù)領(lǐng)域內(nèi)已知的任何系統(tǒng)、方法或技術(shù)。可以使用硬件、軟件或兩者的組合來(lái)執(zhí)行搜索器組件605。
      該第一生成器組件606按需要被用來(lái)生成這些查詢(xún)與該文件集之間的該映射。該生成的映射可以包括包含關(guān)于每個(gè)查詢(xún)項(xiàng)的條目的列表、以及包含那個(gè)查詢(xún)項(xiàng)的來(lái)自該文件集的每個(gè)文件。通過(guò)只增加實(shí)現(xiàn)過(guò)某個(gè)等級(jí)或置信度的文件,可以由第一生成器組件606來(lái)為給定項(xiàng)進(jìn)一步改進(jìn)該生成的映射。例如,被搜索器組件605發(fā)現(xiàn)與特定查詢(xún)項(xiàng)匹配的給定文件可能已接收低加權(quán),而與該查詢(xún)項(xiàng)匹配的另一個(gè)文件可能已接收很高的加權(quán)。通過(guò)定義,與具有該低加權(quán)的該文件相比,具有該高加權(quán)的該文件更有可能與該查詢(xún)項(xiàng)相關(guān)。第一生成器組件606可以將條目加入該列表——在那里,該文件與具有用戶(hù)規(guī)定的數(shù)量以上的加權(quán)或置信度的該查詢(xún)項(xiàng)相匹配??梢栽谟布④浖騼烧叩慕M合中執(zhí)行第一生成器606。
      該第二生成器組件607按需要被用來(lái)生成這些任務(wù)與這些被選擇的文件之間的該映射。該生成的映射可以包括包含關(guān)于每個(gè)任務(wù)項(xiàng)的條目的列表、以及包含那個(gè)任務(wù)項(xiàng)的來(lái)自該文件集的每個(gè)文件。通過(guò)只增加包含具有某個(gè)用戶(hù)規(guī)定的數(shù)量以上的加權(quán)或置信度的該任務(wù)項(xiàng)的文件,可以由第二生成器組件607來(lái)為給定項(xiàng)進(jìn)一步改進(jìn)該生成的映射。根據(jù)第一生成器組件606來(lái)更加詳細(xì)地描述這一點(diǎn)??梢允褂糜布④浖騼烧叩慕M合來(lái)執(zhí)行第二生成器組件607。
      該第三生成器組件611按需要被用來(lái)生成該短查詢(xún)集與該短任務(wù)集之間的該映射。通過(guò)將從這些查詢(xún)項(xiàng)到該文件集的映射與從這些任務(wù)項(xiàng)到該文件集的映射結(jié)合,來(lái)按需要生成該映射。查詢(xún)與任務(wù)之間的每個(gè)單獨(dú)的映射對(duì)應(yīng)于包含該查詢(xún)和該任務(wù)項(xiàng)的那個(gè)文件集中的至少一個(gè)文件。一些查詢(xún)和任務(wù)項(xiàng)在來(lái)自該文件集的多個(gè)文件中加以匹配或被共同包含于其中。通過(guò)移除共同出現(xiàn)在小于某個(gè)被確定的門(mén)限內(nèi)的那些查詢(xún)和任務(wù)映射,第三生成器組件611可以進(jìn)一步改進(jìn)該映射??梢詤⒄毡惶嶙h的映射的總數(shù)或該初始文件集的大小,來(lái)確定該門(mén)限。
      同樣,通過(guò)根據(jù)與該查詢(xún)到文件的映射以及該任務(wù)到文件的映射相關(guān)聯(lián)的基礎(chǔ)等級(jí)評(píng)定或置信度來(lái)創(chuàng)建關(guān)于每個(gè)映射的等級(jí)評(píng)定或置信度,可以改進(jìn)該查詢(xún)與任務(wù)項(xiàng)之間的該映射。如該搜索器組件605所生成的,每個(gè)匹配的查詢(xún)和任務(wù)項(xiàng)具有關(guān)于該基礎(chǔ)查詢(xún)到文件的映射以及該任務(wù)到文件的映射的關(guān)聯(lián)的加權(quán)或置信度。通過(guò)結(jié)合這兩個(gè)等級(jí)評(píng)定,可以為該查詢(xún)到任務(wù)的映射生成組合等級(jí)評(píng)定。第三生成器組件611可以移除接收某個(gè)被確定的門(mén)限以下的等級(jí)評(píng)定的那些查詢(xún)和任務(wù)映射??梢栽谟布?、軟件或兩者的組合中執(zhí)行第三生成器組件611。
      該審閱器組件615按需要確定查詢(xún)與任務(wù)之間的這些生成的映射中的哪些有意義;并且,按需要移除沒(méi)有意義的那些映射。按需要掌握這些查詢(xún)和任務(wù)項(xiàng)的該有關(guān)主題方面的技能的、擔(dān)當(dāng)審閱器的人類(lèi)注解者可以檢查每個(gè)映射,并且如果該查詢(xún)和任務(wù)項(xiàng)看起來(lái)不相關(guān),則可以移除映射。這個(gè)檢查也可以自動(dòng)化或計(jì)算機(jī)化。在這類(lèi)情況下,可以在硬件、軟件或兩者的組合中執(zhí)行這個(gè)檢閱者組件615。
      示范計(jì)算環(huán)境圖7展示了可以在其中執(zhí)行本發(fā)明的合適的計(jì)算系統(tǒng)環(huán)境700的例子。計(jì)算系統(tǒng)環(huán)境700只是合適的計(jì)算環(huán)境的一個(gè)例子,它并不意在對(duì)本發(fā)明的使用或功能性的范圍提出任何限制。也不應(yīng)該將計(jì)算環(huán)境700解釋為具有涉及示范操作環(huán)境700中所展示的任何一個(gè)組件或組件組合的任何從屬性或要求。
      本發(fā)明可用于眾多其他的通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置??赡苓m用于本發(fā)明的眾所周知的計(jì)算系統(tǒng)、環(huán)境和/或配置的例子包括(但不局限于)個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PCs、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等。
      可以在正由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令(例如,程序模塊)的一般背景中描述本發(fā)明。通常,程序模塊包括執(zhí)行特殊任務(wù)或?qū)嵤┨厥獾某橄髷?shù)據(jù)類(lèi)型的例行程序、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過(guò)通信網(wǎng)絡(luò)或其他數(shù)據(jù)傳輸介質(zhì)而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊和其他數(shù)據(jù)可以位于包括記憶存儲(chǔ)設(shè)備的本地計(jì)算機(jī)存儲(chǔ)介質(zhì)和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
      參照?qǐng)D7,用于執(zhí)行本發(fā)明的示范系統(tǒng)包括采取計(jì)算機(jī)710的形式的通用計(jì)算設(shè)備。計(jì)算機(jī)710的組件可以包括(但不局限于)處理單元720、系統(tǒng)存儲(chǔ)器730和系統(tǒng)總線(xiàn)721,系統(tǒng)總線(xiàn)721將包括該系統(tǒng)存儲(chǔ)器的各種系統(tǒng)組件耦合到處理單元720。系統(tǒng)總線(xiàn)721可以是幾種類(lèi)型的總線(xiàn)結(jié)構(gòu)(包括存儲(chǔ)總線(xiàn)或存儲(chǔ)控制器、外圍總線(xiàn)、以及使用各種總線(xiàn)構(gòu)造中的任何總線(xiàn)構(gòu)造的局域總線(xiàn))中的任何總線(xiàn)結(jié)構(gòu)。
      計(jì)算機(jī)710通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可由計(jì)算機(jī)710存取的任何可用介質(zhì),它包括易失和非易失介質(zhì)、可移動(dòng)和不可移動(dòng)的介質(zhì)。舉例來(lái)講(不作限制),計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括易失和非易失的可移動(dòng)和不可移動(dòng)的介質(zhì),該介質(zhì)用關(guān)于信息(例如,計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù))存儲(chǔ)的任何方法或技術(shù)來(lái)加以執(zhí)行。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括(但不局限于)RAM、ROM、EEPROM、快閃存儲(chǔ)器或其他存儲(chǔ)技術(shù)、CD-ROM、數(shù)字通用光盤(pán)(DVD)或其他光盤(pán)存儲(chǔ)器、盒式磁帶、磁帶、磁盤(pán)存儲(chǔ)器或其他磁性存儲(chǔ)設(shè)備、或可以被用來(lái)存儲(chǔ)所需信息并可以由計(jì)算機(jī)710來(lái)進(jìn)行存取的其他任何介質(zhì)。通信介質(zhì)通常具體表現(xiàn)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或調(diào)制數(shù)據(jù)信號(hào)(例如,載波或其他傳送機(jī)制)中的其他數(shù)據(jù),它包括任何信息傳遞介質(zhì)。舉例來(lái)講(不作限制),通信介質(zhì)包括有線(xiàn)介質(zhì)(例如,有線(xiàn)網(wǎng)絡(luò)或直線(xiàn)連接)和無(wú)線(xiàn)介質(zhì)(例如,聲音、RF、紅外線(xiàn)和其他無(wú)線(xiàn)介質(zhì))。以上任何內(nèi)容的組合也應(yīng)該被包括在計(jì)算機(jī)可讀介質(zhì)的范圍以?xún)?nèi)。
      系統(tǒng)存儲(chǔ)器730包括采取易失和/或非易失存儲(chǔ)器(例如,ROM 731和RAM 732)的形式的計(jì)算機(jī)存儲(chǔ)介質(zhì)?;据斎?輸出系統(tǒng)733(BIOS)通常被存儲(chǔ)在ROM 731中,該基本輸入/輸出系統(tǒng)包含有助于在計(jì)算機(jī)710內(nèi)的各個(gè)元件之間傳送信息(例如,在啟動(dòng)期間)的這些基本例行程序。RAM 732通常包含可立即由處理單元720存取并且/或者目前正由處理單元720進(jìn)行操作的數(shù)據(jù)和/或程序模塊。舉例來(lái)講(不作限制),圖7展示了操作系統(tǒng)734、應(yīng)用程序735、其他程序模塊736和程序數(shù)據(jù)737。
      計(jì)算機(jī)710也可以包括其他可移動(dòng)/不可移動(dòng)的易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)。只舉例來(lái)講,圖7展示了從不可移動(dòng)的非易失磁性介質(zhì)讀取或?qū)ζ鋵?xiě)入的硬盤(pán)驅(qū)動(dòng)器740、從可移動(dòng)的非易失磁盤(pán)752讀取或?qū)ζ鋵?xiě)入的磁盤(pán)驅(qū)動(dòng)器751,以及從可移動(dòng)的非易失光盤(pán)756(例如,CD-ROM或其他光學(xué)介質(zhì))讀取或?qū)ζ鋵?xiě)入的光盤(pán)驅(qū)動(dòng)器755??梢员挥糜谠撌痉恫僮鳝h(huán)境中的其他可移動(dòng)/不可移動(dòng)的易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)包括(但不局限于)卡型盒式磁帶機(jī)、快閃存儲(chǔ)卡、數(shù)字通用光盤(pán)、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤(pán)驅(qū)動(dòng)器741通常通過(guò)不可移動(dòng)的存儲(chǔ)接口(例如,接口740)而被連接到系統(tǒng)總線(xiàn)721,磁盤(pán)驅(qū)動(dòng)器751和光盤(pán)驅(qū)動(dòng)器755通常由可移動(dòng)的存儲(chǔ)接口(例如,接口750)連接到系統(tǒng)總線(xiàn)721。
      這些驅(qū)動(dòng)器及其關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)710提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲(chǔ)。在圖7中,例如,硬盤(pán)驅(qū)動(dòng)器741被展示為存儲(chǔ)操作系統(tǒng)744、應(yīng)用程序745、其他程序模塊746和程序數(shù)據(jù)747。注意,這些組件可以等同于或不同于操作系統(tǒng)734、應(yīng)用程序735、其他程序模塊736和程序數(shù)據(jù)737。這里為操作系統(tǒng)744、應(yīng)用程序745、其他程序模塊746和程序數(shù)據(jù)747提供不同的號(hào)碼,以展示它們至少是不同的副本。用戶(hù)可以通過(guò)輸入設(shè)備(例如,鍵盤(pán)762和通常被稱(chēng)作“鼠標(biāo)”、“跟蹤球”或“觸墊”的定點(diǎn)設(shè)備761),來(lái)將命令和信息輸入計(jì)算機(jī)710。這些和其他的輸入設(shè)備經(jīng)常通過(guò)被耦合到該系統(tǒng)總線(xiàn)的用戶(hù)輸入接口760而被連接到處理單元720,但也可以由其他接口和總線(xiàn)結(jié)構(gòu)來(lái)加以連接。監(jiān)視器791或其他類(lèi)型的顯示設(shè)備也經(jīng)由接口(例如,視頻接口790)而被連接到系統(tǒng)總線(xiàn)721。除該監(jiān)視器以外,計(jì)算機(jī)也可以包括其他外圍輸出設(shè)備(例如,揚(yáng)聲器797和打印機(jī)796),這些外圍輸出設(shè)備可以通過(guò)輸出外圍接口795來(lái)加以連接。
      計(jì)算機(jī)710可以使用與一臺(tái)或多臺(tái)遠(yuǎn)程計(jì)算機(jī)(例如,遠(yuǎn)程計(jì)算機(jī)780)的邏輯連接而在聯(lián)網(wǎng)環(huán)境中進(jìn)行操作。遠(yuǎn)程計(jì)算機(jī)780可能是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其他共同的網(wǎng)絡(luò)節(jié)點(diǎn),它通常包括以上相對(duì)于計(jì)算機(jī)710而描述的許多或所有這些元件,盡管圖7中只展示了記憶存儲(chǔ)設(shè)備781。所描繪的這些邏輯連接包括LAN 771和WAN 773,但也可以包括其他網(wǎng)絡(luò)。
      當(dāng)被用于LAN聯(lián)網(wǎng)環(huán)境中時(shí),計(jì)算機(jī)710通過(guò)網(wǎng)絡(luò)接口或適配器770而被連接到LAN 771。當(dāng)被用于WAN聯(lián)網(wǎng)環(huán)境中時(shí),計(jì)算機(jī)710通常包括調(diào)制解調(diào)器772或用于在WAN 773(例如,因特網(wǎng))上建立通信的其他裝置。調(diào)制解調(diào)器772(可能是內(nèi)置的,也可能是外置的)可以經(jīng)由用戶(hù)輸入接口760或其他適當(dāng)?shù)臋C(jī)制而被連接到系統(tǒng)總線(xiàn)721。在聯(lián)網(wǎng)環(huán)境中,相對(duì)于計(jì)算機(jī)710或其各個(gè)部分而描繪的程序模塊可以被存儲(chǔ)在該遠(yuǎn)程記憶存儲(chǔ)設(shè)備中。舉例來(lái)講(不作限制),圖7將遠(yuǎn)程應(yīng)用程序785展示為駐留在存儲(chǔ)設(shè)備781上。將會(huì)理解所示的這些網(wǎng)絡(luò)連接起示范的作用,可以使用在這些計(jì)算機(jī)之間建立通信鏈路的其他手段。
      如上所述,已連同各種計(jì)算設(shè)備來(lái)描述本發(fā)明的示范實(shí)施例,但這些基礎(chǔ)概念可以被應(yīng)用于任何計(jì)算設(shè)備或系統(tǒng)。
      可以連同硬件或軟件,或者在適當(dāng)?shù)那闆r下可以連同兩者的組合來(lái)執(zhí)行這里所描述的各種技術(shù)。這樣,本發(fā)明的這些方法和裝置、或某些方面或其各個(gè)部分可以采取在有形介質(zhì)(例如,軟盤(pán)、CD-ROMs、硬驅(qū)動(dòng)器、或任何其他的機(jī)器可讀存儲(chǔ)介質(zhì))中被具體表現(xiàn)的程序代碼(即指令)的形式,其中,當(dāng)該程序代碼被載入機(jī)器(例如,計(jì)算機(jī))并由該機(jī)器來(lái)執(zhí)行時(shí),該機(jī)器成為用于實(shí)踐本發(fā)明的裝置。在可編程序計(jì)算機(jī)上的程序代碼執(zhí)行的情況中,該計(jì)算設(shè)備將通常包括處理器、該處理器可讀的存儲(chǔ)介質(zhì)(包括易失和非易失存儲(chǔ)器和/或存儲(chǔ)元件)、至少一個(gè)輸入設(shè)備、以及至少一個(gè)輸出設(shè)備。如果需要的話(huà),可以用匯編或機(jī)器語(yǔ)言來(lái)執(zhí)行這個(gè)(這些)程序。無(wú)論如何,該語(yǔ)言可能是編譯或解釋語(yǔ)言,并且可能與硬件實(shí)施結(jié)合。
      本發(fā)明的這些方法和裝置也可以經(jīng)由以程序代碼的形式而得到具體表現(xiàn)的通信來(lái)加以實(shí)踐,該程序代碼在某個(gè)傳輸介質(zhì)上(例如,在電線(xiàn)線(xiàn)路或電纜線(xiàn)路上、通過(guò)光纖、或經(jīng)由任何其他形式的傳輸)被傳送,其中,當(dāng)該程序代碼被機(jī)器(例如,EPROM、門(mén)陣列、可編程邏輯設(shè)備(PLD)、客戶(hù)計(jì)算機(jī)、或類(lèi)似的機(jī)器)接收、被載入該機(jī)器并且被該機(jī)器執(zhí)行時(shí),該機(jī)器成為用于實(shí)踐本發(fā)明的裝置。當(dāng)在通用處理器上被執(zhí)行時(shí),該程序代碼與該處理器結(jié)合,以提供獨(dú)特的裝置,該裝置進(jìn)行操作來(lái)調(diào)用本發(fā)明的該功能性。另外,連同本發(fā)明來(lái)加以使用的任何存儲(chǔ)技術(shù)一定可以是硬件和軟件的組合。
      已連同各幅圖中的這些較佳實(shí)施例來(lái)描述本發(fā)明,但將會(huì)理解在不脫離本發(fā)明的前提下,可以使用其他類(lèi)似的實(shí)施例,或者,可以對(duì)用于執(zhí)行本發(fā)明的相同功能的這些所描述的實(shí)施例進(jìn)行修改或添加。所以,本發(fā)明不應(yīng)該局限于任何單一的實(shí)施例,而應(yīng)該根據(jù)所附權(quán)利要求書(shū)來(lái)在闊度和范圍上加以解釋。
      權(quán)利要求
      1.一種用于確定第一字符串集與第二字符串集之間的關(guān)系的方法,其特征在于,包括選擇一文件集;利用所述文件集來(lái)創(chuàng)建索引;在所述索引中搜索與所述第一字符串集相關(guān)的文件;創(chuàng)建第一列表,所述第一列表包括關(guān)于來(lái)自所述第一字符串集的每個(gè)字符串的條目,以及與該字符串相關(guān)的來(lái)自所述文件集的文件;在所述索引中搜索與所述第二字符串集相關(guān)的文件;創(chuàng)建第二列表,所述第二列表包括關(guān)于來(lái)自所述第二字符串集的每個(gè)字符串的條目,以及與該字符串相關(guān)的來(lái)自所述文件集的文件;從所述第一列表中生成第三列表,所述第三列表包括關(guān)于來(lái)自所述文件集的每個(gè)文件的條目,以及與該文件相關(guān)的來(lái)自所述第一字符串集的字符串;以及從所述第二列表和所述第三列表中生成第四列表,所述第四列表包括關(guān)于來(lái)自所述第二字符串集的每個(gè)字符串的條目,以及來(lái)自所述第一字符串集的字符串(如果有的話(huà)),這些字符串與來(lái)自所述第二字符串集的字符串所相關(guān)的來(lái)自所述文件集的同一文件相關(guān)。
      2.如權(quán)利要求1所述的方法,其特征在于,還包括確定所述第四列表中的條目是否表示來(lái)自所述第二字符串集的字符串與來(lái)自所述第一字符串集的字符串之間的有效關(guān)系;以及從所述第四列表中移除不表示來(lái)自所述第二字符串集的字符串與來(lái)自所述第一字符串集的字符串之間的有效關(guān)系的任何條目。
      3.如權(quán)利要求1所述的方法,其特征在于,還包括生成關(guān)于所述第一列表和所述第二列表中的每個(gè)條目的等級(jí)評(píng)定;并且,使用來(lái)自所述第一列表和所述第二列表的這些生成的等級(jí)評(píng)定,來(lái)生成關(guān)于所述第四列表中的每個(gè)條目的等級(jí)評(píng)定。
      4.如權(quán)利要求3所述的方法,其特征在于,還包括確定一最低等級(jí);并且,從所述第四列表中移除具有所述最低等級(jí)以下的等級(jí)的任何條目。
      5.如權(quán)利要求4所述的方法,其特征在于,還包括確定所述第四列表中的條目是否表示來(lái)自所述第二字符串集的字符串與來(lái)自所述第一字符串集的字符串之間的有效關(guān)系;以及從所述第四列表中移除不表示來(lái)自所述第二字符串集的字符串與來(lái)自所述第一字符串集的字符串之間的有效關(guān)系的任何條目。
      6.如權(quán)利要求1所述的方法,其特征在于,選擇文件集包括在與所述第一字符串集和所述第二字符串集相同的域中選擇文件集。
      7.一種用于確定第一字符串集與第二字符串集之間的關(guān)系的系統(tǒng),其特征在于,包括選擇器組件,它選擇被存儲(chǔ)在存儲(chǔ)設(shè)備中的文件集;搜索器組件,它在所述文件集中搜索來(lái)自所述第一字符串集和所述第二字符串集的字符串;第一生成器組件,它生成包括至少一個(gè)對(duì)的第一列表,所述對(duì)包括來(lái)自所述第一字符串集的字符串和與所述字符串相關(guān)的來(lái)自所述文件集的文件;第二生成器組件,它生成包括至少一個(gè)對(duì)的第二列表,所述對(duì)包括來(lái)自所述第二字符串集的字符串和與所述字符串相關(guān)的來(lái)自所述文件集的文件;以及,第三生成器組件,它使用所述第一列表和所述第二列表來(lái)生成包括至少一個(gè)對(duì)的第三列表,所述對(duì)包括來(lái)自所述第一字符串集的字符串和來(lái)自所述第二字符串集的字符串,其中,來(lái)自所述第一字符串集的字符串和來(lái)自所述第二字符串集的字符串與來(lái)自所述文件集的至少一個(gè)文件彼此相關(guān)。
      8.如權(quán)利要求7所述的系統(tǒng),其特征在于,還包括審閱器組件,它驗(yàn)證所述第三列表中的各個(gè)對(duì),并從所述第三列表中移除無(wú)法被驗(yàn)證的各個(gè)對(duì)。
      9.如權(quán)利要求7所述的系統(tǒng),其特征在于,對(duì)于所述第一列表中的每一個(gè)對(duì),所述第一列表還包括置信度指示符。
      10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述搜索器組件基于來(lái)自所述第一字符串集的字符串與來(lái)自所述文件集的文件相關(guān)的概率,來(lái)確定所述對(duì)的置信度指示符。
      11.如權(quán)利要求10所述的系統(tǒng),其特征在于,如果所述置信度指示符小于預(yù)定數(shù)量,那么,所述第一生成器組件從所述第一列表中移除一個(gè)對(duì)。
      12.如權(quán)利要求10所述的系統(tǒng),其特征在于,如果所述置信度指示符低于所述第一列表的平均置信度指示符,那么,所述第一生成器組件從所述列表中移除一個(gè)對(duì)。
      13.如權(quán)利要求7所述的系統(tǒng),其特征在于,對(duì)于所述第二列表中的每一個(gè)對(duì),所述第二列表還包括置信度指示符。
      14.如權(quán)利要求13所述的系統(tǒng),其特征在于,所述搜索器組件基于來(lái)自所述第二字符串集的字符串與來(lái)自所述文件集的文件相關(guān)的概率,來(lái)確定所述對(duì)的置信度指示符。
      15.如權(quán)利要求13所述的系統(tǒng),其特征在于,如果所述置信度指示符小于預(yù)定數(shù)量,那么,所述第二生成器組件從所述第二列表中移除一個(gè)對(duì)。
      16.如權(quán)利要求13所述的系統(tǒng),其特征在于,如果所述置信度指示符低于所述第二列表的平均置信度指示符,那么,所述第二生成器組件從所述第二列表中移除一個(gè)對(duì)。
      17.如權(quán)利要求7所述的方法,其特征在于,所述選擇器組件選擇在與所述第一字符串集和所述第二字符串集相同的域中的文件集。
      18.一種用于創(chuàng)建第一字符串集與第二字符串集之間的映射的方法,其特征在于,包括維護(hù)文件索引;創(chuàng)建所述第一字符串集與所述文件索引之間的第一映射;創(chuàng)建所述第二字符串集與所述文件索引之間的第二映射;以及根據(jù)所述第一映射和所述第二映射,來(lái)創(chuàng)建所述第一字符串集與所述第二字符串集之間的映射。
      19.如權(quán)利要求18所述的方法,其特征在于,維護(hù)文件索引包括選擇在與所述第一字符串集和所述第二字符串集相同的域中的文件索引。
      20.如權(quán)利要求18所述的方法,其特征在于,創(chuàng)建第一映射包括在所述文件索引中搜索與來(lái)自所述第一字符串集中的至少一個(gè)字符串相關(guān)的文件;以及對(duì)于所述第一字符串集中與來(lái)自所述文件索引的文件相關(guān)的每個(gè)字符串,在第一列表中形成條目,所述條目包括來(lái)自所述第一字符串集的字符串、以及與來(lái)自所述第一字符串集的字符串相關(guān)的來(lái)自所述文件索引的每個(gè)文件。
      21.如權(quán)利要求20所述的方法,其特征在于,創(chuàng)建第二映射包括在所述文件索引中搜索與來(lái)自所述第二字符串集中的至少一個(gè)字符串相關(guān)的文件;以及對(duì)于所述第二字符串集中與來(lái)自所述文件索引的文件相關(guān)的每個(gè)字符串,在第二列表中形成條目,所述條目包括來(lái)自所述第二字符串集的字符串、以及與來(lái)自所述第二字符串集的字符串相關(guān)的來(lái)自所述文件索引的每個(gè)文件。
      22.如權(quán)利要求21所述的方法,其特征在于,創(chuàng)建第一字符串集與該第二字符串集之間的映射包括從所述第二列表中生成第三列表,其中,所述第三列表包括關(guān)于與來(lái)自所述第二字符串集的字符串相關(guān)的來(lái)自所述文件索引的每個(gè)文件的條目、以及與所述文件相關(guān)的來(lái)自所述第二字符串集的每個(gè)字符串;從所述第三列表和所述第一列表中生成第四列表,其中,所述第四列表包括關(guān)于與來(lái)自所述文件索引的文件相關(guān)的來(lái)自所述第一字符串集的每個(gè)字符串的條目、以及與來(lái)自所述第一字符串的字符串所相關(guān)的同一文件相關(guān)的來(lái)自所述第二字符串集的每個(gè)字符串。
      23.如權(quán)利要求22所述的方法,其特征在于,還包括生成關(guān)于所述第四列表中的每個(gè)條目的等級(jí)評(píng)定。
      24.一種用于創(chuàng)建第一字符串集與第二字符串集之間的映射的系統(tǒng),其特征在于,包括存儲(chǔ)設(shè)備,用于維護(hù)文件索引;以及處理器,用于創(chuàng)建所述第一字符串集與所述文件索引之間的第一映射、創(chuàng)建所述第二字符串集與所述文件索引之間的第二映射、以及基于所述第一映射和所述第二映射來(lái)創(chuàng)建所述第一字符串集與所述第二字符串集之間的映射。
      25.權(quán)利要求24的系統(tǒng),其特征在于,還包括用于接收所述第一字符串集和所述第二字符串集的輸入設(shè)備。
      26.權(quán)利要求24的系統(tǒng),其特征在于,所述處理器通過(guò)以下動(dòng)作來(lái)創(chuàng)建所述第一映射在所述文件索引中搜索與來(lái)自所述第一字符串集中的至少一個(gè)字符串相關(guān)的文件;以及對(duì)于所述第一字符串集中與來(lái)自所述文件索引的文件相關(guān)的每個(gè)字符串,在第一列表中形成條目,所述條目包括來(lái)自所述第一字符串集的字符串、以及與來(lái)自所述第一字符串集的字符串相關(guān)的來(lái)自所述文件索引的每個(gè)文件。
      27.如權(quán)利要求26所述的系統(tǒng),其特征在于,所述處理器通過(guò)以下動(dòng)作來(lái)創(chuàng)建所述第二映射在所述文件索引中搜索與來(lái)自所述第二字符串集中的至少一個(gè)字符串相關(guān)的文件;以及對(duì)于所述第二字符串集中與來(lái)自所述文件索引的文件相關(guān)的每個(gè)字符串,在第二列表中形成條目,所述條目包括來(lái)自所述第二字符串集的字符串、以及與來(lái)自所述第二字符串集的字符串相關(guān)的來(lái)自所述文件索引的每個(gè)文件。
      28.如權(quán)利要求27所述的系統(tǒng),其特征在于,所述處理器通過(guò)以下動(dòng)作來(lái)創(chuàng)建所述第一字符串集與所述第二字符串集之間的映射從所述第二列表中生成第三列表,其中,所述第三列表包括關(guān)于包含來(lái)自所述第二字符串集的字符串的來(lái)自所述文件索引的每個(gè)文件的條目、以及與所述文件相關(guān)的來(lái)自所述第二字符串集的每個(gè)字符串;以及從所述第三列表和所述第一列表中生成第四列表,其中,所述第四列表包括關(guān)于與來(lái)自所述文件索引的文件相關(guān)的來(lái)自所述第一字符串集的每個(gè)字符串的條目、以及與來(lái)自所述第一字符串的字符串所相關(guān)的同一文件相關(guān)的來(lái)自所述第二字符串集的每個(gè)字符串。
      29.如權(quán)利要求28所述的系統(tǒng),其特征在于,還包括通過(guò)所述處理器,來(lái)生成關(guān)于所述第四列表中的每個(gè)條目的等級(jí)評(píng)定。
      30.一種用于確定第一字符串集與第二字符串集之間的關(guān)系的方法,其特征在于,包括接收第一字符串集與第二字符串集之間的生成的映射,所述映射包括多個(gè)條目,每個(gè)條目包括來(lái)自所述第一字符串集的字符串和來(lái)自所述第二字符串集的字符串;確定條目是否表示來(lái)自所述第一字符串集的字符串與來(lái)自所述第二字符串集的字符串之間的有效關(guān)系;以及移除不表示有效關(guān)系的條目。
      31.如權(quán)利要求30所述的方法,其特征在于,還包括選擇文件集;從所述文件集中生成索引;生成從所述第一字符串集到所述文件集的第一映射;生成從所述第二字符串集到所述文件集的第二映射;使用所述第一映射和所述第二映射,來(lái)生成從所述第一字符串集到所述第二字符串集的第三映射;以及將所述第三映射發(fā)送給審閱器。
      全文摘要
      在兩個(gè)短字符串集之間生成候選映射。選擇與這兩個(gè)字符串集相關(guān)的文件集。在該文件集中,搜索來(lái)自這兩個(gè)字符串集的每個(gè)字符串。與相同的文件匹配的任何兩個(gè)字符串被認(rèn)為相關(guān),并被共同映射。然后,可以由注解者/審閱器來(lái)檢驗(yàn)這些候選映射。
      文檔編號(hào)G06F7/00GK1702653SQ20051007403
      公開(kāi)日2005年11月30日 申請(qǐng)日期2005年5月24日 優(yōu)先權(quán)日2004年5月24日
      發(fā)明者A·巴拉, H-W·弘, R·錢(qián)德拉塞卡 申請(qǐng)人:微軟公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1