国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      互聯(lián)網(wǎng)音樂文件排序方法、系統(tǒng)和搜索方法及搜索引擎的制作方法

      文檔序號(hào):6611858閱讀:303來源:國知局

      專利名稱::互聯(lián)網(wǎng)音樂文件排序方法、系統(tǒng)和搜索方法及搜索引擎的制作方法
      技術(shù)領(lǐng)域
      :本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù),更具體地說,本發(fā)明涉及一種互聯(lián)網(wǎng)音樂文件排序方法、系統(tǒng)和搜索方法及搜索引擎。
      背景技術(shù)
      :搜索引擎技術(shù)是近幾年非常熱門的技術(shù),以其為核心基礎(chǔ)的網(wǎng)頁搜索、新聞搜索、多媒體文件搜索、地圖搜索等都具有很大的實(shí)用價(jià)值和商業(yè)價(jià)值。目前,各種搜索引擎技術(shù)層出不窮,與其相關(guān)的各種搜索應(yīng)用也在飛速發(fā)展當(dāng)中。通常而言,多媒體文件搜索一般包括音樂文件搜索、視頻文件搜索和圖片文件搜索等。視頻文件搜索引擎以搜索技術(shù)為基礎(chǔ),檢索和提供RM、WMV及其它各種格式視頻文件的信息搜索和下載統(tǒng)一資源定位符(URL);圖片文件搜索引擎以搜索技術(shù)為基礎(chǔ),檢索和提供聯(lián)合圖像專家組(JPEG)及其它各種格式圖像文件的信息搜索和URL;音樂文件搜索引擎通常又叫Mp3搜索引擎,它以搜索技術(shù)為基礎(chǔ),檢索和提供Mp3及其它各種格式音樂文件的信息搜索和下載URL。音樂搜索引擎是一種互聯(lián)網(wǎng)服務(wù),通過瀏覽器為用戶提供方便的檢索入口。用戶可以通過它來4企索到自己想要下載/試聽的音樂URL源。通常用戶根據(jù)自己想要檢索的歌曲,構(gòu)造一個(gè)到多個(gè)關(guān)鍵字,然后向音樂搜索引擎的Web入口提交包含檢索關(guān)鍵字的檢索請(qǐng)求,音樂搜索引擎根據(jù)用戶輸入的檢索關(guān)鍵字進(jìn)行檢索,找到匹配用戶檢索關(guān)鍵字的音樂URL源記錄,并對(duì)檢索結(jié)果進(jìn)行排序,再將這些URL源記錄分頁返回給用戶。隨著搜索技術(shù)的不斷成熟,以及互聯(lián)網(wǎng)用戶對(duì)多媒體文件下載服務(wù)的需求不斷增大,近年來音樂搜索引擎的竟?fàn)幵絹碓郊ち?,技術(shù)發(fā)展也越來越快。因此,除了需要從數(shù)量上提高搜索結(jié)果(比如增加音樂文件鏈接的數(shù)量、減少死鏈接等)以外,還必須對(duì)搜索質(zhì)量進(jìn)行提高,以提供給用戶盡可能好的體驗(yàn)。在音樂文件搜索中需要對(duì)搜索結(jié)果進(jìn)行排序,而搜索結(jié)果的排序是搜索體驗(yàn)中最為關(guān)鍵的部分之一。然而,現(xiàn)有技術(shù)的音樂文件搜索技術(shù)中對(duì)搜索結(jié)果的排序較為隨意,檢索結(jié)果和檢索請(qǐng)求的相關(guān)性考慮不足,檢索結(jié)果的考慮因子不健全,從而使得用戶使用起來非常不方便。比如,目前的某些搜索引擎在進(jìn)行檢索結(jié)果排序時(shí),沒有考慮到同一歌手的歌曲重復(fù)相鄰出現(xiàn)的問題,而只是簡(jiǎn)單地根據(jù)歌曲的權(quán)重對(duì)其進(jìn)行排序,從而如果用戶要尋找的歌曲比較生僻,則無法很快的檢索到。例如在某音樂搜索引擎中檢索關(guān)鍵詞"第一次",檢索結(jié)果前三頁的結(jié)果中,只是出現(xiàn)了三首不同歌手的不同歌曲。而且,現(xiàn)有技術(shù)的音樂文件搜索中,在檢索結(jié)果的整潔有序性上也存在不足。例如現(xiàn)有技術(shù)的音樂搜索的檢索結(jié)果沒有考慮音樂記錄的文本相關(guān)性權(quán)重中歌曲名稱的長(zhǎng)度因子的影響,這就造成檢索結(jié)果也不整潔。舉例說明,假設(shè)用戶要尋找小虎隊(duì)演唱的"愛"歌曲,在某音樂檢索引擎中檢索關(guān)鍵詞"愛",檢索結(jié)果的排序在文字長(zhǎng)度方面雜亂無章,用戶無法確定該搜索引擎中是否有關(guān)于"愛"這首歌的URL源,也無法了解需要翻多少頁才可以檢索到該歌曲,這就給用戶的使用帶來了不便。
      發(fā)明內(nèi)容本發(fā)明實(shí)施例提出一種互聯(lián)網(wǎng)音樂文件排序方法,結(jié)合相關(guān)性考慮因子評(píng)估音樂文件與用戶檢索請(qǐng)求的相關(guān)性,從而使得與用戶檢索請(qǐng)求相關(guān)性較好的音樂文件更容易地呈現(xiàn)給用戶。本發(fā)明實(shí)施例提出一種音樂文件排序系統(tǒng),結(jié)合相關(guān)性考慮因子評(píng)估音樂文件與用戶檢索請(qǐng)求的相關(guān)性,從而使得與用戶檢索請(qǐng)求相關(guān)性較好的音樂文件更容易地呈現(xiàn)給用戶。本發(fā)明實(shí)施例還提出了一種音樂文件搜索方法,應(yīng)用該方法能夠搜索出與用戶檢索請(qǐng)求相關(guān)性較好的音樂文件。本發(fā)明實(shí)施例還提出了一種音樂文件搜索引擎,能夠搜索出與用戶檢索請(qǐng)求相關(guān)性較好的音樂文件。本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的一種互聯(lián)網(wǎng)音樂文件排序方法,包括計(jì)算音樂文件的文本相關(guān)性及數(shù)值相關(guān)性;根據(jù)所述文本相關(guān)性以及數(shù)值相關(guān)性,計(jì)算音樂文件的綜合相關(guān)性,并才艮據(jù)所述綜合相關(guān)性對(duì)該音樂文件進(jìn)行排序。一種搜索互聯(lián)網(wǎng)音樂文件的方法,該方法包括計(jì)算音樂文件的文本相關(guān)性及數(shù)值相關(guān)性;根據(jù)所述文本相關(guān)性以及數(shù)值相關(guān)性,計(jì)算音樂文件的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件進(jìn)行排序;將用戶輸入的檢索串分解為多個(gè)特定語素,并根據(jù)每個(gè)特定語素的相關(guān)性權(quán)重?cái)?shù)據(jù)和音樂文件排序結(jié)果,計(jì)算出符合用戶檢索請(qǐng)求的所有音樂文件針對(duì)所述用戶輸入檢索串的相關(guān)性權(quán)值,然后將所述符合用戶檢索請(qǐng)求的音樂文件按照所述相關(guān)性權(quán)值排序后返回給用戶。一種互聯(lián)網(wǎng)音樂文件排序系統(tǒng),該系統(tǒng)包括文本相關(guān)性計(jì)算單元,用于計(jì)算該音樂文件的文本相關(guān)性;數(shù)值相關(guān)性計(jì)算單元,用于計(jì)算該音樂文件的數(shù)值相關(guān)性;排序單元,用于根據(jù)所述音樂文件的文本相關(guān)性以及數(shù)值相關(guān)性,計(jì)算該音樂文件的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件進(jìn)行排序。一種互聯(lián)網(wǎng)音樂文件搜索引擎,該搜索引擎包括爬蟲,從互聯(lián)網(wǎng)抓取互聯(lián)網(wǎng)音樂文件,并將所述互聯(lián)網(wǎng)音樂文件的文本字段和數(shù)值因子發(fā)送給索引系統(tǒng);索引系統(tǒng),用于根據(jù)特定語素在互聯(lián)網(wǎng)音樂文件的文本字段的命中情況,計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性,根據(jù)所述音樂文件自身的數(shù)值因子及其權(quán)重,計(jì)算該音樂文件的數(shù)值相關(guān)性,并根據(jù)所述音樂文件針對(duì)該特定語素的文本相關(guān)性以及音樂文件的數(shù)值相關(guān)性,計(jì)算所述音樂文件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)音樂文件針對(duì)該特定語素進(jìn)行排序;檢索器,用于將用戶輸入的檢索串分解為多個(gè)特定語素,并根據(jù)每個(gè)特定語素的相關(guān)性權(quán)重?cái)?shù)據(jù)和針對(duì)每個(gè)特定語素的排序結(jié)果,計(jì)算出符合用戶檢索請(qǐng)求的所有音樂文件針對(duì)用戶輸入檢索串的相關(guān)性權(quán)值,然后將所述符合用戶檢索請(qǐng)求的音樂文件按照所述相關(guān)性權(quán)值排序后返回給用戶。從上述技術(shù)方案中可以看出,在本發(fā)明實(shí)施例中,計(jì)算音樂文件的文本相關(guān)性及數(shù)值相關(guān)性;然后再計(jì)算該音樂文件的綜合相關(guān)性,最后根據(jù)綜合相關(guān)性對(duì)該音樂文件針對(duì)該特定語素進(jìn)行排序。由此可見,應(yīng)用本發(fā)明以后,綜合了互聯(lián)網(wǎng)音樂文件的文本屬性和數(shù)值屬性等因素來對(duì)音樂搜索引擎的檢索結(jié)果進(jìn)行相關(guān)性排序,從而使得與用戶檢索請(qǐng)求相關(guān)性較好的歌曲URL源盡量排列在用戶檢索結(jié)果的前面,因此提高了音樂搜索引擎的相關(guān)性排序效果,檢索結(jié)果的排序能夠更好地滿足用戶需求。意圖2為根據(jù)本發(fā)明示范性實(shí)施例的音樂文件排序系統(tǒng)的示范性結(jié)構(gòu)示意圖3為根據(jù)本發(fā)明示范性實(shí)施例的音樂搜索引擎的示范性結(jié)構(gòu)示意圖。具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)表達(dá)得更加清楚明白,下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明再作進(jìn)一步詳細(xì)的說明。在本發(fā)明實(shí)施例中,綜合互聯(lián)網(wǎng)音樂文件的文本屬性和數(shù)值屬性等因素來對(duì)音樂搜索引擎的檢索結(jié)果進(jìn)行相關(guān)性排序。目的在于將與用戶檢索請(qǐng)求相關(guān)性較好的歌曲URL源盡量排列在用戶檢索結(jié)果的前面。用戶在音樂搜索引擎中輸入檢索關(guān)鍵詞列表來查找他(她)想試聽/下載的音樂。音樂搜索引擎返回的檢索結(jié)果由多條音樂記錄組成,每個(gè)音樂記錄包括一個(gè)音樂源URL、歌曲名、歌手名、專輯名等文本信息。如果一個(gè)音樂記錄的文本信息中包括用戶提交的所有檢索關(guān)鍵詞,那么此音樂記錄符合用戶的檢索需求,可能作為檢索結(jié)果中的一條記錄返回。在音樂搜索中,通常用戶輸入的檢索關(guān)鍵詞的個(gè)數(shù)較少,于是符合用戶數(shù)據(jù)檢索詞的音樂記錄的數(shù)目會(huì)比較多。它們可能是不同歌手的不同歌曲,甚者可能是同一首歌曲的不同URL來源的數(shù)據(jù)。這些符合用戶數(shù)據(jù)檢索詞的音樂記錄,有的是用戶想要檢索到的,有的則與用戶的需求并不相關(guān)。同時(shí),對(duì)于同一個(gè)歌手演唱的同一首歌曲的不同來源,其歌曲屬性(比如數(shù)據(jù)文件大小、編碼率、下載速度、連通率等)也會(huì)不同。為此,本發(fā)明實(shí)施例定義了歌曲質(zhì)量的概念。一個(gè)歌曲源能夠滿足用戶下載/試聽的需求程度,稱為該歌曲源的歌曲質(zhì)量。歌曲質(zhì)量是多個(gè)歌曲屬性的綜合考慮。通俗的講,一個(gè)歌曲源能夠讓用戶方便快速地連通下載,同時(shí)歌曲的播放質(zhì)量能夠比較好地滿足用戶欣賞試聽的需求,則認(rèn)為此首歌曲的歌曲質(zhì)量較好。同時(shí),本發(fā)明實(shí)施例還定義了相關(guān)性的概念。一個(gè)歌曲源記錄的文本信息與用戶提交的檢索詞列表能夠比較好的匹配,同時(shí)它的歌曲播放質(zhì)量比較高,則稱此歌曲與用戶檢索請(qǐng)求的文本相關(guān)性較好。對(duì)于音樂文件搜索來說,除了需要由搜索引擎搜索出多媒體文件的URL之外,通常還需要提供一些額外的多媒體文件信息。比如對(duì)于Mp3搜索引擎來說,除了提供Mp3文件的URL鏈接以外,通常還需要提供Mp3文件的歌曲名稱、歌手名稱、專輯名稱等信息。保證這些信息的完整和合理排序,是一個(gè)良好的音樂文件搜索引擎的基礎(chǔ)。音樂搜索的檢索結(jié)果將按照音樂文件數(shù)據(jù)記錄和用戶輸入的檢索串的相關(guān)性值來進(jìn)行排序。檢索串被分解成多個(gè)單語素,于是檢索串與音樂文件數(shù)據(jù)記錄的相關(guān)性也被分解為單語素與音樂文件數(shù)據(jù)記錄的相關(guān)性。單語素和指定文檔的相關(guān)性值由音樂數(shù)據(jù)文檔的一系列文本和數(shù)值屬性(相關(guān)性計(jì)算因子)來決定,相關(guān)性值在索引建立時(shí)就已經(jīng)計(jì)算好。圖1為根據(jù)本發(fā)明示范性實(shí)施例的音樂文件排序方法的示范性流程示意圖。如圖1所示,該方法包括步驟101:計(jì)算音樂文件的文本相關(guān)性及數(shù)值相關(guān)性。其中,既可以根據(jù)特定語素在互聯(lián)網(wǎng)音樂文件的文本字段中的命中情況,計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性;然后根據(jù)所述音樂文件自身的數(shù)值因子及其權(quán)重,計(jì)算該音樂文件的數(shù)值相關(guān)性。所述特定詞組或者特定詞句在互聯(lián)網(wǎng)音樂文件的文本字段中的命中情況,計(jì)算音樂文件針對(duì)該特定詞組或者特定詞句的文本相關(guān)性。其中,所迷文本字段可以包括歌曲名、歌手名、專輯名和歌詞中的一種或者多于一種的任意組合,此時(shí)計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性包括將該特定語素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以權(quán)重,然后將各項(xiàng)乘積相加以作為文本相關(guān)性數(shù)值;或?qū)⒃撎囟ㄕZ素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以各自權(quán)重,然后將各項(xiàng)乘積相加后再乘以對(duì)應(yīng)于音樂文件類型的文檔類型系數(shù)以作為文本相關(guān)性數(shù)值。其中,在決定各權(quán)重的大小時(shí),可以采用下述應(yīng)用準(zhǔn)則當(dāng)特定語素對(duì)應(yīng)于歌曲搜索時(shí),歌曲名的權(quán)重大于歌手名的權(quán)重,歌手名的權(quán)重大于專輯名的權(quán)重,專輯名的權(quán)重大于歌詞的權(quán)重;當(dāng)特定語素對(duì)應(yīng)于歌詞搜索時(shí),歌曲名的權(quán)重大于歌詞的權(quán)重,歌詞的權(quán)重大于專輯名的權(quán)重,專輯名的權(quán)重大于歌手名的權(quán)重;當(dāng)特定語素對(duì)應(yīng)于專輯搜索時(shí),專輯名的權(quán)重大于歌手名的權(quán)重,歌手名的權(quán)重大于歌詞的權(quán)重。音樂文件自身的數(shù)值因子可以包括可訪問性因子,可訪問性因子可以由下載速度因子和連通率因子來共同確定。所述音樂文件自身的數(shù)值因子可以包括下列因子中的任一個(gè)或者多于一個(gè)的任意組合歌曲熱門程度因子、歌手熱門程度因子、歌曲記錄所在的站點(diǎn)因子、文件大小因子、播放時(shí)長(zhǎng)因子、編碼率因子、修正數(shù)據(jù)的可信度因子、歌曲的新鮮度因子、網(wǎng)絡(luò)協(xié)議因子、文件類型修正因子等等。下面給出目前考慮的各種相關(guān)性因子以及其含義、對(duì)檢索結(jié)果的影響方式和取值范圍。本領(lǐng)域技術(shù)人員可以意識(shí)到,雖然下面列出了一些具體的相關(guān)性因子以及其計(jì)算方式,但是這不并構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限定。實(shí)質(zhì)上,對(duì)這些具體的相關(guān)性因子的描述僅為示范性描述,并不是窮舉性描述。1、可訪問性因子『^w、下載速度因子『w^和連通率因子^。""下載速度因子『,d和連通率因子『■一起決定音樂數(shù)據(jù)記錄的可訪問性『v淑??稍L問性因子^。M被大致映射到[1,100]的區(qū)間。連通率因子^。""對(duì)可訪問性『^影響較大,只有在連通率因子『,滿足了一定的要求后,才會(huì)考慮下載速度因子^^,此時(shí)下載速度越快,該音樂文件的數(shù)據(jù)記錄會(huì)越靠前。連通率因子『,可以作為一個(gè)分級(jí)閥值來影響可訪問性因子『v。下載速度可以有幾個(gè)分段。通常的wma格式的歌曲試聽的碼率為32kbps,即當(dāng)下載速度〉4K時(shí)可以滿足試聽的要求;mp3格式的音樂比較多見的是128kbps,這需要下載速度>15Kbps才可以較好地滿足試聽需求。當(dāng)下載速度達(dá)到一定的值后,下載速度再大對(duì)用戶的感受作用已經(jīng)不大。由于碼率的不同,可以將下載速度換算為相對(duì)值,即fRelSpeed=歌曲下載速度/歌曲編碼率。下載速度因子『s—取值由爬蟲檢測(cè)到實(shí)際下載速度計(jì)算而來,這個(gè)值也會(huì)與用戶在客戶端的下載速度有所不同。另外,以下準(zhǔn)則可以作為修正的因素如果碼率小于64kbps,則相對(duì)下載速度值最多只是設(shè)置到適合試聽;如果連通率很低,但是下載速度很高時(shí),也可以考慮下載速度對(duì)連通率因子的影響。2、歌曲熱門程度因子『"歌曲熱門程度因子『,由爬蟲直接統(tǒng)計(jì)得出,取值范圍在,并且要求平滑。歌曲越熱門,則歌曲記錄的排序結(jié)果優(yōu)先度越高,歌曲熱門程度因子的檢索結(jié)果的影響程度非常高,其相應(yīng)權(quán)重也應(yīng)該設(shè)置較高。3、歌手熱門程度因子^"歌手熱門程度因子Kn也是由爬蟲統(tǒng)計(jì)計(jì)算得出,取值范圍在,并且要求平滑。歌手越熱門,則歌曲記錄排序結(jié)果優(yōu)先度越高。4、歌曲記錄所在的站點(diǎn)因子^":例如,可以將歌曲記錄所在的站點(diǎn)劃分成為5種筒單的類型,優(yōu)先級(jí)依次從高到低1.編輯推薦的站點(diǎn);2.下載試聽效果較好的站點(diǎn);3.下載試聽效果一般的站點(diǎn);4.下載試聽效果不好的站點(diǎn);5.由作弊行為而要懲罰打壓的站點(diǎn)。爬蟲負(fù)責(zé)對(duì)站點(diǎn)類型進(jìn)行判斷,對(duì)應(yīng)于上述5種站點(diǎn)類型,^'的取值依次可以為100、70、50、30、10等。5、文件大小因子『^:爬蟲提供的音樂數(shù)據(jù)記錄中長(zhǎng)度字段為鏈接文件的實(shí)際長(zhǎng)度,在相關(guān)性計(jì)算中,將其轉(zhuǎn)換為0-100左右的一個(gè)浮點(diǎn)數(shù)。其計(jì)算公式如下<formula>formulaseeoriginaldocumentpage16</formula>其中A為修正參數(shù),A&為文件大小。使用此公式(1)的基本思想是定義不同的長(zhǎng)度區(qū)間,根據(jù)數(shù)據(jù)文件的長(zhǎng)度不同將其劃分到其不同級(jí)別的分值區(qū)間,同時(shí)在此區(qū)間中再根據(jù)文件大小的不同,讓其分值也具有微小的差異。對(duì)于不同音樂格式的文件其劃分區(qū)間方式不同,修正參數(shù)A的取值也不相同。6、播放時(shí)長(zhǎng)因子『""對(duì)播放時(shí)長(zhǎng)的處理與文件長(zhǎng)度的處理相似,但是不用區(qū)分文件數(shù)據(jù)格式。其統(tǒng)一計(jì)算公式如下<formula>formulaseeoriginaldocumentpage16</formula>其中A為修正參數(shù),""為播放時(shí)長(zhǎng),單位為秒。7、編碼率因子^。*:在音樂文件類型一定時(shí),時(shí)長(zhǎng)、碼率和大小存在一定關(guān)系,相關(guān)性計(jì)算中可以暫時(shí)不考慮編碼率因子『^的影響。8、修正數(shù)據(jù)的可信度因子^"":爬蟲直接下載下來的歌曲記錄數(shù)據(jù)可能許多文本字段不完整或者包括噪聲文本。爬蟲會(huì)根據(jù)數(shù)據(jù)記錄文件的屬性字段以及相關(guān)文本等對(duì)數(shù)據(jù)進(jìn)行修正去噪,使得記錄比較整潔。但是,可能會(huì)出現(xiàn)過修正的現(xiàn)象。于是對(duì)每個(gè)記錄提供一個(gè)修正可信度因子,表明修正出來的文本是否可信??尚哦纫蜃拥娜≈祬^(qū)間未[O,100],不必平滑。9、歌曲的新鮮度因子『,歌曲的新鮮度由歌曲所屬專輯的發(fā)行時(shí)間來確定。發(fā)行時(shí)間越近的專輯,其包含歌曲越優(yōu)先顯示。如果一個(gè)首歌曲屬于多個(gè)專輯,那么其新鮮度由最近發(fā)行的專輯的時(shí)間來計(jì)算。新鮮度的計(jì)算過程由爬蟲來完成。10、網(wǎng)絡(luò)協(xié)議因子『p'。'根據(jù)訪問數(shù)據(jù)記錄的協(xié)議不同,相關(guān)性計(jì)算中也會(huì)給記錄賦予不同的權(quán)值。爬蟲可以抓取兩種協(xié)議類型的數(shù)據(jù),分別為文件傳輸協(xié)議(FTP)和超文本傳輸協(xié)議(HTTP)。11、網(wǎng)段因子『胸音樂數(shù)據(jù)所在的網(wǎng)段位置也會(huì)影響結(jié)果的排序。在網(wǎng)通用戶的檢索返回結(jié)果中,處于網(wǎng)通網(wǎng)段的音樂數(shù)據(jù)排在優(yōu)先的位置;在電信用戶的檢索返回結(jié)果中,處于電信網(wǎng)段的音樂數(shù)據(jù)排在優(yōu)先的位置。此處的相關(guān)性計(jì)算中還沒有加上網(wǎng)段的影響因子。顯然,根據(jù)音樂搜索服務(wù)器的部署不同,網(wǎng)段因子的影響會(huì)有所不同。12、文件類型修正因子^爐文件類型修正因子A,的重要程度在根據(jù)其他數(shù)值因子計(jì)算出來的綜合值之上。對(duì)不同的數(shù)據(jù)文件類型,文件類型修正因子^^取不同的值,以區(qū)分哪些類型的歌曲優(yōu)先顯示,哪些類型的歌曲次要顯示。目前文件類型修正因子的取值如下<formula>formulaseeoriginaldocumentpage17</formula>(式3)文件類型修正因子,用于區(qū)分哪些類型的歌曲優(yōu)先顯示。同時(shí),還可以將文件類型修正因子~"與文件大小因子相結(jié)合,用于將太大或太小的數(shù)據(jù)記錄盡量排在檢索結(jié)果的最后。比如,可以將文件大小小于1M的mp3、小于0.5M的wma、小于0.5M的rm賦于非常低(例如是0.05或者0.1)的文件類型因子,這樣可以保證太小的音樂文件盡量排在檢索結(jié)果的最后,而不至于影響用戶的感受。類似地,也可以將文件大小過大的mp3、wma、rm等音樂文件賦于非常低的文件類型因子,從而保證太大的音樂文件也盡量排在檢索結(jié)果的最后,而不至于影響用戶的感受。關(guān)于文本數(shù)據(jù)文本相關(guān)性計(jì)算音樂檢索包含兩種類型的數(shù)據(jù)歌曲記錄和歌詞記錄。歌曲數(shù)據(jù)為包括一個(gè)音樂鏈接URL的記錄,其歌詞字段為空。歌詞記錄為沒有音樂鏈接、其歌詞字段包含不超過最大長(zhǎng)度的歌詞信息。文本相關(guān)性用來描敘一個(gè)音樂數(shù)據(jù)記錄是否與檢索串相匹配。所有音樂數(shù)據(jù)記錄可用來檢索的文本字段有四個(gè),每個(gè)字段有一個(gè)固定的權(quán)重值,四個(gè)字段和相關(guān)權(quán)重依次為<table>tableseeoriginaldocumentpage18</column></row><table>即文本相關(guān)性的值為各個(gè)字段文本相關(guān)性乘上權(quán)重后的最大值再乘上文檔類型系數(shù)。在進(jìn)行歌詞檢索和歌曲檢索時(shí),字段的權(quán)重關(guān)系可以不同,為此,對(duì)歌詞數(shù)據(jù)和歌曲數(shù)據(jù)的字段權(quán)重分別賦予不同的比值。例如在歌曲檢索時(shí),希望各字段的權(quán)重關(guān)系為歌曲名>歌手名>專輯名>歌詞內(nèi)容;那么對(duì)于歌曲類型記錄,給定的權(quán)值順序?yàn)锳">、>&>~;在歌詞檢索時(shí),希望各字段的權(quán)重關(guān)系為歌曲名>歌詞內(nèi)容>專輯名>歌手名;那么對(duì)于歌詞類型記錄,給定的權(quán)值順序?yàn)锳">~>&。>&;mpv:Related,mpv:Rendition(5)attributesNameTypeUseDefaultFixedmpv:idxs:ID(6)source〈xs:elementname="AudioWithStill"type="SMPV:AudioWithStillType"substitutionGroup="mpv:CompositeAssetBase,,/>source〈xs:complexTypename^"AudioWithStillType"〉<xs:complexContent>〈xs:extensionbase="mpv:CompositeAssetBascType"><xs:sequence><xs:elementref="mpv:StillRef,,maxOccurs="unbounded,,/>〈xs:elementref="mpv:AudioRef7>〈xs:elementname="DisplaySchema"type="xs:string"minOccurs="0,7>〈xs:groupref="mpv:RelationsElemGroup,7></xs:scqu6ncc></xs:extension></xsxomplexContent></xs:complexType>"DisplayTime"元素的屬性值表示每一靜止asset的以秒為單位的持續(xù)時(shí)間。"DisplayTime"的屬性值總是包括可以以小數(shù)點(diǎn)描述的的相對(duì)時(shí)間。如果"DisplayTime"的屬性值未指定,則假定沒有顯示持續(xù)時(shí)間。對(duì)于"DisplayTime"元素的定義可被概述如下。DisplayTime=<clock-value>(";"<clock-value>)*clock-value=(<seconds>|<unknown-dur>)unknown隱dur=theemptystringseconds=<decimalnumber>(","<decimalnumber>)Decimal-number=*"DisplayTime"元素的使用將被描述。"DisplayTime"元素的屬性值"3"以上流程中,還可以進(jìn)一步對(duì)歌曲名、歌手名和音樂文件格式相同的歌曲進(jìn)行聚類,對(duì)每類中的歌曲按照數(shù)值相關(guān)性劃分出不同的級(jí)別Level,使得每個(gè)級(jí)別有預(yù)定個(gè)數(shù)的音樂文件,從而得到所有音樂文件的級(jí)別排名LevelRank;然后再根據(jù)每個(gè)音樂文件的LevelRank及其數(shù)值相關(guān)性計(jì)算出每個(gè)音樂文件的綜合數(shù)值相關(guān)性,使得不同類中級(jí)別相同的音樂文件的綜合數(shù)值相關(guān)性大小相近,而不同級(jí)別Level的音樂文件綜合數(shù)值相關(guān)性相差很大;性計(jì)算音樂文件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)音樂文件針對(duì)該特定語素進(jìn)行排序。下面對(duì)LevelRank進(jìn)4亍詳細(xì)的i兌明。關(guān)于LevelRank的分析如果只是考慮到前面的數(shù)值質(zhì)量,可能出現(xiàn)如下的情況一些歌曲的歌手名歌曲名相同,他們的數(shù)值質(zhì)量都比其他的歌曲要高。這時(shí),檢索結(jié)果的前面幾十甚至上百條都會(huì)被這"相同"的歌曲占據(jù)。從而減小了用戶對(duì)歌曲的可選擇面。為此本發(fā)明實(shí)施例引入淺層聚合和LevelRank的概念,并把之前的數(shù)值質(zhì)量也相對(duì)稱為QualityRank。淺層聚合是指只是將歌曲名、歌手名和歌曲文件類型都相同的歌聚成一類的方式。設(shè)一次檢索到了T個(gè)不同聚合類的歌曲,則希望能夠綜合考慮文本權(quán)重和數(shù)值的關(guān)系,讓質(zhì)量較高的不同聚類的歌曲以兩兩交錯(cuò),并且在前幾頁中包含盡量多聚類的方式排序顯示。舉例假設(shè)T個(gè)不同聚合一次為Tl,T2,T3,....Tn,同時(shí)每個(gè)聚合中的歌曲按照QualityRank劃分為TiSl,TiS2,TiS3,....TiSm,則希望看到的結(jié)果是在結(jié)果的前幾頁中出現(xiàn)的歌曲的QualityRank比較高,同時(shí)也要保證Ti的數(shù)目比較多;質(zhì)量高的聚類可以多出現(xiàn)一些歌曲,但是不要幾乎都是一個(gè)聚類的歌曲。關(guān)于LevelRank:對(duì)與每一類的所有數(shù)據(jù)記錄,將它們按照計(jì)算出來的QualityRank值從大到小進(jìn)行排序。可以設(shè)定一定個(gè)數(shù)(設(shè)為M)的Level,每個(gè)Level中允許放置N首歌,將一個(gè)類的中排好序的歌一次放入到這些Level中,再設(shè)定一個(gè)默認(rèn)Level,將前面所有放不下的歌曲都放入到默認(rèn)Level中。舉例假設(shè)一個(gè)歌曲聚合類別中有100首歌曲,設(shè)定5個(gè)Levd,每個(gè)Level可以放2首歌曲,則剩下的90首歌曲都依次放入到默認(rèn)Level中。執(zhí)行聚合,同時(shí)將數(shù)據(jù)放置入Level中,然后對(duì)不同的Level設(shè)定一個(gè)Rank分值,稱之為L(zhǎng)evelRank。第一個(gè)Level的LevelRank值最高(比如第一個(gè)Level的LevelRank值為1.0),然后LevelRank值隨著Level的遞增而依次遞減,比如第二個(gè)Level為0.7,第三個(gè)Level為0.5…最后默認(rèn)的Level的LevelRank值為0。因此一首歌曲的最后綜合數(shù)值相關(guān)性Weight(Num)將會(huì)是LevelRank和QualityRank的綜合4直。即Weight(Num)=(LevelRank+QualityRank)/2?!寒?d+『—)/2(式6)為了讓一個(gè)聚合里一個(gè)Level中的歌曲可以以順序相鄰的方式出現(xiàn)在結(jié)果頁面中,可以對(duì)Weight(Num)做細(xì)微的調(diào)整。屬于同一聚類的歌曲在進(jìn)行Level劃分時(shí),將同一Level中的歌曲的LevelRank值和QualityRank值都調(diào)整為非常相近,并成等差數(shù)列遞減。非常相近是指所有其他的數(shù)值相關(guān)性因子的差異所造成的最終權(quán)值的差異都比這個(gè)等差數(shù)列的差值要高出一個(gè)數(shù)量級(jí)。舉例設(shè)有兩個(gè)聚類的歌曲可以被一次檢索所檢索到,第一類別中Level中有3首歌曲,原始QualityRank依次為0.984、0,962、0.953。第二個(gè)類別中Levell有3首歌曲,原始QualityRank依次為0.972、0.970、0.955。計(jì)算經(jīng)過修正后的QualityRank。第一個(gè)聚類依次為0.98400、0.98402、0.98404,第二個(gè)聚類依次為0.97200、0.97202、0,97204。從而保證了前面所述需求。為了保證音樂質(zhì)量,還可以設(shè)置一個(gè)Level的閥值(Threshhold),以保證"寧缺勿濫"的原則(類比于招生中的最低錄取分?jǐn)?shù)線)。比如,規(guī)定一級(jí)wma格式的QualityRank打分必須在0.85以上。如果該歌曲的wma格式的QualityRank打分全部小于0.85,則該歌曲的第1級(jí)中就沒有wma,可將其放入第2級(jí)中參與排序。單個(gè)語素相關(guān)性計(jì)算公式單個(gè)語素(包括一元語素和多元語素)的相關(guān)性都會(huì)在索引建立時(shí)計(jì)算完成。其計(jì)算公式為前面文本相關(guān)性和數(shù)值相關(guān)性的線型疊加結(jié)果,公式如下<formula>formulaseeoriginaldocumentpage22</formula>(式7)最終的『e/g/2f&,《作為一個(gè)浮整數(shù)(/ZoW)保存在倒排索引中,這里還可以嘗試選擇合適的函數(shù),將『&g/^&,《影射成(O,255]的區(qū)間,可以大量節(jié)約存儲(chǔ)空間。檢索串復(fù)合相關(guān)性權(quán)值計(jì)算音樂檢索中,用戶輸入的檢索請(qǐng)求最后可以分解為多個(gè)語素檢索請(qǐng)求的交集。用戶輸入檢索串與指定音樂數(shù)據(jù)記錄的相關(guān)性,也可認(rèn)為是單個(gè)語素與數(shù)據(jù)記錄的相關(guān)性的綜合結(jié)果。由于音樂搜索檢索輸入需求較網(wǎng)頁搜索更短,語素更少,這里采用簡(jiǎn)單復(fù)合模型,設(shè)對(duì)于查詢Q,Q=&......g},打?yàn)闄z索串切分后的語素個(gè)數(shù),d為一個(gè)檢索單語素《命中的數(shù)據(jù)記錄。則最終用戶輸入和指定數(shù)據(jù)記錄的相關(guān)性計(jì)算公式為<formula>formulaseeoriginaldocumentpage22</formula>'-i(式8)最終的命中結(jié)果將按照此計(jì)算出的值進(jìn)行排序。圖2為根據(jù)本發(fā)明示范性實(shí)施例的音樂文件排序系統(tǒng)的示范性結(jié)構(gòu)示意圖。如圖2所示,該系統(tǒng)200包括文本相關(guān)性計(jì)算單元201,用于計(jì)算音樂文件的文本相關(guān)性。其中,文本相關(guān)性計(jì)算單元201,既可以才艮據(jù)特定語素在互聯(lián)網(wǎng)音樂文件的文本字段的命中情況,計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性;也可以根據(jù)由特定語素所構(gòu)成的特定詞組或者特定詞句在互聯(lián)網(wǎng)音樂文件的文本字段的命中情況,計(jì)算音樂文件針對(duì)該特定詞組或者特定詞句的文本相關(guān)性。數(shù)值相關(guān)性計(jì)算單元202,用于計(jì)算音樂文件的數(shù)值相關(guān)性。其中,數(shù)值相關(guān)性計(jì)算單元202,可以根據(jù)所述音樂文件自身的數(shù)值因子及其權(quán)重,計(jì)算該音樂文件的數(shù)值相關(guān)性。及所述音樂文件的數(shù)值相關(guān)性,計(jì)算該音樂文件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件針對(duì)該特定語素進(jìn)行排序。當(dāng)特定語素構(gòu)成特定詞組或者特定詞句時(shí),排序單元203,可以根據(jù)所的數(shù)值相關(guān)性,計(jì)算該音樂文件針對(duì)該特定詞組或者特定詞句的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件針對(duì)該特定詞組或者特定詞句進(jìn)行排序。當(dāng)特定語素不構(gòu)成特定詞組或者特定詞句時(shí),排序單元203還可以根據(jù)所述音樂文件針對(duì)該特定語素的文本相關(guān)性以及所述音樂文件的數(shù)值相關(guān)性,計(jì)算該音樂文件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件針對(duì)該特定語素進(jìn)行排序。其中,所述文本字段可以包括歌曲名、歌手名、專輯名和歌詞中的一種或者多于一種的任意組合;其中文本相關(guān)性計(jì)算單元201,用于將該特定語素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以權(quán)重,然后將乘積相加以作為文本相關(guān)性數(shù)值;或文本相關(guān)性計(jì)算單元202,用于將該特定語素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以權(quán)重,然后將乘積相加后再乘以對(duì)應(yīng)于音樂文件類型的文檔類型系數(shù)以作為文本相關(guān)性數(shù)值。本發(fā)明實(shí)施例還公開了一種互聯(lián)網(wǎng)音樂文件搜索引擎。圖3為根據(jù)本發(fā)明示范性實(shí)施例的音樂搜索引擎的示范性結(jié)構(gòu)示意圖。如圖3所示,該音樂搜索引擎包括爬蟲,從互聯(lián)網(wǎng)抓取互聯(lián)網(wǎng)音樂文件,并將所述互聯(lián)網(wǎng)音樂文件的文本字段和數(shù)值因子發(fā)送給索引系統(tǒng)。其中,爬蟲從互聯(lián)網(wǎng)中盡可能多的抓取分析出互聯(lián)網(wǎng)音樂文件的音樂文件,這些音樂文件包括ID、音樂文件數(shù)據(jù)的URL、音樂名稱、音樂大小、各種屬性因子等,然后爬蟲將這些巨量音樂記錄發(fā)送給索引系統(tǒng)。具體而言,爬蟲在進(jìn)行歌曲數(shù)據(jù)抓取的過程中,會(huì)獲取一些歌曲數(shù)據(jù)相關(guān)的信息。這些信息用來計(jì)算單個(gè)語素與指定歌曲記錄的相關(guān)性值,從而最終影響到用戶檢索結(jié)果的排序,它們統(tǒng)稱為相關(guān)性計(jì)算因子。大部分的相關(guān)性因子爬蟲已經(jīng)將其取值映射到的區(qū)間,另外小部分則為數(shù)據(jù)的原始值。這一部分字段在索引系統(tǒng)的相關(guān)性處理時(shí)轉(zhuǎn)換成指定的值,主要包括歌曲文件的大小、歌曲的時(shí)長(zhǎng)、歌曲文件類型等。況,計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性,根據(jù)所述音樂文件自身的數(shù)值因子及其權(quán)重,計(jì)算該音樂文件的數(shù)值相關(guān)性,并根據(jù)所述音樂文件件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)音樂文件針對(duì)該特定語素進(jìn)行排序。索引系統(tǒng)對(duì)所有這些音樂記錄建立倒排索引。在建立索引的過程中計(jì)算出每個(gè)音樂記錄針對(duì)特定語素的相關(guān)性權(quán)重。過程如下根據(jù)語素在多個(gè)文本字段(歌曲名、歌手名、專輯名、歌詞)中的命中信息和字段的長(zhǎng)度,計(jì)算出歌曲記錄針對(duì)語素的文本相關(guān)性;然后根據(jù)音樂記錄的連通率、文件大小、歌手熱門程度、歌曲熱門程度、發(fā)布時(shí)間等數(shù)值因子,計(jì)算出歌曲記錄的QualityRank;再將<歌曲名,歌手名,格式>相同的歌曲進(jìn)行聚類,對(duì)每類中的的歌曲按照數(shù)值相關(guān)劃分出不同的Level,保證每個(gè)Level有兩首歌,從而給出每首歌的LevelRank;然后再根據(jù)LevelRank和Quality計(jì)算出每個(gè)歌曲的數(shù)值相關(guān)性,使得不同類總Level相同的歌曲的數(shù)值相關(guān)性大小相近,而不同Level的歌曲數(shù)值相關(guān)性相差很大;最后根據(jù)文件相關(guān)性和數(shù)值相關(guān)性計(jì)算出歌曲記錄針對(duì)特定語素的綜合相關(guān)性。檢索器,用于將用戶輸入的檢索串分解為多個(gè)特定語素,并根據(jù)每個(gè)特定語素的相關(guān)性權(quán)重?cái)?shù)據(jù)和針對(duì)每個(gè)特定語素的排序結(jié)果,計(jì)算出符合用戶合用戶檢索請(qǐng)求的音樂文件按照相關(guān)性權(quán)值排序后返回給用戶。具體地,檢索器將用戶輸入的檢索串分解為多個(gè)建立索引時(shí)對(duì)應(yīng)的語素,然后讀取相關(guān)的語素的倒排數(shù)據(jù)以及其相關(guān)性權(quán)重?cái)?shù)據(jù),然后計(jì)算出符合用戶檢索請(qǐng)求的所有歌曲針對(duì)用戶輸入檢索串的相關(guān)性權(quán)重,再將結(jié)果記錄按照相關(guān)性權(quán)重排序后返回給用戶。其中,圖3中的檢索代理(CacheBroker)用于接收用戶的檢索請(qǐng)求,并向后臺(tái)的檢索器進(jìn)行請(qǐng)求轉(zhuǎn)發(fā)和檢索結(jié)果的收集緩存。綜上所述,在本發(fā)明實(shí)施例的音樂搜索引擎中,爬蟲從互聯(lián)網(wǎng)抓取音樂相關(guān)的網(wǎng)頁數(shù)據(jù),然后進(jìn)行相關(guān)性參數(shù)提取,并把生成的格式化數(shù)據(jù)提交給索引系統(tǒng),再由索引系統(tǒng)對(duì)格式化數(shù)據(jù)建立倒排索引,在此過程中,索引系統(tǒng)根據(jù)一定的音樂文件相關(guān)性計(jì)算方法來對(duì)倒排索引數(shù)據(jù)進(jìn)行排序。本發(fā)明實(shí)施例還提供了一種綜合互聯(lián)網(wǎng)音樂文件的文本屬性和數(shù)值屬性以及互聯(lián)網(wǎng)可訪問性等因素來對(duì)音樂搜索引擎的檢索結(jié)果進(jìn)行相關(guān)性排序的方法。下面,以用戶檢索歌曲"愛"來舉例對(duì)本發(fā)明進(jìn)行示范性闡述。音樂歌曲名(專輯名)中包括"愛"字的歌曲很多,名字長(zhǎng)短不一樣。而同一個(gè)歌手演唱的同一首歌在互聯(lián)網(wǎng)上也會(huì)存在多個(gè)源鏈接。本發(fā)明實(shí)施例中,首先將所有相同歌手演唱的同一首歌的不同來源記錄聚合成一類。每個(gè)音樂記錄都會(huì)有很多上面本方案中描敘的相關(guān)性計(jì)算因子屬性。比如一個(gè)音樂記錄包括如下信息歌曲名愛歌手名小虎隊(duì)專輯名愛文件類型mp3大小4.2M連通率88才番;改時(shí)長(zhǎng)3分20秒歌曲熱門程度80歌手熱門程度85將這些因子數(shù)值帶入到上面實(shí)施例描敘的計(jì)算過程中,可以得到本音樂i己錄的QualityRank。小虎隊(duì)演唱的《愛》這首歌,會(huì)有很多個(gè)不同源鏈接記錄,它們的很多相關(guān)性因子數(shù)值不同。將這些源鏈接記錄全部都聚為一類,分別計(jì)算出它們的QualityRank后,按照QualityRank大小進(jìn)行排序,將它們劃分為多個(gè)不同的的Level。根據(jù)LevelRank的計(jì)算方法可以得到不同的LevelRank值。進(jìn)而根據(jù)數(shù)值相關(guān)性的公式得到這些源鏈接的數(shù)值相關(guān)性。LevelRank和QualityRank綜合的效果使得在同一個(gè)分類中不同Level的源記錄的數(shù)值相關(guān)性值會(huì)有較大的不同。同樣,其它歌名中包括"愛"字的歌曲也會(huì)被聚成不同的類,每個(gè)類按照LevelRank來區(qū)分。不同分類的相同Level的記錄的數(shù)值相關(guān)性取值會(huì)較為接近,使得最終在對(duì)所有檢索結(jié)果的排序中它們會(huì)排列的比較近。即在最后的檢索結(jié)果中,排在最前面的都是來自不同聚類中第一個(gè)Level的那些記錄。這樣既保證了相關(guān)性好的歌曲排在檢索結(jié)果靠前的位置,又保證前面幾頁的歌曲的多樣性。最終的排序結(jié)果中還把文本相關(guān)性和數(shù)值相關(guān)性進(jìn)行綜合,文本相關(guān)性中考慮到歌名的長(zhǎng)度信息。使得歌名短的盡量靠前。即在用戶檢索"愛"字的返回結(jié)果的越往后,歌曲名會(huì)越長(zhǎng)。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求1、一種互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,包括計(jì)算音樂文件的文本相關(guān)性及數(shù)值相關(guān)性;根據(jù)所述文本相關(guān)性以及數(shù)值相關(guān)性,計(jì)算音樂文件的綜合相關(guān)性;并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件進(jìn)行排序。2、根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,所述計(jì)算文本相關(guān)性包括設(shè)定特定語素;文件針對(duì)該特定語素的文本相關(guān)性。3、根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,所述計(jì)算文本相關(guān)性包括設(shè)定特定語素,并由所述特定語素構(gòu)成特定詞組或者特定詞句;根據(jù)所述特定詞組或者特定詞句在互聯(lián)網(wǎng)音樂文件的文本字段中的命中情況,計(jì)算音樂文件針對(duì)該特定詞組或者特定詞句的文本相關(guān)性。4、根據(jù)權(quán)利要求l、2或3所述的互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,所述計(jì)算數(shù)值相關(guān)性包括根據(jù)所述音樂文件自身的數(shù)值因子及其權(quán)重,計(jì)算該音樂文件的數(shù)值相關(guān)性。5、根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,所述文本字段包括歌曲名、歌手名、專輯名和歌詞中的一種或者多于一種的任意組合;所述計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性包括將該特定語素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以權(quán)重,然后將各項(xiàng)乘積相加以作為文本相關(guān)性數(shù)值;或?qū)⒃撎囟ㄕZ素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以各自權(quán)重,然后將各項(xiàng)乘積相加后再乘以對(duì)應(yīng)于音樂文件類型的文檔類型系數(shù)以作為文本相關(guān)性數(shù)值。6、根據(jù)權(quán)利要求5所述的互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,當(dāng)特定語素對(duì)應(yīng)于歌曲搜索時(shí),歌曲名的權(quán)重大于歌手名的權(quán)重,歌手名的權(quán)重大于專輯名的權(quán)重,專輯名的權(quán)重大于歌詞的權(quán)重;當(dāng)特定語素對(duì)應(yīng)于歌詞搜索時(shí),歌曲名的權(quán)重大于歌詞的權(quán)重,歌詞的權(quán)重大于專輯名的權(quán)重,專輯名的權(quán)重大于歌手名的權(quán)重;當(dāng)特定語素對(duì)應(yīng)于專輯搜索時(shí),專輯名的權(quán)重大于歌手名的權(quán)重,歌手名的^又重大于歌詞的4又重。7、根據(jù)權(quán)利要求4所述的互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,所述音樂文件自身的數(shù)值因子包括可訪問性因子,所述可訪問性因子由下載速度因子和連通率因子確定。8、根據(jù)權(quán)利要求4所述的互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,所述音樂文件自身的數(shù)值因子包括下列因子中的任一個(gè)或者多于一個(gè)的任意組合歌曲熱門程度因子;歌手熱門程度因子;歌曲記錄所在的站點(diǎn)因子;文件大小因子;播放時(shí)長(zhǎng)因子;編碼率因子;修正數(shù)據(jù)的可信度因子;歌曲的新鮮度因子;網(wǎng)絡(luò)協(xié)議因子;文件類型修正因子。9、根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)音樂文件排序方法,其特征在于,該方法包括對(duì)歌曲名、歌手名和音樂文件格式相同的歌曲進(jìn)行聚類,對(duì)每類中的歌曲按照數(shù)值相關(guān)性劃分出不同的級(jí)別Level,使得每個(gè)級(jí)別有預(yù)定個(gè)數(shù)的音樂文件,^v而得到所有音樂文件的級(jí)別排名LevelRank;根據(jù)每個(gè)音樂文件的LevdRank及其數(shù)值相關(guān)性計(jì)算出每個(gè)音樂文件的綜合數(shù)值相關(guān)性,使得不同類中級(jí)別相同的音樂文件的綜合數(shù)值相關(guān)性大小相近,而不同級(jí)別的音樂文件的綜合數(shù)值相關(guān)性相差很大;#^居所述音樂文件針對(duì)該特定語素的文件相關(guān)性和所述綜合數(shù)值相關(guān)性計(jì)算音樂文件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)音樂文件針對(duì)該特定語素進(jìn)行排序。10、一種搜索互聯(lián)網(wǎng)音樂文件的方法,其特征在于,該方法包括計(jì)算音樂文件的文本相關(guān)性及數(shù)值相關(guān)性;根據(jù)所述文本相關(guān)性以及數(shù)值相關(guān)性,計(jì)算音樂文件的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件進(jìn)行排序;將用戶輸入的檢索串分解為多個(gè)特定語素,并根據(jù)每個(gè)特定語素的相關(guān)性權(quán)重?cái)?shù)據(jù)和所述音樂文件排序結(jié)果,計(jì)算出符合用戶檢索請(qǐng)求的所有音樂文件針對(duì)所述用戶輸入^r索串的相關(guān)性權(quán)值,然后按照所述相關(guān)性權(quán)值排序后將所述符合用戶^r索請(qǐng)求的音樂文件返回給用戶。11、根據(jù)權(quán)利要求IO所述的搜索互聯(lián)網(wǎng)音樂文件的方法,其特征在于,所述計(jì)算文本相關(guān)性包括設(shè)定特定語素;根據(jù)特定語素在互聯(lián)網(wǎng)音樂文件的文本字段中的命中情況,計(jì)算音樂文件針對(duì)該特定語素的文本相關(guān)性;所述計(jì)算相關(guān)性權(quán)值包括將用戶輸入的檢索串分解為多個(gè)特定語素,并根據(jù)每個(gè)特定語素的相關(guān)性權(quán)重?cái)?shù)據(jù)和針對(duì)每個(gè)特定語素的排序結(jié)果,計(jì)算出符合用戶檢索請(qǐng)求的所有音樂文件針對(duì)所述用戶輸入檢索串的相關(guān)性權(quán)值。12、根據(jù)權(quán)利要求IO所述的搜索互聯(lián)網(wǎng)音樂文件的方法,其特征在于,所述計(jì)算文本相關(guān)性包括設(shè)定特定語素,并由所述特定語素構(gòu)成特定詞組或者特定詞句;#4居所迷特定詞組或者特定詞句在互聯(lián)網(wǎng)音樂文件的文本字段中的命中情況,計(jì)算音樂文件針對(duì)該特定詞組或者特定詞句的文本相關(guān)性;所述計(jì)算相關(guān)性權(quán)值包括將用戶輸入的檢索串分解為所述多個(gè)特定詞組或者特定詞句,并根據(jù)每個(gè)特定詞組或者特定詞句的相關(guān)性權(quán)重?cái)?shù)據(jù)和針對(duì)每個(gè)特定詞組或者特定詞句的排序結(jié)果,計(jì)算出符合用戶檢索請(qǐng)求的所有音樂文件針對(duì)所述用戶輸入斗企索串的相關(guān)性權(quán)值。13、根據(jù)權(quán)利要求11所述的搜索互聯(lián)網(wǎng)音樂文件的方法,其特征在于,所述文本字段包括歌曲名、歌手名、專輯名和歌詞中的一種或者多于一種的任意組合;所述計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性包括將該特定語素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以權(quán)重,然后將各項(xiàng)乘積相加以作為文本相關(guān)性數(shù)值;或?qū)⒃撎囟ㄕZ素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以各自權(quán)重,然后將各項(xiàng)乘積相加后再乘以對(duì)應(yīng)于音樂文件類型的文檔類型系數(shù)以作為文本相關(guān)性數(shù)值。14、根據(jù)權(quán)利要求11或13所述的搜索互聯(lián)網(wǎng)音樂文件的方法,其特征在于,該方法包4舌對(duì)歌曲名、歌手名和音樂文件格式相同的歌曲進(jìn)行聚類,對(duì)每類中的歌曲按照數(shù)值相關(guān)性劃分出不同的級(jí)別Level,使得每個(gè)級(jí)別有預(yù)定個(gè)數(shù)的音樂文件,從而得到所有音樂文件的級(jí)別排名LevelRank;根據(jù)每個(gè)音樂文件的LevelRank及其數(shù)值相關(guān)性計(jì)算出每個(gè)音樂文件的綜合數(shù)值相關(guān)性,使得不同類中級(jí)別相同的音樂文件的綜合數(shù)值相關(guān)性大小相近,而不同級(jí)別Level的音樂文件綜合數(shù)值相關(guān)性相差很大;算音樂文件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)音樂文件針對(duì)該特定語素進(jìn)行排序。15、一種互聯(lián)網(wǎng)音樂文件排序系統(tǒng),其特征在于,該系統(tǒng)包括文本相關(guān)性計(jì)算單元,用于計(jì)算音樂文件的文本相關(guān)性;數(shù)值相關(guān)性計(jì)算單元,用于計(jì)算該音樂文件的數(shù)值相關(guān)性;排序單元,用于根據(jù)所述音樂文件的文本相關(guān)性以及數(shù)值相關(guān)性,計(jì)算該音樂文件的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件進(jìn)行排序。16、根據(jù)權(quán)利要求15所迷的互聯(lián)網(wǎng)音樂文件排序系統(tǒng),其特征在于,所述文本相關(guān)性計(jì)算單元,用于根據(jù)特定語素在互聯(lián)網(wǎng)音樂文件的文本字段的命中情況,計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性;數(shù)值相關(guān)性計(jì)算單元,用于根據(jù)所述音樂文件自身的數(shù)值因子及其權(quán)重,計(jì)算該音樂文件的數(shù)值相關(guān)性;排序單元,用于根據(jù)所述音樂文件針對(duì)該特定語素的文本相關(guān)性以及所述音樂文件的數(shù)值相關(guān)性,計(jì)算該音樂文件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件針對(duì)該特定語素進(jìn)行排序。17、根據(jù)權(quán)利要求15所迷的互聯(lián)網(wǎng)音樂文件排序系統(tǒng),其特征在于,所述文本相關(guān)性計(jì)算單元,用于根據(jù)由特定語素所構(gòu)成的特定詞組或者特定詞句在互聯(lián)網(wǎng)音樂文件的文本字段的命中情況,計(jì)算音樂文件針對(duì)該特定詞組或者特定詞句的文本相關(guān)性;數(shù)值相關(guān)性計(jì)算單元,用于根據(jù)所述音樂文件自身的數(shù)值因子及其權(quán)重,計(jì)算該音樂文件的數(shù)值相關(guān)性;排序單元,用于根據(jù)所述音樂文件針對(duì)該特定詞組或者特定詞句的文本相關(guān)性以及所述音樂文件的數(shù)值相關(guān)性,計(jì)算該音樂文件針對(duì)該特定詞組或者特定詞句的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件針對(duì)該特定詞組或者特定詞句進(jìn)行排序。18、根據(jù)權(quán)利要求16所述的互聯(lián)網(wǎng)音樂文件排序系統(tǒng),其特征在于,所述文本字段包括歌曲名、歌手名、專輯名和歌詞中的一種或者多于一種的任意組合;其中文本相關(guān)性計(jì)算單元,用于將該特定語素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以權(quán)重,然后將乘積相加以作為文本相關(guān)性數(shù)值;或文本相關(guān)性計(jì)算單元,用于將該特定語素針對(duì)歌曲名、歌手名、專輯名和歌詞的相關(guān)性數(shù)值分別乘以權(quán)重,然后將乘積相加后再乘以對(duì)應(yīng)于音樂文件類型的文檔類型系數(shù)以作為文本相關(guān)性數(shù)值。19、一種互聯(lián)網(wǎng)音樂文件搜索引擎,其特征在于,該搜索引擎包括爬蟲,從互聯(lián)網(wǎng)抓取互聯(lián)網(wǎng)音樂文件,并將所述互聯(lián)網(wǎng)音樂文件的文本字段和數(shù)值因子發(fā)送給索引系統(tǒng);索引系統(tǒng),用于根據(jù)特定語素在互聯(lián)網(wǎng)音樂文件的文本字段的命中情況,計(jì)算該音樂文件針對(duì)該特定語素的文本相關(guān)性,根據(jù)所述音樂文件自身的數(shù)值因子及其權(quán)重,計(jì)算該音樂文件的數(shù)值相關(guān)性,并根據(jù)所述音樂文件針對(duì)該特定語素的文本相關(guān)性以及音樂文件的數(shù)值相關(guān)性,計(jì)算所述音樂文件針對(duì)該特排序;檢索器,用于將用戶輸入的檢索串分解為多個(gè)特定語素,并根據(jù)每個(gè)特定語素的相關(guān)性權(quán)重?cái)?shù)據(jù)和針對(duì)每個(gè)特定語素的排序結(jié)果,計(jì)算出符合用戶檢索檢索請(qǐng)求的音樂文件按照所述相關(guān)性權(quán)值排序后返回給用戶。20、根據(jù)權(quán)利要求19所述的互聯(lián)網(wǎng)音樂文件搜索引擎,其特征在于,索引系統(tǒng),進(jìn)一步用于對(duì)歌曲名、歌手名和音樂文件格式相同的歌曲進(jìn)行聚類,對(duì)每類中的歌曲按照數(shù)值相關(guān)性劃分出不同的級(jí)別Level,使得每個(gè)級(jí)別有預(yù)定個(gè)數(shù)的音樂文件,從而得到所有音樂文件的級(jí)別排名LevelRank;索引系統(tǒng),并用于根據(jù)每個(gè)音樂文件的LevelRank及其數(shù)值相關(guān)性計(jì)算出每個(gè)音樂文件的綜合數(shù)值相關(guān)性,使得不同類中級(jí)別相同的音樂文件的綜合數(shù)值相關(guān)性大小相近,而不同級(jí)別Level的音樂文件綜合數(shù)值相關(guān)性相差很大;根據(jù)所述音樂文件針對(duì)該特定語素的文件相關(guān)性和所述綜合數(shù)值相關(guān)性計(jì)算音樂文件針對(duì)該特定語素的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)音樂文件針對(duì)該特定語素進(jìn)行排序。全文摘要本發(fā)明實(shí)施例公開了一種互聯(lián)網(wǎng)音樂文件排序方法,包括計(jì)算音樂文件的文本相關(guān)性及數(shù)值相關(guān)性;根據(jù)所述文本相關(guān)性以及數(shù)值相關(guān)性,計(jì)算音樂文件的綜合相關(guān)性,并根據(jù)所述綜合相關(guān)性對(duì)該音樂文件進(jìn)行排序。本發(fā)明還公開了一種互聯(lián)網(wǎng)音樂文件排序系統(tǒng)、搜索方法和搜索引擎。應(yīng)用本發(fā)明之后,結(jié)合相關(guān)性考慮因子評(píng)估音樂文件與用戶檢索請(qǐng)求的相關(guān)性,從而使得與用戶檢索請(qǐng)求相關(guān)性較好的音樂文件更容易地呈現(xiàn)給用戶。文檔編號(hào)G06F17/30GK101105815SQ20071014562公開日2008年1月16日申請(qǐng)日期2007年9月6日優(yōu)先權(quán)日2007年9月6日發(fā)明者應(yīng)熊,王志平,邵榮防,陽郭申請(qǐng)人:騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1