国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于搜索引擎的搜索結(jié)果排序方法及裝置的制作方法

      文檔序號(hào):6614375閱讀:170來(lái)源:國(guó)知局

      專利名稱::一種基于搜索引擎的搜索結(jié)果排序方法及裝置的制作方法
      技術(shù)領(lǐng)域
      :本發(fā)明涉及搜索引擎領(lǐng)域,特別是涉及一種基于搜索引擎的搜索結(jié)果排序方法及裝置。
      背景技術(shù)
      :隨著搜索引擎技術(shù)的不斷發(fā)展與信息處理技術(shù)的進(jìn)步,人們對(duì)搜索引擎的需求也越來(lái)越廣泛,搜索引擎的種類也呈現(xiàn)多樣化發(fā)展。目前,主流的搜索引擎分為全文搜索引擎、目錄搜索引擎和元搜索引擎。近期,垂直搜索引擎也逐漸進(jìn)入了人們的視野。在搜索引擎領(lǐng)域,評(píng)價(jià)一個(gè)搜索引擎好壞的重要標(biāo)準(zhǔn)就是能否讓用戶盡快找到所需的信息,即與用戶搜索主題相關(guān)的各種信息。近年來(lái),各大搜索引擎在搜索結(jié)果的相關(guān)性排序上均做了優(yōu)化。所謂搜索結(jié)果的相關(guān)性就是指用戶搜索詞和頁(yè)面的相關(guān)程度。通常,相關(guān)性是搜索引擎進(jìn)行排序的一個(gè)重要依據(jù)。計(jì)算頁(yè)面相關(guān)性的主要方法有g(shù)oogle的PageRank、Bharat的HillTop、百度的超鏈分析等。它們的基本原理就是根據(jù)網(wǎng)頁(yè)的引用情況進(jìn)行排序。但是由于在中文搜索引擎中存在分詞的問(wèn)題,詞典是以搜索詞作為查詢?cè)~的搜索引擎的基礎(chǔ)。詞典的好壞在一定程度上決定著搜索結(jié)果排序的效果。詞典過(guò)小,會(huì)導(dǎo)致過(guò)多的無(wú)關(guān)信息的出現(xiàn);詞典過(guò)大,有時(shí)會(huì)導(dǎo)致部分詞搜索結(jié)果的主題過(guò)少等問(wèn)題出現(xiàn)。因此如何確定詞典,增加新的擴(kuò)充詞典集,使搜索引擎的結(jié)果更加準(zhǔn)確、更加人性化就隨之成為一個(gè)備受關(guān)注的問(wèn)題。
      發(fā)明內(nèi)容本發(fā)明實(shí)施例提供一種基于搜索引擎的搜索結(jié)果排序方法及裝置,使排序結(jié)果更加貼近用戶的需求。本發(fā)明實(shí)施例的一種基于搜索引擎的搜索結(jié)果排序方法,包括下列步驟對(duì)用戶輸入的搜索詞進(jìn)行分詞處理;以分詞處理所得的分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重;確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重;以及按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序,并呈現(xiàn)給用戶。本發(fā)明實(shí)施例的一種基于搜索引擎的搜索結(jié)果排序裝置,包括分詞單元,用于對(duì)用戶輸入的搜索詞進(jìn)行分詞處理;關(guān)鍵詞權(quán)重確定單元,用于以分詞處理所得分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重;總權(quán)重確定單元,用于確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重;排序單元,用于按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序;呈現(xiàn)單元,用于向用戶呈現(xiàn)排序結(jié)果。綜上所述,本發(fā)明實(shí)施例中對(duì)用戶輸入的搜索詞進(jìn)行分詞處理;以分詞處理所得的分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重,并確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重。由于總權(quán)重中考慮了搜索詞與關(guān)鍵詞的匹配等情況,所以按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序并呈現(xiàn)給用戶,可更加貼近用戶的需求。圖1為本發(fā)明實(shí)施例的方法步驟流程圖;圖2為本發(fā)明實(shí)施例的裝置結(jié)構(gòu)示意圖;圖3為本發(fā)明實(shí)施例的裝置優(yōu)化結(jié)構(gòu)示意圖;圖4為本發(fā)明實(shí)施例的索引示意圖;圖5為本發(fā)明實(shí)施例中確定待排序網(wǎng)絡(luò)資源的示意圖;圖6為本發(fā)明實(shí)施例中查詢分詞權(quán)重的示意圖。具體實(shí)施方式為了使排序結(jié)果更加貼近用戶的需求,本發(fā)明實(shí)施例提供了一種基于搜索引擎的搜索結(jié)果排序方法及裝置,以下分別簡(jiǎn)要概述。本發(fā)明實(shí)施例提供的一種基于搜索引擎的搜索結(jié)果排序方法,在進(jìn)行了一些預(yù)先設(shè)置,用戶輸入搜索詞,并且確定了待排序網(wǎng)絡(luò)資源之后,參見(jiàn)圖l所示,執(zhí)行下列主要步驟51、對(duì)用戶輸入的搜索詞進(jìn)行分詞處理(本步驟也可在確定待排序網(wǎng)絡(luò)資源之前執(zhí)行)。52、以分詞處理所得的分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜中的關(guān)鍵詞權(quán)重。53、確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重。54、按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序,并呈現(xiàn)給用戶。在用戶輸入搜索詞進(jìn)行搜索之前,預(yù)先的設(shè)置步驟,具體包括定制關(guān)鍵詞詞典的步驟以詞和詞的屬性作為基本結(jié)構(gòu),定制的關(guān)鍵詞詞典中包括各有效詞和每一有效詞對(duì)應(yīng)的屬性,以及各無(wú)效詞和每一無(wú)效詞對(duì)應(yīng)的屬性。所述無(wú)效詞的集合與有效詞的集合互為互斥關(guān)系,并且一個(gè)無(wú)效詞包含的字符覆蓋一個(gè)有效詞包含的字符。所述詞的屬性以字符型數(shù)字表示,每一位字符分別表示所述詞的一種屬性。提取關(guān)鍵詞的步驟依據(jù)關(guān)鍵詞詞典,按最大匹配原則對(duì)每一網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理;根據(jù)分詞處理所得分詞的屬性對(duì)該分詞進(jìn)行過(guò)濾,以提取每一網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞。其中,以網(wǎng)頁(yè)的標(biāo)題作為該網(wǎng)頁(yè)的主題信息,或者從網(wǎng)頁(yè)的內(nèi)容中提取該網(wǎng)頁(yè)的主題信息,或者以描述下載資源的信息作為主題信息等。建立關(guān)鍵詞索引的步驟分別對(duì)每一網(wǎng)絡(luò)資源的主題信息的各關(guān)鍵詞采用基礎(chǔ)分詞詞典進(jìn)行分詞處理,并建立關(guān)鍵詞的各分詞到網(wǎng)絡(luò)資源的關(guān)鍵詞索引。建立資源索引的步驟根據(jù)基礎(chǔ)分詞詞典對(duì)網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理,并建立網(wǎng)絡(luò)資源的各分詞到網(wǎng)絡(luò)資源的資源索引。配置權(quán)重的步驟根據(jù)關(guān)鍵詞的各分詞詞長(zhǎng)占該關(guān)鍵詞詞長(zhǎng)的比例,為各分詞分別配置分詞權(quán)重;或者根據(jù)網(wǎng)絡(luò)資源的信息(包括但不限于被瀏覽次數(shù)和/或被引用情況和/或被下載次數(shù)和/或文件格式,以下不再贅述),為該網(wǎng)絡(luò)資源配置靜態(tài)權(quán)重,以及根據(jù)關(guān)鍵詞的各分詞詞長(zhǎng)占該關(guān)鍵詞詞長(zhǎng)的比例,為各分詞分別配置分詞權(quán)重。配置的權(quán)重可記錄在上述資源索引和關(guān)^t詞索引中。配置權(quán)重后在S2中,可將對(duì)搜索詞進(jìn)行分詞處理所得分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定每一分詞在各待排序網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞中的分詞權(quán)重,并將各分詞在同一待排序網(wǎng)絡(luò)資源的主題信息中的分詞權(quán)重相加,作為搜索詞在該待排序網(wǎng)絡(luò)資源中的關(guān)4定詞權(quán)重。在S3中,可取搜索詞在當(dāng)前待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重作為總權(quán)重;也可取根據(jù)當(dāng)前待排序網(wǎng)絡(luò)資源的信息配置的靜態(tài)權(quán)重和搜索詞在當(dāng)前待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重,并將該靜態(tài)權(quán)重與關(guān)鍵詞權(quán)重組合成當(dāng)前待排序網(wǎng)絡(luò)資源的總權(quán)重;或者以其它相關(guān)權(quán)重與關(guān)鍵詞權(quán)重組合成當(dāng)前待排序網(wǎng)絡(luò)資源的總權(quán)重。在用戶輸入搜索詞進(jìn)行搜索之后,確定待排序網(wǎng)絡(luò)資源具體以對(duì)搜索詞進(jìn)行分詞處理所得分詞分別在資源索引中進(jìn)行查找,以分別確定每一分詞所屬的網(wǎng)絡(luò)資源的集合;取各所述集合的交集,作為待排序的網(wǎng)絡(luò)資源。本發(fā)明實(shí)施例還提供了一種基于搜索引擎的搜索結(jié)果排序裝置,參見(jiàn)圖2所示,其包括分詞單元、關(guān)鍵詞權(quán)重確定單元、總權(quán)重確定單元、排序單元和呈現(xiàn)單元。分詞單元,用于對(duì)用戶輸入的搜索詞進(jìn)^f亍分詞處理。關(guān)鍵詞權(quán)重確定單元,用于以分詞處理所得分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重??倷?quán)重確定單元,用于確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重。排序單元,用于按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序。呈現(xiàn)單元,用于向用戶呈現(xiàn)排序結(jié)果。進(jìn)一步為了提供上述單元所需的信息,參見(jiàn)圖3所示,所述裝置還包括定制單元、提取單元、關(guān)鍵詞索引建立單元、資源索引建立單元、確定單元和配置單元。定制單元,用于以詞和詞的屬性作為基本結(jié)構(gòu),定制關(guān)鍵詞詞典;定制的關(guān)鍵詞詞典中包括各有效詞和每一有效詞對(duì)應(yīng)的屬性,以及各無(wú)效詞和每一無(wú)效詞對(duì)應(yīng)的屬性。提取單元,用于依據(jù)關(guān)鍵詞詞典,按最大匹配原則對(duì)每一網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理;根據(jù)分詞處理所得分詞的屬性對(duì)該分詞進(jìn)行過(guò)濾,以提取每一網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞。關(guān)鍵詞索51建立單元,用于根據(jù)基礎(chǔ)分詞詞典分別對(duì)每一網(wǎng)絡(luò)資源的主題信息的各關(guān)鍵詞進(jìn)行分詞處理,并建立關(guān)鍵詞的各分詞到網(wǎng)絡(luò)資源的關(guān)鍵詞索引,以備關(guān)鍵詞權(quán)重確定單元調(diào)用。資源索引建立單元,用于根據(jù)基礎(chǔ)分詞詞典對(duì)網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理,并建立網(wǎng)絡(luò)資源的各分詞到網(wǎng)絡(luò)資源的資源索引。找,以分別確定每一分詞所屬的網(wǎng)絡(luò)資源的集合;取各所述集合的交集,作為待排序的網(wǎng)絡(luò)資源。配置單元,用于根據(jù)關(guān)鍵詞的各分詞詞長(zhǎng)占該關(guān)鍵詞詞長(zhǎng)的比例,為各分詞分別配置分詞權(quán)重;或者根據(jù)網(wǎng)絡(luò)資源的信息,為該網(wǎng)絡(luò)資源配置靜態(tài)權(quán)重,并根據(jù)關(guān)鍵詞的各分詞詞長(zhǎng)占該關(guān)鍵詞詞長(zhǎng)的比例,為各分詞分別配置分詞權(quán)重。配置單元配置權(quán)重后,關(guān)鍵詞權(quán)重確定單元可將對(duì)搜索詞進(jìn)行分詞處理所得分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定每一分詞在各待排序網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞中的分詞權(quán)重,并將各分詞在同一待排序網(wǎng)絡(luò)資源的主題信息中的分詞權(quán)重相加,作為搜索詞在該待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重??倷?quán)重確定單元可取搜索詞在當(dāng)前待排序網(wǎng)絡(luò)資源中的關(guān)4建詞權(quán)重作為總權(quán)重;也可取根據(jù)當(dāng)前待排序網(wǎng)絡(luò)資源的信息配置的靜態(tài)權(quán)重和搜索詞在當(dāng)前待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重,并將該靜態(tài)權(quán)重與關(guān)鍵詞權(quán)重組合成當(dāng)前待排序網(wǎng)絡(luò)資源的總權(quán)重;或者以其它相關(guān)權(quán)重與關(guān)鍵詞權(quán)重組合成當(dāng)前待排序網(wǎng)絡(luò)資源的總權(quán)重。至此,對(duì)本發(fā)明實(shí)施例的方法及裝置的概述完畢。以下通過(guò)l個(gè)實(shí)施例進(jìn)一步詳細(xì)描述本發(fā)明。實(shí)施例1、本實(shí)施例包括設(shè)置步驟、確定待排序網(wǎng)絡(luò)資源的步驟、計(jì)算權(quán)重的步驟、排序步驟,以及呈現(xiàn)步驟。其中設(shè)置步驟包括關(guān)鍵詞詞典的定制子步驟、關(guān)鍵詞的提取子步驟、建立關(guān)鍵詞索引的子步驟、建立資源索引的子步驟,以及權(quán)重配置子步驟。101、關(guān)^l建詞詞典的定制。關(guān)4定詞,即能夠標(biāo)識(shí)一個(gè)網(wǎng)絡(luò)資源(網(wǎng)頁(yè)資源或下載資源)的主題信息的詞匯。例如,在搜索引擎中,用戶經(jīng)常會(huì)輸入軟件名稱+"下載",電影名+"高清晰"等詞組,這里的軟件名稱和電影名就可以定義為這些詞組的關(guān)鍵詞。為了有效提取一個(gè)網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞,首先需要建立一個(gè)關(guān)鍵詞詞典。根據(jù)用戶的日常搜索習(xí)慣統(tǒng)計(jì),在影視搜索引擎、音樂(lè)搜索引擎以及通用搜索引擎中,用戶常常會(huì)輸入影視名、歌曲名、歌手名等詞匯作為搜索詞。因此,可以根據(jù)目前流行的電影、電視劇、歌曲、歌手、演員等信息建立關(guān)鍵詞詞典。該詞典的基本結(jié)構(gòu)為(詞,屬性)。其中,屬性描述了詞的有效性及類別,如是否有效,是否為電影名、歌名、軟件名等。本實(shí)施例采用以下方式(但不限于該方式)描述屬性以一個(gè)字節(jié)的字符型數(shù)字按位描述屬性信息,共8位,每一位代表該詞的一種屬性,l為具有該屬性,0為不具有該屬性。如"英雄"既可以是電影名又可以是電視劇名,它的屬性就可以表示為11100000,各位屬性信息參見(jiàn)表1所示<table>tableseeoriginaldocumentpage12</column></row><table>表1其中最高位(即表1所示的第7位)的屬性定義如下該位記錄了關(guān)鍵詞詞典中詞的有效屬性,無(wú)效詞集合與有效詞集合互為互斥關(guān)系。無(wú)效詞集合中的詞A在字面上會(huì)包含有效詞集合中的某個(gè)詞B,如某電影名"東"這個(gè)詞為有效詞,"東方"、"東門"等為無(wú)效詞。無(wú)效詞的優(yōu)先確定原則為字面上包含某個(gè)有效詞,但不屬于有效詞集合,而且不是某個(gè)電影名、歌名等可以作為關(guān)鍵詞的詞匯。102、關(guān)鍵詞的提取。針對(duì)搜索引擎數(shù)據(jù)庫(kù)中的每一網(wǎng)絡(luò)資源,需要為其主題信息提取相應(yīng)的關(guān)鍵詞。首先采用關(guān)鍵詞詞典,按最大匹配原則對(duì)網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞,將分詞所得結(jié)果根據(jù)其屬性進(jìn)行過(guò)濾。去掉屬性為無(wú)效的詞匯,保留屬性為有效的詞匯,并以保留的詞匯作為該網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞。例如,關(guān)鍵詞詞典中有以下一組詞東11000000東方00000000東游記10100000東北00000000對(duì)如下一組網(wǎng)頁(yè)標(biāo)題的4是取結(jié)果為影片東的花絮-——東東游記高清晰版——-東游記東北的小路-——對(duì)于垂直搜索引擎而言,如對(duì)影視搜索引擎,關(guān)鍵詞的最后確定還可以根據(jù)提取的關(guān)鍵詞的其他屬性進(jìn)一步過(guò)濾。如對(duì)網(wǎng)頁(yè)標(biāo)題"龍虎門甄子丹主演"提取的關(guān)鍵詞為"龍虎門,,和"甄子丹",但"甄子丹"不是一個(gè)影視詞匯,而是一個(gè)人名,此時(shí)就應(yīng)該將"甄子丹,,這個(gè)詞過(guò)濾。這種過(guò)濾方式可以依據(jù)搜索引擎的具體搜索類別而確定。103、建立關(guān)鍵詞索引。采用基礎(chǔ)分詞詞典(但不限于),分別對(duì)每一網(wǎng)絡(luò)資源的主題信息的各關(guān)鍵詞進(jìn)行分詞處理,并建立關(guān)鍵詞的各分詞到網(wǎng)絡(luò)資源的關(guān)鍵詞索引。例如有如下一批網(wǎng)絡(luò)資源的主題信息Docl:不能說(shuō)的秘密全集中文字幕;Doc2:不能說(shuō)的秘密全集;Doc3:鐵三角DVD中文字幕;Doc4:4失三角全集;Doc5:鐵三角(主演任達(dá)華);Doc6:秘密全集;它們的關(guān)鍵詞分別為Docl:不能說(shuō)的秘密;Doc2:不能說(shuō)的秘密;Doc3:4失三角;Doc4:4失三角;Doc5:鐵三角;Doc6:秘密。對(duì)各關(guān)鍵詞進(jìn)行分詞處理,得到如下分詞不能、說(shuō)、的、秘密、鐵三角。關(guān)鍵詞索引的建立情況如下"不能"關(guān)聯(lián)Docl和Doc2;"說(shuō)',關(guān)聯(lián)Docl和Doc2;"的"關(guān)聯(lián)Docl和Doc2;"秘密,,關(guān)聯(lián)Docl、Doc2和Doc6;"鐵三角"關(guān)耳關(guān)Doc3、Doc4和Doc5。104、建立資源索引(與建立關(guān)鍵詞索引之間不分先后)。根據(jù)基礎(chǔ)分詞詞典(但不限于)對(duì)網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理,并建立網(wǎng)絡(luò)資源的各分詞到網(wǎng)絡(luò)資源的資源索引。例如有如下一批網(wǎng)絡(luò)資源的主題信息Docl:不能說(shuō)的秘密全集中文字幕;Doc2:不能說(shuō)的秘密全集;Doc3:鐵三角DVD中文字幕;Doc4:鐵三角全集;Doc5:鐵三角(主演任達(dá)華);Doc6:秘密全集;分詞處理后資源索引的建立情況如下"不能"關(guān)聯(lián)Docl,Doc2;"說(shuō),,關(guān)聯(lián)Docl,Doc2;"的"關(guān)聯(lián)Docl,Doc2;"秘密"關(guān)聯(lián)Docl,Doc2,Doc6;"全集"關(guān)耳關(guān)Docl,Doc2,Doc4,Doc6;"中文"關(guān)聯(lián)Docl,Doc3;"字幕,,關(guān)聯(lián)Docl,Doc3;"鐵三角"關(guān)聯(lián)Doc3,Doc4,Doc5;"DVD"關(guān)聯(lián)Doc3;"主演"關(guān)聯(lián)Doc5;"任達(dá)華"關(guān)聯(lián)Doc5。105、權(quán)重配置。權(quán)重配置包括對(duì)網(wǎng)絡(luò)資源的靜態(tài)權(quán)重配置以及對(duì)關(guān)鍵詞中各分詞的權(quán)重配置這兩部分。其中,網(wǎng)頁(yè)資源的靜態(tài)權(quán)重由網(wǎng)頁(yè)的瀏覽次數(shù)、網(wǎng)頁(yè)來(lái)源、網(wǎng)頁(yè)引用情況等信息確定;下載資源的靜態(tài)權(quán)重由資源的下載次數(shù)、文件大小、文件格式等信息確定。例如對(duì)某下載資源docidl而言,可以根據(jù)docidl的下載次數(shù)、docidl的大小等信息確定該下載資源的靜態(tài)權(quán)重為Wl。其中,對(duì)關(guān)鍵詞中各分詞的權(quán)重配置包括下列步驟首先根據(jù)基礎(chǔ)分詞詞典(但不限于)對(duì)關(guān)鍵詞進(jìn)行分詞,如關(guān)鍵詞"不能說(shuō)的秘密"被分為四個(gè)詞,即分詞結(jié)果為不能、說(shuō)、的、秘密。其次假設(shè)每個(gè)關(guān)鍵詞的權(quán)重均為weight=l,則wordl"不能"所對(duì)應(yīng)的4又重為W11,word2所對(duì)應(yīng)的4又重為W21,word3"的"所對(duì)應(yīng)的4又重為W31,word4"秘密"所對(duì)應(yīng)的權(quán)重為W41,并且Wll=W41=l/3,W21=W31=l/4,即各分詞權(quán)重按分詞詞長(zhǎng)占關(guān)4建詞詞長(zhǎng)的比例確定。配置的靜態(tài)權(quán)重和關(guān)鍵詞中各分詞的權(quán)重可加入到上述資源索引和關(guān)鍵詞索引中。參見(jiàn)圖4所示,在具體實(shí)現(xiàn)中所有網(wǎng)絡(luò)資源的靜態(tài)權(quán)重信息都記錄在一起,并且以網(wǎng)絡(luò)資源對(duì)應(yīng)的docid為索引。Wordl,Word2…Wordn分別記錄了該詞在各網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞中的分詞權(quán)重,并且以關(guān)鍵詞所屬網(wǎng)絡(luò)資源的主題信息對(duì)應(yīng)的docid為索引。106、確定待排序網(wǎng)絡(luò)資源。參見(jiàn)圖5所示,當(dāng)用戶輸入某個(gè)詞word作為搜索詞進(jìn)行搜索時(shí),首先對(duì)搜索詞word采用基礎(chǔ)分詞詞典進(jìn)行分詞處理,得到分詞序列wordl,word2,…,wordn。然后在圖4所示的資源索引中查找出分詞wordk,k=l,2,...,n所對(duì)應(yīng)的docid序歹寸的交集,如docid2,docid4,docid5等,并以docid序列的交集對(duì)應(yīng)的網(wǎng)絡(luò)資源的交集作為待排序網(wǎng)絡(luò)資源。107、計(jì)算權(quán)重。計(jì)算各待排序網(wǎng)絡(luò)資源的總權(quán)重,以下以docid2為例。參見(jiàn)圖6所示,在關(guān)鍵詞索引(參見(jiàn)圖4所示)中分別查找word1,word2,...,wordn在docid2所對(duì)應(yīng)的待排序網(wǎng)絡(luò)資源的主題信息中的分詞權(quán)重,取出分詞權(quán)重W12,W22,...,Wn2進(jìn)行累加,得到搜索詞在docid2所對(duì)應(yīng)的待排序網(wǎng)絡(luò)資源的主題信息中的關(guān)鍵詞權(quán)重,即Wk(docid)-i:Wmn。如果某個(gè)wordk所對(duì)應(yīng)的docid中不含docid2,則其相應(yīng)的權(quán)重為Wk2=0,即該詞不是docid2對(duì)應(yīng)的網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞分詞。并且在圖4所示的資源索引中取docid2對(duì)應(yīng)的網(wǎng)絡(luò)資源的靜態(tài)權(quán)重Ws(docid)。最后計(jì)算docid2對(duì)應(yīng)的網(wǎng)絡(luò)資源的總權(quán)重W(dodd)??筛鶕?jù)具體情況確定Ws(docid)和Wk(docid)在W(docid)中分別所占的比例,如Ws(dodd)占q1,Wk(docid)占q2,則W(docid)=ql*Ws(docid)+q2*Wk(docid)。108、排序。計(jì)算出各待排序網(wǎng)絡(luò)資源的總權(quán)重后,按照總權(quán)重由高至低的順序?qū)λ龈鞔判蚓W(wǎng)絡(luò)資源進(jìn)行排序。當(dāng)采用上述方案對(duì)搜索結(jié)果排序后,可以得到比較理想的搜索結(jié)果。例如,當(dāng)用戶搜索"秘密預(yù)告片"時(shí),若搜索結(jié)果中有網(wǎng)頁(yè)標(biāo)題l-"秘密預(yù)告片",網(wǎng)頁(yè)標(biāo)題2-"不能說(shuō)的秘密預(yù)告片",則"秘密預(yù)告片"的權(quán)重將大于"不能說(shuō)的秘密預(yù)告片"的權(quán)重。這是因?yàn)?秘密預(yù)告片"的關(guān)鍵詞為"秘密","不能說(shuō)的秘密預(yù)告片"的關(guān)鍵詞為"不能說(shuō)的秘密",而"預(yù)告片"為無(wú)效關(guān)鍵詞。當(dāng)對(duì)關(guān)鍵詞分詞后,"不能說(shuō)的秘密"將會(huì)被分為"不能、說(shuō)、的、秘密"四個(gè)詞。在關(guān)鍵詞索引中,"秘密"在網(wǎng)頁(yè)標(biāo)題1的關(guān)鍵詞中的權(quán)重為weight,在網(wǎng)頁(yè)標(biāo)題2的關(guān)鍵詞中的權(quán)重為weight/3。109、向用戶呈現(xiàn)排序結(jié)果。將實(shí)際總權(quán)重最高的網(wǎng)絡(luò)資源排在最前面,從而使排序結(jié)果更加貼近用戶的需求。從實(shí)施例l中可以看出,ql和q2是可調(diào)節(jié)的。在特殊情況下,由于提取關(guān)鍵詞的原因,有時(shí)當(dāng)用戶輸入一個(gè)字,且該字是一個(gè)電影名時(shí),例如"東",該搜索詞可能會(huì)有許多結(jié)果均為關(guān)鍵詞"東",這時(shí)會(huì)導(dǎo)致搜索結(jié)果過(guò)于單一化,結(jié)果顯示整頁(yè)均是有關(guān)"東"的電影,這樣可能與用戶實(shí)際想要的結(jié)果有一定差距??梢越档蛁2并升高ql,以針對(duì)該特殊情況。綜上所述,本發(fā)明實(shí)施例中對(duì)用戶輸入的搜索詞進(jìn)行分詞處理;以分詞處理所得的分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重,并確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重。由于總權(quán)重中考慮了搜索詞與關(guān)鍵詞的匹配等情況,所以按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序并呈現(xiàn)給用戶,可更加貼近用戶的需求。進(jìn)一步,本發(fā)明實(shí)施例中提供了設(shè)置步驟、確定待排序網(wǎng)絡(luò)資源的步驟、計(jì)算權(quán)重的步驟、排序步驟,以及呈現(xiàn)步驟的具體實(shí)現(xiàn)方案。其中設(shè)置步驟包括關(guān)鍵詞詞典的定制子步驟、關(guān)鍵詞的提取子步驟、建立關(guān)鍵詞索引的子步驟、建立資源索引的子步驟,以及權(quán)重配置子步驟。更好的支撐了本發(fā)明。進(jìn)一步,本發(fā)明實(shí)施例1中ql和q2可調(diào)節(jié),所以可根據(jù)具體情況進(jìn)行調(diào)整,滿足用戶的各種需求。明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。權(quán)利要求1、一種基于搜索引擎的搜索結(jié)果排序方法,其特征在于,包括下列步驟對(duì)用戶輸入的搜索詞進(jìn)行分詞處理;以分詞處理所得的分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重;確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重;以及按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序,并呈現(xiàn)給用戶。2、如權(quán)利要求1所述的方法,其特征在于,在用戶輸入搜索詞進(jìn)行搜索之前還包括以詞和詞的屬性作為基本結(jié)構(gòu),定制關(guān)鍵詞詞典的步驟;定制的關(guān)鍵詞詞典中包括各有效詞和每一有效詞對(duì)應(yīng)的屬性,以及各無(wú)效詞和每一無(wú)效詞對(duì)應(yīng)的屬性。3、如權(quán)利要求2所述的方法,其特征在于,所述無(wú)效詞的集合與有效詞的集合互為互斥關(guān)系。4、如權(quán)利要求3所述的方法,其特征在于,一個(gè)所述無(wú)效詞包含的字符覆蓋一個(gè)有效詞包含的字符。5、如權(quán)利要求2所述的方法,其特征在于,所述詞的屬性以字符型數(shù)字表示,每一位字符分別表示所述詞的一種屬性。6、如權(quán)利要求2所述的方法,其特征在于,在用戶輸入搜索詞進(jìn)行搜索之前還包括依據(jù)關(guān)鍵:詞詞典,按最大匹配原則對(duì)每一網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理;根據(jù)分詞處理所得分詞的屬性對(duì)該分詞進(jìn)行過(guò)濾,以提取每一網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞。7、如權(quán)利要求1所述的方法,其特征在于,在用戶輸入搜索詞進(jìn)行搜索之前還包括分別對(duì)每一網(wǎng)絡(luò)資源的主題信息的各關(guān)鍵詞進(jìn)行分詞處理;建立關(guān)鍵詞的各分詞到網(wǎng)絡(luò)資源的關(guān)鍵詞索引。8、如權(quán)利要求7所述的方法,其特征在于,還包括配置權(quán)重的步驟,其中包括根據(jù)關(guān)鍵詞的各分詞詞長(zhǎng)占該關(guān)鍵詞詞長(zhǎng)的比例,為各分詞分別配置分詞權(quán)重;或者根據(jù)網(wǎng)絡(luò)資源的信息,為該網(wǎng)絡(luò)資源配置靜態(tài)權(quán)重,并根據(jù)關(guān)鍵詞的各分詞詞長(zhǎng)占該關(guān)鍵詞詞長(zhǎng)的比例,為各分詞分別配置分詞權(quán)重。9、如權(quán)利要求8所述的方法,其特征在于,所述網(wǎng)絡(luò)資源的信息包括被瀏覽次數(shù)和/或被引用情況和/或被下載次數(shù)和/或文件格式和/或文件大小。10、如權(quán)利要求l所述的方法,其特征在于,將以分詞處理所得分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定每一分詞在各待排序網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞中的分詞權(quán)重;將各分詞在同一待排序網(wǎng)絡(luò)資源的主題信息中的分詞權(quán)重相加,作為所述搜索詞在該待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重。11、如權(quán)利要求10所述的方法,其特征在于,所述總權(quán)重至少包括搜索詞在所述待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重。12、如權(quán)利要求10所述的方法,其特征在于,確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重,包括下列步驟取根據(jù)當(dāng)前待排序網(wǎng)絡(luò)資源的信息配置的靜態(tài)權(quán)重;取所述搜索詞在當(dāng)前待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重;將當(dāng)前待排序網(wǎng)絡(luò)資源的靜態(tài)權(quán)重與關(guān)鍵詞權(quán)重組合成當(dāng)前待排序網(wǎng)絡(luò)資源的總權(quán)重。13、如權(quán)利要求12所述的方法,其特征在于,當(dāng)前待排序網(wǎng)絡(luò)資源的總權(quán)重為W(docid)=ql*Ws(docid)+q2*Wk(docid),其中,docid表示當(dāng)前待排序的網(wǎng)絡(luò)資源;ql表示靜態(tài)權(quán)重占總權(quán)重的比例;Ws(docid)表示靜態(tài)權(quán)重;q2表示關(guān)鍵詞權(quán)重占總權(quán)重的比例;Wk(docid)表示關(guān)鍵詞4又重。14、如權(quán)利要求l所述的方法,其特征在于,在用戶輸入搜索詞進(jìn)行搜索之前還包括根據(jù)基礎(chǔ)分詞詞典對(duì)網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理;建立網(wǎng)絡(luò)資源的各分詞到網(wǎng)絡(luò)資源的資源索引。15、如權(quán)利要求M所述的方法,其特征在于,確定所述待排序網(wǎng)絡(luò)資源,包括下列步驟以對(duì)搜索詞進(jìn)行分詞處理所得分詞分別在資源索引中進(jìn)行查找,以分別確定每一分詞所屬的網(wǎng)絡(luò)資源的集合;取各所述集合的交集,作為待排序的網(wǎng)絡(luò)資源。16、如權(quán)利要求l所述的方法,其特征在于,按照總權(quán)重由高至低的順序?qū)λ龈鞔判虻木W(wǎng)絡(luò)資源進(jìn)行排序,并將排序結(jié)果正向呈現(xiàn)給用戶。17、一種基于搜索引擎的搜索結(jié)果排序裝置,其特征在于,包括分詞單元,用于對(duì)用戶輸入的搜索詞進(jìn)行分詞處理;關(guān)鍵詞權(quán)重確定單元,用于以分詞處理所得分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重;總權(quán)重確定單元,用于確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重;排序單元,用于按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序;呈現(xiàn)單元,用于向用戶呈現(xiàn)排序結(jié)果。18、如權(quán)利要求17所述的裝置,其特征在于,還包括定制單元,用于以詞和詞的屬性作為基本結(jié)構(gòu),定制關(guān)鍵詞詞典;定制的關(guān)鍵詞詞典中包括各有效詞和每一有效詞對(duì)應(yīng)的屬性,以及各無(wú)效詞和每一無(wú)效詞對(duì)應(yīng)的屬性。19、如權(quán)利要求18所述的裝置,其特征在于,還包括提取單元,用于依據(jù)關(guān)鍵詞詞典,按最大匹配原則對(duì)每一網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理;才艮據(jù)分詞處理所得分詞的屬性對(duì)該分詞進(jìn)行過(guò)濾,以提取每一網(wǎng)絡(luò)資源的主題信息的關(guān)鍵詞。20、如權(quán)利要求17所述的裝置,其特征在于,還包括關(guān)鍵詞索《1建立單元,用于分別對(duì)每一網(wǎng)絡(luò)資源的主題信息的各關(guān)鍵詞進(jìn)行分詞處理,并建立關(guān)鍵詞的各分詞到網(wǎng)絡(luò)資源的關(guān)鍵詞索引,以備關(guān)鍵詞權(quán)重確定單元調(diào)用。21、如權(quán)利要求20所述的裝置,其特征在于,還包括配置單元,用于根據(jù)關(guān)鍵詞的各分詞詞長(zhǎng)占該關(guān)鍵詞詞長(zhǎng)的比例,為各分詞分別配置分詞權(quán)重;或者根據(jù)網(wǎng)絡(luò)資源的信息,為該網(wǎng)絡(luò)資源配置靜態(tài)權(quán)重,并根據(jù)關(guān)鍵詞的各分詞詞長(zhǎng)占該關(guān)鍵詞詞長(zhǎng)的比例,為各分詞分別配置分詞權(quán)重。22、如權(quán)利要求17所述的裝置,其特征在于,還包括資源索引建立單元,用于根據(jù)基礎(chǔ)分詞詞典對(duì)網(wǎng)絡(luò)資源的主題信息進(jìn)行分詞處理,并建立網(wǎng)絡(luò)資源的各分詞到網(wǎng)絡(luò)資源的資源索引。23、如權(quán)利要求22所述的裝置,其特征在于,還包括找,以分別確定每一分詞所屬的網(wǎng)絡(luò)資源的集合;取各所述集合的交集,作為待排序的網(wǎng)絡(luò)資源。24、如權(quán)利要求23所述的裝置,其特征在于,排序單元按照總權(quán)重由高至低的順序?qū)λ龈鞔判虻木W(wǎng)絡(luò)資源進(jìn)行排序,則呈現(xiàn)單元將排序結(jié)果正向呈現(xiàn)給用戶。全文摘要本發(fā)明公開(kāi)了一種基于搜索引擎的搜索結(jié)果排序方法及裝置,涉及搜索引擎領(lǐng)域,使排序結(jié)果更加貼近用戶的需求。方法包括對(duì)用戶輸入的搜索詞進(jìn)行分詞處理;以分詞處理所得的分詞分別在關(guān)鍵詞索引中進(jìn)行查找,以確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的關(guān)鍵詞權(quán)重;確定所述搜索詞在各待排序網(wǎng)絡(luò)資源中的總權(quán)重;以及按照總權(quán)重對(duì)所述各待排序的網(wǎng)絡(luò)資源進(jìn)行排序,并呈現(xiàn)給用戶。裝置包括分詞單元、關(guān)鍵詞權(quán)重確定單元、總權(quán)重確定單元、排序單元和呈現(xiàn)單元。文檔編號(hào)G06F17/30GK101158971SQ20071018727公開(kāi)日2008年4月9日申請(qǐng)日期2007年11月15日優(yōu)先權(quán)日2007年11月15日發(fā)明者劉漢洲申請(qǐng)人:深圳市迅雷網(wǎng)絡(luò)技術(shù)有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1