国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種推薦系統(tǒng)及推薦方法

      文檔序號(hào):6469947閱讀:262來源:國知局
      專利名稱:一種推薦系統(tǒng)及推薦方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,特別是一種推薦系統(tǒng)及推薦方法。
      背景技術(shù)
      推薦搜索所應(yīng)用的信息一般為用戶的歷史信息,隨著時(shí)間的推移,歷史數(shù) 據(jù)會(huì)越來越大。
      現(xiàn)有技術(shù)的推薦搜索方法在計(jì)算的時(shí)候僅使用歷史數(shù)據(jù)庫中的部分?jǐn)?shù)據(jù) 進(jìn)行推薦搜索,雖然其能夠降低計(jì)算復(fù)雜度,但由于其用于推薦搜索的數(shù)據(jù)僅 僅只是原始數(shù)據(jù)的 一部分,因此其推薦搜索的輸出結(jié)果不可避免的具有不完全 的缺點(diǎn)。

      發(fā)明內(nèi)容
      本發(fā)明的目的是提供一種推薦系統(tǒng)及推薦方法,基于全部的歷史信息進(jìn)行 推薦,而計(jì)算成本不高。
      為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供了一種推薦方法,包括 步驟A,保存由源歷史數(shù)據(jù)組成的源歷史數(shù)據(jù)集; 步驟B,從由源歷史數(shù)據(jù)組成的源歷史數(shù)據(jù)集中選擇部分源歷史數(shù)據(jù)作為 樣本歷史數(shù)據(jù);
      步驟C,保存由所述樣本歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集;
      步驟D,建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)樣本歷史數(shù)據(jù)與所述源歷史
      數(shù)據(jù)集中的每一個(gè)源歷史數(shù)據(jù)之間的鏈接,每一個(gè)樣本歷史數(shù)據(jù)與每一個(gè)源歷
      史數(shù)據(jù)之間的鏈接具有各自的第一權(quán)值;
      步驟E,基于用戶當(dāng)前輸入的查詢信息,從所述樣本歷史數(shù)據(jù)集中選擇至
      少一個(gè)樣本歷史數(shù)據(jù)組成第一推薦結(jié)果,所述第一推薦結(jié)果中的每個(gè)樣本歷史
      數(shù)據(jù)對(duì)于用戶當(dāng)前輸入的查詢信息具有各自的第二權(quán)值;步驟F,根據(jù)所述第 一權(quán)值和第二權(quán)值從源歷史數(shù)據(jù)中選擇至少 一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果。
      上述的方法,其中,所述步驟A具體為
      步驟Al,將所述源歷史數(shù)據(jù)組織成基于用戶查詢數(shù)據(jù)結(jié)構(gòu)的記錄,每條所述記錄包括一次查詢以及用戶查詢后的操作歷史;步驟A2,保存組織得到的所述記錄。
      上述的方法,其中,每條所述記錄包括主數(shù)據(jù)信息和與所述主數(shù)據(jù)信息對(duì)應(yīng)的從數(shù)據(jù)信息;
      所述步驟D中建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)記錄與所述源歷史數(shù)據(jù)集中的每一個(gè)記錄之間的鏈接,每個(gè)鏈接的第一權(quán)值為根據(jù)對(duì)應(yīng)的兩個(gè)記錄的主數(shù)據(jù)信息計(jì)算得到的權(quán)值。
      上述的方法,其中,所述主數(shù)據(jù)信息為查詢信息時(shí),所述鏈接的權(quán)值Z(仏,如下
      H 4e《,ri(^ ^e力
      其中,仏為樣本歷史數(shù)據(jù)集中一條紀(jì)錄的查詢信息,》為所述源歷史數(shù)據(jù)集中的一條記錄的查詢信息,xWs表示詞組w,的權(quán)值。
      上述的方法,其中,所述主數(shù)據(jù)信息為查詢信息時(shí),所述鏈接的權(quán)值義(仏,如下
      其中,仏為樣本歷史數(shù)據(jù)集中一條紀(jì)錄的查詢信息,^/為所述源歷史數(shù)據(jù)集中的一條記錄的查詢信息,似/7iT(仏)表示用仏從數(shù)據(jù)庫檢索得到的前K篇文檔,h表示取模,其計(jì)算結(jié)果為文檔數(shù)目。
      上述的方法,其中,所述主數(shù)據(jù)信息為查詢信息時(shí),所述鏈接的權(quán)值Z",,
      如下
      《3(《/ 《乂)= v/sctocs (qr,) n v&rfocs/ visrfoc^ (《,)uv/ /ocy (《乂)
      其中,《,.為樣本歷史數(shù)據(jù)集中一條紀(jì)錄的查詢信息,^;為所述源歷史數(shù)據(jù)
      集中的一條記錄的查詢信息,visdocs(qi)表示用《,從數(shù)據(jù)庫檢索得到的文檔中
      用戶訪問的文檔,而h表示取模,其計(jì)算結(jié)果為文檔數(shù)目。
      7上述的方法,其中,所述步驟B具體包括步驟B1,計(jì)算保存的每條所述記錄的得分;
      步驟B2,利用每條記錄的得分從以記錄方式保存的源歷史數(shù)據(jù)中選擇部分記錄作為樣本歷史數(shù)據(jù)。
      上述的方法,其中,每條記錄的得分為
      其中
      <formula>formula see original document page 8</formula>
      其中,or、盡產(chǎn)& e、《、7/、 0均為預(yù)先設(shè)置的參數(shù),A為當(dāng)前記錄的查詢信息下用戶訪問的文檔的數(shù)目,B為當(dāng)前記錄的查詢信息的"l丸行時(shí)間到當(dāng)前時(shí)間的時(shí)間差,C表示與當(dāng)前記錄的查詢信息相似的查詢信息的數(shù)目,D表示用戶的活躍程度,即用戶單位時(shí)間內(nèi)平均查詢數(shù)量。
      上述的方法,其中,所述步驟F具體包括步驟F1,從所述第一推薦結(jié)果中選擇一條推薦記錄;步驟F2,獲取源歷史數(shù)據(jù)集中每個(gè)歷史記錄相對(duì)于該推薦記錄的得分,所述歷史記錄的得分為兩個(gè)權(quán)值的乘積,其中一個(gè)權(quán)值為所述推薦記錄在所述第 一推薦結(jié)果中的第二權(quán)值,另外一個(gè)權(quán)值為所述推薦記錄與所述歷史記錄的鏈接的第一權(quán)值;
      步驟F3,根據(jù)計(jì)算得到的源歷史數(shù)據(jù)集中每個(gè)歷史記錄相對(duì)于該推薦記錄的得分,從所述源歷史數(shù)據(jù)中選擇至少一個(gè)記錄組成所述第二推薦結(jié)果。為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例還提供了一種推薦系統(tǒng),包括第 一保存模塊,用于保存由源歷史數(shù)據(jù)組成的源歷史數(shù)據(jù)集; 數(shù)據(jù)選擇模塊,用于從所述源歷史數(shù)據(jù)集中選擇部分源歷史數(shù)據(jù)作為樣本 歷史數(shù)據(jù);
      第二保存模塊,用于保存由所述樣本歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集;
      鏈接建立模塊,用于建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)樣本歷史數(shù)據(jù)與 所述源歷史數(shù)據(jù)集中的每一個(gè)源歷史數(shù)據(jù)之間的鏈接,每一個(gè)樣本歷史數(shù)據(jù)與 每一個(gè)源歷史數(shù)據(jù)之間的鏈接具有各自的第一權(quán)值;
      第一推薦模塊,用于基于用戶當(dāng)前輸入的查詢信息,從所述樣本歷史數(shù)據(jù) 集中選擇至少一個(gè)樣本歷史數(shù)據(jù)組成第一推薦結(jié)果,所述第一推薦結(jié)果中的每 個(gè)樣本歷史數(shù)據(jù)對(duì)于用戶當(dāng)前輸入的查詢信息具有各自的第二權(quán)值;
      第二推薦模塊,用于根據(jù)所述第 一權(quán)值和第二權(quán)值從所述第 一源歷史數(shù)據(jù) 中選擇至少一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果,所述第一源歷史數(shù)據(jù)為與所述 第 一推薦結(jié)果中樣本歷史數(shù)據(jù)具有鏈接的源歷史數(shù)據(jù)。
      上述的推薦系統(tǒng),其中,所述第一保存模塊具體包括
      組織單元,用于將所述源歷史數(shù)據(jù)組織成基于用戶查詢數(shù)據(jù)結(jié)構(gòu)的記錄, 每條所述記錄包括一次查詢以及用戶查詢后的操作歷史;
      第一保存單元,用于保存組織得到的所述記錄。
      上述的推薦系統(tǒng),其中,
      每條所述記錄包括主數(shù)據(jù)信息和與所述主數(shù)據(jù)信息對(duì)應(yīng)的從數(shù)據(jù)信息; 所述鏈接建立;f莫塊具體用于建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)記錄與
      所述源歷史數(shù)據(jù)集中的每一個(gè)記錄之間的鏈接,每個(gè)鏈接的第一權(quán)值為根據(jù)對(duì)
      應(yīng)的兩個(gè)記錄的主數(shù)據(jù)信息計(jì)算得到的權(quán)值。
      上述的推薦系統(tǒng),其中,所述數(shù)據(jù)選擇模塊具體包括
      計(jì)算單元,用于計(jì)算所述第一保存單元中的每條記錄的得分;
      選擇單元,用于利用每個(gè)記錄的得分從所述第一保存單元中以記錄方式保
      存的源歷史數(shù)據(jù)中選擇部分源歷史數(shù)據(jù)作為樣本歷史數(shù)據(jù)。 本發(fā)明實(shí)施例具有以下的有益效果
      本發(fā)明實(shí)施例的方法和系統(tǒng)在部分源歷史數(shù)據(jù)的基礎(chǔ)上得到一初始推薦 結(jié)果,進(jìn)而利用該部分源歷史數(shù)據(jù)和所有源歷史數(shù)據(jù)之間的鏈接來豐富該初始推薦結(jié)果,所以本發(fā)明實(shí)施例的方法和系統(tǒng)得到的推薦結(jié)果是基于所有的源歷
      史數(shù)據(jù)得到,避免了現(xiàn)有技術(shù)中的推薦結(jié)果不完全的缺點(diǎn);
      本發(fā)明實(shí)施例的方法和系統(tǒng)中,需要利用該部分源歷史數(shù)據(jù)和所有源歷史 數(shù)據(jù)之間的鏈接來豐富該初始推薦結(jié)果,然而,由于該部分源歷史數(shù)據(jù)和所有 源歷史數(shù)據(jù)之間的鏈接可以預(yù)先計(jì)算得到,所以在實(shí)際的推薦查詢過程中,并 不會(huì)顯著增加推薦過程的計(jì)算量。


      圖1為本發(fā)明實(shí)施例的推薦系統(tǒng)的結(jié)構(gòu)示意圖; 圖2為本發(fā)明實(shí)施例的推薦方法的流程示意圖。
      具體實(shí)施例方式
      本發(fā)明實(shí)施例的推薦系統(tǒng)及推薦方法中,首先基于從源歷史數(shù)據(jù)中選擇一 部分歷史數(shù)據(jù)作為樣本歷史數(shù)據(jù),并在新搜索開始時(shí),基于樣本歷史數(shù)據(jù)進(jìn)行 推薦,輸出一第一推薦結(jié)果,然而根據(jù)樣本歷史數(shù)據(jù)和源歷史數(shù)據(jù)之間的關(guān)系, 豐富第一推薦結(jié)果。
      本發(fā)明實(shí)施例的推薦系統(tǒng)如圖1所示,包括
      第 一保存模塊,用于保存由源歷史數(shù)據(jù)組成的源歷史數(shù)據(jù)集;
      數(shù)據(jù)選擇模塊,用于從所述源歷史數(shù)據(jù)集中選擇部分源歷史數(shù)據(jù)作為樣本
      歷史數(shù)據(jù);
      第二保存模塊,用于保存由所述樣本歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集;
      鏈接建立模塊,用于建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)樣本歷史數(shù)據(jù)與 所述源歷史數(shù)據(jù)集中的每一個(gè)源歷史數(shù)據(jù)之間的鏈接,每一個(gè)樣本歷史數(shù)據(jù)與 每一個(gè)源歷史數(shù)據(jù)之間的鏈接具有各自的第一權(quán)值;
      第一推薦模塊,用于基于用戶當(dāng)前輸入的查詢信息,從所述樣本歷史數(shù)據(jù) 集中選擇至少一個(gè)樣本歷史數(shù)據(jù)組成第一推薦結(jié)果,所述第一推薦結(jié)果中的每 個(gè)樣本歷史數(shù)據(jù)對(duì)于用戶當(dāng)前輸入的查詢信息具有各自的第二權(quán)值;
      第二推薦模塊,用于根據(jù)所述第一權(quán)值和第二權(quán)值從所述第一源歷史數(shù)據(jù) 中選擇至少 一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果;
      10所述第 一源歷史數(shù)據(jù)為與所述第 一推薦結(jié)果中樣本歷史數(shù)據(jù)具有鏈接的 源歷史數(shù)據(jù)。
      本發(fā)明實(shí)施例的推薦方法如圖2所示,包括
      步驟21,從由源歷史數(shù)據(jù)組成的源歷史數(shù)據(jù)集中選擇部分源歷史數(shù)據(jù)作 為樣本歷史數(shù)據(jù);
      步驟22,保存由所述樣本歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集;
      步驟23,建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)樣本歷史數(shù)據(jù)與所述源歷 史數(shù)據(jù)集中的每一個(gè)源歷史數(shù)據(jù)之間的鏈接,每一個(gè)樣本歷史數(shù)據(jù)與每一個(gè)源 歷史數(shù)據(jù)之間的鏈接具有各自的第 一權(quán)值;
      步驟24,基于用戶當(dāng)前輸入的查詢信息,從所述樣本歷史數(shù)據(jù)集中選擇 至少一個(gè)樣本歷史數(shù)據(jù),組成第一推薦結(jié)果,所述第一推薦結(jié)果中的每個(gè)樣本 歷史數(shù)據(jù)對(duì)于用戶當(dāng)前輸入的查詢信息具有各自的第二權(quán)值;
      步驟25,根據(jù)所述第一權(quán)值和第二權(quán)值從所述第一源歷史數(shù)據(jù)中選擇至 少一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果后輸出,所述第 一源歷史數(shù)據(jù)為與所述第 一推薦結(jié)果中樣本歷史數(shù)據(jù)具有鏈接的源歷史數(shù)據(jù)。
      下面對(duì)本發(fā)明實(shí)施例的方法和系統(tǒng)進(jìn)行進(jìn)一步的詳細(xì)說明。
      一般來說,源歷史數(shù)據(jù)中包括很多數(shù)據(jù)信息,如用戶信息、查詢信息、 用戶訪問文檔信息、用戶查看文檔的時(shí)間信息和用戶鼠標(biāo)軌跡信息等,在本發(fā) 明的具體實(shí)施例中,為了后續(xù)步驟的實(shí)現(xiàn)更加簡單,首先將這些信息進(jìn)行組織, 以一定的結(jié)構(gòu)進(jìn)行保存。
      在本發(fā)明的具體實(shí)施例中,第一保存模塊具體包括
      組織單元,用于將所述源歷史數(shù)據(jù)集中的源歷史數(shù)據(jù)組織成基于用戶查詢 數(shù)據(jù)結(jié)構(gòu)的記錄,每條所述記錄包括一次查詢以及用戶查詢后的操作歷史;
      第一保存單元,用于保存所述記錄。
      所謂基于用戶查詢的數(shù)據(jù)結(jié)構(gòu),就是一次查詢以及用戶查詢后的操作歷史 作為一個(gè)數(shù)據(jù)單位,詳細(xì)如下所述。
      為方便說明,以源歷史數(shù)據(jù)中的數(shù)據(jù)信息包括用戶信息、查詢信息和用戶 訪問文檔信息為例說明該基于用戶查詢的數(shù)據(jù)結(jié)構(gòu)。
      首先從歷史數(shù)據(jù)的數(shù)據(jù)信息中選擇其中一個(gè)數(shù)據(jù)信息作為主數(shù)據(jù)信息,其
      ii他信息作為從數(shù)據(jù)信息;如選擇用戶信息作為主數(shù)據(jù)信息時(shí),則查詢信息和用 戶訪問文檔信息為從數(shù)據(jù)信息,而選擇查詢信息作為主數(shù)據(jù)信息時(shí),則用戶信 息和用戶訪問文檔信息為從數(shù)據(jù)信息;
      對(duì)每個(gè)主數(shù)據(jù)信息執(zhí)行如下操作獲取與這個(gè)主數(shù)據(jù)信息相應(yīng)的所有從數(shù) 據(jù)信息,并對(duì)應(yīng)保存主數(shù)據(jù)信息和從數(shù)據(jù)信息,舉例說明如下
      如選擇查詢信息作為主數(shù)據(jù)信息時(shí),首先選擇一個(gè)查詢信息;然后對(duì)于該 查詢信息,獲取該查詢信息相應(yīng)的用戶信息,同時(shí)獲取該查詢信息對(duì)應(yīng)的用戶 訪問文檔信息,最后將該查詢信息、該查詢信息相應(yīng)的用戶信息和該查詢信息 對(duì)應(yīng)的用戶訪問文檔信息作為 一條記錄保存。
      在完成上述的操作后,就需要從基于用戶查詢的數(shù)據(jù)結(jié)構(gòu)保存的源歷史數(shù) 據(jù)中選擇出樣本歷史數(shù)據(jù)。
      本發(fā)明實(shí)施例的系統(tǒng)和方法,首先需要從源歷史數(shù)據(jù)集中選擇部分源歷史 數(shù)據(jù)作為樣本歷史數(shù)據(jù),樣本歷史數(shù)據(jù)的選擇是實(shí)現(xiàn)本發(fā)明實(shí)施例的方法和系 統(tǒng)的基礎(chǔ),同時(shí),選擇出來的樣本歷史數(shù)據(jù)也會(huì)對(duì)本發(fā)明實(shí)施例的系統(tǒng)和方法 的性能產(chǎn)生較大的影響,下面對(duì)如何選擇樣本歷史數(shù)據(jù)進(jìn)行詳細(xì)說明。
      下面以主數(shù)據(jù)信息為查詢信息(Query ),而從數(shù)據(jù)信息為用戶信息(User )、 用戶訪問文檔信息(Visit)和用戶查看文檔的時(shí)間信息(Time)為例來詳細(xì)說 明本發(fā)明實(shí)施例如何選擇樣本歷史數(shù)據(jù),其包括如下步驟
      首先,根據(jù)如下公式計(jì)算每條記錄的得分Score:
      <formula>formula see original document page 12</formula>
      其中^= f / c
      Query
      —{ A/77 A<7/ ^visit = l 1 A2t;
      其中,a、 A ,、 & s、《、77、 0均為預(yù)先設(shè)置的參數(shù),而A、 B、 C和
      D的意義如下所述
      A表示該查詢信息下用戶訪問的文檔的數(shù)目;
      B表示該查詢信息執(zhí)行時(shí)間到當(dāng)前時(shí)間的時(shí)間差;
      C表示所有記錄中與該條記錄的查詢信息相似的查詢信息的數(shù)目;
      D表示用戶的活躍程度,即用戶單位時(shí)間內(nèi)平均查詢數(shù)量。
      利用上述的公式計(jì)算得到每條記錄的得分后,即可利用該得分從第一保存
      模塊以記錄方式保存的源歷史數(shù)據(jù)中選擇部分源歷史數(shù)據(jù)作為樣本歷史數(shù)據(jù),
      其中該步驟中可以利用經(jīng)典賭盤選擇算法從源歷史數(shù)據(jù)中選擇部分源歷史數(shù)
      據(jù)作為樣本歷史數(shù)據(jù)。
      當(dāng)然,在本發(fā)明的具體實(shí)施例中,從源歷史數(shù)據(jù)中選擇部分源歷史數(shù)據(jù)作
      為樣本歷史數(shù)據(jù)還可以采用其他的算法,如
      隨機(jī)選取,從源歷史數(shù)據(jù)中隨機(jī)抽取預(yù)定數(shù)目的數(shù)據(jù);
      按時(shí)間選取,從源歷史數(shù)據(jù)中按生成時(shí)間抽取預(yù)定數(shù)目的數(shù)據(jù),如抽取某
      一個(gè)時(shí)間段的數(shù)據(jù),每間隔預(yù)定時(shí)間段抽取數(shù)據(jù);
      等間隔過濾選取等,從源歷史數(shù)據(jù)中每間隔一定數(shù)目的源歷史數(shù)據(jù)抽取一
      個(gè)或多個(gè)。
      在上述的具體實(shí)施例中,是以主數(shù)據(jù)信息為查詢信息進(jìn)行的說明,但該主 數(shù)據(jù)信息也可以是用戶信息、查詢信息、用戶訪問文檔信息、用戶查看文檔的 時(shí)間信息或用戶鼠標(biāo)軌跡信息等數(shù)據(jù)信息,其具體實(shí)現(xiàn)方式與主數(shù)據(jù)信息為查 詢信息時(shí)的實(shí)現(xiàn)方式基本相同,在此不再贅述。
      13當(dāng)然,也可以先使用主數(shù)據(jù)信息為查詢信息進(jìn)行一次選擇,然后對(duì)選擇得 到的數(shù)據(jù)利用其他數(shù)據(jù)信息作為主數(shù)據(jù)信息進(jìn)行二次選擇,然后得到最終的樣 本歷史數(shù)據(jù),該二次選擇可以是一次或多次。
      通過上述的處理流程,已經(jīng)得到了樣本歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集, 需要基于該樣本歷史數(shù)據(jù)集進(jìn)行第一次推薦處理,其基于用戶當(dāng)前輸入的查詢 信息,從所述樣本歷史數(shù)據(jù)集中選擇至少一個(gè)樣本歷史數(shù)據(jù)(以基于用戶查詢 的數(shù)據(jù)結(jié)構(gòu)保存時(shí),為至少一條紀(jì)錄),組成第一推薦結(jié)果,所述第一推薦結(jié)
      果中的每個(gè)樣本歷史數(shù)據(jù)對(duì)于用戶當(dāng)前輸入的查詢信息具有各自的第二權(quán)值; 這些推薦算法有
      協(xié)同過濾推薦算法(如周軍鋒湯顯郭景峰.一種優(yōu)化的協(xié)同過濾推薦算 法.計(jì)算機(jī)研究與發(fā)展2004年41巻10期)
      帶回溯的隨機(jī)游走推薦算法(如Hanghang Tong, Christos Faloutsos, Jia漏Yu Pan. Fast Random Walk with Restart and Its Applications.)
      基于關(guān)聯(lián)規(guī)則的推薦算法(如蔡淑琴,林森,梁凱.An Algorithm for Knowledge Recommendation Based on Association Rules.武漢3里工大學(xué)學(xué)氺艮(4言 息與管理工程版)2007年O3期)
      上述僅僅是舉例說明可以應(yīng)用的推薦算法,但本發(fā)明實(shí)施例不局限于上述 的推薦算法。
      通過上述的處理,已經(jīng)得到了樣本歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集,也得 到了一個(gè)初步的推薦結(jié)果,但該推薦結(jié)果僅僅只是基于樣本歷史數(shù)據(jù)集的推薦 結(jié)果,而該樣本歷史數(shù)據(jù)集的數(shù)據(jù)僅僅是源歷史數(shù)據(jù)集中的數(shù)據(jù)的一部分,所 以粗推薦結(jié)果同樣具有信息的損失,推薦結(jié)果不準(zhǔn)確。
      因此,本發(fā)明的具體實(shí)施例需要對(duì)該粗推薦結(jié)果進(jìn)行豐富,使之更加準(zhǔn)確。
      在本發(fā)明的具體實(shí)施例中,通過建立樣本歷史數(shù)據(jù)集的樣本歷史數(shù)據(jù)與源歷史
      數(shù)據(jù)集中的源歷史數(shù)據(jù)之間的鏈接,并確定權(quán)值,然后在基于該得到的權(quán)值進(jìn)
      行豐富,下面對(duì)其進(jìn)行詳細(xì)說明。
      在上面已經(jīng)描述了 ,在第一保存模塊和第二保存模塊中的源歷史數(shù)據(jù)和樣
      本歷史數(shù)據(jù)都是以基于用戶查詢的數(shù)據(jù)結(jié)構(gòu)保存的,也就是歷史數(shù)據(jù)中的每一 條記錄都已經(jīng)包括了主數(shù)據(jù)信息和其它信息之間的鏈接,因此,在本發(fā)明的具體實(shí)施例中只需要建立樣本歷史數(shù)據(jù)的每一條記錄的主數(shù)據(jù)信息與所述源歷 史數(shù)據(jù)集中的每一條記錄的主數(shù)據(jù)信息的鏈接,并確定權(quán)值即可,建立了主數(shù) 據(jù)信息之間的鏈接,就隱式建立了其他數(shù)據(jù)信息之間的鏈接。 下面以主數(shù)據(jù)信息為查詢信息為例進(jìn)行詳細(xì)說明。
      樣本歷史數(shù)據(jù)的查詢信息仏與所述源歷史數(shù)據(jù)集中的一條記錄的查詢信
      息的鏈接的鏈接權(quán)值I (仏,&)如下所示
      其中,舉例說明如下,假設(shè)仏.包括A、 B和C三個(gè)詞組,而&.包括A、 B 和D三個(gè)詞組,則仏和&.的交集為詞組A和B。
      A^,表示利用類似于QTF.IDF (查詢?cè)~詞頻與方向文檔頻率)算法的權(quán)重計(jì)
      算算法測量得到的詞組w,的權(quán)值。
      根據(jù)上述的算法即完成了建立樣本歷史數(shù)據(jù)集中的每一個(gè)樣本歷史數(shù)據(jù) 與所述源歷史數(shù)據(jù)集中的每一個(gè)源歷史數(shù)據(jù)之間的鏈^^妄,并確定權(quán)值。
      上述描述了 一種建立樣本歷史數(shù)據(jù)與所述源歷史數(shù)據(jù)集中的每一個(gè)源歷 史數(shù)據(jù)之間的鏈接,并確定權(quán)值的方法,但本發(fā)明實(shí)施例的方法也可以采用其 它的方式建立鏈接,如下所示的客觀反饋算法并確定鏈接的鏈接權(quán)值,如下所 示。
      X2(《,,^.) = l鄉(xiāng)X (《, )n卿《(《》|/|,<V^T (《,.)u (力)|
      其中,to/^(仏)表示用《,.從數(shù)據(jù)庫檢索得到的前K篇文檔,而卜l表示取模, 其計(jì)算結(jié)果為文檔數(shù)目,舉例說明如下。
      假設(shè)用g,從某一數(shù)據(jù)庫檢索得到的與仏相關(guān)的文檔為3篇,分別為Al、 Bl和Cl,而用^從某一數(shù)據(jù)庫檢索得到的與^相關(guān)的文檔為3篇,分別為 Al、 Cl和Dl,則to/ /r(^)nto/^T(力)為Al,而to/7兀(仏)u/印;r(力)為Al、 Bl、
      Cl和Dl,則鏈接的權(quán)值為1/4。
      本發(fā)明實(shí)施例的方法還可以采用下述的方式建立鏈接,并利用主觀反饋算 法確定鏈接的鏈接權(quán)值,如下所示。
      其中,v&rfocs(仏)表示用《,從數(shù)據(jù)庫檢索得到的文檔中用戶訪問的文檔,
      15而卜l表示取模,其計(jì)算結(jié)果為文檔數(shù)目,舉例說明如下。
      假設(shè)用仏從某一數(shù)據(jù)庫檢索得到的與《,相關(guān)的文檔為3篇,分別為A2、 B2和C2,而用戶訪問過A2和B2,而用^從某一數(shù)據(jù)庫檢索得到的與&.相 關(guān)的文檔為3篇,分別為A2、 C2和D2,而用戶訪問過A2和C2,則 v/油cs(《》。W油cs(&)為A2, 而v油cy(仏)uW油cs(幻)為A2、 B2和C2,貝'J鏈接 的權(quán)值為1/3。
      當(dāng)然,還可以綜合采用多種方式來計(jì)算鏈接權(quán)值,如下 14^,力)="《(仏,力)+ "《(仏,力)+ (1-"->^)^(《,,力)
      其中,a和p可才艮據(jù)需要預(yù)先設(shè)置。
      在建立上述的鏈接和鏈接的權(quán)值后,第二推薦模塊根據(jù)所述第一權(quán)值和第 二權(quán)值從所述第 一源歷史數(shù)據(jù)中選擇至少 一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果, 所述第 一源歷史數(shù)據(jù)為與所述第 一推薦結(jié)果中樣本歷史數(shù)據(jù)具有鏈接的源歷 史數(shù)據(jù),上述步驟的具體處理中,對(duì)于第一推薦結(jié)果中的每個(gè)記錄執(zhí)行如下流 程
      從所述第 一推薦結(jié)果中選擇一條推薦記錄;
      獲取源歷史數(shù)據(jù)集中每個(gè)歷史記錄相對(duì)于該推薦記錄的得分,所述歷史記 錄的得分為兩個(gè)權(quán)值的乘積,其中一個(gè)權(quán)值為所述推薦記錄在所述第一推薦結(jié) 果中的第二權(quán)值,另外一個(gè)權(quán)值為所述推薦記錄與所述歷史記錄的鏈接的第一 權(quán)值;
      根據(jù)計(jì)算得到的源歷史數(shù)據(jù)集中每個(gè)歷史記錄相對(duì)于該推薦記錄的得分, 利用選擇算法從與所述第 一推薦結(jié)果中樣本歷史數(shù)據(jù)具有鏈接的源歷史數(shù)據(jù) 中選擇一定數(shù)量的數(shù)據(jù)進(jìn)行推薦。
      在本發(fā)明的具體實(shí)施例中,該選擇算法可以為經(jīng)典賭盤選擇算法,或者根 據(jù)推薦得分選取較大的得分的一定數(shù)量數(shù)據(jù)等,但不限于上述舉例的算法。
      在上述的描述中,是以主數(shù)據(jù)信息為查詢信息為例進(jìn)行詳細(xì)說明,但應(yīng)當(dāng) 了解的是,上述的方法同樣適用于主數(shù)據(jù)信息為用戶信息、用戶訪問文檔信息、 用戶查看文檔的時(shí)間信息或用戶鼠標(biāo)軌跡信息等數(shù)據(jù)信息的情況,其差別僅在 于計(jì)算權(quán)值的處理對(duì)象的差別,在此不再詳細(xì)說明。
      以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本^^支術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤飾, 這些改進(jìn)和潤飾也應(yīng)^L為本發(fā)明的保護(hù)范圍。
      權(quán)利要求
      1.一種推薦方法,其特征在于,包括步驟A,保存由源歷史數(shù)據(jù)組成的源歷史數(shù)據(jù)集;步驟B,從由源歷史數(shù)據(jù)組成的源歷史數(shù)據(jù)集中選擇部分源歷史數(shù)據(jù)作為樣本歷史數(shù)據(jù);步驟C,保存由所述樣本歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集;步驟D,建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)樣本歷史數(shù)據(jù)與所述源歷史數(shù)據(jù)集中的每一個(gè)源歷史數(shù)據(jù)之間的鏈接,每一個(gè)樣本歷史數(shù)據(jù)與每一個(gè)源歷史數(shù)據(jù)之間的鏈接具有各自的第一權(quán)值;步驟E,基于用戶當(dāng)前輸入的查詢信息,從所述樣本歷史數(shù)據(jù)集中選擇至少一個(gè)樣本歷史數(shù)據(jù)組成第一推薦結(jié)果,所述第一推薦結(jié)果中的每個(gè)樣本歷史數(shù)據(jù)對(duì)于用戶當(dāng)前輸入的查詢信息具有各自的第二權(quán)值;步驟F,根據(jù)所述第一權(quán)值和第二權(quán)值從源歷史數(shù)據(jù)中選擇至少一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果。
      2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟A具體為步驟Al,將所述源歷史數(shù)據(jù)組織成基于用戶查詢數(shù)據(jù)結(jié)構(gòu)的記錄,每條 所述記錄包括一次查詢以及用戶查詢后的操作歷史; 步驟A2,保存組織得到的所述記錄。
      3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,每條所述記錄包括主數(shù)據(jù) 信息和與所述主數(shù)據(jù)信息對(duì)應(yīng)的從數(shù)據(jù)信息;所述步驟D中建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)記錄與所述源歷史數(shù) 據(jù)集中的每一個(gè)記錄之間的鏈接,每個(gè)鏈接的第一權(quán)值為根據(jù)對(duì)應(yīng)的兩個(gè)記錄 的主數(shù)據(jù)信息計(jì)算得到的權(quán)值。
      4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述主數(shù)據(jù)信息為查詢信 息時(shí),所述鏈接的權(quán)值義U,., 如下<formula>formula see original document page 2</formula>其中,仏為樣本歷史數(shù)據(jù)集中一條紀(jì)錄的查詢信息,^;為所述源歷史數(shù)據(jù)集中的一條記錄的查詢信息,;^,表示詞組w,的權(quán)值。
      5. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述主數(shù)據(jù)信息為查詢信息時(shí),所述鏈接的權(quán)值義(仏.,如下<formula>formula see original document page 3</formula>其中,仏為樣本歷史數(shù)據(jù)集中一條紀(jì)錄的查詢信息,^為所述源歷史數(shù)據(jù) 集中的一條記錄的查詢信息,to/^r(《,)表示用《,從數(shù)據(jù)庫檢索得到的前K篇文 檔,卜l表示取模,其計(jì)算結(jié)果為文檔數(shù)目。
      6. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述主數(shù)據(jù)信息為查詢信 息時(shí),所述鏈接的權(quán)值X",, 如下<formula>formula see original document page 3</formula>其中,《,為樣本歷史數(shù)據(jù)集中一條紀(jì)錄的查詢信息,^為所述源歷史數(shù)據(jù) 集中的一條記錄的查詢信息,visdocs(qi)表示用《,從數(shù)據(jù)庫檢索得到的文檔中 用戶訪問的文檔,而卜I表示取J漠,其計(jì)算結(jié)果為文檔數(shù)目。
      7. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟B具體包括 步驟B1,計(jì)算保存的每條所述記錄的得分;分記錄作為樣本歷史數(shù)據(jù)。
      8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,每條記錄的得分為<formula>formula see original document page 3</formula>其中<formula>formula see original document page 3</formula>其中,a、 -、廠《、e、 ^、 ;/、 e均為預(yù)先設(shè)置的參數(shù),A為當(dāng)前記錄的 查詢信息下用戶訪問的文檔的數(shù)目,B為當(dāng)前記錄的查詢信息的執(zhí)行時(shí)間到當(dāng) 前時(shí)間的時(shí)間差,C表示與當(dāng)前記錄的查詢信息相似的查詢信息的數(shù)目,D表 示用戶的活躍程度,即用戶單位時(shí)間內(nèi)平均查詢數(shù)量。
      9. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟F具體包括 步驟Fl,從所述第一推薦結(jié)果中選擇一條推薦記錄;步驟F2,獲取源歷史數(shù)據(jù)集中每個(gè)歷史記錄相對(duì)于該推薦記錄的得分,所述歷史記錄的得分為兩個(gè)權(quán)值的乘積,其中一個(gè)權(quán)值為所述推薦記錄在所述第一推薦結(jié)果中的第二權(quán)值,另外一個(gè)權(quán)值為所述推薦記錄與所述歷史記錄的鏈接的第一權(quán)值;步驟F3,根據(jù)計(jì)算得到的源歷史數(shù)據(jù)集中每個(gè)歷史記錄相對(duì)于該推薦記 錄的得分,從所述源歷史數(shù)據(jù)中選擇至少一個(gè)記錄組成所述第二推薦結(jié)果。
      10. —種推薦系統(tǒng),其特征在于,包括第 一保存模塊,用于保存由源歷史數(shù)據(jù)組成的源歷史數(shù)據(jù)集; 數(shù)據(jù)選擇模塊,用于從所述源歷史數(shù)據(jù)集中選擇部分源歷史數(shù)據(jù)作為樣本 歷史數(shù)據(jù);第二保存模塊,用于保存由所述樣本歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集;鏈接建立模塊,用于建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)樣本歷史數(shù)據(jù)與 所述源歷史數(shù)據(jù)集中的每一個(gè)源歷史數(shù)據(jù)之間的鏈接,每一個(gè)樣本歷史數(shù)據(jù)與 每一個(gè)源歷史數(shù)據(jù)之間的鏈接具有各自的第一權(quán)值;第一推薦模塊,用于基于用戶當(dāng)前輸入的查詢信息,從所述樣本歷史數(shù)據(jù) 集中選擇至少一個(gè)樣本歷史數(shù)據(jù)組成第 一推薦結(jié)果,所述第 一推薦結(jié)果中的每 個(gè)樣本歷史數(shù)據(jù)對(duì)于用戶當(dāng)前輸入的查詢信息具有各自的第二權(quán)值;第二推薦模塊,用于根據(jù)所述第 一權(quán)值和第二權(quán)值從所述第 一源歷史數(shù)據(jù)中選擇至少一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果,所述第一源歷史數(shù)據(jù)為與所述 第一推薦結(jié)果中樣本歷史數(shù)據(jù)具有鏈接的源歷史數(shù)據(jù)。
      11. 根據(jù)權(quán)利要求10所述的推薦系統(tǒng),其特征在于,所述第一保存模塊具體包括組織單元,用于將所述源歷史數(shù)據(jù)組織成基于用戶查詢數(shù)據(jù)結(jié)構(gòu)的記錄,每條所述記錄包括一次查詢以及用戶查詢后的操作歷史; 第一保存單元,用于保存組織得到的所述記錄。
      12. 根據(jù)權(quán)利要求11所述的推薦系統(tǒng),其特征在于 每條所述記錄包括主數(shù)據(jù)信息和與所述主數(shù)據(jù)信息對(duì)應(yīng)的從數(shù)據(jù)信息; 所述鏈接建立模塊具體用于建立所述樣本歷史數(shù)據(jù)集中的每一個(gè)記錄與所述源歷史數(shù)據(jù)集中的每一個(gè)記錄之間的鏈接,每個(gè)鏈接的第一權(quán)值為根據(jù)對(duì) 應(yīng)的兩個(gè)記錄的主數(shù)據(jù)信息計(jì)算得到的權(quán)值。
      13. 根據(jù)權(quán)利要求11所述的推薦系統(tǒng),其特征在于,所述數(shù)據(jù)選擇模塊 具體包括計(jì)算單元,用于計(jì)算所述第一保存單元中的每條記錄的得分;選擇單元,用于利用每個(gè)記錄的得分從所述第一保存單元中以記錄方式保存的源歷史數(shù)據(jù)中選擇部分源歷史數(shù)據(jù)作為樣本歷史數(shù)據(jù)。
      全文摘要
      本發(fā)明公開了一種推薦系統(tǒng)及推薦方法,該推薦方法包括保存從源歷史數(shù)據(jù)集中選擇的部分源歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集;建立樣本歷史數(shù)據(jù)集中的樣本歷史數(shù)據(jù)與源歷史數(shù)據(jù)集中的源歷史數(shù)據(jù)之間的鏈接,每一個(gè)樣本歷史數(shù)據(jù)與每一個(gè)源歷史數(shù)據(jù)之間的鏈接具有各自的第一權(quán)值;基于用戶當(dāng)前輸入的查詢信息,從樣本歷史數(shù)據(jù)集中選擇至少一個(gè)樣本歷史數(shù)據(jù)組成第一推薦結(jié)果,第一推薦結(jié)果中的每個(gè)樣本歷史數(shù)據(jù)對(duì)于用戶當(dāng)前輸入的查詢信息具有各自的第二權(quán)值;根據(jù)第一權(quán)值和第二權(quán)值從源歷史數(shù)據(jù)中選擇至少一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果。本發(fā)明在不顯著增加計(jì)算成本的情況下,基于全部的歷史信息進(jìn)行推薦,推薦結(jié)果完整。
      文檔編號(hào)G06F17/30GK101661483SQ20081021268
      公開日2010年3月3日 申請(qǐng)日期2008年8月29日 優(yōu)先權(quán)日2008年8月29日
      發(fā)明者史達(dá)飛, 尹悅燕, 剛 李, 燕 李, 魯耀杰 申請(qǐng)人:株式會(huì)社理光
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1