本發(fā)明涉及智能搜索領(lǐng)域,更具體地說,本發(fā)明涉及一種基于對象的通用智能搜索系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的快速發(fā)展,企業(yè)系統(tǒng)的用戶需求日益復(fù)雜和多樣化,尤其是在業(yè)務(wù)搜索和查詢方面。傳統(tǒng)的業(yè)務(wù)搜索系統(tǒng)通?;陬A(yù)定義的搜索視圖模型來滿足用戶需求,然而,這種方法在面對不同用戶的個性化需求時顯得力不從心,用戶的歷史行為數(shù)據(jù)、使用習(xí)慣和業(yè)務(wù)場景的差異性,往往導(dǎo)致同一業(yè)務(wù)搜索視圖模型無法滿足所有用戶的需求,降低了系統(tǒng)的搜索效率和用戶體驗。
2、為了解決上述缺陷,現(xiàn)提供一種技術(shù)方案。
技術(shù)實現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的實施例提供一種基于對象的通用智能搜索系統(tǒng),以解決上述背景技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于對象的通用智能搜索系統(tǒng),具體包括相似用戶分析模塊、聚類分析模塊、用戶劃分模塊、數(shù)據(jù)分析模塊以及評估模塊,模塊之間信號連接;
4、相似用戶分析模塊,用于通過將當(dāng)前搜索用戶和其他用戶的用戶特征業(yè)務(wù)實體作為特征以向量化進(jìn)行表示,篩選當(dāng)前搜索用戶在系統(tǒng)中與其他用戶的相似用戶;
5、聚類分析模塊,用于通過用戶使用不同業(yè)務(wù)搜索視圖模型的次數(shù)進(jìn)行聚類分析,根據(jù)當(dāng)前搜索用戶所在的簇,獲得當(dāng)前搜索用戶所在簇中所有的用戶,并將當(dāng)前搜索用戶所在簇中所有的用戶標(biāo)記為同型用戶;
6、用戶劃分模塊,用于通過對同型用戶與相似用戶的對比,確定共同標(biāo)記為同型用戶和相似用戶的用戶,獲得當(dāng)前搜索用戶的備選業(yè)務(wù)搜索視圖模型;
7、數(shù)據(jù)分析模塊,用于構(gòu)建關(guān)于業(yè)務(wù)搜索視圖的圖結(jié)構(gòu),基于當(dāng)前搜索用戶搜索內(nèi)容中的業(yè)務(wù)實體,采集關(guān)于當(dāng)前搜索用戶搜索內(nèi)容中的業(yè)務(wù)實體節(jié)點的結(jié)構(gòu)信息和使用信息;
8、評估模塊,用于評估備選業(yè)務(wù)搜索視圖模型與當(dāng)前搜索用戶的相關(guān)性評估,確定最終適合當(dāng)前搜索用戶的業(yè)務(wù)搜索視圖模型。
9、在一個優(yōu)選地實施方式中,篩選當(dāng)前搜索用戶在系統(tǒng)中與其他用戶的相似用戶,包括:
10、設(shè)置監(jiān)測區(qū)間,獲得用戶監(jiān)測區(qū)間內(nèi)的搜索歷史記錄,提取用戶搜索歷史記錄中的業(yè)務(wù)實體,設(shè)置比重閾值,獲得不同業(yè)務(wù)實體的比重,其中,通過獲得監(jiān)測區(qū)間內(nèi)的用戶搜索歷史記錄中各個業(yè)務(wù)實體數(shù)量,并獲得監(jiān)測區(qū)間內(nèi)的用戶搜索歷史記錄中用戶搜索的總次數(shù),將監(jiān)測區(qū)間內(nèi)的用戶搜索歷史記錄中各個業(yè)務(wù)實體數(shù)量與監(jiān)測區(qū)間內(nèi)的用戶搜索歷史記錄中用戶搜索的總次數(shù)的比值作為不同業(yè)務(wù)實體的比重,將用戶不同業(yè)務(wù)實體的比重與比重閾值進(jìn)行對比,獲得大于比重閾值的業(yè)務(wù)實體,設(shè)置業(yè)務(wù)實體特征值數(shù)量,將用戶大于比重閾值的業(yè)務(wù)實體按照比重大小從大到小進(jìn)行排序,提取業(yè)務(wù)實體特征值數(shù)量的業(yè)務(wù)實體作為用戶特征業(yè)務(wù)實體;
11、將當(dāng)前搜索用戶與其他用戶進(jìn)行相似度分析,通過將當(dāng)前搜索用戶和其他用戶的用戶特征業(yè)務(wù)實體作為特征以向量化進(jìn)行表示,使用相似度計算方法,設(shè)置相似度閾值,確定與其他用戶中相似度大于相似度閾值的用戶,并將大于與其他用戶中相似度大于相似度閾值的用戶作為相似用戶。
12、在一個優(yōu)選地實施方式中,將用戶所在簇中所有的用戶標(biāo)記為同型用戶,包括:
13、對系統(tǒng)中存在的用戶使用k-means聚類算法進(jìn)行聚類分析,設(shè)置單位時間長度,基于用戶在單位時間長度使用不同業(yè)務(wù)搜索視圖模型的次數(shù)進(jìn)行聚類分析,通過將用戶在單位時間長度使用不同業(yè)務(wù)搜索視圖模型的次數(shù)通過向量進(jìn)行表示,即yhn=[cs1,cs2,cs3,……,csi],其中,n=1、2、3、……、n,n為正整數(shù),n為用戶的編號,i=1、2、3、……、i,i為正整數(shù),i為業(yè)務(wù)搜索視圖模型的編號,yhn為用戶的特征向量;
14、隨機選擇k個用戶分為k組,將隨機選擇的k個用戶的特征向量作為初始聚類中心;
15、計算用戶與聚類中心的歐式距離,并將用戶分配到最近的聚類中心所在的簇;
16、計算每個簇內(nèi)用戶特征向量的均值,作為新的聚類中心;
17、重復(fù)進(jìn)行上述步驟,直到聚類中心位置不再發(fā)生顯著變化,或者達(dá)到設(shè)定的迭代次數(shù);
18、聚類結(jié)束后,獲得聚類過后的k個簇,并對聚類過后的k個簇進(jìn)行標(biāo)記,獲得用戶的類型集合;
19、根據(jù)當(dāng)前搜索用戶所在的簇,獲得當(dāng)前搜索用戶所在簇中所有的用戶,并將當(dāng)前搜索用戶所在簇中所有的用戶標(biāo)記為同型用戶。
20、在一個優(yōu)選地實施方式中,獲得當(dāng)前搜索用戶的備選業(yè)務(wù)搜索視圖模型,包括:
21、通過對同型用戶與相似用戶的對比,確定共同標(biāo)記為同型用戶和相似用戶的用戶,并將共同標(biāo)記為同型用戶和相似用戶的用戶記作類交叉識別用戶,采集類交叉識別用戶的業(yè)務(wù)搜索視圖模型,并將類交叉識別用戶的業(yè)務(wù)搜索視圖模型作為當(dāng)前搜索用戶的備選業(yè)務(wù)搜索視圖模型。
22、在一個優(yōu)選地實施方式中,采集關(guān)于當(dāng)前搜索用戶搜索內(nèi)容中的業(yè)務(wù)實體節(jié)點的結(jié)構(gòu)信息,包括:
23、將業(yè)務(wù)實體節(jié)點的結(jié)構(gòu)信息通過結(jié)構(gòu)中心程度偏差系數(shù)表示,所述結(jié)構(gòu)中心程度偏差系數(shù)的獲取邏輯為:獲取從用戶的搜索內(nèi)容中提取的業(yè)務(wù)實體,根據(jù)備選業(yè)務(wù)搜索視圖模型的圖結(jié)構(gòu)使用pagerank算法確定業(yè)務(wù)實體節(jié)點的相對重要性,初始化pagerank值,將所有節(jié)點的初始pagerank值設(shè)為相等,使用pagerank公式進(jìn)行迭代更新,公式表示為:其中,pru為業(yè)務(wù)實體節(jié)點u的相對重要性,prv為業(yè)務(wù)實體節(jié)點v的相對重要性,d為阻尼系數(shù),n為業(yè)務(wù)實體節(jié)點的總數(shù),bu表示指向業(yè)務(wù)實體節(jié)點u的業(yè)務(wù)實體節(jié)點集合,lv為業(yè)務(wù)實體節(jié)點v的出度;
24、獲得從用戶的搜索內(nèi)容中提取業(yè)務(wù)實體的相對重要性,并將從用戶的搜索內(nèi)容中提取業(yè)務(wù)實體的相對重要性標(biāo)記為:zym,其中,m=1、2、3、……、m,m為正整數(shù),m為用戶的搜索內(nèi)容中提取的業(yè)務(wù)實體的編號;
25、計算用戶在備選業(yè)務(wù)搜索視圖模型中的相對重要性系數(shù),計算公式為:其中,zyall為相對重要性系數(shù);
26、根據(jù)備選業(yè)務(wù)搜索視圖模型的圖結(jié)構(gòu),獲得從用戶的搜索內(nèi)容中提取的業(yè)務(wù)實體的接近中心性,獲得業(yè)務(wù)實體節(jié)點到所有其他節(jié)點的距離的倒數(shù),并將業(yè)務(wù)實體節(jié)點到所有其他節(jié)點的距離的倒數(shù)作為該業(yè)務(wù)實體節(jié)點的接近中心性,將從用戶的搜索內(nèi)容中提取的業(yè)務(wù)實體的接近中心性標(biāo)記為:jjm;
27、計算用戶在備選業(yè)務(wù)搜索視圖模型中的接近中心性系數(shù),計算公式為:其中,jjall為接近中心性系數(shù);
28、根據(jù)備選業(yè)務(wù)搜索視圖模型的圖結(jié)構(gòu),獲得從用戶的搜索內(nèi)容中提取的業(yè)務(wù)實體的介數(shù)中心性,獲得圖結(jié)構(gòu)中每一對業(yè)務(wù)實體節(jié)點的最短距離,獲得圖結(jié)構(gòu)中每個節(jié)點在所有最短路徑中經(jīng)過業(yè)務(wù)實體節(jié)點的路徑數(shù)量,并將圖結(jié)構(gòu)中每個節(jié)點在所有最短路徑中經(jīng)過業(yè)務(wù)實體節(jié)點的路徑數(shù)量標(biāo)記為:zdm,獲得圖結(jié)構(gòu)中的總路徑數(shù)量,并將圖結(jié)構(gòu)中的總路徑數(shù)量標(biāo)記為:lj,從用戶的搜索內(nèi)容中提取的業(yè)務(wù)實體的介數(shù)中心性的計算公式為:
29、計算用戶在備選業(yè)務(wù)搜索視圖模型中的介數(shù)中心性系數(shù),計算公式為:其中,jsall為介數(shù)中心性系數(shù);
30、設(shè)置相對重要性系數(shù)標(biāo)準(zhǔn)值、接近中心性系數(shù)標(biāo)準(zhǔn)值以及介數(shù)中心性系數(shù)標(biāo)準(zhǔn)值,獲得相對重要性系數(shù)標(biāo)準(zhǔn)值、接近中心性系數(shù)標(biāo)準(zhǔn)值以及介數(shù)中心性系數(shù)標(biāo)準(zhǔn)值分別與相對重要性系數(shù)、接近中心性系數(shù)以及介數(shù)中心性系數(shù)的偏差,并將相對重要性系數(shù)偏差、接近中心性系數(shù)偏差以及介數(shù)中心性系數(shù)偏差標(biāo)記為:pczy、pcjj以及pcjs;
31、計算結(jié)構(gòu)中心程度偏差系數(shù),計算公式為:其中,pcjg為結(jié)構(gòu)中心程度偏差系數(shù)。
32、在一個優(yōu)選地實施方式中,采集關(guān)于當(dāng)前搜索用戶搜索內(nèi)容中的業(yè)務(wù)實體節(jié)點的使用信息,包括:
33、將業(yè)務(wù)實體節(jié)點的使用信息通過相對應(yīng)用權(quán)重系數(shù)表示,所述相對應(yīng)用權(quán)重系數(shù)的獲取邏輯為:獲得從用戶的搜索內(nèi)容中提取的業(yè)務(wù)實體在使用不同備選業(yè)務(wù)搜索視圖模型的次數(shù),并將從用戶的搜索內(nèi)容中提取的業(yè)務(wù)實體在使用不同備選業(yè)務(wù)搜索視圖模型的次數(shù)標(biāo)記為:其中,g=1、2、3、……、g,g為正整數(shù),g為備選業(yè)務(wù)搜索視圖模型的編號;
34、需要說明的是,不同用戶在搜索過程中會使用不同的業(yè)務(wù)搜索視圖模型,通過系統(tǒng)的歷史記錄進(jìn)行統(tǒng)計,可以獲得業(yè)務(wù)實體在哪些業(yè)務(wù)搜索視圖模型中應(yīng)用的次數(shù)較多。
35、獲得業(yè)務(wù)實體在使用不同備選業(yè)務(wù)搜索視圖模型次數(shù)的標(biāo)準(zhǔn)差,并將業(yè)務(wù)實體在使用不同備選業(yè)務(wù)搜索視圖模型次數(shù)的標(biāo)準(zhǔn)差標(biāo)記為:σm,其中,
36、計算相對應(yīng)用權(quán)重系數(shù),計算公式為:其中,yyg為備選業(yè)務(wù)搜索視圖模型g的相對應(yīng)用權(quán)重系數(shù)。
37、在一個優(yōu)選地實施方式中,最終適合當(dāng)前搜索用戶的業(yè)務(wù)搜索視圖模型,包括:
38、將結(jié)構(gòu)中心程度偏差系數(shù)和相對應(yīng)用權(quán)重系數(shù)通過加權(quán)求和計算,獲得備選業(yè)務(wù)搜索視圖模型評估系數(shù);
39、設(shè)置備選業(yè)務(wù)搜索視圖模型評估系數(shù)閾值,將備選業(yè)務(wù)搜索視圖模型評估系數(shù)與備選業(yè)務(wù)搜索視圖模型評估系數(shù)閾值進(jìn)行對比;
40、若備選業(yè)務(wù)搜索視圖模型評估系數(shù)大于備選業(yè)務(wù)搜索視圖模型評估系數(shù)閾值,則將備選業(yè)務(wù)搜索視圖模型作為當(dāng)前搜索用戶需求的業(yè)務(wù)搜索視圖模型;
41、若存在多個當(dāng)前搜索用戶需求的業(yè)務(wù)搜索視圖模型時,則根據(jù)備選業(yè)務(wù)搜索視圖模型評估系數(shù)的大小,優(yōu)先選擇較大的備選業(yè)務(wù)搜索視圖模型評估系數(shù)的備選業(yè)務(wù)搜索視圖模型作為當(dāng)前搜索用戶需求的業(yè)務(wù)搜索視圖模型。
42、本發(fā)明的技術(shù)效果和優(yōu)點:
43、本發(fā)明通過用戶的歷史搜索內(nèi)容,篩選了相似用戶,并通過使用聚類算法將使用相同業(yè)務(wù)搜索視圖模型的用戶劃分到相應(yīng)的群組,并綜合兩種方法最終篩選出類交叉識別用戶,提高了用戶劃分的細(xì)粒度,確定了當(dāng)前搜索用戶可能選擇使用的業(yè)務(wù)搜索視圖模型,通過nlp技術(shù)提取用戶當(dāng)前搜索的關(guān)鍵性信息,結(jié)合業(yè)務(wù)搜索視圖模之間的結(jié)構(gòu)信息和使用信息,最終確定最適合當(dāng)前搜索用戶的業(yè)務(wù)搜索視圖模型,本發(fā)明有助于提高用戶體驗,提升系統(tǒng)的智能化和精確性。