0040] 實驗表明,目標(biāo)函數(shù)的選擇對最終的預(yù)測精度會產(chǎn)生重要影響。對于普通用戶,模 塊默認(rèn)提供公式(1)初始函數(shù)模板。通過實驗結(jié)果驗證,這種界定既可以保證引擎快速求 解目標(biāo)函數(shù),同時也能推薦高精度的標(biāo)簽滿足用戶需求。
[0041] 5. 2為了增加目標(biāo)特征向量的稀疏性使之適應(yīng)高維數(shù)據(jù)的特性,方便大數(shù)據(jù)環(huán)境 下的操作,本實施方式引入了經(jīng)典的稀疏性約束技術(shù)作為公式(1)的增量:
[0042] a I Iwll1 ⑵
[0043] 其中:I |w| I1是目標(biāo)向量w的弗羅貝尼烏斯1范數(shù),定義為: CN 105138594 A ~P 4/5 頁
[0044]
(^)
[0045] 在公式⑶中,α為規(guī)則因子,控制目標(biāo)向量w的擬合速率。稀疏性約束使得求 解的特征向量具有較多〇值,這種設(shè)置增加了模塊在大數(shù)據(jù)環(huán)境下的操作靈活性。最后,模 塊把公式(1)和公式(2)合并作為引擎默認(rèn)目標(biāo)函數(shù)如下:
[0046]
(4)
[0047] 5. 3混合智能求解:
[0048] 傳統(tǒng)方法基本無法求解復(fù)雜的目標(biāo)函數(shù),形如公式(4),本實施方式采用二階段的 混合智能的算法子求解目標(biāo)向量w。
[0049] 第一階段,梯度下降法對公式(1)進行偏導(dǎo)數(shù)方程求解,對于需求解的向量w求偏 導(dǎo)數(shù)如下:
[0050]
(5)
[0051] 其中:Θ為迭代因子,用來控制梯度下降速率。
[0052] 第二階段,軟約束方法處理后續(xù)的公式(2)稀疏項:
[0053] (6)
[0054] (7)
[0055] (8)
[0056] 5. 4對于每一次迭代,模塊將產(chǎn)生的新目標(biāo)向量Wj" r新向量代入公式(4)中,計 算出L從而更新公式(4)的結(jié)果。迭代的終止條件為:
[0057] Lf -L ^ ε (9)其中:ε為迭代閾值,通常ε = 〇· 〇〇1。
[0058] 假若損失函數(shù)符合上述終止條件,則迭代過程終止。假若不滿足,則重回子步驟 5. 3梯度下降法繼續(xù)迭代,直到滿足條件為止。
[0059] 5. 5對于每一個特定的標(biāo)簽t,模塊通過求解公式(4)生成對應(yīng)的目標(biāo)向量w。對 于目標(biāo)服務(wù)描述文件WSDL,引擎使用XML抽取技術(shù)產(chǎn)生文本特征向量V。對于學(xué)習(xí)產(chǎn)生的 目標(biāo)向量 ¥,模塊通過w和V的點積產(chǎn)生本W(wǎng)SDL文件標(biāo)記標(biāo)簽的概率,使用排序?qū)W習(xí)產(chǎn)生標(biāo) 簽的T0P-5序列作為本服務(wù)的標(biāo)簽預(yù)測結(jié)果。
[0060] 在線標(biāo)簽預(yù)測算法引擎是本發(fā)明的核心。在真實情況下,引擎需要面對眾多用戶 的實時查詢請求,這要求算法必須在提高預(yù)測精度的同時降低計算時間復(fù)雜度。本發(fā)明的 算法時間復(fù)雜度主要在于公式(5)。數(shù)學(xué)證明,每一次迭代時間復(fù)雜度為O(Pd):其中P 為標(biāo)簽密度,d是常數(shù),為隱式特征空間的維度??梢钥闯雒恳淮蔚臅r間復(fù)雜度和原始 標(biāo)簽密度成線性關(guān)系。通常,原始標(biāo)簽都是非常稀疏,因此單次迭代的時間復(fù)雜度很低。同 時,實驗證明本發(fā)明的預(yù)測算法通常于15次左右迭代即可符合預(yù)設(shè)條件。綜上所述,本發(fā) 明的預(yù)測算法可實時響應(yīng)多用戶的在線服務(wù)查詢請求。
[0061] 步驟6 :負(fù)責(zé)采集滿足用戶請求的服務(wù)列表,并包裝成html頁面格式,并通過前端 顯示引擎把結(jié)果展現(xiàn)給用戶。
[0062] 為了量化展現(xiàn)本發(fā)明基于標(biāo)簽稀疏學(xué)習(xí)的預(yù)測方法與傳統(tǒng)標(biāo)簽預(yù)測方法之間的 優(yōu)劣,我們使用搜索引擎通用的F分?jǐn)?shù)來評估預(yù)測的準(zhǔn)確度。為了更好地解釋F分?jǐn)?shù),先簡 單定義一下F分?jǐn)?shù):
[0063]
[0064] 其中:P表示模塊生成的標(biāo)簽預(yù)測列表準(zhǔn)確度,R表示模塊生成的標(biāo)簽列表的召回 度,F(xiàn)l分?jǐn)?shù)從準(zhǔn)確度和召回度綜合衡量模塊的預(yù)測能力。
[0065] 實驗使用的數(shù)據(jù)集中包含了 339個WSDL文件和對應(yīng)的4825個標(biāo)簽作訓(xùn)練集,另 外5120個WSDL文件作測試集。在測試過程中,我們按照比例隨機抽取訓(xùn)練集的標(biāo)簽。測 試結(jié)果如表1所示:
[0066] 表 1
[0067]
[0068] 與現(xiàn)在的方法 LDA(Latent Dirichlet Allocation)和 WTCluster (Web Service Tag Cluster)相比,本發(fā)明方法的Fl值更高,即預(yù)測結(jié)果更為精確。
[0069] 上述的對實施例的描述是為便于本技術(shù)領(lǐng)域的普通技術(shù)人員能理解和應(yīng)用本發(fā) 明。熟悉本領(lǐng)域技術(shù)的人員顯然可以容易地對上述實施例做出各種修改,并把在此說明的 一般原理應(yīng)用到其他實施例中而不必經(jīng)過創(chuàng)造性的勞動。因此,本發(fā)明不限于上述實施例, 本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的揭示,對于本發(fā)明做出的改進和修改都應(yīng)該在本發(fā)明的保護 范圍之內(nèi)。
【主權(quán)項】
1. 一種基于標(biāo)簽稀疏學(xué)習(xí)的Web服務(wù)發(fā)現(xiàn)方法,包括如下步驟: (1) 收集服務(wù)集中各Web服務(wù)的WSDL文件以及人工標(biāo)記的服務(wù)標(biāo)簽; (2) 對每個Web服務(wù)的WSDL文件和服務(wù)標(biāo)簽進行預(yù)處理; (3) 對于標(biāo)簽庫中的任一標(biāo)簽,通過對以下目標(biāo)函數(shù)L進行最小化求解,以求得該標(biāo)簽 相對于服務(wù)集的權(quán)重向量w ;其中:Vd為服務(wù)集中第d個Web服務(wù)WSDL文件的文本特征向量,D為服務(wù)集中所有Web 服務(wù)的總個數(shù);若該標(biāo)簽已被人工標(biāo)記為第d個Web服務(wù)的服務(wù)標(biāo)簽,則yd= 1,否則y d= 〇 ; a為預(yù)設(shè)的規(guī)則因子,T為向量轉(zhuǎn)置; (4) 對于標(biāo)簽庫中的任一標(biāo)簽,使該標(biāo)簽的權(quán)重向量w與服務(wù)集中每個Web服務(wù)WSDL 文件的文本特征向量進行內(nèi)積運算,對應(yīng)得到該標(biāo)簽相對于每個Web服務(wù)的標(biāo)記概率; 通過設(shè)定概率閾值,從服務(wù)集中提取出標(biāo)記概率大于該概率閾值的Web服務(wù),且使該 標(biāo)簽作為這些Web服務(wù)的預(yù)測標(biāo)簽; (5) 由服務(wù)搜索引擎接受用戶的目標(biāo)查詢請求,若服務(wù)集小于一定數(shù)量規(guī)模,則服務(wù)搜 索引擎直接將目標(biāo)查詢請求與服務(wù)集中每個Web服務(wù)的WSDL文件信息進行字符串匹配;若 服務(wù)集大于一定數(shù)量規(guī)模,則服務(wù)搜索引擎直接將目標(biāo)查詢請求與服務(wù)集中每個Web服務(wù) 的預(yù)測標(biāo)簽進行字符串匹配;最后將匹配上的Web服務(wù)展現(xiàn)給用戶。2. 根據(jù)權(quán)利要求1所述的Web服務(wù)發(fā)現(xiàn)方法,其特征在于:所述的步驟(2)中對每個 Web服務(wù)的WSDL文件和服務(wù)標(biāo)簽進行預(yù)處理,其中對于WSDL文件,則利用XML工具提取 WSDL文件的特征信息并建立對應(yīng)的文本特征向量;對于服務(wù)標(biāo)簽,則利用自然語言處理中 常用的開源文本規(guī)整化工具對服務(wù)標(biāo)簽進行規(guī)整化處理。3. 根據(jù)權(quán)利要求1所述的Web服務(wù)發(fā)現(xiàn)方法,其特征在于:所述的步驟(3)中通過以 下迭代算法對目標(biāo)函數(shù)L進行最小化求解:其中:wJP w t+1分別為第t次迭代和第t+1次迭代標(biāo)簽相對于服務(wù)集的權(quán)重向量,Wt' 為Wt經(jīng)梯度下降后的權(quán)重向量,w t+1 (i)為權(quán)重向量wt+1中的第i個元素值,VVf (i)為權(quán)重 向量:Wf中的第i個元素值,t為迭代次數(shù),i為自然數(shù)且I < i < N,N為權(quán)重向量w的維 度,9為預(yù)設(shè)的迭代因子。4. 根據(jù)權(quán)利要求1所述的Web服務(wù)發(fā)現(xiàn)方法,其特征在于:所述的步驟(5)中最后將 匹配上的Web服務(wù)包裝成html頁面格式,進而通過服務(wù)搜索引擎展現(xiàn)給用戶。
【專利摘要】本發(fā)明公開了一種基于標(biāo)簽稀疏學(xué)習(xí)的Web服務(wù)發(fā)現(xiàn)方法,其目標(biāo)系突破當(dāng)前服務(wù)數(shù)據(jù)源使用單一的研究現(xiàn)狀,充分使用文本信息優(yōu)化服務(wù)發(fā)現(xiàn)的過程。該方法首先使用開源工具提取服務(wù)描述文件和關(guān)聯(lián)標(biāo)簽的文本信息,再使用稀疏模型工具挖掘服務(wù)描述文件和標(biāo)簽之間的隱藏關(guān)系,最后通過優(yōu)化學(xué)習(xí)實現(xiàn)了精確的標(biāo)簽預(yù)測功能。本發(fā)明充分挖掘WSDL文本特征以有效地提高標(biāo)簽預(yù)測的準(zhǔn)確性;另外,本發(fā)明通過使用二階段混合智能算法可實時響應(yīng)多用戶的個性化服務(wù)查詢請求,產(chǎn)生的標(biāo)簽預(yù)測列表有助于提高Web服務(wù)發(fā)現(xiàn)的效能。
【IPC分類】G06F17/30
【公開號】CN105138594
【申請?zhí)枴緾N201510466572
【發(fā)明人】尹建偉, 羅威, 鄧水光, 李瑩, 吳健, 吳朝暉
【申請人】浙江大學(xué)
【公開日】2015年12月9日
【申請日】2015年7月31日