本發(fā)明涉及數(shù)據(jù)匹配,尤其涉及基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)。
背景技術(shù):
1、現(xiàn)代組織機(jī)構(gòu)在進(jìn)行數(shù)據(jù)分析時,面臨著數(shù)據(jù)發(fā)現(xiàn)任務(wù)的復(fù)雜性。這促使研究人員深入研究如何高效進(jìn)行數(shù)據(jù)發(fā)現(xiàn)以及相關(guān)問題,數(shù)據(jù)發(fā)現(xiàn)任務(wù)通常包括多個子任務(wù),例如搜索可連接的表、使用額外屬性或條目擴(kuò)充目標(biāo)表,以及查詢檢索類似的表,為解決這些子任務(wù),研究人員設(shè)計了各種模式匹配技術(shù),形成了多種不同的模式匹配方案,與單一的模式匹配方案相比,有效地組合多種模式匹配方法可以在各種情況下提高匹配的準(zhǔn)確性,彌補(bǔ)了單個匹配器的不足之處。
2、模式匹配的組合方案通常分為兩種類型:混合組合和復(fù)合組合,混合組合方案在特定情況下表現(xiàn)出色,而復(fù)合組合方案則更加靈活,這兩種方案都依賴于多個匹配器,因此有效地利用不同的匹配器是一個重要挑戰(zhàn),混合組合方案之所以存在缺陷,是因為各個匹配器方法之間通常是硬連接的。
3、采用復(fù)合組合的方案需要選擇具有不同模式信息方面的匹配器,以準(zhǔn)確評估不同匹配器的效用,從而最終獲得更有效的綜合相似性評分,復(fù)合組合的方案不準(zhǔn)確的匹配器過多參與,匹配的準(zhǔn)確性和效率還能進(jìn)行改善。
技術(shù)實現(xiàn)思路
1、本部分的目的在于概述本發(fā)明的實施例的一些方面以及簡要介紹一些較佳實施例。在本部分以及本申請的說明書摘要和發(fā)明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊,而這種簡化或省略不能用于限制本發(fā)明的范圍。
2、鑒于上述現(xiàn)有基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)存在的問題,提出了本發(fā)明。
3、因此,本發(fā)明目的是提供基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其為了解決“復(fù)合組合的方案不準(zhǔn)確的匹配器過多參與,匹配的準(zhǔn)確性和效率還能進(jìn)行改善”的問題。
4、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
5、第一方面,本發(fā)明提出復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),具體包括:
6、存儲層:存儲層主要負(fù)責(zé)存放各類數(shù)據(jù)集的數(shù)據(jù)以及保存算法的運行結(jié)果。
7、模型層:模型層主要是各類復(fù)合匹配方案的具體實現(xiàn)模塊。
8、應(yīng)用層:應(yīng)用層以網(wǎng)頁前端的形式將各類信息暴露給用戶,為用戶提供了不同方法的選擇、算法參數(shù)的選擇、數(shù)據(jù)集的選擇以及計算結(jié)果的查詢。
9、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)的一種優(yōu)選方案,其中:所述存儲層的集中的數(shù)據(jù)通常以表格類型的模式導(dǎo)入到postgre?sql管理系統(tǒng)中,同時算法執(zhí)行完畢后產(chǎn)生的聚類和相關(guān)評測分?jǐn)?shù)等也被存儲在該系統(tǒng)中。
10、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)的一種優(yōu)選方案,其中:所述算法執(zhí)行完畢后產(chǎn)生的聚類和相關(guān)評測分?jǐn)?shù)等也被存儲在postgre?sql管理系統(tǒng)中。
11、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)的一種優(yōu)選方案,其中:所述模型層接收存儲層的數(shù)據(jù),針對不同的列對進(jìn)行相似性判斷,最終輸出聚類或者相關(guān)列對以及列的各類評測標(biāo)準(zhǔn)的數(shù)值。
12、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)的一種優(yōu)選方案,其中:所述模型層的輸出結(jié)果將通過vue進(jìn)行渲染以傳遞給應(yīng)用層。
13、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)的一種優(yōu)選方案,其中:所述應(yīng)用層與模型層的交互主要通過restful?api來實現(xiàn),主要利用了其中的get和post請求。
14、第二方面本發(fā)明為進(jìn)一步解決復(fù)合匹配中存在的問題,提供了基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)方法,具體步驟包括:
15、s1、首先系統(tǒng)啟動后,進(jìn)行權(quán)重的初始化,初始化每個匹配器的權(quán)重wi為1,為接下來的迭代匹配準(zhǔn)備初始權(quán)重。
16、s2、然后系統(tǒng)進(jìn)行匹配器的選擇,開始匹配輪次后,隨機(jī)或按某種策略選擇一個匹配器,選定一個當(dāng)前輪次選擇合適的匹配器。
17、s3、系統(tǒng)選定匹配器后,執(zhí)行匹配任務(wù),得到匹配結(jié)果g(p),即可計算當(dāng)前匹配器的匹配結(jié)果。
18、s4、系統(tǒng)匹配結(jié)果g(p)已知后,更新每個匹配器的權(quán)重,并根據(jù)情況更新截斷閾值t,根據(jù)當(dāng)前匹配效果調(diào)整匹配器的權(quán)重和截斷閾值,以優(yōu)化后續(xù)的匹配效果。
19、s5、系統(tǒng)完成一輪匹配重復(fù)步驟s2、s3、s4,直至完成m輪匹配,通過多輪迭代,逐漸優(yōu)化匹配效果,直至滿足要求。
20、提出了基于傳統(tǒng)算法的匹配器組合方案(iwiu),通過調(diào)整不同匹配器的權(quán)重,并將它們加權(quán)相加,以確定兩個匹配項是否相關(guān)。
21、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)方法的一種優(yōu)選方案,其中:s2中選擇匹配器是根據(jù)每個匹配器的歷史表現(xiàn)和當(dāng)前權(quán)重,動態(tài)選擇匹配器進(jìn)行匹配,而不是隨機(jī)選擇或固定順序選擇。
22、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)方法的一種優(yōu)選方案,其中:s4更新每個匹配器的權(quán)重是通過乘法權(quán)重更新(mwu)算法,采用迭代的方式動態(tài)調(diào)整各個匹配器的權(quán)重,以優(yōu)化匹配效果和提高匹配準(zhǔn)確性。
23、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)方法的一種優(yōu)選方案,其中:s1-s5中的匹配器之間通信方式是http/rest、api或是grpc進(jìn)行通信。
24、作為本發(fā)明所述基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)方法的一種優(yōu)選方案,其中:。
25、本發(fā)明的有益效果:
26、1.設(shè)計了一種匹配器組合方案(iwiu)以及基于機(jī)器學(xué)習(xí)的方法,用于提高數(shù)據(jù)發(fā)現(xiàn)的準(zhǔn)確性和效率,相較于傳統(tǒng)的靜態(tài)權(quán)重分配方法,本方案能夠更加準(zhǔn)確地反映每個匹配器在不同階段的表現(xiàn),自動優(yōu)化權(quán)重分配,提高了匹配的準(zhǔn)確性和系統(tǒng)的效率,本發(fā)明有望在數(shù)據(jù)發(fā)現(xiàn)領(lǐng)域?qū)崿F(xiàn)更精確和高效的數(shù)據(jù)分析和挖掘,為組織和研究人員提供更多的工具和方法來處理復(fù)雜的數(shù)據(jù)環(huán)境。
27、2.與傳統(tǒng)的隨機(jī)或固定順序選擇匹配器的方法相比,本方案能夠更好地利用匹配器的優(yōu)勢,避免不準(zhǔn)確的匹配器過多參與,從而提高了匹配的準(zhǔn)確性和效率。
1.基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:具體包括:
2.根據(jù)權(quán)利要求1所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:所述存儲層的集中的數(shù)據(jù)通常以表格類型的模式導(dǎo)入到postgre?sql管理系統(tǒng)中,同時算法執(zhí)行完畢后產(chǎn)生的聚類和相關(guān)評測分?jǐn)?shù)也被存儲在該系統(tǒng)中。
3.根據(jù)權(quán)利要求2所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:所述算法執(zhí)行完畢后產(chǎn)生的聚類和相關(guān)評測分?jǐn)?shù)等也被存儲在postgre?sql管理系統(tǒng)中。
4.根據(jù)權(quán)利要求3所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:所述模型層接收存儲層的數(shù)據(jù),針對不同的列對進(jìn)行相似性判斷,最終輸出聚類或者相關(guān)列對以及列的各類評測標(biāo)準(zhǔn)的數(shù)值。
5.根據(jù)權(quán)利要求4所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:所述模型層的輸出結(jié)果將通過vue進(jìn)行渲染以傳遞給應(yīng)用層。
6.根據(jù)權(quán)利要求5所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:所述應(yīng)用層與模型層的交互主要通過restful?api來實現(xiàn),主要利用了其中的get和post請求。
7.根據(jù)權(quán)利要求6所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)方法,基于權(quán)利要求1-5任意一項所述的基于內(nèi)存感知的虛擬機(jī)遷移系統(tǒng),其特征在于:具體步驟包括:
8.根據(jù)權(quán)利要求7所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:s2中選擇匹配器是根據(jù)每個匹配器的歷史表現(xiàn)和當(dāng)前權(quán)重,動態(tài)選擇匹配器進(jìn)行匹配,而不是隨機(jī)選擇或固定順序選擇。
9.根據(jù)權(quán)利要求8所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:s4更新每個匹配器的權(quán)重是通過乘法權(quán)重更新(mwu)算法,采用迭代的方式動態(tài)調(diào)整各個匹配器的權(quán)重,以優(yōu)化匹配效果和提高匹配準(zhǔn)確性。
10.根據(jù)權(quán)利要求9所述的基于復(fù)合匹配的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng),其特征在于:s1-s5中的匹配器之間通信方式是http/rest、api或是grpc進(jìn)行通信。