本發(fā)明涉及人工智能,特別涉及一種基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法。
背景技術(shù):
1、近年來,在大數(shù)據(jù)和人工智能領(lǐng)域,隨著“數(shù)據(jù)紅利”的消耗殆盡,知識的挖掘和積累對于人工智能技術(shù)的進(jìn)一步發(fā)展顯得更為重要。就目前而言,知識的載體是數(shù)據(jù),但數(shù)據(jù)本身又是種類繁多、內(nèi)容冗雜、價值參差的,因此“從數(shù)據(jù)到知識”至今仍是人工智能領(lǐng)域的一大研究熱點,旨在讓ai從“只會區(qū)分?jǐn)?shù)據(jù)”到“會提煉數(shù)據(jù)、會加工數(shù)據(jù)、會運用數(shù)據(jù)”。
2、當(dāng)前“數(shù)據(jù)→知識”的技術(shù)方法歸納起來大致分為以下幾種:(1)抽取法,即直接從數(shù)據(jù)中抽取結(jié)構(gòu)化知識,其代表便是知識圖譜構(gòu)建。(2)歸納法,即從一般性事實數(shù)據(jù)中總結(jié)歸納出規(guī)律性知識,其代表便是規(guī)律挖掘,通過從事實性數(shù)據(jù)中歸納得到規(guī)律性知識。(3)泛化法,即從某條件下的已知知識推廣至具有某些共通性特點的其他方面知識,其代表便是知識類比或知識演繹,通過從特定的知識泛化出其他知識;(4)提煉法,即從價值稀疏的數(shù)據(jù)中凝練出框架性、主干性、概念內(nèi)涵性的高價值知識,其代表便是研究報告中的思維知識提煉。例如從一篇研判分析某案例的醫(yī)學(xué)報告中提煉出相關(guān)的專家分析視角類知識。
3、然而,上述主流方法還存在著各自的問題,抽取法只能實現(xiàn)“有什么抽什么”,不具備進(jìn)一步總結(jié)歸納能力,并且抽取得到的結(jié)構(gòu)化知識從語義上而言與數(shù)據(jù)中呈現(xiàn)的并無差異,對于大模型等處理能力較強的模型來說,一句包含知識的文本數(shù)據(jù)與抽取出的一條結(jié)構(gòu)化知識,用于下游任務(wù)時并無明顯差異;歸納法需要對若干事實性數(shù)據(jù)進(jìn)行聚類、對同類數(shù)據(jù)中的主體進(jìn)行概念抽象,需要依賴額外規(guī)則或其他處理模型;而泛化法和提煉法則過度依賴外部知識庫或人工參與,尚無效果較好的智能化實現(xiàn)方法。
4、因此,當(dāng)下亟需一種能夠減少人工指導(dǎo)干預(yù)(如標(biāo)注、制定規(guī)則模板等)、降低對外部知識庫或其他模型依賴,自動從承載數(shù)據(jù)中學(xué)習(xí)到高價值的內(nèi)隱知識的智能化知識學(xué)習(xí)方法,以提升從數(shù)據(jù)到知識的轉(zhuǎn)換效率,更好地支撐知識庫構(gòu)建、知識推理與應(yīng)用等下游任務(wù)。
技術(shù)實現(xiàn)思路
1、為解決上述問題,本發(fā)明提供了一種基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,具體技術(shù)方案如下:
2、s1:獲取目標(biāo)文本數(shù)據(jù),提取每個樣本的語義特征,并計算語義相似度,根據(jù)語義相似度對文本數(shù)據(jù)進(jìn)行歸類;
3、s2:構(gòu)建空間化位式表征場,通過空間化位式表征場,對相同歸類的文本數(shù)據(jù)的各屬性進(jìn)行聯(lián)合表征;
4、s3:根據(jù)文本數(shù)據(jù)的表征結(jié)果,以預(yù)設(shè)的關(guān)系詞類型表為基準(zhǔn),將文本數(shù)據(jù)中的關(guān)系詞表征結(jié)果進(jìn)行映射,得到映射到同一關(guān)系詞類型下的若干條文本數(shù)據(jù),進(jìn)行非語義剝離;
5、s4:根據(jù)經(jīng)過非語義剝離后得到的富含知識信息的語義群,針對同一關(guān)系詞類型下的語義群,對保留下來的語義特征進(jìn)行分段聚合,得到若干條數(shù)據(jù)中的內(nèi)隱知識特征。
6、進(jìn)一步的,步驟s2中,通過空間化位式表征場,對文本數(shù)據(jù)的內(nèi)容、位置、詞性、關(guān)系詞標(biāo)記進(jìn)行聯(lián)合表征。
7、進(jìn)一步的,對歸類好的文本數(shù)據(jù)中的每條數(shù)據(jù)進(jìn)行空間化位式表征,得到所述空間化位式表征場;
8、對相同歸類的文本數(shù)據(jù)中的任意一條數(shù)據(jù)進(jìn)行空間化位式表征,表示如下:
9、
10、其中,表示數(shù)據(jù)sj中的字的編碼向量,p(ji)表示的位置碼,pos(ji)表示的詞性碼,表示的關(guān)系詞標(biāo)記值。
11、進(jìn)一步的,步驟s3中,將文本數(shù)據(jù)中的關(guān)系詞表征結(jié)果進(jìn)行映射,具體如下:
12、對歸類好的文本數(shù)據(jù)中的每條數(shù)據(jù),按照定義的多點特征拼接操作進(jìn)行關(guān)系詞定位與特征拼接,得到數(shù)據(jù)的關(guān)系詞特征;
13、計算得到的關(guān)系詞特征與所有關(guān)系詞集合的相似度,將相似度高到的關(guān)系詞所屬的數(shù)據(jù)映射到同一個關(guān)系詞類型下。
14、進(jìn)一步的,步驟s3中,所述非語義剝離,具體如下:
15、對映射到同一關(guān)系詞類型下的任意若干條文本數(shù)據(jù),以關(guān)系詞為中心進(jìn)行端位補齊或修飾詞側(cè)位補齊操作,同時針對不同詞性的詞進(jìn)行位點交或位點并處理。
16、進(jìn)一步的,在以關(guān)系詞為中心進(jìn)行端位補齊或修飾詞側(cè)位補齊操作之前,還包括:
17、對所述若干條文本數(shù)據(jù)以關(guān)系詞為基準(zhǔn)進(jìn)行三段式按位重排,并將關(guān)系詞段補零對齊。
18、進(jìn)一步的,以關(guān)系詞為中心進(jìn)行端位補齊或修飾詞側(cè)位補齊操作,具體如下:
19、對若干條文本數(shù)據(jù)的關(guān)系詞段對齊后,根據(jù)文本數(shù)據(jù)的頭段長度與尾段長度以及不同位置的字詞性,基于如下規(guī)則進(jìn)行相應(yīng)的補齊操作:
20、若p=q,則將各文本數(shù)據(jù)的頭段或尾段直接對齊;
21、反之,則對各文本數(shù)據(jù)的頭段或尾段進(jìn)行遠(yuǎn)端位補齊或非核心詞性位補齊。
22、進(jìn)一步的,在以關(guān)系詞為中心進(jìn)行端位補齊或修飾詞側(cè)位補齊操作之后,還包括:
23、對補齊后的文本數(shù)據(jù),按照統(tǒng)一的詞性排列順序原則進(jìn)行字序重排。
24、進(jìn)一步的,所述詞性排列順序原則如下:
25、各文本數(shù)據(jù)的關(guān)系詞保持字序不變;
26、各文本數(shù)據(jù)的頭段按照u,num,adv,adj,n,v順序進(jìn)行字序重排;
27、各文本數(shù)據(jù)的尾段按照n,v,adj,adv,num,u順序進(jìn)行字序重排;
28、各文本數(shù)據(jù)中字的原始位置碼保持不變。
29、進(jìn)一步的,步驟s4中,所述分段聚合的具體過程如下:
30、針對同一關(guān)系詞類型下的語義群,以關(guān)系詞段特征為分界點,對語義群構(gòu)成的集合中的頭段特征群進(jìn)行特征聚類,并得到該類的頭段特征質(zhì)心;
31、再對以頭段特征聚類后的表示集合中的尾段特征群進(jìn)行特征聚類。
32、本發(fā)明的有益效果如下:
33、本發(fā)明通過語義相似度對文本進(jìn)行歸類,之后對歸類的數(shù)據(jù)進(jìn)行后續(xù)處理,能夠基于承載數(shù)據(jù),并透過顯性知識,自動發(fā)掘出數(shù)據(jù)中所蘊含的內(nèi)隱知識;通過空間化位式表征場對歸類后的數(shù)據(jù)進(jìn)行全面的聯(lián)合表征,并根據(jù)文本數(shù)據(jù)的表征結(jié)果,進(jìn)行映射,對同一映射下的數(shù)據(jù)進(jìn)行非語義剝離,在特征層面對承載數(shù)據(jù)中核心知識信息進(jìn)行無監(jiān)督式的快速重排序與篩選,大幅度提升了知識轉(zhuǎn)化效率;最后通過在關(guān)系詞對齊基礎(chǔ)上進(jìn)行多段式的特征聚合,能夠不借助人工構(gòu)建的知識庫等外部信息,自動且準(zhǔn)確地將內(nèi)隱知識核心內(nèi)涵信息保留下來,起到較好的泛化遷移作用;通過本發(fā)明的方法,面向從數(shù)據(jù)載體中自動學(xué)習(xí)出其所包涵知識的需求,實現(xiàn)了載體數(shù)據(jù)的去粗存精,以及數(shù)據(jù)內(nèi)隱知識的高效學(xué)習(xí)。
1.一種基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,步驟s2中,通過空間化位式表征場,對文本數(shù)據(jù)的內(nèi)容、位置、詞性、關(guān)系詞標(biāo)記進(jìn)行聯(lián)合表征。
3.根據(jù)權(quán)利要求1所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,對歸類好的文本數(shù)據(jù)中的每條數(shù)據(jù)進(jìn)行空間化位式表征,得到所述空間化位式表征場;
4.根據(jù)權(quán)利要求1所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,步驟s3中,將文本數(shù)據(jù)中的關(guān)系詞表征結(jié)果進(jìn)行映射,具體如下:
5.根據(jù)權(quán)利要求1所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,步驟s3中,所述非語義剝離,具體如下:
6.根據(jù)權(quán)利要求5所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,在以關(guān)系詞為中心進(jìn)行端位補齊或修飾詞側(cè)位補齊操作之前,還包括:
7.根據(jù)權(quán)利要求5所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,以關(guān)系詞為中心進(jìn)行端位補齊或修飾詞側(cè)位補齊操作,具體如下:
8.根據(jù)權(quán)利要求5所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,在以關(guān)系詞為中心進(jìn)行端位補齊或修飾詞側(cè)位補齊操作之后,還包括:
9.根據(jù)權(quán)利要求8所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,所述詞性排列順序原則如下:
10.根據(jù)權(quán)利要求1所述的基于非語義極大化剝離的內(nèi)隱知識學(xué)習(xí)方法,其特征在于,步驟s4中,所述分段聚合的具體過程如下: