本發(fā)明涉及智慧教育,具體涉及一種基于通用大語言模型與知識圖譜的個性化問答方法。
背景技術(shù):
1、通用大語言模型是一種基于人工智能的語言處理工具,通過大量的文本數(shù)據(jù)學(xué)習(xí),能夠模擬人類的語言理解和生成能力。在智慧教育領(lǐng)域,通常使用通用大語言模型來擔(dān)當(dāng)學(xué)生的教學(xué)助手,為學(xué)生進(jìn)行答疑解惑。這種實(shí)時性的教學(xué)方式,不僅可以提高學(xué)生的學(xué)習(xí)效率,還能夠激發(fā)他們的學(xué)習(xí)興趣,使教育更加智慧化。
2、然而,使用通用大語言模型直接作為問答方法,在智慧教育領(lǐng)域仍存在不足。通用大語言模型本質(zhì)上是一個黑盒,存在不可解釋性,且其推理過程缺乏透明性。此外,通用大模型無論理解用戶的需求與否,都會進(jìn)行輸出操作,這便會導(dǎo)致模型生成的答案看似合理,實(shí)際上可能具有誤導(dǎo)性或者錯誤。由于學(xué)生一般很難具有評估模型生成信息正確與否的能力,因此通用大語言模型在與學(xué)生進(jìn)行問答的過程中很有可能對學(xué)生產(chǎn)生誤導(dǎo),進(jìn)而影響到他們的學(xué)習(xí)效率與知識體系構(gòu)建。
3、作為學(xué)生的教學(xué)助手,在于學(xué)生進(jìn)行問答的過程中,需要盡可能的保證回答問題的準(zhǔn)確性與可解釋性。由于通用大語言模型在與學(xué)生對話時,僅僅能夠利用訓(xùn)練過程中所吸收的各類隱式信息。因此,為了提高模型回答學(xué)生問題的準(zhǔn)確性與可解釋性,可以考慮為其增添額外的推理信息。
4、知識圖譜是一種結(jié)構(gòu)化的知識表達(dá)形式,其以圖的形式表達(dá)現(xiàn)實(shí)世界中的實(shí)體之間的關(guān)系,進(jìn)而形成一種復(fù)雜的網(wǎng)絡(luò)化知識結(jié)構(gòu)。知識圖譜具有結(jié)構(gòu)化與可解釋性,通過提供豐富的、精準(zhǔn)的背景知識,可以為人工智能等領(lǐng)域進(jìn)行知識支持。因此,可以選擇知識圖譜作為通用大語言模型的補(bǔ)充,幫助其更好地理解和生成文本,提高回答的準(zhǔn)確性與可解釋性,同時為處理更加復(fù)雜的需求提供可能。
5、將知識圖譜融入到大語言模型的方式目前主要有兩種。一種是將知識圖譜作為語料供大語言模型進(jìn)行訓(xùn)練。但是由于知識圖譜信息會被大量的其他語料所吞沒,因此很難針對性的發(fā)揮知識圖譜的強(qiáng)大作用。另一種方式是在大語言模型訓(xùn)練好后,將知識圖譜轉(zhuǎn)換為提示詞,供大語言模型理解學(xué)習(xí)。這種方式能夠針對性地利用知識圖譜,進(jìn)而發(fā)揮出知識圖譜的強(qiáng)大作用。然而,知識圖譜作為一種特殊形式的數(shù)據(jù),直接將表示知識圖譜的三元組輸入模型,往往很難使大語言模型理解知識圖譜所表示的知識結(jié)構(gòu)。
6、智慧教育的核心之一是個性化教學(xué),它強(qiáng)調(diào)根據(jù)每個學(xué)生的學(xué)習(xí)風(fēng)格、知識背景和興趣愛好提供定制化的教學(xué)方案,以提高學(xué)習(xí)效率和興趣,促進(jìn)學(xué)生全面發(fā)展。在將通用大語言模型與知識圖譜相結(jié)合,作為學(xué)生的問答助手后,還應(yīng)該保證問答的個性化。例如,當(dāng)學(xué)生對各類知識點(diǎn)掌握程度不同時,由大語言模型推薦的學(xué)生學(xué)習(xí)路徑應(yīng)該有所不同。因此,有必要將學(xué)生學(xué)習(xí)情況等個人信息有效的融入進(jìn)通用大語言模型,使得模型能夠進(jìn)一步的理解學(xué)生需求,為學(xué)生提供多元化、個性化的問答建議。
7、現(xiàn)有技術(shù)中的技術(shù)方案,在面對智慧教育這一特殊領(lǐng)域時,往往直接將通用大語言模型作為問答助手,這種問答方法缺乏準(zhǔn)確性和可解釋性。為了解決這一問題,可以使用知識圖譜進(jìn)行輔助推理。然而,如何使大語言模型理解知識圖譜的知識結(jié)構(gòu),并在此過程中融入學(xué)生個體特征,實(shí)現(xiàn)個性化問答,仍然是一項(xiàng)具有挑戰(zhàn)的任務(wù)。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供一種基于通用大語言模型與知識圖譜的個性化問答方法,將通用大語言模型的隱式知識與知識圖譜的顯式知識相結(jié)合,進(jìn)而實(shí)現(xiàn)透明和可靠的協(xié)同推理;在結(jié)合過程中,有效融入學(xué)生個體特征,實(shí)現(xiàn)個性化問答。
2、為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
3、一種基于通用大語言模型與知識圖譜的個性化問答方法,包括以下步驟:
4、步驟一,利用大語言模型對獲取的學(xué)生的問題q進(jìn)行實(shí)體識別,識別出問題q中的命名實(shí)體,構(gòu)建命名實(shí)體集;利用實(shí)體匹配算法,將命名實(shí)體集與知識圖譜中的知識實(shí)體進(jìn)行匹配,將匹配到的知識實(shí)體構(gòu)建為關(guān)聯(lián)性實(shí)體集r;
5、步驟二,將關(guān)聯(lián)性實(shí)體集r中的每一個知識實(shí)體r分別作為核心實(shí)體,以核心實(shí)體為中心對所述知識圖譜搜索,并對搜索過程中滿足保存條件的知識實(shí)體以及知識實(shí)體之間的關(guān)系進(jìn)行保存,將知識實(shí)體r、符合保存條件的知識實(shí)體以及知識實(shí)體之間的關(guān)系構(gòu)成知識子圖,并以三元組的形式進(jìn)行存儲,得到知識子圖集合;
6、步驟三,將知識子圖集合中所有用于表示知識子圖的三元組放置在一起,構(gòu)成知識子圖的聚合圖b;利用大語言模型對所述聚合圖進(jìn)行優(yōu)化,將優(yōu)化后的結(jié)果作為知識圖;
7、步驟四,在提示大語言模型學(xué)習(xí)與的結(jié)構(gòu)后,要求大語言模型結(jié)合自身的多輪對話能力、自身已有知識與從外部的知識圖譜獲取的知識,回答學(xué)生問題并提供推理過程。
8、進(jìn)一步地,步驟一具體包括命名實(shí)體識別與實(shí)體匹配;
9、命名實(shí)體識別包括:針對學(xué)生的問題q構(gòu)建提示詞一,在提示詞一中為大語言模型設(shè)置教師的身份,并讓大語言模型在尋找問題q中的命名實(shí)體時增加對知識點(diǎn)的關(guān)注,進(jìn)而獲得所述命名實(shí)體集;其中為大語言模型識別出的第n個命名實(shí)體;
10、實(shí)體匹配包括:知識圖譜的知識實(shí)體集,其中為知識圖譜中的第m個知識實(shí)體,m為知識圖譜中知識實(shí)體的總數(shù);
11、使用bert編碼器將命名實(shí)體集c中的各命名實(shí)體編碼為命名實(shí)體向量、將知識實(shí)體集中的知識實(shí)體編碼為知識實(shí)體向量;計(jì)算與各個的余弦相似度:
12、;
13、其中,為與的內(nèi)積,與分別為和的長度;
14、如果余弦相似度大于設(shè)定的閾值,則將對應(yīng)的知識實(shí)體e放置于集合t中;
15、將集合t進(jìn)行去重操作后獲得所述關(guān)聯(lián)性實(shí)體集,為中的第個知識實(shí)體,為關(guān)聯(lián)性實(shí)體集中的知識實(shí)體總數(shù)。
16、進(jìn)一步地,所述針對學(xué)生的問題q構(gòu)建提示詞一,在提示詞一中為大語言模型設(shè)置教師的身份,具體包括:
17、;
18、其中,smooth表示使用語句進(jìn)行拼接的操作,表示為大語言模型設(shè)置教師身份,表示提示詞一。
19、進(jìn)一步地,步驟二具體包括:
20、針對每一個知識實(shí)體r,搜索過程中執(zhí)行兩種搜索策略,包括進(jìn)行局部信息挖掘的鄰居搜索與進(jìn)行長距離依賴捕獲的路徑搜索;將進(jìn)行鄰居搜索獲得的鄰居知識子圖集合和進(jìn)行路徑搜索獲得的路徑知識子圖集合進(jìn)行合并操作,得到所述知識子圖集合;
21、進(jìn)行鄰居搜索時,搜索的路徑長度恒為1,即只搜索與核心實(shí)體直接相連的鄰居知識實(shí)體;核心實(shí)體的鄰居知識實(shí)體能否保存,取決于鄰居知識實(shí)體與知識實(shí)體r的概念相關(guān)性以及學(xué)生個體特征:
22、通過計(jì)算鄰居知識實(shí)體與知識實(shí)體r的向量之間的余弦相似度,來判斷鄰居知識實(shí)體與知識實(shí)體r的概念相關(guān)性;如果鄰居知識實(shí)體與知識實(shí)體r的向量之間的余弦相似度大于閾值,則鄰居知識實(shí)體與知識實(shí)體r之間概念相關(guān),對應(yīng)的鄰居知識實(shí)體符合條件一;
23、所述學(xué)生個體特征包括學(xué)生的學(xué)力和學(xué)生的興趣;
24、根據(jù)學(xué)習(xí)情況將學(xué)生的學(xué)力分成不同的學(xué)力等級,將知識點(diǎn)分為不同的難度等級,如果學(xué)生st的學(xué)力等級大于或者等于知識點(diǎn)的難度等級,則核心實(shí)體的與所述知識點(diǎn)對應(yīng)的鄰居知識實(shí)體,符合條件二;
25、對知識圖譜中的學(xué)生st存在興趣的知識實(shí)體進(jìn)行統(tǒng)計(jì),如果鄰居知識實(shí)體屬于學(xué)生st存在興趣的知識實(shí)體,則鄰居知識實(shí)體符合條件三;
26、如果鄰居知識實(shí)體在滿足條件一的前提下,能夠符合條件二與條件三的任意一個,則滿足所述的保存條件,保存鄰居知識實(shí)體、知識實(shí)體r以及知識實(shí)體r和鄰居知識實(shí)體之間的關(guān)系,構(gòu)成以三元組形式存儲的鄰居知識子圖g;
27、對關(guān)聯(lián)性實(shí)體集r中的每一個知識實(shí)體進(jìn)行鄰居搜索,得到鄰居知識子圖集合,為中的第個鄰居知識子圖,為關(guān)聯(lián)性實(shí)體集r中的知識實(shí)體r總數(shù);
28、路徑搜索與鄰居搜索的區(qū)別僅在于:進(jìn)行路徑搜索時,根據(jù)學(xué)生st的學(xué)力等級設(shè)置不同的搜索路徑長度,學(xué)力等級越高則搜索路徑長度越長,如果搜索過程中遇到不符合所述保存條件的實(shí)體,則結(jié)束當(dāng)前搜索路徑,將符合所述保存條件的鄰居知識實(shí)體、知識實(shí)體r以及知識實(shí)體r和鄰居知識實(shí)體之間的關(guān)系,構(gòu)成以三元組形式存儲的路徑知識子圖p;
29、對關(guān)聯(lián)性實(shí)體集r中的每一個知識實(shí)體進(jìn)行路徑搜索,得到路徑知識子圖集合;為中的第個路徑知識子圖;
30、將鄰居知識子圖集合g與路徑知識子圖集合p進(jìn)行合并操作,獲得最終的知識子圖集合。
31、進(jìn)一步地,步驟三具體包括:
32、將知識子圖集合中所有的用于表示知識子圖的三元組放置在一起,構(gòu)成知識子圖的聚合圖b;構(gòu)建提示詞二,并在提示詞二中為大語言模型設(shè)置知識圖譜研究專家的身份,來提示大語言模型對所述聚合圖b進(jìn)行優(yōu)化,得到知識圖。
33、進(jìn)一步地,所述構(gòu)建提示詞二,并在提示詞二中為大語言模型設(shè)置知識圖譜研究專家的身份,具體包括:
34、;
35、其中,smooth表示使用語句進(jìn)行拼接的操作,表示為大語言模型設(shè)置知識圖譜研究專家身份。
36、進(jìn)一步地,步驟四具體包括:
37、針對問題q,使用langchain工具設(shè)置三輪對話來引導(dǎo)大語言模型;使用langchain工具的過程中,基于教育場景來設(shè)置系統(tǒng)消息,并根據(jù)以下內(nèi)容設(shè)計(jì)三輪對話的用戶消息,來對大語言模型進(jìn)行引導(dǎo):
38、第一輪對話的用戶消息構(gòu)建方式:提示大語言模型使用自然語言描述知識子圖集合a中的每一個知識子圖的結(jié)構(gòu);
39、第二輪對話的用戶消息構(gòu)建方式:提示大語言模型用自然語言描述知識圖,并要求大語言模型生成知識圖中的節(jié)點(diǎn)到節(jié)點(diǎn)之間的推理路徑;
40、第三輪對話的用戶消息構(gòu)建方式:將學(xué)生的問題送入大語言模型,同時提示大語言模型結(jié)合自身已有知識與從外部的知識圖譜獲取的知識進(jìn)行思考,回答學(xué)生的問題并返回推理過程;
41、將第三輪對話中大語言模型的回答返回給學(xué)生,作為所述問題q的答案并向?qū)W生提供推理過程。
42、與現(xiàn)有技術(shù)相比,本發(fā)明的有益技術(shù)效果是:
43、本發(fā)明有效結(jié)合了通用大語言模型的隱式知識與知識圖譜的顯式知識,從而實(shí)現(xiàn)了透明可靠的協(xié)同推理。這種結(jié)合方式既利用了大語言模型的強(qiáng)大語言理解和生成能力,又利用了知識圖譜的結(jié)構(gòu)化知識,使得問題回答更加準(zhǔn)確和深入。同時,本發(fā)明在構(gòu)建知識子圖的過程中,有效融入了學(xué)生的個體特征,為問答的個性化提供了可能。最后,本發(fā)明在回答問題的過程中,不僅提供了答案,還提供了推理過程,有助于學(xué)生的理解和記憶,能夠有效提高學(xué)生的學(xué)習(xí)效果。