本申請(qǐng)涉及涉及智能家居/智慧家庭,具體而言,涉及一種基于大模型的數(shù)據(jù)擴(kuò)充方法、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、客服質(zhì)檢系統(tǒng)是企業(yè)掌握客服服務(wù)水平、提升服務(wù)質(zhì)量的有力支撐。其核心思路是基于對(duì)客服熱線和在線會(huì)話內(nèi)容進(jìn)行檢測(cè),判斷是否存在答非所問(wèn)、態(tài)度不禮貌、重復(fù)詢問(wèn)等問(wèn)題。質(zhì)檢系統(tǒng)依賴于關(guān)鍵詞匹配等自然語(yǔ)言處理(nlp)技術(shù),通過(guò)預(yù)先定義的語(yǔ)義標(biāo)準(zhǔn)句和相似句來(lái)審查對(duì)話內(nèi)容。其中,對(duì)于相似句泛化這一項(xiàng)任務(wù),目前完全依賴人工窮舉填寫(xiě),這種擴(kuò)充方式存在諸多弊端,例如,需要大量時(shí)間和人力成本,極度耗時(shí)耗力,效率低下;其次,不同質(zhì)檢人員間的填寫(xiě)差異可能引發(fā)一致性問(wèn)題,進(jìn)而影響質(zhì)檢系統(tǒng)的檢測(cè)精準(zhǔn)度;并且,隨著標(biāo)準(zhǔn)句庫(kù)的持續(xù)擴(kuò)充,人工窮舉的方式將面臨工作量激增的挑戰(zhàn),嚴(yán)重制約了系統(tǒng)的擴(kuò)展性與可維護(hù)性。
2、相應(yīng)地,本領(lǐng)域需要一種新的數(shù)據(jù)擴(kuò)充方案來(lái)解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為了克服上述缺陷,提出了本申請(qǐng),以解決或至少部分地解決依賴人工窮舉填寫(xiě)相似句存在的上述技術(shù)問(wèn)題。
2、在第一方面,提供一種基于大模型的數(shù)據(jù)擴(kuò)充方法,所述方法包括:獲取會(huì)話內(nèi)容;基于所述會(huì)話內(nèi)容確定語(yǔ)料信息,所述語(yǔ)料信息包括標(biāo)準(zhǔn)句、標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋和語(yǔ)義標(biāo)簽編碼中的至少一項(xiàng);基于所述語(yǔ)料信息和預(yù)訓(xùn)練大模型,生成第一相似句;對(duì)所述第一相似句進(jìn)行篩選,得到所述標(biāo)準(zhǔn)句對(duì)應(yīng)的新增相似句;基于所述新增相似句更新標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)。
3、在上述基于大模型的數(shù)據(jù)擴(kuò)充方法的一個(gè)技術(shù)方案中,所述基于所述會(huì)話內(nèi)容確定語(yǔ)料信息,包括:對(duì)所述會(huì)話內(nèi)容進(jìn)行預(yù)處理,所述預(yù)處理包括去噪、分詞、提取標(biāo)準(zhǔn)句、提取上下文信息中的至少一項(xiàng);基于預(yù)處理后的會(huì)話內(nèi)容,確定標(biāo)準(zhǔn)句、標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋和語(yǔ)義標(biāo)簽編碼中的至少一項(xiàng)。
4、在上述基于大模型的數(shù)據(jù)擴(kuò)充方法的一個(gè)技術(shù)方案中,所述基于所述語(yǔ)料信息和預(yù)訓(xùn)練大模型,生成第一相似句,包括:判斷所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義標(biāo)簽編碼是否已經(jīng)被存儲(chǔ);基于判斷結(jié)果和所述標(biāo)準(zhǔn)句、所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋、所述預(yù)訓(xùn)練大模型,生成第一相似句。
5、在上述基于大模型的數(shù)據(jù)擴(kuò)充方法的一個(gè)技術(shù)方案中,所述基于判斷結(jié)果和所述標(biāo)準(zhǔn)句、所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋、所述預(yù)訓(xùn)練大模型,生成第一相似句,包括:在所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義標(biāo)簽編碼已經(jīng)被存儲(chǔ)的情況下,獲取所述語(yǔ)義標(biāo)簽編碼對(duì)應(yīng)的第二相似句;基于預(yù)設(shè)提示詞模版和所述標(biāo)準(zhǔn)句、所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋確定提問(wèn)文本;基于所述提問(wèn)文本、所述第二相似句和預(yù)訓(xùn)練大模型,生成第一相似句。
6、在上述基于大模型的數(shù)據(jù)擴(kuò)充方法的一個(gè)技術(shù)方案中,所述基于判斷結(jié)果和所述標(biāo)準(zhǔn)句、所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋、所述預(yù)訓(xùn)練大模型,生成第一相似句,包括:在所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義標(biāo)簽編碼沒(méi)有被存儲(chǔ)的情況下,基于預(yù)設(shè)提示詞模版和所述標(biāo)準(zhǔn)句、所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋確定提問(wèn)文本;基于所述提問(wèn)文本和預(yù)訓(xùn)練大模型,生成第一相似句。
7、在上述基于大模型的數(shù)據(jù)擴(kuò)充方法的一個(gè)技術(shù)方案中,所述對(duì)所述第一相似句進(jìn)行篩選,得到所述標(biāo)準(zhǔn)句對(duì)應(yīng)的新增相似句,包括:確定所述第一相似句與所述標(biāo)準(zhǔn)句的語(yǔ)義相似度;獲取語(yǔ)義相似度大于預(yù)設(shè)閾值的第一相似句,作為所述標(biāo)準(zhǔn)句對(duì)應(yīng)的新增相似句;和/或,將所述第一相似句進(jìn)行可視化展示;接收對(duì)于所述第一相似句的篩選操作指令;將所述篩選操作指令選擇的第一相似句,作為所述標(biāo)準(zhǔn)句對(duì)應(yīng)的新增相似句。
8、在上述基于大模型的數(shù)據(jù)擴(kuò)充方法的一個(gè)技術(shù)方案中,在基于所述新增相似句更新標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)后,所述方法還包括:將更新后的所述標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)進(jìn)行可視化展示;接收對(duì)于所述新增相似句的篩選操作指令;將所述篩選操作指令選擇的新增相似句,作為第二相似句進(jìn)行存儲(chǔ)。
9、在上述基于大模型的數(shù)據(jù)擴(kuò)充方法的一個(gè)技術(shù)方案中,所述方法還包括:獲取針對(duì)所述標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中所述新增相似句的操作記錄,所述操作記錄至少包括保留記錄、修改記錄和刪除記錄;基于所述操作記錄,對(duì)所述預(yù)訓(xùn)練大模型的模型參數(shù)進(jìn)行迭代優(yōu)化。
10、在第二方面,提供一種電子設(shè)備,該電子設(shè)備包括至少一個(gè)處理器;以及,與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個(gè)處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于大模型的數(shù)據(jù)擴(kuò)充方法的技術(shù)方案中任一項(xiàng)技術(shù)方案所述的方法。
11、在第三方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有多條程序代碼,所述程序代碼適于由處理器加載并運(yùn)行以執(zhí)行上述基于大模型的數(shù)據(jù)擴(kuò)充方法的技術(shù)方案中任一項(xiàng)技術(shù)方案所述的方法。
12、本申請(qǐng)上述一個(gè)或多個(gè)技術(shù)方案,至少具有如下一種或多種有益效果:
13、本申請(qǐng)?zhí)峁┑囊环N基于大模型的數(shù)據(jù)擴(kuò)充方法,包括:獲取會(huì)話內(nèi)容;基于所述會(huì)話內(nèi)容確定語(yǔ)料信息,所述語(yǔ)料信息包括標(biāo)準(zhǔn)句、標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋和語(yǔ)義標(biāo)簽編碼中的至少一項(xiàng);基于所述語(yǔ)料信息和預(yù)訓(xùn)練大模型,生成第一相似句;對(duì)所述第一相似句進(jìn)行篩選,得到所述標(biāo)準(zhǔn)句對(duì)應(yīng)的新增相似句;基于所述新增相似句更新標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)。本申請(qǐng)根據(jù)會(huì)話內(nèi)容確定準(zhǔn)確的語(yǔ)料信息,并借助大模型的泛化能力,利用語(yǔ)料信息生成第一相似句,顯著提升了數(shù)據(jù)擴(kuò)充的效率,通過(guò)對(duì)生成的第一相似句進(jìn)行篩選,利用篩選得到的新增相似句更新標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),保證了數(shù)據(jù)更新的質(zhì)量。
1.一種基于大模型的數(shù)據(jù)擴(kuò)充方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于大模型的數(shù)據(jù)擴(kuò)充方法,其特征在于,所述基于所述會(huì)話內(nèi)容確定語(yǔ)料信息,包括:
3.根據(jù)權(quán)利要求1所述的基于大模型的數(shù)據(jù)擴(kuò)充方法,其特征在于,所述基于所述語(yǔ)料信息和預(yù)訓(xùn)練大模型,生成第一相似句,包括:
4.根據(jù)權(quán)利要求3所述的基于大模型的數(shù)據(jù)擴(kuò)充方法,其特征在于,所述基于判斷結(jié)果和所述標(biāo)準(zhǔn)句、所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋、所述預(yù)訓(xùn)練大模型,生成第一相似句,包括:
5.根據(jù)權(quán)利要求3所述的基于大模型的數(shù)據(jù)擴(kuò)充方法,其特征在于,所述基于判斷結(jié)果和所述標(biāo)準(zhǔn)句、所述標(biāo)準(zhǔn)句對(duì)應(yīng)的語(yǔ)義解釋、所述預(yù)訓(xùn)練大模型,生成第一相似句,包括:
6.根據(jù)權(quán)利要求1所述的基于大模型的數(shù)據(jù)擴(kuò)充方法,其特征在于,所述對(duì)所述第一相似句進(jìn)行篩選,得到所述標(biāo)準(zhǔn)句對(duì)應(yīng)的新增相似句,包括:
7.根據(jù)權(quán)利要求1所述的基于大模型的數(shù)據(jù)擴(kuò)充方法,其特征在于,在基于所述新增相似句更新標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)后,所述方法還包括:
8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的基于大模型的數(shù)據(jù)擴(kuò)充方法,其特征在于,所述方法還包括:
9.一種電子設(shè)備,包括至少一個(gè)處理器和至少一個(gè)存儲(chǔ)器,所述存儲(chǔ)器適于存儲(chǔ)多條程序代碼,其特征在于,所述程序代碼適于由所述處理器加載并運(yùn)行以執(zhí)行權(quán)利要求1至8中任一項(xiàng)所述的基于大模型的數(shù)據(jù)擴(kuò)充方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有多條程序代碼,其特征在于,所述程序代碼適于由處理器加載并運(yùn)行以執(zhí)行權(quán)利要求1至8中任一項(xiàng)所述的基于大模型的數(shù)據(jù)擴(kuò)充方法。