本發(fā)明涉及文本數(shù)據(jù)處理,尤其涉及一種語料的構建方法、裝置、電子設備及存儲介質(zhì)。
背景技術:
1、語料庫一詞在語言學上意指大量的文本,通常經(jīng)過整理,具有既定格式與標記。根據(jù)語料庫的特征,可以分為單語語料庫、雙語語料庫、平行語料庫、分類語料庫等,根據(jù)語料的來源,可以分為書面語語料庫、口語語料庫、作文語料庫、學習者語料庫、古文書語料庫等。
2、語料庫語言學可以對自然語言進行語法與句法分析,還可以研究它與其他語言的關系。語料庫最初由手工完成,而現(xiàn)在主要是由電子計算機自動完成。目前,語料庫語言學主要研究機器可讀自然語言文本的采集、存儲、檢索、統(tǒng)計、語法標注、句法語義分析,以及具有上述功能的語料庫在語言教學、語言定量分析、詞匯研究、詞語搭配研究、詞典編纂、語法研究、語言文化研究、法律語言研究、作品風格分析、自然語言理解和機器翻譯等領域中的應用。
3、對于分類語料的構建,常有的方法是在已有的分類文檔的基礎上,建立文本分類模型。對于新文檔,通過文本分類模型將其歸屬于某個類別。隨著大語言模型在各個垂直行業(yè)的應用深入,對于分類語料有著更加細粒度的需求。
技術實現(xiàn)思路
1、本發(fā)明提供一種語料的構建方法、裝置、電子設備及存儲介質(zhì),用以解決現(xiàn)有技術中通過文本分類模型將新文檔歸屬于某個類別的分類粒度較粗、不夠準確的缺陷。
2、本發(fā)明提供一種語料的構建方法,包括如下步驟:
3、獲取原始文檔和分類文檔庫,并對所述原始文檔按句進行拆分,得到所述原始文檔的句集合;
4、確定所述句集合中各句與各聚類簇之間的第一相似度,并確定所述各聚類簇對所述分類文檔庫的分類庫的第一貢獻度;所述分類文檔庫的各分類庫對應多個聚類簇,多個聚類簇是基于句粒度聚類得到的;
5、基于所述第一相似度和所述第一貢獻度,確定所述句集合中各句與所述分類文檔庫的歸屬度;
6、基于屬于同一分類文檔庫的所述句集合中所有句子的歸屬度,確定目標歸屬度,并基于目標歸屬度,確定所述原始文檔在所述分類文檔庫中的目標類別;
7、將所述原始文檔中的各句歸類在所述目標類別下的聚類簇中相似度最大值所屬的聚類簇。
8、根據(jù)本發(fā)明提供的一種語料的構建方法,所述確定所述各聚類簇對所述分類文檔庫的分類庫的第一貢獻度,包括:
9、確定所述各聚類簇對所述分類文檔庫的分類庫的目標貢獻值;
10、基于所述各聚類簇和所述分類庫之間的第二相似度,以及所述目標貢獻值,確定所述第一貢獻度。
11、根據(jù)本發(fā)明提供的一種語料的構建方法,所述目標貢獻值的確定步驟,包括:
12、在所述分類文檔庫中第一分類庫與所述分類文檔庫中的第二分類庫相同的情況下,基于所述第二分類庫下的詞匯對所述第一分類庫的第一貢獻值,確定所述目標貢獻值;
13、在所述第一分類庫與所述第二分類庫不同的情況下,確定所述第一分類庫下的聚類簇與所述第二分類庫下的聚類簇的簇相似度,并將所述簇相似度中最大的聚類簇對所述第一分類庫的第二貢獻值作為所述目標貢獻值。
14、根據(jù)本發(fā)明提供的一種語料的構建方法,所述聚類簇是基于所述分類文檔庫中各詞對各分類的第三貢獻值確定的。
15、根據(jù)本發(fā)明提供的一種語料的構建方法,所述分類文檔庫中各詞對各分類的第三貢獻值的確定步驟,包括:
16、確定各詞的反向文檔頻率,并確定各詞對各分類的區(qū)分度;
17、基于所述反向文檔頻率和所述區(qū)分度,確定所述第三貢獻值。
18、根據(jù)本發(fā)明提供的一種語料的構建方法,所述區(qū)分度基于各詞在所述分類文檔庫中各分類庫的出現(xiàn)頻率,以及所述各分類庫的文檔數(shù)確定。
19、本發(fā)明還提供一種語料的構建裝置,包括如下模塊:
20、獲取單元,用于獲取原始文檔和分類文檔庫,并對所述原始文檔按句進行拆分,得到所述原始文檔的句集合;
21、第一確定單元,用于確定所述句集合中各句與各聚類簇之間的第一相似度,并確定所述各聚類簇對所述分類文檔庫的分類庫的第一貢獻度;所述分類文檔庫的各分類庫對應多個聚類簇,多個聚類簇是基于句粒度聚類得到的;
22、第二確定單元,用于基于所述第一相似度和所述第一貢獻度,確定所述句集合中各句與所述分類文檔庫的歸屬度;
23、第三確定單元,用于基于屬于同一分類文檔庫的所述句集合中所有句子的歸屬度,確定目標歸屬度,并基于目標歸屬度,確定所述原始文檔在所述分類文檔庫中的目標類別;
24、歸類單元,用于將所述原始文檔中的各句歸類在所述目標類別下的聚類簇中相似度最大值所屬的聚類簇。
25、本發(fā)明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述語料的構建方法。
26、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述語料的構建方法。
27、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述語料的構建方法。
28、本發(fā)明提供的語料的構建方法、裝置、電子設備及存儲介質(zhì),對原始文檔按句進行拆分,得到原始文檔的句集合,再確定句集合中各句與各聚類簇之間的第一相似度,并確定各聚類簇對分類文檔庫的分類庫的第一貢獻度,然后,基于第一相似度和第一貢獻度,確定句集合中各句與分類文檔庫的歸屬度,基于屬于同一分類文檔庫的句集合中所有句子的歸屬度,確定目標歸屬度,并基于目標歸屬度,確定原始文檔在分類文檔庫中的目標類別,最后,將原始文檔中的各句歸類在目標類別下的聚類簇中相似度最大值所屬的聚類簇。此過程不僅將原始文檔歸類在文檔分類庫中的目標類別,也將原始文檔中的各句歸類在目標類別下的聚類簇中相似度最大值所屬的聚類簇,從而從更細粒度層面進行歸類,提高了語料構建的準確性。
1.一種語料的構建方法,其特征在于,包括:
2.根據(jù)權利要求1所述的語料的構建方法,其特征在于,所述確定所述各聚類簇對所述分類文檔庫的分類庫的第一貢獻度,包括:
3.根據(jù)權利要求2所述的語料的構建方法,其特征在于,所述目標貢獻值的確定步驟,包括:
4.根據(jù)權利要求3所述的語料的構建方法,其特征在于,所述聚類簇是基于所述分類文檔庫中各詞對各分類的第三貢獻值確定的。
5.根據(jù)權利要求4所述的語料的構建方法,其特征在于,所述分類文檔庫中各詞對各分類的第三貢獻值的確定步驟,包括:
6.根據(jù)權利要求5所述的語料的構建方法,其特征在于,所述區(qū)分度基于各詞在所述分類文檔庫中各分類庫的出現(xiàn)頻率,以及所述各分類庫的文檔數(shù)確定。
7.一種語料的構建裝置,其特征在于,包括:
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1至6任一項所述語料的構建方法。
9.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至6任一項所述語料的構建方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至6任一項所述語料的構建方法。