国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      話題內容生成及模型的訓練方法、裝置、設備和存儲介質與流程

      文檔序號:39607154發(fā)布日期:2024-10-11 13:15閱讀:15來源:國知局
      話題內容生成及模型的訓練方法、裝置、設備和存儲介質與流程

      本申請涉及自然語言處理領域,尤其涉及一種話題內容生成及模型的訓練方法、裝置、設備和存儲介質。


      背景技術:

      1、隨著社交媒體的蓬勃發(fā)展,社交平臺已經成為用戶分享觀點、交流信息的主要場所。由于信息過載和廣泛的話題多樣性,用戶在生產內容時常常面臨創(chuàng)作困難。一方面,用戶對于自身關注的特定的話題往往難以生產具有深度的話題內容。另一方面,用戶對于話題內容的生產效率往往較低。如果直接使用通用的大語言模型生成話題內容,也通常存在話題內容與話題標簽關聯性差、話題內容質量不穩(wěn)定等缺陷。

      2、如何提高話題內容生成模型的訓練質量,是本申請所要解決的技術問題。


      技術實現思路

      1、本申請實施例的目的是提供一種話題內容生成及模型的訓練方法、裝置、設備和存儲介質,用以提高話題內容生成模型的訓練質量。

      2、第一方面,提供了一種話題內容生成模型的訓練方法,包括:

      3、獲取原話題內容,所述原話題內容包括至少一個話題標簽、與所述話題標簽關聯的用戶內容文本以及所述用戶內容文本對應的用戶標識;

      4、基于所述話題標簽對所述原話題內容執(zhí)行聚類,得到至少一個話題文本簇;

      5、基于目標話題標簽所屬的目標話題文本簇確定所述目標話題標簽的有效性特征值,所述有效性特征值包括所述目標話題文本簇的用戶內容文本數量與所述目標話題文本簇的用戶標識數量的比值;

      6、基于所述有效性特征值對所述原話題內容執(zhí)行清洗,得到清洗后的話題內容;

      7、使用清洗后的話題內容對預訓練的大語言模型執(zhí)行指令微調,得到話題內容生成模型。

      8、第二方面,提供了一種話題內容生成方法,包括:

      9、獲取待生成話題內容的話題標簽;

      10、基于所述話題標簽構建話題指令;

      11、將所述話題指令輸入話題內容生成模型,得到所述話題內容生成模型輸出的話題內容文本,所述話題內容生成模型由權利要求1~6任一項所述的話題內容生成模型的訓練方法訓練得到。

      12、第三方面,提供了一種話題內容生成模型的訓練裝置,包括:

      13、獲取模塊,獲取原話題內容,所述原話題內容包括至少一個話題標簽、與所述話題標簽關聯的用戶內容文本以及所述用戶內容文本對應的用戶標識;

      14、聚類模塊,基于所述話題標簽對所述原話題內容執(zhí)行聚類,得到至少一個話題文本簇;

      15、確定模塊,基于目標話題標簽所屬的目標話題文本簇確定所述目標話題標簽的有效性特征值,所述有效性特征值包括所述目標話題文本簇的用戶內容文本數量與所述目標話題文本簇的用戶標識數量的比值;

      16、清洗模塊,基于所述有效性特征值對所述原話題內容執(zhí)行清洗,得到清洗后的話題內容;

      17、訓練模塊,使用清洗后的話題內容對預訓練的大語言模型執(zhí)行指令微調,得到話題內容生成模型。

      18、第四方面,提供了一種話題內容生成裝置,包括:

      19、獲取模塊,獲取待生成話題內容的話題標簽;

      20、構建模塊,基于所述話題標簽構建話題指令;

      21、生成模塊,將所述話題指令輸入話題內容生成模型,得到所述話題內容生成模型輸出的話題內容文本,所述話題內容生成模型由權利要求1~6任一項所述的話題內容生成模型的訓練方法訓練得到。

      22、第五方面,提供了一種電子設備,該電子設備包括處理器、存儲器及存儲在該存儲器上并可在該處理器上運行的計算機程序,該計算機程序被該處理器執(zhí)行時實現如第一方面或第二方面的方法的步驟。

      23、第六方面,提供了一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲計算機程序,該計算機程序被處理器執(zhí)行時實現如第一方面或第二方面的方法的步驟。

      24、第七方面,提供了一種計算機程序產品,該計算機程序產品包括存儲了計算機程序的非瞬時性計算機可讀存儲介質,該計算機程序可操作來使計算機執(zhí)行如第一方面或第二方面的方法的部分或全部步驟。

      25、在本申請實施例中,首先獲取原話題內容,上述原話題內容包括至少一個話題標簽、與話題標簽關聯的用戶內容文本、以及用戶內容文本對應的用戶標識;然后,基于原話題內容中的話題標簽對原話題內容中的用戶內容文本和用戶標識執(zhí)行聚類,得到至少一個話題文本簇;接著,基于目標話題標簽聚類所得的目標話題文本簇確定目標話題標簽的有效性特征值,有效性特征值表征目標話題文本簇的用戶內容文本數量與目標話題文本簇的用戶標識數量的比值,其中,目標話題標簽為原話題內容中的任一個話題標簽;隨后,基于原話題內容中的各個話題標簽分別對應的有效性特征值對原話題內容執(zhí)行清洗,得到清洗后的話題內容;最后,以清洗后的話題內容中的話題標簽構建指令輸入,以清洗后的話題內容中的用戶內容文本構建指令輸出,對預訓練的大語言模型執(zhí)行指令微調,得到話題內容生成模型,其中,用于構建指令輸入的話題標簽與用于構建指令輸出的用戶內容文本具有關聯關系。其中,通過聚類的方式對話題標簽確定客觀的有效性特征值,基于話題有效性特征值執(zhí)行清洗,能使清洗后的話題內容不局限于少量用戶的專屬標簽,而是具有廣泛參與的價值。進而,使用清洗后的話題內容對預訓練的大語言模型執(zhí)行指令微調,能使微調后的話題內容生成模型適用于話題內容生成應用場景,提高話題內容生成模型的訓練質量和有效性,使話題內容生成模型的輸出結果具備有效性以及用戶廣泛參與的價值。



      技術特征:

      1.一種話題內容生成模型的訓練方法,其特征在于,包括:

      2.如權利要求1所述的方法,其特征在于,所述原話題內容中的話題標簽的數量為多個;

      3.如權利要求2所述的方法,其特征在于,所述基于排序結果對所述原話題內容執(zhí)行清洗,得到清洗后的話題內容,包括:

      4.如權利要求1~3任一項所述的方法,其特征在于,所述預訓練的大語言模型具有僅解碼器的transformer架構;

      5.如權利要求4所述的方法,其特征在于,所述以清洗后的話題內容中的話題標簽構建指令輸入,以清洗后的話題內容中的用戶內容文本構建指令輸出,訓練所述預訓練的大語言模型的各層解碼器架構的秩分解矩陣,得到話題內容生成模型,包括:

      6.如權利要求1~3任一項所述的方法,其特征在于,在基于所述原話題內容中的話題標簽對所述原話題內容中的用戶內容文本和用戶標識執(zhí)行聚類之前,還包括:

      7.一種話題內容生成方法,其特征在于,包括:

      8.一種話題內容生成模型的訓練裝置,其特征在于,包括:

      9.一種電子設備,其特征在于,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現如權利要求1至7中任一項所述的方法的步驟。

      10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現如權利要求1至7中任一項所述的方法的步驟。

      11.一種計算機程序產品,其特征在于,所述計算機程序產品包括存儲了計算機程序的非瞬時性計算機可讀存儲介質,所述計算機程序可操作來使計算機執(zhí)行如權利要求1至7中任一項所述的方法的部分或全部步驟。


      技術總結
      本申請實施例公開了一種話題內容生成及模型的訓練方法、裝置、設備和存儲介質,用以提高話題內容生成模型的訓練質量。本方案包括:獲取原話題內容,原話題內容包括話題標簽、用戶內容文本以及用戶標識;基于話題標簽對用戶內容文本和用戶標識執(zhí)行聚類,得到至少一個話題文本簇;基于目標話題標簽聚類所得的目標話題文本簇確定目標話題標簽的有效性特征值,有效性特征值表征目標話題文本簇的用戶內容文本數量與用戶標識數量的比值;基于有效性特征值對原話題內容執(zhí)行清洗,得到清洗后的話題內容;以清洗后的話題內容中的話題標簽構建指令輸入,以清洗后的話題內容中的用戶內容文本構建指令輸出,對預訓練的大語言模型執(zhí)行指令微調。

      技術研發(fā)人員:許輝鵬,周鑫
      受保護的技術使用者:微夢創(chuàng)科網絡科技(中國)有限公司
      技術研發(fā)日:
      技術公布日:2024/10/10
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1