国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置

      文檔序號:40282474發(fā)布日期:2024-12-11 13:23閱讀:24來源:國知局
      一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置

      本發(fā)明涉及自然語言處理,特別是指一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置。


      背景技術:

      1、關系識別是自然語言處理領域的一項關鍵任務,旨在從非結構化的文本數(shù)據(jù)中自動識別和抽取實體及其相互之間的關系,每個關系都被表示為三元組<實體a,關系,實體b>的形式。組織之間的關系通常包括多種形式,如合作、競爭、隸屬、持股、并購等。組織關系識別在商業(yè)智能、風險管理、政策制定等不用應用領域都展現(xiàn)出顯著的重要性和廣泛的應用前景。

      2、在商業(yè)領域,組織關系識別有助于企業(yè)理解市場結構和競爭格局。通過對公開報道、商業(yè)協(xié)議、合作伙伴關系等文本進行分析,企業(yè)可以識別潛在的商業(yè)伙伴和競爭對手,從而制定相應的市場策略,有效規(guī)避商業(yè)風險。政府機構和監(jiān)管當局可以利用組織關系識別技術來監(jiān)控和分析不同組織之間的互動,以制定有效的政策和法規(guī)。組織關系識別的應用不僅限于上述領域,它還可以擴展到供應鏈管理、危機應對、文化研究等眾多交叉學科領域。

      3、隨著計算能力的不斷提升和數(shù)據(jù)資源的日益豐富,大語言模型得到了快速發(fā)展。這些模型在大規(guī)模語料庫上進行預訓練,通過學習語言的模式、結構和語法來捕捉豐富的語言表示,但現(xiàn)有的組織關系識別技術仍面臨一些挑戰(zhàn)。由于自然語言的復雜性,常規(guī)的深度學習模型難以完全理解文中的細微差別和復雜關系。不同行業(yè)和不同類型的文本對組織關系的識別也要求不同。針對于非結構化數(shù)據(jù)的處理能力不足。

      4、在現(xiàn)有技術中,缺乏一種針對于非結構化文本的準確且高效的組織間關系識別方法。


      技術實現(xiàn)思路

      1、為了解決現(xiàn)有技術存在的非結構化文本處理能力差且準確度不高的技術問題,本發(fā)明實施例提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置。所述技術方案如下:

      2、一方面,提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別方法,該方法由組織間關系識別設備實現(xiàn),該方法包括:

      3、根據(jù)預設的組織名稱列表進行文本爬取,獲取原始網(wǎng)絡文本;對所述原始網(wǎng)絡文本進行預處理,獲得處理后文本;

      4、基于word2vec技術,根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集;

      5、根據(jù)所述初始訓練集,采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào),獲得第一組織關系識別模型;

      6、基于所述第一組織關系識別模型,根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集;

      7、基于預設的訓練輪次,使用所述增量訓練集,對所述第一組織關系識別模型進行增量式訓練,獲得第二組織關系識別模型;

      8、獲取待識別組織名稱列表;根據(jù)所述待識別組織名稱列表進行文本爬取和預處理,獲取待識別網(wǎng)絡文本;將所述待識別網(wǎng)絡文本輸入所述第二組織關系識別模型,獲得組織識別關系。

      9、另一方面,提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別裝置,該裝置應用于基于網(wǎng)絡文本挖掘的組織間關系識別方法,該裝置包括:

      10、文本獲取模塊,用于根據(jù)預設的組織名稱列表進行文本爬取,獲取原始網(wǎng)絡文本;對所述原始網(wǎng)絡文本進行預處理,獲得處理后文本;

      11、初始訓練集構建模塊,用于基于word2vec技術,根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集;

      12、初步訓練模塊,用于根據(jù)所述初始訓練集,采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào),獲得第一組織關系識別模型;

      13、增量訓練集構建模塊,用于基于所述第一組織關系識別模型,根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集;

      14、增量訓練模塊,用于基于預設的訓練輪次,使用所述增量訓練集,對所述第一組織關系識別模型進行增量式訓練,獲得第二組織關系識別模型;

      15、組織關系識別模塊,用于獲取待識別組織名稱列表;根據(jù)所述待識別組織名稱列表進行文本爬取和預處理,獲取待識別網(wǎng)絡文本;將所述待識別網(wǎng)絡文本輸入所述第二組織關系識別模型,獲得組織識別關系。

      16、另一方面,提供一種組織間關系識別設備,所述組織間關系識別設備包括:處理器;存儲器,所述存儲器上存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執(zhí)行時,實現(xiàn)如上述基于網(wǎng)絡文本挖掘的組織間關系識別方法中的任一項方法。

      17、另一方面,提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)上述基于網(wǎng)絡文本挖掘的組織間關系識別方法中的任一項方法。

      18、本發(fā)明實施例提供的技術方案帶來的有益效果至少包括:

      19、本發(fā)明提出一種基于網(wǎng)絡文本挖掘的組織間關系識別方法,通過大語言模型學習語言的模式、結構和語法來捕捉豐富的語言表示。利用與特定任務相關的相對較小的數(shù)據(jù)集對預訓練的大語言模型進行微調(diào),使其能夠更好地完成特定應用任務。本發(fā)明可實現(xiàn)從大量非規(guī)則文本中識別出不同組織之間可能存在的多類關系,借助大語言模型有效提升組織間關系的識別準確度。本發(fā)明是一種針對于非結構化文本的準確且高效的組織間關系識別方法。



      技術特征:

      1.一種基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述方法包括:

      2.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述對所述原始網(wǎng)絡文本進行預處理,獲得處理后文本,包括:

      3.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述基于word2vec技術,根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集,包括:

      4.根據(jù)權利要求3所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述基于word2vec技術,根據(jù)所述組織名稱、預設的組織名稱列表、所述詳細文本描述和預設的基準組織關系進行三元組構建,獲得組織關系三元組,包括:

      5.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述根據(jù)所述初始訓練集,采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào),獲得第一組織關系識別模型,包括:

      6.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述基于所述第一組織關系識別模型,根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集,包括:

      7.一種基于網(wǎng)絡文本挖掘的組織間關系識別裝置,所述基于網(wǎng)絡文本挖掘的組織間關系識別裝置用于實現(xiàn)如權利要求1-6任一項所述基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述裝置包括:

      8.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別裝置,其特征在于,所述初步訓練模塊,進一步用于:

      9.一種組織間關系識別設備,其特征在于,所述組織間關系識別設備包括:

      10.一種計算機可讀取存儲介質(zhì),其特征在于,所述計算機可讀取存儲介質(zhì)中存儲有程序代碼,所述程序代碼可被處理器調(diào)用執(zhí)行如權利要求1至6任一項所述的方法。


      技術總結
      本發(fā)明涉及自然語言處理技術領域,特別是指一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置。所述方法包括:獲取網(wǎng)絡文本;對網(wǎng)絡文本進行預處理,獲得處理后文本;根據(jù)處理后文本進行三元組構建,獲得初始訓練集;根據(jù)初始訓練集,采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào),獲得第一組織關系識別模型;基于第一組織關系識別模型,根據(jù)處理后文本構建增量訓練集;基于預設的訓練輪次,使用增量訓練集,對第一組織關系識別模型進行增量式訓練,獲得第二組織關系識別模型;獲取待識別網(wǎng)絡文本;將待識別網(wǎng)絡文本輸入第二組織關系識別模型,獲得組織識別關系。本發(fā)明是一種針對于非結構化文本的準確且高效的組織間關系識別方法。

      技術研發(fā)人員:胡堰,王家駒,崔博晗
      受保護的技術使用者:北京科技大學
      技術研發(fā)日:
      技術公布日:2024/12/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1