一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置

文檔序號：40282474發(fā)布日期：2024-12-11 13:23閱讀：24來源：國知局

本發(fā)明涉及自然語言處理，特別是指一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置。

背景技術：

1、關系識別是自然語言處理領域的一項關鍵任務，旨在從非結構化的文本數(shù)據(jù)中自動識別和抽取實體及其相互之間的關系，每個關系都被表示為三元組<實體a，關系，實體b>的形式。組織之間的關系通常包括多種形式，如合作、競爭、隸屬、持股、并購等。組織關系識別在商業(yè)智能、風險管理、政策制定等不用應用領域都展現(xiàn)出顯著的重要性和廣泛的應用前景。

2、在商業(yè)領域，組織關系識別有助于企業(yè)理解市場結構和競爭格局。通過對公開報道、商業(yè)協(xié)議、合作伙伴關系等文本進行分析，企業(yè)可以識別潛在的商業(yè)伙伴和競爭對手，從而制定相應的市場策略，有效規(guī)避商業(yè)風險。政府機構和監(jiān)管當局可以利用組織關系識別技術來監(jiān)控和分析不同組織之間的互動，以制定有效的政策和法規(guī)。組織關系識別的應用不僅限于上述領域，它還可以擴展到供應鏈管理、危機應對、文化研究等眾多交叉學科領域。

3、隨著計算能力的不斷提升和數(shù)據(jù)資源的日益豐富，大語言模型得到了快速發(fā)展。這些模型在大規(guī)模語料庫上進行預訓練，通過學習語言的模式、結構和語法來捕捉豐富的語言表示，但現(xiàn)有的組織關系識別技術仍面臨一些挑戰(zhàn)。由于自然語言的復雜性，常規(guī)的深度學習模型難以完全理解文中的細微差別和復雜關系。不同行業(yè)和不同類型的文本對組織關系的識別也要求不同。針對于非結構化數(shù)據(jù)的處理能力不足。

4、在現(xiàn)有技術中，缺乏一種針對于非結構化文本的準確且高效的組織間關系識別方法。

技術實現(xiàn)思路

1、為了解決現(xiàn)有技術存在的非結構化文本處理能力差且準確度不高的技術問題，本發(fā)明實施例提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置。所述技術方案如下：

2、一方面，提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別方法，該方法由組織間關系識別設備實現(xiàn)，該方法包括：

3、根據(jù)預設的組織名稱列表進行文本爬取，獲取原始網(wǎng)絡文本；對所述原始網(wǎng)絡文本進行預處理，獲得處理后文本；

4、基于word2vec技術，根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集；

5、根據(jù)所述初始訓練集，采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào)，獲得第一組織關系識別模型；

6、基于所述第一組織關系識別模型，根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集；

7、基于預設的訓練輪次，使用所述增量訓練集，對所述第一組織關系識別模型進行增量式訓練，獲得第二組織關系識別模型；

8、獲取待識別組織名稱列表；根據(jù)所述待識別組織名稱列表進行文本爬取和預處理，獲取待識別網(wǎng)絡文本；將所述待識別網(wǎng)絡文本輸入所述第二組織關系識別模型，獲得組織識別關系。

9、另一方面，提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別裝置，該裝置應用于基于網(wǎng)絡文本挖掘的組織間關系識別方法，該裝置包括：

10、文本獲取模塊，用于根據(jù)預設的組織名稱列表進行文本爬取，獲取原始網(wǎng)絡文本；對所述原始網(wǎng)絡文本進行預處理，獲得處理后文本；

11、初始訓練集構建模塊，用于基于word2vec技術，根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集；

12、初步訓練模塊，用于根據(jù)所述初始訓練集，采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào)，獲得第一組織關系識別模型；

13、增量訓練集構建模塊，用于基于所述第一組織關系識別模型，根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集；

14、增量訓練模塊，用于基于預設的訓練輪次，使用所述增量訓練集，對所述第一組織關系識別模型進行增量式訓練，獲得第二組織關系識別模型；

15、組織關系識別模塊，用于獲取待識別組織名稱列表；根據(jù)所述待識別組織名稱列表進行文本爬取和預處理，獲取待識別網(wǎng)絡文本；將所述待識別網(wǎng)絡文本輸入所述第二組織關系識別模型，獲得組織識別關系。

16、另一方面，提供一種組織間關系識別設備，所述組織間關系識別設備包括：處理器；存儲器，所述存儲器上存儲有計算機可讀指令，所述計算機可讀指令被所述處理器執(zhí)行時，實現(xiàn)如上述基于網(wǎng)絡文本挖掘的組織間關系識別方法中的任一項方法。

17、另一方面，提供了一種計算機可讀存儲介質(zhì)，所述存儲介質(zhì)中存儲有至少一條指令，所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)上述基于網(wǎng)絡文本挖掘的組織間關系識別方法中的任一項方法。

18、本發(fā)明實施例提供的技術方案帶來的有益效果至少包括：

19、本發(fā)明提出一種基于網(wǎng)絡文本挖掘的組織間關系識別方法，通過大語言模型學習語言的模式、結構和語法來捕捉豐富的語言表示。利用與特定任務相關的相對較小的數(shù)據(jù)集對預訓練的大語言模型進行微調(diào)，使其能夠更好地完成特定應用任務。本發(fā)明可實現(xiàn)從大量非規(guī)則文本中識別出不同組織之間可能存在的多類關系，借助大語言模型有效提升組織間關系的識別準確度。本發(fā)明是一種針對于非結構化文本的準確且高效的組織間關系識別方法。

技術特征：

1.一種基于網(wǎng)絡文本挖掘的組織間關系識別方法，其特征在于，所述方法包括：

2.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法，其特征在于，所述對所述原始網(wǎng)絡文本進行預處理，獲得處理后文本，包括：

3.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法，其特征在于，所述基于word2vec技術，根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集，包括：

4.根據(jù)權利要求3所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法，其特征在于，所述基于word2vec技術，根據(jù)所述組織名稱、預設的組織名稱列表、所述詳細文本描述和預設的基準組織關系進行三元組構建，獲得組織關系三元組，包括：

5.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法，其特征在于，所述根據(jù)所述初始訓練集，采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào)，獲得第一組織關系識別模型，包括：

6.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法，其特征在于，所述基于所述第一組織關系識別模型，根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集，包括：

7.一種基于網(wǎng)絡文本挖掘的組織間關系識別裝置，所述基于網(wǎng)絡文本挖掘的組織間關系識別裝置用于實現(xiàn)如權利要求1-6任一項所述基于網(wǎng)絡文本挖掘的組織間關系識別方法，其特征在于，所述裝置包括：

8.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別裝置，其特征在于，所述初步訓練模塊，進一步用于：

9.一種組織間關系識別設備，其特征在于，所述組織間關系識別設備包括：

10.一種計算機可讀取存儲介質(zhì)，其特征在于，所述計算機可讀取存儲介質(zhì)中存儲有程序代碼，所述程序代碼可被處理器調(diào)用執(zhí)行如權利要求1至6任一項所述的方法。

技術總結
本發(fā)明涉及自然語言處理技術領域，特別是指一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置。所述方法包括：獲取網(wǎng)絡文本；對網(wǎng)絡文本進行預處理，獲得處理后文本；根據(jù)處理后文本進行三元組構建，獲得初始訓練集；根據(jù)初始訓練集，采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào)，獲得第一組織關系識別模型；基于第一組織關系識別模型，根據(jù)處理后文本構建增量訓練集；基于預設的訓練輪次，使用增量訓練集，對第一組織關系識別模型進行增量式訓練，獲得第二組織關系識別模型；獲取待識別網(wǎng)絡文本；將待識別網(wǎng)絡文本輸入第二組織關系識別模型，獲得組織識別關系。本發(fā)明是一種針對于非結構化文本的準確且高效的組織間關系識別方法。

技術研發(fā)人員：胡堰,王家駒,崔博晗
受保護的技術使用者：北京科技大學
技術研發(fā)日：
技術公布日：2024/12/10

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：胡堰,王家駒,崔博晗
技術所有人：北京科技大學
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置