本發(fā)明涉及自然語言處理,特別是指一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置。
背景技術:
1、關系識別是自然語言處理領域的一項關鍵任務,旨在從非結構化的文本數(shù)據(jù)中自動識別和抽取實體及其相互之間的關系,每個關系都被表示為三元組<實體a,關系,實體b>的形式。組織之間的關系通常包括多種形式,如合作、競爭、隸屬、持股、并購等。組織關系識別在商業(yè)智能、風險管理、政策制定等不用應用領域都展現(xiàn)出顯著的重要性和廣泛的應用前景。
2、在商業(yè)領域,組織關系識別有助于企業(yè)理解市場結構和競爭格局。通過對公開報道、商業(yè)協(xié)議、合作伙伴關系等文本進行分析,企業(yè)可以識別潛在的商業(yè)伙伴和競爭對手,從而制定相應的市場策略,有效規(guī)避商業(yè)風險。政府機構和監(jiān)管當局可以利用組織關系識別技術來監(jiān)控和分析不同組織之間的互動,以制定有效的政策和法規(guī)。組織關系識別的應用不僅限于上述領域,它還可以擴展到供應鏈管理、危機應對、文化研究等眾多交叉學科領域。
3、隨著計算能力的不斷提升和數(shù)據(jù)資源的日益豐富,大語言模型得到了快速發(fā)展。這些模型在大規(guī)模語料庫上進行預訓練,通過學習語言的模式、結構和語法來捕捉豐富的語言表示,但現(xiàn)有的組織關系識別技術仍面臨一些挑戰(zhàn)。由于自然語言的復雜性,常規(guī)的深度學習模型難以完全理解文中的細微差別和復雜關系。不同行業(yè)和不同類型的文本對組織關系的識別也要求不同。針對于非結構化數(shù)據(jù)的處理能力不足。
4、在現(xiàn)有技術中,缺乏一種針對于非結構化文本的準確且高效的組織間關系識別方法。
技術實現(xiàn)思路
1、為了解決現(xiàn)有技術存在的非結構化文本處理能力差且準確度不高的技術問題,本發(fā)明實施例提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別方法及裝置。所述技術方案如下:
2、一方面,提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別方法,該方法由組織間關系識別設備實現(xiàn),該方法包括:
3、根據(jù)預設的組織名稱列表進行文本爬取,獲取原始網(wǎng)絡文本;對所述原始網(wǎng)絡文本進行預處理,獲得處理后文本;
4、基于word2vec技術,根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集;
5、根據(jù)所述初始訓練集,采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào),獲得第一組織關系識別模型;
6、基于所述第一組織關系識別模型,根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集;
7、基于預設的訓練輪次,使用所述增量訓練集,對所述第一組織關系識別模型進行增量式訓練,獲得第二組織關系識別模型;
8、獲取待識別組織名稱列表;根據(jù)所述待識別組織名稱列表進行文本爬取和預處理,獲取待識別網(wǎng)絡文本;將所述待識別網(wǎng)絡文本輸入所述第二組織關系識別模型,獲得組織識別關系。
9、另一方面,提供了一種基于網(wǎng)絡文本挖掘的組織間關系識別裝置,該裝置應用于基于網(wǎng)絡文本挖掘的組織間關系識別方法,該裝置包括:
10、文本獲取模塊,用于根據(jù)預設的組織名稱列表進行文本爬取,獲取原始網(wǎng)絡文本;對所述原始網(wǎng)絡文本進行預處理,獲得處理后文本;
11、初始訓練集構建模塊,用于基于word2vec技術,根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集;
12、初步訓練模塊,用于根據(jù)所述初始訓練集,采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào),獲得第一組織關系識別模型;
13、增量訓練集構建模塊,用于基于所述第一組織關系識別模型,根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集;
14、增量訓練模塊,用于基于預設的訓練輪次,使用所述增量訓練集,對所述第一組織關系識別模型進行增量式訓練,獲得第二組織關系識別模型;
15、組織關系識別模塊,用于獲取待識別組織名稱列表;根據(jù)所述待識別組織名稱列表進行文本爬取和預處理,獲取待識別網(wǎng)絡文本;將所述待識別網(wǎng)絡文本輸入所述第二組織關系識別模型,獲得組織識別關系。
16、另一方面,提供一種組織間關系識別設備,所述組織間關系識別設備包括:處理器;存儲器,所述存儲器上存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執(zhí)行時,實現(xiàn)如上述基于網(wǎng)絡文本挖掘的組織間關系識別方法中的任一項方法。
17、另一方面,提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)上述基于網(wǎng)絡文本挖掘的組織間關系識別方法中的任一項方法。
18、本發(fā)明實施例提供的技術方案帶來的有益效果至少包括:
19、本發(fā)明提出一種基于網(wǎng)絡文本挖掘的組織間關系識別方法,通過大語言模型學習語言的模式、結構和語法來捕捉豐富的語言表示。利用與特定任務相關的相對較小的數(shù)據(jù)集對預訓練的大語言模型進行微調(diào),使其能夠更好地完成特定應用任務。本發(fā)明可實現(xiàn)從大量非規(guī)則文本中識別出不同組織之間可能存在的多類關系,借助大語言模型有效提升組織間關系的識別準確度。本發(fā)明是一種針對于非結構化文本的準確且高效的組織間關系識別方法。
1.一種基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述對所述原始網(wǎng)絡文本進行預處理,獲得處理后文本,包括:
3.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述基于word2vec技術,根據(jù)預設的組織名稱列表、所述處理后文本、預設的訓練提示詞和預設的基準組織關系構建初始訓練集,包括:
4.根據(jù)權利要求3所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述基于word2vec技術,根據(jù)所述組織名稱、預設的組織名稱列表、所述詳細文本描述和預設的基準組織關系進行三元組構建,獲得組織關系三元組,包括:
5.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述根據(jù)所述初始訓練集,采用低秩適配微調(diào)方法對預設的大語言模型進行微調(diào),獲得第一組織關系識別模型,包括:
6.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述基于所述第一組織關系識別模型,根據(jù)預設的訓練提示詞和所述處理后文本構建增量訓練集,包括:
7.一種基于網(wǎng)絡文本挖掘的組織間關系識別裝置,所述基于網(wǎng)絡文本挖掘的組織間關系識別裝置用于實現(xiàn)如權利要求1-6任一項所述基于網(wǎng)絡文本挖掘的組織間關系識別方法,其特征在于,所述裝置包括:
8.根據(jù)權利要求1所述的基于網(wǎng)絡文本挖掘的組織間關系識別裝置,其特征在于,所述初步訓練模塊,進一步用于:
9.一種組織間關系識別設備,其特征在于,所述組織間關系識別設備包括:
10.一種計算機可讀取存儲介質(zhì),其特征在于,所述計算機可讀取存儲介質(zhì)中存儲有程序代碼,所述程序代碼可被處理器調(diào)用執(zhí)行如權利要求1至6任一項所述的方法。