本發(fā)明涉及技術文獻分析方法,尤其涉及一種基于語義理解的技術文獻多維度分析方法。
背景技術:
1、當前的技術文獻分析技術,廣泛采用的技術主要依賴于傳統(tǒng)的文本處理技術和算法來解析及評估專利文獻。這些方法盡管在一定程度上有效,但存在顯著的局限性。首先,常見的word2vec模型在將專利文本轉換為詞向量時,雖能部分捕捉詞匯間的關聯,卻在處理多義詞時表現欠佳,這影響了對文本深層語義的理解與挖掘。其次,現行的分析方法通常只關注單一維度,未能構建出一個全面的分析框架,從而難以全面評估技術文獻的價值與潛力。這種單一的分析視角不僅忽略了技術文獻文本內在的復雜性與豐富性,也未能充分展現專利間的相互關系及其在技術進步中的作用。
2、更為嚴重的問題是,許多基于自然語言處理(nlp)的高級分析技術需要依賴大規(guī)模標注數據集進行有效訓練以達到良好的分析效果。然而,構建這樣的數據集既費時又費力,這不僅增加了分析的難度,也限制了分析維度的擴展。因此,開發(fā)一種既能深入理解文本語義,又能進行全面多維度分析的技術文獻分析方法,且不依賴于大規(guī)模數據集,成為了提升技術文獻分析質量和效率的關鍵挑戰(zhàn)。目前市場上的解決方案尚未能完全克服這些問題,導致技術文獻分析的深度和廣度受到限制,影響了分析結果的準確性和實用性。
技術實現思路
1、本發(fā)明的目的是要提供一種基于語義理解的技術文獻多維度分析方法。旨在通過先進的語義理解的專利聚類方法,提供一個全面且高效的專利分析工具,從而在保證成本效益的同時,實現對技術文獻更深層次的解讀和分析。
2、為達到上述目的,本發(fā)明是按照以下技術方案實施的:
3、本發(fā)明包括以下步驟:
4、s1:獲取技術文獻的文本數據,利用sentence-bert模型對所述文本數據進行文本向量化處理,生成文本的密集向量表示;
5、s2:采用umap進行向量降維,去除冗余特征;
6、s3:利用hdbscan進行無監(jiān)督聚類分析,生成聚類結果;
7、s4:采用tf-icf方法從聚類結果中提取主題詞;
8、s5:對所述聚類結果進行多維度分析。
9、本發(fā)明的有益效果是:
10、本發(fā)明是一種基于語義理解的技術文獻多維度分析方法,與現有技術相比,本發(fā)明通過以下關鍵技術點實現了對專利文本深層次語義的理解和全面的多維度分析:
11、(1)預訓練模型的應用:本發(fā)明采用了先進的預訓練模型,如bert或sentence-transformers等,這些模型已經在大規(guī)模語料庫上進行了預訓練,能夠更好地捕捉文本中的深層次語義信息。通過將專利摘要文本映射到高維空間的向量表示,本方法能夠更精確地表達文本含義,尤其是對于多義詞的處理,顯著提高了對專利文檔語義理解的準確性。
12、(2)無監(jiān)督文本聚類:在將專利摘要文本轉換為向量后,本發(fā)明運用高效的聚類算法對這些向量進行分析,自動識別出專利文本中的專業(yè)技術主題。這種方法不僅減少了對人工構建數據集的依賴,還能夠發(fā)現專利文獻中的隱含模式和群組,從而揭示專利間的技術關聯,為用戶提供更為精準的技術領域劃分。
13、(3)多維度關鍵詞識別與分析:除了傳統(tǒng)的文本內容分析,本發(fā)明還引入了額外的分析維度,如“功效”、“信息技術”等,通過對這些維度的關鍵詞進行識別和聚類,能夠進一步揭示專利在不同領域的應用和影響。這種方法拓寬了分析視角,使得分析結果更加全面,為用戶提供了更多元化的洞察,支持更復雜的決策過程。
1.一種基于語義理解的技術文獻多維度分析方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于語義理解的技術文獻多維度分析方法,其特征在于:所述步驟s1中sentence-bert模型采用孿生網絡的結構,對于輸入句子的encoder用同一個bert處理,sbert在處理文本分類時,輸入句子a和句子b,通過bert以及pooling操作后可以得到句向量sa和sb,將句向量sa和sb以及它們之間的差向量sa-sb拼接在一起,組成一個新的特征向量,再乘以可訓練的權重矩陣wt,即:
3.根據權利要求2所述的基于語義理解的技術文獻多維度分析方法,其特征在于:所述步驟s2中umap進行向量降維為利用局部流形逼近和局部模糊單純形集表示來構造高維數據的拓撲表示,即對于高維數據給定一些數據的低維表示,使用類似的過程來構造等價的低維拓撲表示。
4.根據權利要求3所述的基于語義理解的技術文獻多維度分析方法,其特征在于:所述步驟s3包括以下步驟:
5.根據權利要求4所述的基于語義理解的技術文獻多維度分析方法,其特征在于:所述步驟s4中tf-icf方法公式為tf*icf,其中tf表示一個詞在文檔中出現的頻率,icf表示一個詞的逆簇類頻率;tf-icf的具體計算公式如下:
6.根據權利要求5所述的基于語義理解的技術文獻多維度分析方法,其特征在于:所述步驟s5中多維度分析包括專業(yè)技術主題聚類和其他維度主題聚類;首先構建檢索式篩選技術文獻數據,并通過數據預處理方法提高數據質量,得到可供分析的技術文獻數據;所述專業(yè)技術主題聚類采用基于語義理解的聚類方法,對技術文獻的摘要文本進行聚類分析,得到專業(yè)技術主題聚類結果;