一種針對代碼倉庫的README文檔自動生成方法

文檔序號：40353000發(fā)布日期：2024-12-18 13:30閱讀：來源：國知局

技術特征：

1.一種針對代碼倉庫的readme文檔自動生成方法，包括如下步驟：

2.根據(jù)權利要求1所述的readme文檔自動生成方法，其特征在于：所述步驟(1)的具體實現(xiàn)方式如下：

3.根據(jù)權利要求2所述的readme文檔自動生成方法，其特征在于：所述步驟1.1中獲取代碼倉庫數(shù)據(jù)集，即根據(jù)指定倉庫的編程語言、star數(shù)量、大小限制構建api請求，使用分頁查詢的方式繞過api請求的訪問限制，獲取大量代碼倉庫及其元數(shù)據(jù)作為數(shù)據(jù)集。

4.根據(jù)權利要求2所述的readme文檔自動生成方法，其特征在于：所述步驟1.2中為數(shù)據(jù)集中的每一代碼文件生成標簽數(shù)據(jù)，即采用數(shù)據(jù)編程的范式，人工制作一組啟發(fā)式的標簽函數(shù)為每一代碼文件創(chuàng)建生成帶有噪聲的標簽數(shù)據(jù)，進而使用snorkel庫的統(tǒng)計模型處理標簽沖突，通過解決矩陣補全式問題來恢復標簽函數(shù)的準確性，進而整合來自不同標簽函數(shù)輸出的標簽數(shù)據(jù)得到代碼文件的重要性。

5.根據(jù)權利要求4所述的readme文檔自動生成方法，其特征在于：所述標簽函數(shù)包括以下四類信息判斷：

6.根據(jù)權利要求1所述的readme文檔自動生成方法，其特征在于：所述步驟(2)的具體實現(xiàn)方式如下：

7.根據(jù)權利要求6所述的readme文檔自動生成方法，其特征在于：所述步驟2.1中對關鍵代碼文件進行函數(shù)級拆分，即將關鍵代碼文件的字符串解析成抽象語法樹，遍歷抽象語法樹得到每個函數(shù)的定義及其代碼，進而通過節(jié)點的屬性得到每個函數(shù)的數(shù)據(jù)流和控制流。

8.根據(jù)權利要求6所述的readme文檔自動生成方法，其特征在于：所述步驟2.3中基于數(shù)據(jù)流信息和控制流信息調(diào)用gpt-4api為每個函數(shù)生成摘要，具體地：首先將函數(shù)的數(shù)據(jù)流信息和控制流信息作為gpt-4api的輸入數(shù)據(jù)；然后將這些輸入數(shù)據(jù)構建成一個格式化的提示詞傳遞給gpt-4api，請求生成一個詳細的摘要，gpt-4api會基于其預訓練的語言模型以及提供的上下文信息，生成一個涵蓋函數(shù)各個方面的摘要，包括函數(shù)的輸入?yún)?shù)、輸出結果、關鍵邏輯以及潛在的邊界情況。

9.根據(jù)權利要求1所述的readme文檔自動生成方法，其特征在于：所述步驟(3)的具體實現(xiàn)方式如下：

技術總結
本發(fā)明公開了一種針對代碼倉庫的README文檔自動生成方法，其首先采用預訓練的機器學習模型對代碼倉庫中的代碼文件進行重要性排序，能夠自動篩選出最關鍵的代碼文件，避免了人工篩選帶來的不準確性和低效問題，從而提高了文檔生成的針對性和準確性。其次，本發(fā)明通過對關鍵代碼文件進行函數(shù)級拆分，并基于控制流和數(shù)據(jù)流生成函數(shù)摘要，使得文檔內(nèi)容不僅涵蓋了代碼的功能，還體現(xiàn)了代碼邏輯和結構上的復雜性，確保了文檔能夠全面準確地描述代碼的核心功能。最后，本發(fā)明利用大語言模型生成README文檔，進一步實現(xiàn)了文檔的自動化編寫，減少了人工干預的工作量，同時確保生成的文檔具有自然流暢的語言表達和一致性。

技術研發(fā)人員：鄧水光,王冠淇,李國昌,韓俊曉
受保護的技術使用者：浙江大學
技術研發(fā)日：
技術公布日：2024/12/17

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種針對代碼倉庫的README文檔自動生成方法