1.一種針對代碼倉庫的readme文檔自動生成方法,包括如下步驟:
2.根據(jù)權利要求1所述的readme文檔自動生成方法,其特征在于:所述步驟(1)的具體實現(xiàn)方式如下:
3.根據(jù)權利要求2所述的readme文檔自動生成方法,其特征在于:所述步驟1.1中獲取代碼倉庫數(shù)據(jù)集,即根據(jù)指定倉庫的編程語言、star數(shù)量、大小限制構建api請求,使用分頁查詢的方式繞過api請求的訪問限制,獲取大量代碼倉庫及其元數(shù)據(jù)作為數(shù)據(jù)集。
4.根據(jù)權利要求2所述的readme文檔自動生成方法,其特征在于:所述步驟1.2中為數(shù)據(jù)集中的每一代碼文件生成標簽數(shù)據(jù),即采用數(shù)據(jù)編程的范式,人工制作一組啟發(fā)式的標簽函數(shù)為每一代碼文件創(chuàng)建生成帶有噪聲的標簽數(shù)據(jù),進而使用snorkel庫的統(tǒng)計模型處理標簽沖突,通過解決矩陣補全式問題來恢復標簽函數(shù)的準確性,進而整合來自不同標簽函數(shù)輸出的標簽數(shù)據(jù)得到代碼文件的重要性。
5.根據(jù)權利要求4所述的readme文檔自動生成方法,其特征在于:所述標簽函數(shù)包括以下四類信息判斷:
6.根據(jù)權利要求1所述的readme文檔自動生成方法,其特征在于:所述步驟(2)的具體實現(xiàn)方式如下:
7.根據(jù)權利要求6所述的readme文檔自動生成方法,其特征在于:所述步驟2.1中對關鍵代碼文件進行函數(shù)級拆分,即將關鍵代碼文件的字符串解析成抽象語法樹,遍歷抽象語法樹得到每個函數(shù)的定義及其代碼,進而通過節(jié)點的屬性得到每個函數(shù)的數(shù)據(jù)流和控制流。
8.根據(jù)權利要求6所述的readme文檔自動生成方法,其特征在于:所述步驟2.3中基于數(shù)據(jù)流信息和控制流信息調(diào)用gpt-4api為每個函數(shù)生成摘要,具體地:首先將函數(shù)的數(shù)據(jù)流信息和控制流信息作為gpt-4api的輸入數(shù)據(jù);然后將這些輸入數(shù)據(jù)構建成一個格式化的提示詞傳遞給gpt-4api,請求生成一個詳細的摘要,gpt-4api會基于其預訓練的語言模型以及提供的上下文信息,生成一個涵蓋函數(shù)各個方面的摘要,包括函數(shù)的輸入?yún)?shù)、輸出結果、關鍵邏輯以及潛在的邊界情況。
9.根據(jù)權利要求1所述的readme文檔自動生成方法,其特征在于:所述步驟(3)的具體實現(xiàn)方式如下: