国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種篩查題庫中重復試題的方法及裝置的制造方法

      文檔序號:9616313閱讀:325來源:國知局
      一種篩查題庫中重復試題的方法及裝置的制造方法
      【技術領域】
      [0001] 本發(fā)明涉及篩查題庫中重復試題的技術領域,尤其涉及一種篩查題庫中重復試題 的方法及裝置。
      【背景技術】
      [0002] 隨著互聯(lián)網(wǎng)時代浪潮到來,傳統(tǒng)教育行業(yè)慢慢被顛覆,在線教育產(chǎn)品隨著這個趨 勢井噴式的爆發(fā)出來,在這些產(chǎn)品之中最為突出的產(chǎn)品類型當屬題庫類和拍照答疑類,為 了解決現(xiàn)在學生作業(yè)多,作業(yè)中遇到難題無法及時尋求幫助等的問題,題庫類和拍照答疑 類產(chǎn)品必須保證后臺題庫量大,盡量使得學生能夠從題庫中搜索他們想要的題目和答案解 析,然而,題庫的質量對學生能否快速搜索到他們想要的答案解析和用戶體驗有著重要影 響,甚至決定了該產(chǎn)品是否能夠成功。
      [0003] 此類產(chǎn)品中,由于數(shù)學題目中含有較多的圖形、公式、字母符號,受目前圖像識別 技術的限制等原因,導致題庫中數(shù)學題目有大量的重復試題,造成了以下三種情況:
      [0004] 1、服務器壓力大,題庫維護成本高;
      [0005] 2、搜索耗時增加,用戶體驗差;
      [0006] 3、推送給學生用戶的內(nèi)容有太多重復內(nèi)容,用戶體驗差;
      [0007] 4、題庫解析是人工解答,答題成本增加。

      【發(fā)明內(nèi)容】

      [0008] 本發(fā)明提供一種篩查題庫中重復試題的方法及裝置,解決了現(xiàn)有篩查題庫中重復 試題的方法優(yōu)化效果差,準確度不高的技術問題,保證題庫的質量,降低題庫維護成本,大 大提高了產(chǎn)品的用戶體驗。
      [0009] 本發(fā)明采用以下技術方案:
      [0010] 第一方面,本發(fā)明提供一種篩查題庫中重復試題的方法,包括:
      [0011] 按照預設規(guī)則從題庫中提取試題得到待查重試題;
      [0012] 針對所述待查重試題從所述題庫中篩選出與所述待查重試題相似度較高的試題 集合,得到相似試題集合;
      [0013] 分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征,按 順序將所述相似試題集合中試題的數(shù)據(jù)特征分別與所述待查重試題的數(shù)據(jù)特征輸入預設 決策樹模型中使用對應的相似度算法計算相似度,得到與所述待查重試題重復的試題。
      [0014] 進一步地,所述方法還包括:
      [0015] 從所述題庫中刪除所述與待查重試題重復的試題。
      [0016] 進一步地,所述針對所述待查重試題從所述題庫中篩選出與所述待查重試題相似 度較高的試題集合,得到相似試題集合,具體為:
      [0017] 采用布爾模型和余弦定理分別計算出所述題庫中其他試題與所述待查重試題的 第一相似度值,如果所述第一相似度值大于預設第一相似度值,則該試題與所述待查重試 題相似度較高,得到相似試題集合。
      [0018] 進一步地,所述題庫為數(shù)學題庫;所述數(shù)據(jù)特征包括數(shù)字、字母、漢字和漢字的長 度。
      [0019] 進一步地,所述分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中每個 試題的數(shù)據(jù)特征,按順序將所述相似試題集合中試題的數(shù)據(jù)特征分別與所述待查重試題的 數(shù)據(jù)特征輸入預設決策樹模型中使用對應的相似度算法計算相似度,得到與所述待查重試 題重復的試題,包括:
      [0020] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含 數(shù)字和字母,使用JaroDistance算法判斷所述相似試題集合中試題是否與所述待查重試 題重復,得到與所述待查重試題重復的試題;
      [0021] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含 數(shù)字,包含字母,使用Dice系數(shù)判斷所述相似試題集合中試題是否與所述待查重試題重 復,得到與所述待查重試題重復的試題;
      [0022] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字和漢字,且漢字的長度小于預設長度,提取所述待查重試題的數(shù)據(jù)特征和所述相似試題 集合中試題的數(shù)據(jù)特征中的數(shù)字,使用最大公共子序列計算二者的第二相似度值,并且采 用布爾模型和余弦定理計算二者的第三相似度值,根據(jù)所述第二相似度值和所述第三相似 度值,得到與所述待查重試題重復的試題;
      [0023] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字、漢字和大寫字母,同時漢字的長度大于或等于所述預設長度,且大寫字母小于預設個 數(shù),提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字,使 用最大公共子序列計算二者的第四相似度值,并且采用Dice系數(shù)計算第五相似度值,根據(jù) 所述第四相似度值和所述第五相似度值,得到與所述待查重試題重復的試題;
      [0024] 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù) 字、漢字和大寫字母,同時漢字的長度大于或等于所述預設長度,且大寫字母大于或等于 預設個數(shù),提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù) 字,使用最大公共子序列計算二者的第六相似度值,根據(jù)所述第六相似度值,得到與所述待 查重試題重復的試題。
      [0025] 進一步地,所述第一預設相似度值等于0. 7 ;所述第二預設相似度值、第三預設相 似度值、第四預設相似度值和第六預設相似度值均等于〇. 9 ;所述第五預設相似度值等于 1〇
      [0026] 第二方面,本發(fā)明提供一種篩查題庫中重復試題的裝置,包括:
      [0027] 待查重試題提取單元,用于按照預設規(guī)則從題庫中提取試題得到待查重試題;
      [0028] 相似試題集合獲取單元,用于針對所述待查重試題從所述題庫中篩選出與所述待 查重試題相似度較高的試題集合,得到相似試題集合;
      [0029] 重復試題獲得單元,用于分別提取所述待查重試題的數(shù)據(jù)特征和所述相似試題集 合中試題的數(shù)據(jù)特征,按順序將所述相似試題集合中試題的數(shù)據(jù)特征分別與所述待查重試 題的數(shù)據(jù)特征輸入預設決策樹模型中使用對應的相似度算法計算相似度,得到與所述待查 重試題重復的試題。
      [0030] 進一步地,還包括:重復試題刪除單元,用于從所述題庫中刪除所述與待查重試題 重復的試題。
      [0031] 進一步地,所述相似試題集合獲取單元,具體用于采用布爾模型和余弦定理分別 計算出所述題庫中其他試題與所述待查重試題的第一相似度值,如果所述第一相似度值大 于預設第一相似度值,則該試題與所述待查重試題相似度較高,得到相似試題集合。
      [0032] 進一步地,所述數(shù)據(jù)特征包括數(shù)字、字母、漢字和漢字的長度。
      [0033] 進一步地,所述重復試題獲得單元,具體用于如果所述待查重試題的數(shù)據(jù)特征和 所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字和字母,使用JaroDistance算法判斷所 述相似試題集合中試題是否與所述待查重試題重復,得到與所述待查重試題重復的試題; 如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的數(shù)據(jù)特征不包含數(shù)字,包含 字母,使用Dice系數(shù)判斷所述相似試題集合中試題是否與所述待查重試題重復,得到與所 述待查重試題重復的試題;如果所述待查重試題的數(shù)據(jù)特征和所述相似試題集合中試題的 數(shù)據(jù)特征包含數(shù)字和漢字,且漢字的長度小于預設長度,提取所述待查重試題的數(shù)據(jù)特征 和所述相似試題集合中試題的數(shù)據(jù)特征中的數(shù)字,使用最大公共子序列計算二者的第二相 似度值,并且采用布爾模型和余弦定理計算二者的第三相似度值,根據(jù)所述第二相似度值 和所述第三相似度值,得到與所述待查重試題重復的試題;如果所述待查重試題的數(shù)據(jù)特 征和所述相似試題集合中試題的數(shù)據(jù)特征包含數(shù)字、漢字和大寫字母,同時漢字的長度大 于或等于所述預設長度,且大寫字母小于預設個數(shù),提取所述
      當前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1