国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于可讀性指標(biāo)的信息檢索方法

      文檔序號(hào):9865664閱讀:1431來(lái)源:國(guó)知局
      一種基于可讀性指標(biāo)的信息檢索方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明設(shè)及一種信息檢索方法,尤其設(shè)及一種基于可讀性指標(biāo)的信息檢索方法。
      【背景技術(shù)】
      [0002] 信息檢索是指從一個(gè)信息資源集中獲取與信息需求相關(guān)信息資源的活動(dòng)。在現(xiàn)代 社會(huì)中,信息檢索已成為人們發(fā)現(xiàn)與獲取知識(shí)和信息的重要途徑。針對(duì)傳統(tǒng)信息檢索而言, 用戶(hù)在向檢索系統(tǒng)提交一系列查詢(xún)之后,檢索系統(tǒng)根據(jù)文檔與查詢(xún)之間的"相關(guān)性"和超鏈 接結(jié)構(gòu)的"重要性"返回結(jié)果列表供用戶(hù)挑選閱讀,具體過(guò)程如圖1所示,圖中展示了傳統(tǒng)信 息檢索交互過(guò)程,當(dāng)用戶(hù)提交查詢(xún)給捜索引擎后,捜素引擎根據(jù)相關(guān)技術(shù),比如有向量空間 模型計(jì)算文本相似度,根據(jù)化geRank算法計(jì)算文檔權(quán)重等來(lái)計(jì)算出對(duì)應(yīng)于用戶(hù)提交查詢(xún)應(yīng) 該返回的對(duì)應(yīng)文檔集,然后返回捜索結(jié)果給用戶(hù)。
      [0003] 近來(lái),可讀性作為一項(xiàng)新興指標(biāo)在文檔相關(guān)性W、質(zhì)量W和實(shí)用性W評(píng)價(jià)中占據(jù) 重要地位。隨著網(wǎng)絡(luò)資源地爆炸式增長(zhǎng)W及用戶(hù)多樣化,如何為用戶(hù)提供既與查詢(xún)相關(guān)又 可讀的文檔已成為亟需解決的問(wèn)題。用戶(hù)因教育背景、閱讀動(dòng)機(jī)、身體狀況等因素,形成了 一定程度的閱讀能力差異。如圖2所示,基于對(duì)用戶(hù)閱讀能力的考慮,我們根據(jù)個(gè)體的差異 程度對(duì)個(gè)體進(jìn)行聚類(lèi)形成個(gè)體組,圖形中用不同的紋理來(lái)體現(xiàn)用戶(hù)之間的差異性,從開(kāi)始 沒(méi)有用戶(hù)進(jìn)行聚類(lèi),到按照用戶(hù)個(gè)體間差異聚類(lèi)后,將用戶(hù)聚類(lèi)成不同的個(gè)體組,基于運(yùn)種 差異能夠?qū)€(gè)體進(jìn)行相關(guān)聚類(lèi),并且聚類(lèi)之后依舊存在一定程度群體差異,即相同的文本 對(duì)于不同個(gè)體類(lèi)而言具有不同的可讀性。
      [0004] 由此可見(jiàn),為提高用戶(hù)檢索體驗(yàn),將可讀性融入到信息檢索過(guò)程具有重要意義。具 體地,針對(duì)于捜索引擎初次返回的結(jié)果列表,既可W基于文本可讀性進(jìn)行重排序,又可W通 過(guò)具體可讀性標(biāo)示予W體現(xiàn),例如:可讀性顏色指示(不同顏色代表不同可讀性),或者分值 界定(根據(jù)一些可讀性指標(biāo)計(jì)算得到的可讀性分值)等。
      [0005] 針對(duì)可讀性指標(biāo)已有數(shù)十年歷史,一些經(jīng)典的指標(biāo)已經(jīng)被廣泛接受并利用,例如: 金凱德等級(jí)水平(Flesch-Kincaid Grade Level)、迷霧指數(shù)(FOG Index)、自動(dòng)可讀性指標(biāo) (Automated Readability 1]1(1糾)等[4]。基于平均字長(zhǎng)、平均句長(zhǎng)、難詞比例等詞匯表面基 本特征,運(yùn)些經(jīng)典的方法具有一定的有效性。近來(lái),為提高可讀性計(jì)算方法的準(zhǔn)確性,一些 可讀性方法嘗試使用機(jī)器學(xué)習(xí)的思想將可讀性計(jì)算問(wèn)題轉(zhuǎn)化成分類(lèi)和預(yù)測(cè)問(wèn)題,例如使用 支持向量機(jī)(Support Vector Machine)"]、回歸(Regression)[6]、插值預(yù)測(cè) (Inte巧olation Prediction)[7]等,然而運(yùn)些方法卻難W支持無(wú)監(jiān)督的可讀性在線(xiàn)預(yù)測(cè)。
      [0006] 截至目前,捜索引擎并沒(méi)有顯示標(biāo)示檢索結(jié)果相對(duì)于用戶(hù)可讀性的功能。
      [0007] [參考文獻(xiàn)]
      [0008] [IJZhang Y,Zhang J,Lease M,et al.Multidimensional relevance modeling via psychometrics and crowdsourcing.Proceedings of the 37th international ACM SIGIR conference on Research&development in information retrieval.ACM,2014: 435-444.
      [0009] [2]Bendersky Μ,Croft W B,Diao Υ.Quality-biased ranking of web documents. Proceedings of the fourth ACM international conference on Web search and data mining.ACM,2011:95-104.
      [0010] [3]Yilmaz E,Verma M,Craswell N,et al.Relevance and effort:an analysis of document utility.Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:91-100.
      [0011] [4]Chall J S,Dale E.Readability revisited:The new Dale-Chall re曰(lability formul曰.Brookline Books, 1995.
      [0012] [5]Petersen S E,0stendorf M.A machine learning approach to reading level assessment.Computer speech&language,2009,23(1):89-106.
      [0013] [6]Crossley S A,Dufty D F,McCarthy P M,et al.Toward a new readability:A mixed model approach.Proceedings of the 29th annual conference of the Cognitive Science Society.2007:197-202.
      [0014] [7]Pitler E,Nenkova A.Revisiting readability:A unified framework for predicting text qu曰lity.Proceedings of the Conference on Empiric曰1 Methods in Natural Language Processing.Association for Computational Linguistics ,2008: 186-195.

      【發(fā)明內(nèi)容】

      [0015] 針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提出一種基于可讀性指標(biāo)的信息檢索方法, 綜合了用戶(hù)可讀性評(píng)價(jià)技術(shù)W及在線(xiàn)更新數(shù)據(jù)技術(shù),另外,針對(duì)一些特殊群體用戶(hù)可W自 己定做屬于自己可讀性評(píng)價(jià)水平的接口。
      [0016] 本發(fā)明中所提及到的文本可讀性是指:用戶(hù)在理解并且領(lǐng)會(huì)一段文本或者一篇文 檔內(nèi)容過(guò)程中的難易程度。
      [0017] 為了解決上述技術(shù)問(wèn)題,本發(fā)明提出的一種基于可讀性指標(biāo)的信息檢索方法,包 括W下步驟:
      [0018] 步驟一、當(dāng)用戶(hù)使用捜索引擎W希望查詢(xún)的關(guān)鍵字進(jìn)行捜索時(shí),捜索引擎從索引 中檢索出符合捜索條件的文檔;
      [0019] 步驟二、捜索引擎在捜索過(guò)程中,對(duì)符合捜索條件的文檔按照其與查詢(xún)的關(guān)鍵字 的相關(guān)度進(jìn)行排序,同時(shí)進(jìn)行文本可讀性得分的計(jì)算,將符合捜索條件的文檔、相關(guān)度排序 和可讀性得分組織成頁(yè)面返回給用戶(hù);其中可讀性得分按照如下方法計(jì)算:
      [0020] 文本可讀性=MX (NX中文平均筆畫(huà)數(shù)+(1-N) X中文難詞頻度) + (l-M) X (PX英 文平均字符數(shù)+(1-P) X英文難詞頻度)
      [0021] 式中,對(duì)于文檔中同時(shí)出現(xiàn)英文W及中文的情況下,可調(diào)參數(shù)Μ負(fù)責(zé)調(diào)整對(duì)于該文 檔中中英文可讀性的權(quán)重配比;可調(diào)參數(shù)Ν,負(fù)責(zé)調(diào)整文檔中中文部分的中文平均筆畫(huà)數(shù)指 標(biāo)W及中文難詞頻度指標(biāo)之間的權(quán)重配比;可調(diào)參數(shù)Ρ,負(fù)責(zé)調(diào)整文檔中英文部分的英文平 均字符數(shù)指標(biāo)和英文難詞頻度指標(biāo)之間的權(quán)重配比。
      [0022] 進(jìn)一步講,步驟2中,可調(diào)參數(shù)Μ的值域?yàn)閇0,1],當(dāng)文檔著重于中文可讀性的情況 下,Μ值大于0.5 ;當(dāng)文檔著重于英文可讀性的情況下,Μ的值小于0.5 ;可調(diào)參數(shù)Ν的值域?yàn)?br>[0,1 ],當(dāng)文檔著重于中文平均筆畫(huà)數(shù)的情況下,N值大于ο. 5;當(dāng)文檔著重于中文難詞頻度 的情況下,N的值小于0.5;可調(diào)參數(shù)P的值域?yàn)閇0,1 ],當(dāng)文檔著重于英文平均字符數(shù)的情況 下,P值大于0.5;當(dāng)文檔著重于英文難詞頻度的情況下,P的值小于0.5。
      [0023] 另外,本發(fā)明針對(duì)有一定能力并且對(duì)自身認(rèn)知程度有一定程度了解的用戶(hù),開(kāi)放 了文本可讀性可自定義的接口。從而可讓用戶(hù)可W根據(jù)自身需求動(dòng)態(tài)調(diào)整計(jì)算方法。
      [0024] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
      [0025] 本發(fā)明可W作為捜索引擎展現(xiàn)方式的一部分,W及用戶(hù)可定制捜索引擎的一部 分。通過(guò)檢索后返回文檔的可讀性得分,用戶(hù)便于快速提取相關(guān)度較高文檔中對(duì)于自身而 言較為可讀的部分,增加檢索效率。同時(shí),可W根據(jù)自身情況來(lái)調(diào)節(jié)對(duì)于捜索結(jié)果可讀性的 評(píng)價(jià)算法進(jìn)而更加貼合用戶(hù)自身需求。
      [0026] 例1:假設(shè)群體A為計(jì)算機(jī)相關(guān)群體,群體B為金融相關(guān)群體,那么根據(jù)當(dāng)前捜索引 擎的返回結(jié)果,當(dāng)兩群體在其他捜索條件完全相同的情況下捜索相同關(guān)鍵詞,如果返回的 某條文本中包含Python關(guān)鍵字,那么該條文本對(duì)于群體A的可讀性更強(qiáng),對(duì)于群體B可讀性 相對(duì)較低。
      [0027] 例2:假設(shè)群體A經(jīng)常捜索中文關(guān)鍵字,群體B經(jīng)常捜索英文關(guān)鍵字,那么根據(jù)當(dāng)前 捜索引擎的返回結(jié)果,當(dāng)兩群體在其他捜索條件完全相同的情況下捜索相同關(guān)鍵詞,如果 返回的某條文本只包含英文,那么該條文本對(duì)于群體B的可讀性更強(qiáng),對(duì)于群體A可讀性相 對(duì)較低
      【附圖說(shuō)明】
      [0028] 圖1是傳統(tǒng)信息檢索交互流程圖;
      [0029] 圖2是基于用戶(hù)閱讀能力的相關(guān)聚類(lèi)示意圖;
      [0030] 圖3是一種基于可讀性指標(biāo)的檢索方法交互流程圖;
      [0031 ]圖4使用用戶(hù)自定義算法之前系統(tǒng)檢索結(jié)果圖;
      [0032] 圖5使用用戶(hù)自定義算法之后系統(tǒng)檢索結(jié)果圖;
      [0033] 圖6是用戶(hù)自定義算法界面圖;
      [0034] 圖7是本發(fā)明基于可讀性指標(biāo)的檢索方法的主體框架圖。
      【具體實(shí)施方式】
      [0035] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明技術(shù)方案作進(jìn)一步詳細(xì)描述,所描述的具體 實(shí)施例僅對(duì)本發(fā)明進(jìn)行解釋說(shuō)明,并不用W限制本發(fā)明。
      [0036] 本發(fā)明提出的一種基于可讀性指標(biāo)的信息檢索方法,包括W下步驟:
      [0037] 步驟一、當(dāng)用戶(hù)使用捜索引擎W希望查詢(xún)的關(guān)鍵字進(jìn)行捜索時(shí),捜索引擎從索引 中檢索出符合捜索條件的文檔;
      [0038] 步驟二、捜索引擎在捜索過(guò)程中,對(duì)符合捜索條件的文檔按照其與查詢(xún)的關(guān)鍵字 的相關(guān)度進(jìn)行排序,同時(shí)進(jìn)行文本可讀性得分的計(jì)算,將符合捜索條件的文檔、相關(guān)度排序 和可讀性得分組織成頁(yè)面返回給用戶(hù);目前國(guó)內(nèi)捜索引擎W中文和英文內(nèi)容為主要捜索結(jié) 果,因此本發(fā)明主要考慮對(duì)中文W及英文內(nèi)容可讀性的處理。其中,中文W字為單位,英文 W詞為單位,中英文的單位不同導(dǎo)致其對(duì)可讀性計(jì)算方式過(guò)程中存在差異。
      [0039] 對(duì)于中文,一句話(huà)中筆畫(huà)數(shù)越多認(rèn)知難度相對(duì)越高(從直觀上對(duì)漢字的認(rèn)識(shí)是由 易到難的,而相比于難字,易字的筆畫(huà)數(shù)相比要少一些)。對(duì)于英文,一句話(huà)中每個(gè)單詞所含 有的英文字母越少,其可讀性就更好。運(yùn)里將中文中單位字W及英文中的單位詞統(tǒng)稱(chēng)為字, 那么定義中英文句子中字的難易程度指標(biāo)如公式(1):
      [0040] (1)
      [0041] 對(duì)于中英文中字的具體評(píng)價(jià)方式,僅僅使用字難易程度指
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1