一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置制造方法

文檔序號：6525553閱讀：222來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置制造方法
【專利摘要】一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法和裝置，其方法首先構(gòu)造一個文檔集合，統(tǒng)計字符串在文檔集合中頻率和在單個文檔中的頻率，以及每個字符在哪些文本串中出現(xiàn)，每個字符的筆畫數(shù)。然后，切詞處理待計算文本串權(quán)重的文檔，得到一個文本串序列，對每一個文本計算其視覺密度，易識別度，和TF?IDF值。最后，加權(quán)相加該文本串的視覺密度、易識別度和TF?IDF值，得到文本串對一個文檔的權(quán)重，并進一步的得到文本串對文檔的歸一化權(quán)重。該方法使得具有更多信息量，同時容易被用戶辨識的詞具有更大的權(quán)重，在搜索結(jié)果中更多展現(xiàn)普通用戶容易識別、讀懂和理解的視頻結(jié)果，使得用戶能夠更快地發(fā)現(xiàn)感興趣的結(jié)果。
【專利說明】一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及搜索引擎領(lǐng)域，具體地，涉及一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置。
【背景技術(shù)】
[0002]搜索引擎在建立倒排索引時，需要計算每個文檔中的詞在該文檔中的權(quán)重?，F(xiàn)有技術(shù)中多是基于文檔中詞頻和詞在文檔集合中出現(xiàn)的文檔頻率(即TF*IDF)來計算詞在一個文檔中的權(quán)重。TF*IDF算法是搜索引擎領(lǐng)域里的經(jīng)典算法，在具體實現(xiàn)到系統(tǒng)的過程中，使用者一般均會進行適應(yīng)性修改，以符合其所屬領(lǐng)域數(shù)據(jù)分布的特征。
[0003]但上述的各種適應(yīng)性的修改的TF*IDF的方法均沒有考慮到作為搜索結(jié)果觀察者的用戶對文本串視覺上的識別順暢性。當用戶對搜索結(jié)果的“第一眼”識別過程中，用戶往往會把注意力首先集中在其最容易識別、讀懂和理解的結(jié)果上。
[0004]因此，如何能夠結(jié)合每個漢字的不同視覺分辨難度，對文本串權(quán)重計算方法進行改進成為亟需解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于提出一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置，使得文本串的視覺密度、文本串和字符的易識別程度能夠?qū)?jīng)典TF*IDF的文本串權(quán)重產(chǎn)生影響。
[0006]為達此目的，本發(fā)明采用以下技術(shù)方案:
一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法，包括如下步驟:
構(gòu)造文檔集合并統(tǒng)計詞數(shù)據(jù)步驟SllO:構(gòu)建文檔集合，并得到文本串的統(tǒng)計數(shù)據(jù)，具體包括:
文檔集合構(gòu)建子步驟Slll:收集視頻信息庫中的視頻標題，從查詢?nèi)罩局须S機取出等量的用戶輸入的查詢串，將這兩部分文本一起作為下一步要處理的文檔集合；
數(shù)據(jù)統(tǒng)計子步驟S112:切分所述文檔集合中的每個文檔，每個文檔經(jīng)過切分后得到一個文本串序列，統(tǒng)計每個文本串出現(xiàn)在單個文檔中的頻次、每個文本串出現(xiàn)在文檔集合中的總頻次，對出現(xiàn)在文本串中的所有漢字統(tǒng)計其筆畫數(shù)量，如果不是漢字，則按照一畫統(tǒng)計；
中間權(quán)重結(jié)果計算步驟S120:對需要計算文本串權(quán)重的待測文檔D進行切詞，得到一個由k個文本串組成的序列，通過如下步驟分別得到幾種中間結(jié)果權(quán)重:
TF*IDF值計算子步驟S121:對所述文本串序列中的文本串Ti采用公式(I)計算其TF.1DF 值，其中 KiSk,
【權(quán)利要求】
1.一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法，包括如下步驟: 構(gòu)造文檔集合并統(tǒng)計詞數(shù)據(jù)步驟Slio:構(gòu)建文檔集合，并得到文本串的統(tǒng)計數(shù)據(jù)，具體包括: 文檔集合構(gòu)建子步驟Slll:收集視頻信息庫中的視頻標題，從查詢?nèi)罩局须S機取出等量的用戶輸入的查詢串，將這兩部分文本一起作為下一步要處理的文檔集合；數(shù)據(jù)統(tǒng)計子步驟S112:切分所述文檔集合中的每個文檔，每個文檔經(jīng)過切分后得到一個文本串序列，統(tǒng)計每個文本串出現(xiàn)在單個文檔中的頻次、每個文本串出現(xiàn)在文檔集合中的總頻次，對出現(xiàn)在文本串中的所有漢字統(tǒng)計其筆畫數(shù)量，如果不是漢字，則按照一畫統(tǒng)計；中間權(quán)重結(jié)果計算步驟S120:對需要計算文本串權(quán)重的待測文檔D進行切詞，得到一個由k個文本串組成的序列，通過如下步驟分別得到幾種中間結(jié)果權(quán)重: TF*IDF值計算子步驟S121:對所述文本串序列中的文本串Ti采用公式(I)計算其TF.1DF 值，其中 1≤i≤Sk,
2.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法，其特征在于: 在視覺密度計算子步驟中，fi=l.3, fm=l.2。
3.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法，其特征在于: 在易識別度計算子步驟中，Yi=1- 2，ym= 1.2。
4.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法，其特征在于: 在易識別度計算子步驟中，u=9.7, f=3.5。
5.根據(jù)權(quán)利要求1，其特征在于: 在綜合權(quán)重計算步驟中，β, Jy均為?。
6.一種結(jié)合視覺分辨難度的文本串權(quán)重計算裝置，包括如下單元: 構(gòu)造文檔集合并統(tǒng)計詞數(shù)據(jù)單元:構(gòu)建文檔集合，并得到文本串的統(tǒng)計數(shù)據(jù)，具體包括: 文檔集合構(gòu)建子單元:收集視頻信息庫中的視頻標題，從查詢?nèi)罩局须S機取出等量的用戶輸入的查詢串，將這兩部分文本一起作為下一步要處理的文檔集合；數(shù)據(jù)統(tǒng)計子單元:切分所述文檔集合中的每個文檔，每個文檔經(jīng)過切分后得到一個文本串序列，統(tǒng)計每個文本串出現(xiàn)在單個文檔中的頻次、每個文本串出現(xiàn)在文檔集合中的總頻次，對出現(xiàn)在文本串中的所有漢字統(tǒng)計其筆畫數(shù)量，如果不是漢字，則按照一畫統(tǒng)計；中間權(quán)重結(jié)果計算單元:對需要計算文本串權(quán)重的待測文檔D進行切詞，得到一個由k個文本串組成的序列，通過如下單元分別得到幾種中間結(jié)果權(quán)重: TF-1DF值計算子單元:對所述文本串序列中的文本串Ti采用公式(I)計算其TF*IDF值，其中I≤i≤k，
7.根據(jù)權(quán)利要求6所述的結(jié)合視覺分辨難度的文本串權(quán)重計算裝置，其特征在于: 在視覺密度計算子單元中，fi=l.3, fm=l.2。
8.根據(jù)權(quán)利要求6所述的結(jié)合視覺分辨難度的文本串權(quán)重計算裝置，其特征在于: 在易識別度計算子單元中，Yi=1- 2，ym= 1.2。
9.根據(jù)權(quán)利要求6所述的結(jié)合視覺分辨難度的文本串權(quán)重計算裝置，其特征在于: 在易識別度計算子單元中，u=9.7, f=3.5。
10.根據(jù)權(quán)利要求6，其特征在于: 在綜合權(quán)重計算單元中，P, Jy均為?。
【文檔編號】G06F17/30GK103744900SQ201310725839
【公開日】2014年4月23日申請日期:2013年12月26日優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】劉偉, 姚鍵, 潘柏宇, 盧述奇申請人:合一網(wǎng)絡(luò)技術(shù)(北京)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉偉;姚鍵;潘柏宇;盧述奇
技術(shù)所有人：合一網(wǎng)絡(luò)技術(shù)（北京）有限公司
我是此專利的發(fā)明人

上一篇：一種快速開發(fā)cuda并行程序的方法
上一篇：有力度感的樂器琴鍵的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

視覺分辨能力訓(xùn)練相關(guān)技術(shù)

視覺分辨率相關(guān)技術(shù)

視覺分辨能力相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置制造方法